Мобильное приложение журнала
Google Play Apple Store
курс цб на 10.12: USD 63.7244 EUR 70.5047
криптовалют: BTC 7334.5$ ETH 147.45$
lupa
2523 просмотра

Определение дохода розничных клиентов по транзакциям платежных карт

Определение дохода розничных клиентов по транзакциям платежных карт

По трем операциям в банкомате можно определить размер вашего дохода. И помогут в этом Big Data. Не то чтобы меня интересовал баланс, валюта счета или тип карты. Достаточно знать время и даты подхода к ATM. В дело вступят модели, отработанные на миллионах наших сограждан и иностранцах.

Мечта любого бизнеса — знать свою долю в кошельке клиента. Так можно понять его уровень лояльности, рассчитать коэффициент возвращаемости и меру перспективности. Система лояльности такой роскоши предоставить не может: да, картой воспользовались, но ей ли одной? Как в известном скабрезном анекдоте:

– Дорогая, я у тебя первый?

– Милый, сегодня или вообще?

Олег Брагинский,
основатель «Школы траблшутеров»
и директор «Бюро Брагинского»

Не пугайтесь, но кроме дохода, по трем банкоматным транзакциям велика вероятность угадать ваш пол, возраст, род занятий и удаленность проживания от места работы. Все данные, доступные банку, ежесекундно работают против вас. Плохо это или хорошо, этично или аморально – разберемся за пределами публикации. Тут — исключительно факты.

Принципы работы с данными:

  1. Используем эмпирическую модель – основывается на фактических данных, без теоретических предположений и предварительных гипотез.
  2. Создаем выборку клиентов с известными доходами (сотрудники и зарплатные клиенты): обучающая — 70%; тестовая — 30%.
  3. Прогноз дохода основывается на размере и структуре фактических расходов на годовом горизонте с платежных карт, эмитированных банком.

Порядок создания и применения модели:

1. Создаем выборку операций за последние или желаемые к анализу 12 месяцев.

2. Исключаем из списка транзакций неинформативные записи:

  • отказ от операции;
  • нулевые суммы;
  • возврат денег.

3. Определяем товарные направления транзакций по одной либо двум (для крупных товарных направлений) цифрам кода МСС.

4. Сгруппировываем массив транзакций до поклиентного уровня.

5. Находим общую годовую сумму транзакций по отдельному клиенту, разделенную по товарным направлениям.

6. Структурой распределения сумм по товарным направлениям формируем индивидуальные профили расходов клиента.

7. Рассчитываем типовые профили:

  • исключаем клиентов с неизвестным доходом
  • делаем обучающую выборку клиентов для построения типовых профилей расходов
  • выделяем обобщенные профили расходов путем объединения похожих в один. Степень обобщения определяем максимальным покрытием пространства профилей и минимизацией вариации дохода в пределах обобщенного профиля
  • группируем клиентов по типовым профилям расходов. В пределах профилей рассчитать: количество клиентов, средний доход и его стандартное отклонение.

8. Клиентские профили расходов из тестовой выборки сравниваем с типовыми профилями расходов. Клиентам тестовой выборки присваиваем расчетное значение среднего дохода типового профиля.

9. В тестовой выборке соотносим значения реального дохода и расчетного по модели типовых профилей расходов. Определяем отклонения в предсказаниях и точность модели.

10. На основании распределений и статистик отклонений прогноза предлагаем корректирующую поправку, устраняющую систематическую ошибку в предсказаниях.

11. Уточненную модель применяем к клиентам с неизвестным доходом, предсказывая вероятный доход.

Найденная система уравнений показала ниспадающую точность, отраженную на рис. 1. В предсказаниях возникала систематическая ошибка, связанная с отсутствием нормального распределения доходов по клиентам. До 80 тыс. рублей значения систематически завышались, после 100 тыс. рублей — систематически занижались.

Пришлось добавить корректирующее уравнение, нивелирующее систематические ошибки. Отклонения стали группироваться вдоль оси — сумма погрешностей устремилась к нулю (см. рис. 2).

В процессе развернутого анализа модели были выявлены особенности взаимосвязи модели и потребительского поведения клиентов:

1. Если у клиента расходы значительно превышают доход — модель предсказывает завышенный результат, срабатывает фактор «дополнительных поступлений».

2. Если доходы существенно превышают расходы — модель занижает прогноз, вероятно накопление «депозита».

Поэтому возникает дополнительная зависимость (см. рис. 3).

Резюмируем полученные результаты, опустив незначительные технические подробности:

1. Структура и размер расходов (профиль расходов) клиента эффективно описывает уровень его дохода. Введение других показателей о платежных картах или транзакциях клиента не смогли значимо повлиять на точность моделирования и качество предсказания.

2. Модель эффективно работает в целевом диапазоне 50 тыс. — 250 тыс. рублей. Для более низких значений доходов велика относительная погрешность предсказаний (более 50%). В более высоком диапазоне доходов увеличивается доля клиентов, для которых модель не может дать прогноз из-за разрывов в типовых профилях обучающей выборки. Клиенты с высокими доходами редки, имеют уникальные профили, чего недостаточно для полного перекрытия пространства доходов. Со временем, в процессе дообучения модели и накопления исторических данных, количество и полнота типовых профилей увеличиваются.

3. Среднее отклонение в предсказании дохода нового клиента по профилю транзакций составляет 30%. Для существующего клиента (входит в обучающую выборку) среднее отклонение составляет 6%. Модель рекомендуется использовать только в офлайн-режиме.

4. Значительные отклонения вверх (модель переоценивает доход) возникают в случае, когда среднемесячные расходы клиента, согласно транзакциям, выше указанного дохода.

5. Значительные отклонения вниз (модель недооценивает доход) появляются, когда среднемесячные расходы клиента по транзакциям значительно ниже среднемесячного дохода.

6. Согласно пп. 3–4 модель точнее прогнозирует доход для клиентов, у которых баланс расхода и дохода приблизительно совпадает. Если поведение транзакций клиента значительно отличается от сбалансированного — прогноз ухудшается. Эту особенность модели можно применять к существующим клиентам для определения размера дополнительного дохода и/или значительного сберегательного потенциала клиента.

7. Разработанную на текущих данных по транзакциям клиентов модель следует периодически обновлять, но не раньше накопления дополнительных 10% транзакций и/или клиентов с известными доходами.

Сейчас вы скажете: «Банкирам хорошо — имеют озера, моря и океаны данных — анализируют себе всласть и нам на зависть». Справедливо, и потому спешу обрадовать — похожие модели прекрасно создаются и имеют высокую прогностическую силу для следующих направлений:

  1. Данных систем контроля доступа и входа в компьютерную сеть за 19 рабочих дней.
  2. Магазинов у дома и автозаправочных станций при горизонте 7 месяцев.
  3. Кафе и ресторанов при наличии чеков оплаты бизнес-ланчей за 15 недель.

А кроме дохода, легко вычисляемы также:

  1. Сроки повышения по службе клиента или предстоящего увольнения.
  2. Пристрастие к двум десяткам недешевых хобби.
  3. Состав семьи и количество иждивенцев.
  4. Увлеченность полусотней видов спорта.
  5. Дата рождения — ваша и домочадцев.
  6. Наличие кошек и собак.

Что же надо, чтобы «откопать» такое богатство? Предположу, что достаточно:

  • настойчивости очистить информационный мусор;
  • желания повысить связность событий;
  • смелости строить гипотезы;
  • наглости собрать данные;
  • мужества ошибаться.

Желаю вам горы данных, туннели упорства, мосты предположений и долины находок! В добрый путь, охотники информационных сокровищ и рыцари мощных серверов! Не пасуйте перед огнедышащими юристами, сражайтесь с гидрами скепсиса и не бойтесь запылить сапоги в ходе полных переборов.

P.S. Так и не спросите, откуда брать эталонные значения?

Источника два:

  • данные параметров коллег, запрошенные у бухгалтерии и отдела кадров;
  • диапазонные анкеты-опросники клиентов-добровольцев.

Да, все действительно так просто!

Читайте в этом номере:


Перейти к началу страницы

Подпишитесь на новости индустрии

Нажимая на кнопку "подписаться", вы соглашаетесь с


политикой обработки персональных данных