Мобильное приложение журнала
Google Play Apple Store
курс цб на 12.12: USD 63.5653 EUR 70.4558
криптовалют: BTC 7202$ ETH 143.19$
lupa
649 просмотров

Корпоративный клиент Big Data определит благонадежность бизнеса

Корпоративный клиент Big Data определит благонадежность бизнеса

Финансовая организация рискует. Рискует, не только принимая на себя обязательства перед клиентами сомнительной репутации, но и обслуживая их. Казалось бы, разве это проблема? Спросите тех, к кому приходили «маски-шоу», чьи серверы роняли на пол, компьютеры изымали, а сотрудников ставили лицом к стене с ногами на ширине плеч.
Олег Брагинский, основатель «Школы траблшутеров» и директор «Бюро Брагинского»

Приятного мало, пресса беснуется, PR-служба оправдывается. Офис парализован, коллеги подавлены, руководство сникает и белеет лицами. Процессуальные действия, оправдательные вердикты, шторм миновал. Далее начинается странное: вы не виноваты, но «осадочек остался».

Начинается внутренняя охота на ведьм: а вдруг был сговор, и «крот» засел в темной норе. Перетряхиваются регламенты, опрашиваются эксперты, правила ужесточаются. Ненадолго. Рыночный напор и конкуренция продавливают плотину осторожности, и ручейки несмелых отклонений начинают понемногу размывать неприступную дамбу.

Коллегиальные органы ждет неприятное открытие: мошенники не только «подставляют» кредитное учреждение, но и обкрадывают его, ловко обходя преграды доверия. Следствием становятся минусовые счета, постановка на картотеку, потери времени на предоставление первичных документов для силовых структур.

Когда автора настоящей статьи попросили «заняться вопросом», название проекта возникло моментально: для махинаций используют компании-однодневки. Кто живет недолго? Мотыльки! Файл исследования тут же назвал Farfalla, что на итальянском означает «бабочка». Задался вопросом: «Как определить зловредность на стадии кокона?».

Цели сформулировал так:

  • оптимизация процесса оценки юридических лиц для улучшения качества клиентской базы;
  • снижение расходов путем сокращения количества счетов неблагонадежных клиентов;
  • уменьшение репутационных потерь вследствие своевре­менного выявления мошеннических схем.

Разработал следующую методику проведения исследования:

  • проанализировать 109 873 юридических лиц, из которых 15 506 признаны неблагонадежными за последний год;
  • выявить признаки, позволяющие детерминировать подозрительные компании на основе исторических данных;
  • в основу модели положить метод логистической регрессии, используемой для предсказания вероятности возникновения события;
  • исходную выборку случайным образом разделить на «обучающую» – 70% клиентов, и «тестовую» – 30% клиентов;
  • оценку точности и корректности производить на тестовой выборке, независимой от модели;
  • кроме тестовой выборки, оценить надежность модели статистическими методами;
  • входные параметры перевести в бинарный формат, т. к. факторы представлены категориальными данными, которые нельзя напрямую использовать в модели.

Рассмотрим причины закрытия счетов организаций, выполненные в ретроспективном ручном режиме (см. рис. 1).

80% случаев возникновения репутационных рисков содержатся в двух секторах: обналичивание и решение рабочей группы, специализирующейся на распознавании сомнительных видов деятельности (см. рис. 2). Значит, первоочередной шаг – оценить вероятность попадания компании в зону неблагонадежности.

Наиболее частая причина возникновения репутационного риска – переводы денежных средств из сторонних банков на счета физических лиц – клиентов банка с последующим обналичиванием. Почти половина от всего количества неблагонадежных организаций (см. рис. 3).

В результате применения теоретической модели на всей выборке получилась эмпирическая модель:

Pi = 1 / (1 + ezi)

где zi = -3,124576
+0,186289 × x1
-4,786948 × x2
+2,337105 × D1
+1,232715 × D2
+0,686586 × D3
-1,347649 × V1
-3,024934 × 2
-1,975811 × 3
-2,098176 × V4
-3,125446 × V5
+0,152926 × R1
-0,301101 × R2
+0,446417 × R3
+0,933714 × R4

Расшифровка факторов:

  • x1 – руководитель организации: женщина x1 = 1, мужчина x1 = 0
  • x2 – наличие ЦПР у клиента: x2 = 1, при наличии, x2 = 0,
    при отсутствии
  • D – форма собственности:
    D1 – ООО: «да» D1 = 1, «нет» D1 = 0
    D2 – ИП: «да» D2 = 1, «нет» D2 = 0
    D3 – ЗАО или ОАО: «да» D3 = 1, «нет» D3 = 0
    Другая форма собственности: D1 = D2 = D3 =0
  • V – основной вид деятельности:
    V1 – ОКВЭД = 51, оптовая торговля: «да» V1 = 1, «нет» V1 = 0;
    V2 – ОКВЭД = 52, розничная торговля: «да» V2 = 1, «нет»
    V2 = 0;
    V3 – ОКВЭД = 74, предоставление прочих видов услуг: «да» V3 = 1, «нет» V3 = 0;
    V4 – ОКВЭД = 35, производство судов, летательных и космических аппаратов и прочих транспортных средств: «да» V4 = 1, «нет» V4 = 0;
    V5 – ОКВЭД = 70, операции с недвижимым имуществом: «да» V5 = 1, «нет» V5 = 0;
    Другой код ОКВЭД: V1 = V2 = V3 = V4 = V5 = 0;
  • R – Регион регистрации (первые две цифры кода ИНН):
    R1 – Москва (77) или Санкт-Петербург (78): «да» R1 = 1, «нет» R1 = 0;
    R2 – Сахалинская область (65): «да» R2 = 1, «нет» R2 = 0;
    R3 – Нижегородская область (52): «да» R3 = 1, «нет» R3 = 0;
    R4 – Челябинская область (74): «да» R4 = 1, «нет» R4 = 0;
    Другой регион регистрации: R1 = R2 = R3 = R4 = 0.

Оказалось, что рост неблагонадежности вероятнее, если:

  • руководитель – женщина;
  • форма собственности – ООО, ЗАО, ОАО или ИП;
  • фирма зарегистрирована в Москве, Санкт-Петербурге, Нижегородской или Челябинской области.

Снижают неблагонадежность такие факторы:

  • есть головная компания, центральный офис, иной центр принятия решений;
  • код ОКВЭД – 35, 51, 52, 70, 74 (производство транспортных средств, оптовая, розничная торговля, операции с недвижимым имуществом, прочие виды услуг);
  • фирма зарегистрирована в Сахалинской области.

Остальные доступные показатели оказались фрагментированными либо не приращивали точность. Самое время поинтересоваться: «А причем тут Big Data?».

Вопрошающим отвечу: данные банка обогатил информацией из базы «СПАРК-Интерфакс», которую аналитики считают непригодной для использования. Предположил следующее: даже если данные и не точны, то уровень погрешности можно считать равномерным по всей выборке предприятий России.

Без сложностей не обошлось:

  • многие интересные для анализа данные имели низкую наполненность и оказались сильно фрагментированными;
  • некоторые показатели явно описаны с ошибкой или в базах банка, или в базе СПАРК. Например, 2120 организаций (1,9%) открыли счет в банке раньше, чем официально зарегистрировались;
  • часть показателей имели достаточную наполненность, но снижали точность модели.

Оказалось, что наиболее значимые факторы определения неблагонадежности: основной вид деятельности по коду ОКВЭД (см. рис. 4) и форма собственности (рис. 5).

Если в анализ включить внутренние факторы:

  • время с момента регистрации организации до открытия счета в банке;
  • канал продаж, тип продукта, сегмент выручки или продуктовую группу, то вероятность определения неблагонадежных клиентов растет, а вероятность идентификации благонадежных резко падает.

После завершения расчетов, как и предполагалось методикой, случайным слепым образом из выборки отобрали 70% данных, на которых построили обучающую модель. Полученную формулу оттестировали на оставшихся 30% данных. Модель наиболее точно показала себя в факторах:

  • пол руководителя – см. рис. 6
  • наличие ЦПР – см. рис. 7
  • место регистрации (код ИНН) – см. рис. 8.

Итак, каковы результаты исследования? Нами получены:

  • модель скоринга, определяющая уровень неблагонадежности клиентов на этапе открытия счетов;
  • точность определения неблагонадежных клиентов – 73,5%: из четырех неблагонадежных клиентов модель выявит троих;
  • полученную модель решили использовать как дополнительный инструмент проверки клиента.

Теперь подведем итоги. Выявлены следующие факторы, определяющие уровень благонадежности клиента на этапе открытия счета в банке:

  • основной вид деятельности по коду ОКВЭД;
  • наличие ЦПР – центра принятия решений;
  • регион регистрации по коду ИНН;
  • пол руководителя организации;
  • форма собственности.

P.S. В ходе исследования информация банка была обогащена недостоверными данными, которые многие полагают мусорными. Но Big Data и тут могут сослужить добрую службу. Не ленитесь проводить многочисленные эксперименты и не стесняйтесь использовать метод перебора – да, не лучший, но работающий.


Перейти к началу страницы

Подпишитесь на новости индустрии

Нажимая на кнопку "подписаться", вы соглашаетесь с


политикой обработки персональных данных