Мобильное приложение журнала
Google Play Apple Store
курс цб на 22.07: USD 62.8666 EUR 70.7941
криптовалют: BTC 10595.3$ ETH 225.47$
Журнал ПЛАС » Архив » 2019 » Журнал ПЛАС №3 517 просмотров

Особенности обучения и эксплуатации. Machine learning моделей в задачах противодействия мошенничеству

Особенности обучения и эксплуатации. Machine learning моделей в задачах противодействия мошенничеству

Задача противодействия мошенничеству в условиях диджитализации становится актуальной для всех сфер бизнеса. Сегодня даже агрегаторы услуг такси внедряют алгоритмы машинного обучения (machine learning, ML) для выявления мошеннических кейсов при оплате поездок c помощью данных скомпрометированных карт или компрометации счетов водителей.

Особенно важно обеспечить безопасность в финансовом секторе, где также идет стремительное развитие электронных каналов обслуживания. Например, помимо стандартных операций – переводов и покупок, Сбербанк сегодня дает возможность получить кредит онлайн без необходимости посещения офиса и токенизировать банковскую карту в мобильном приложении, чтобы с ее помощью расплачиваться в магазинах или снимать наличные в банкоматах. В свою очередь, развитие платежных инструментов ведет к росту интереса со стороны мошенников.

Итак, рассмотрим наиболее важные аспекты, которые необходимо учесть при реализации процессов обучения и дообучения моделей противодействия мошенничеству и их эксплуатации.

Базовый процесс (pipeline) обучения и эксплуатации модели противодействия мошенничеству

Если внедряется первая модель противодействия мошенничеству, то базовый процесс может выглядеть следующим образом:

Собираем данные по оспоренным и легитимным транзакциям;

  • Обогащаем данными о предшествующих транзакциях и активностях и дополнительными данными при их наличии;
  • Подготавливаем данные для обучения модели (очистка и предобработка, создание различных агрегационных признаков, масштабирование, очистка коррелирующих и пр.);
  • Разбиваем на train/test (или cross-validation с учетом временного аспекта данных) и hold-out;
  • Обучаем модель (выбор алгоритма/ансамбля, сэмплирования, отбор значимых признаков, тюнинг гиперпараметров);
  • Оцениваем качество на hold-out сете и при удовлетворительном результате внедряем или возвращаемся на шаг подготовки данных.

В рамках эксплуатации модели каждая транзакция обогащается рассчитываемыми для модели признаками и оценивается моделью с точки зрения уровня риска. Если оценка риска выше согласованного порога (определяется в рамках оценки качества в период обучения), то транзакция отклоняется. В противном случае операция исполняется.

После внедрения модели уровень фрода существенно снизится – приблизительно в соответствии с полученной оценкой качества модели. Однако спустя некоторое время он подрастет и установится на новом, более низком уровне, чем до внедрения модели.

Эти изменения вызваны тем, что мошенники будут адаптироваться и искать слабые места модели и пытаться их эксплуатировать. Таким образом, распределение фрода в пространстве транзакций эволюционирует с течением времени, то есть не является стационарным во времени (concept drift).

Особенности обучения и эксплуатации. Machine learning моделей в задачах противодействия мошенничеству
Рис. 1. Базовый процесс обучения модели
 

Нестационарность мошеннических транзакций

Основная отличительная черта нестационарных процессов – изменение с течением времени их вероятностных закономерностей. Если рассматривать поток транзакций и распределение в нем мошеннических транзакций, то именно активное противодействие (адаптация) со стороны злоумышленников к внедренным защитным механизмам и вызывает изменения распределения мошеннических транзакций: мошенники начинают пробовать использовать другие каналы, изменять суммы, модифицировать свои мошеннические схемы. Дополнительную нестационарность в процесс вносит также изменяющееся со временем поведение пользователей (сезонность, внедрение новых сервисов, изменение привычек), но это гораздо более плавные изменения по сравнению с изменением паттернов мошенничества, и они зачастую оказывают минимальное влияние на распределение фрода в пространстве признаков модели.

Для учета нестационарности процесса и более эффективного выявления фродовых транзакций необходимо обновление (дообучение) моделей противодействия мошенничеству. Самый очевидный способ – накопить достаточно данных о новых кейсах мошенничества после внедрения модели и применить на них «один в один» подход к обучению модели, который был разработан.

Особенности обучения и эксплуатации. Machine learning моделей в задачах противодействия мошенничеству
Рис. 2. Эксплуатация модели
 

C очень большой долей вероятности полученная модель на валидации будет обладать более низкими показателями эффективности. Но если внедрить ее в промышленную среду, то результаты получатся еще хуже, чем при валидации, – вместо сокращения выявления фрода при тех же объемах блокируемых транзакций легко можно получить его рост.

Почему так могло произойти? Причина кроется в бизнес-процессе внедрения модели – мы получаем информацию только по пропущенному мошенничеству (оспоренные операции), которое модель не смогла выявить, но не получаем обратной связи по предотвращенному мошенничеству (транзакция отклонена и не была проведена, причин для жалоб нет).

В результате новая модель обучается только на более сложных кейсах мошенничества (текущая версия модели не смогла их выявить) и ничего не знает про другие предотвращаемые кейсы мошенничества, которых может быть в разы больше по сравнению с пропущенными. Заметим также, что при таком бизнес-процессе мы не можем оценить качество эксплуатируемой модели, поскольку полагаемся только на результаты, полученные в рамках ее валидации при обучении.

Особенности обучения и эксплуатации. Machine learning моделей в задачах противодействия мошенничеству
Рис. 3. Обновление модели после накопления достаточного объема новых данных
 
Особенности обучения и эксплуатации. Machine learning моделей в задачах противодействия мошенничеству
Рис. 4. Обучение методом скользящего окна
 

Частично эту проблему можно нивелировать использованием более продвинутых подходов обучения моделей в следующих нестационарных процессах:

Продолжение материала содержит полезную для вашего бизнеса информацию…

Подписка позволяет читать все статьи портала

Читайте в этом номере:


Перейти к началу страницы

Подпишитесь на новости индустрии

Нажимая на кнопку "подписаться", вы соглашаетесь с


политикой обработки персональных данных