Мобильное приложение журнала
Google Play Apple Store
курс цб на 21.10: USD 63.9542 EUR 71.1299
криптовалют: BTC 8233.3$ ETH 175.55$
lupa
1459 просмотров

Big Data в банкинге: универсальных рецептов нет

Big Data в банкинге: универсальных рецептов нет

В 2017 году банк ВТБ работал сразу над двумя большими проектами в области Big Data, связанными с риск-менеджментом. О ключевых моментах реализации этих по-своему уникальных инициатив, а также о перспективах использования технологии Больших данных в современном банкинге в целом журнал «ПЛАС» беседует с Алексеем Чубарем, начальником управления цифровой трансформации банка ВТБ.

Этапы построения качественной программной модели

В ходе реализации проектов подразделением банка ВТБ, отвечающим за цифровую трансформацию банка, решался целый комплекс задач. Во-первых, это построение инфраструктуры для работы с Большими данными: анализ существующих внутренних и внешних источников, выстраивание инфраструктуры сбора информации, ее актуализации и построение стека-технологий.

Алексей Чубарь, начальник управления цифровой трансформации банка ВТБ
Алексей Чубарь,
начальник управления цифровой трансформации банка ВТБ

Второй большой пласт задач – аналитика, которая позволяет получить тот или иной измеримый результат. Были сформированы команды, которые занимались решением данной задачи, для того чтобы получить программные модули. Речь шла не столько об аналитической истории отчета, сколько о попытке двинуться в сторону рекомендательно-предсказательной аналитики, которая умеет работать, в том числе на информации, получаемой в реальном времени. Безусловно, эта история тестируется на кейсах, которые интересуют бизнес либо наших коллег, занятых в риск-менеджменте и других подразделениях банка.

Первый этап достаточно простой – убедиться, что новая модель не выполняет работу хуже, чем мы умеем делать ее без использования Big Data, machine learning и других технологий. Тесты показали вполне позитивный результат. Модель не просто работала, она начала давать намного больше результатов, чем ожидалось первоначально. Ее возможности по анализу обширных и разнородных данных были выше, чем у обычного аналитика. Данная модель могла бы избавить сотрудника от выполнения рутинных функций по аналитике финансовой отчетности заемщиков, данных по остаткам и оборотам на счетах клиентов. От аналитика требовалось бы только время от времени верифицировать результат (подтверждать или опровергать предсказания модели).   

В ближайшем будущем в банке ВТБ должны стартовать проекты по развертыванию работы с Большими данными в целом ряде других направлений.

Все банки решают похожий набор внутренних задач: сбор данных, выстраивание стека-инструментов, привлечение специалистов, которые умеют работать с этими инструментами, получение результатов, которые можно интегрировать в целевые бизнес-процессы.

При этом очень важным элементом является вопрос монетизации. Важно не просто сделать еще один отчет, а именно выстроить процессы, которые в конечном итоге можно четко измерить. Например, до этого зарабатывали (либо теряли) X рублей. После внедрения новой модели стали зарабатывать/терять Y рублей, в зависимости от того, какую задачу решали. Важно понимать реальное сокращение издержек или увеличение доходности по отношению к тому, что было до запуска проекта.

Затем появляется возможность следующего шага. Ограничение доступности ресурсов на рынке, которые готовы развивать модели, – это то, что называется предсказательными способностями. Но для того чтобы привлекать людей с компетенциями в области data science и чтобы им при этом не скучно было заниматься рутинными операциями, чтобы строить и внедрять предсказательные модели, – вот для этого необходимо развивать внутреннюю экспертизу. Это позволит, с одной стороны, подготовить площадку для работы внешних data science специалистов, а с другой – верифицировать результаты их работы.

29После того как модель создана, первичный показатель ее возможностей, своеобразный индикатор предсказательной силы, полученный за счет внутренней экспертизы, равен 0,5–0,6, если говорить в терминах индекса Джини. Если необходимо улучшить данный показатель, понадобится уже команда супермегапрофессионалов. Дополнительные баллы можно получить благодаря их знаниям о десятках дополнительных способов работы с созданной моделью. Это тоже один из важных моментов, необходимых для того, чтобы научиться работать, в том числе с внешними контрагентами. Правильно сформулированная постановка задачи – 50% успеха и гарантия получения хорошего целевого результата.

Big Data: внутренняя экспертиза или аутсорсинг

Подходы к DSAI (Data science&Artificial intelligence) в разных банках могут существенно отличаться. Мы считаем, что хотя бы один специалист в области data science должен работать внутри кредитной организации, поскольку заказчику важно уметь общаться с внешним подрядчиком на языке, который ему понятен. В случае если это будет 100%-ный аутсорсинг, существует риск, что все будет решаться абсолютно верными средствами, но при этом решаться будут изначально «не очень правильные» задачи. Безусловно, можно придумать сценарий, когда 100% задач отдается на аутсорсинг, включая полностью управление проектами и подкачку данных. Но затраты на получение первичного результата в случае использования внешних ресурсов data science специалистов будут существенно выше по сравнению с тем, что вы предварительно можете сделать за счет либо внутреннего ресурса, либо управления всем этим процессом. Продвинутых  специалистов по данным можете позвать позже, чтобы улучшить свои результаты. Также  будет виден бенчмарк работы внешних специалистов, так как им надо будет улучшить полученный нашими силами результат.

Сначала нужно убедиться, что новая модель не выполняет работу хуже, чем это делалось без Big Data и machine learning

Необходимо понимать, что специалисты, занимающиеся data science, довольно дорого стоят, и даже не с точки зрения абсолютной стоимости ресурса в рублях, а просто потому, что их время просто жалко тратить на рутинные задачи.

Мы думаем, что будет идеально добиться баланса in-house и аутсорсинга. Мы считаем, что это не очень правильно, когда все сконцентрировано на внутренних ресурсах. Очевидно, что возникают ситуации, когда технологического ресурса с внешнего рынка необходимо больше. И, по большому счету, для специалиста в области статистики и анализа данных неважно, как называется конкретная площадка, на которой он будет работать. Сегодня они могут заниматься, условно, металлами, а завтра – чем-то, связанным с банковской деятельностью, и при этом все равно обеспечивать нужный заказчику результат.

В настоящее время в управлении цифровой трансформации ВТБ работает небольшая группа, которая, собственно, и ведет проекты по data science. Здесь используется наша внутренняя экспертиза плюс участие коллег из бизнес-подразделений, в частности, из риск-менеджмента, которым, на мой взгляд, можно смело вписывать в визитки «data science» как первую квалификацию.

Нет особого секрета, откуда приходят такого рода специалисты, – это либо математическое, либо физическое профильное образование, те, кто по основной специальности занимался математикой либо матстатистикой. При прочих равных хорошим референсом является мехмат МГУ, ВМиК (факультет вычислительной математики и кибернетики МГУ), МФТИ. Можно ожидать, что успешно окончившие их окажутся вполне грамотными специалистами, даже если ранее и не занимались конкретной областью data science.

Процессы управления данными для систем разного класса начинают существенно меняться
Процессы управления данными для систем разного класса начинают существенно меняться

Важность качества и управления данными

Первое время, когда все банки только начали дружно строить свои хранилища данных, заказчиками выступали в основном подразделения, так или иначе связанные с отчетностью. Поэтому модели данных и сами хранилища затачивались прежде всего под задачи, связанные с обязательной и управленческой отчетностью, чтобы максимально полно и достоверно получать результат «копейка в копейку», который можно было бы сразу отнести в любой регулирующий орган либо положить на стол акционерам. При этом заказчики хотели быть уверенными, что спустя какое-то время, запустив этот же отчет, они смогут получить ровно такой же результат. Для этого строились сложные системы преобразования данных, потому что данные лежали в разных транзакционных системах, а также конверторы, коннекторы и т. п. Это приводило к выстраиванию поистине «межгалактических» проектов с гигантскими сроками внедрения. Как результат – было создано большое количество новых рабочих мест для аналитиков.

В поле законодательного регулирования должно появляться только то, что действительно необходимо регулировать

Что начало меняться сейчас? Выяснилось, что существует целый класс задач, где результат носит не бинарный характер. Так, например, обязательная отчетность носит вероятностный характер – это либо правильная отчетность, либо неправильная. По большому счету, если нас интересует вероятность корректности (достоверности) данной отчетности на уровне от 50% до 70%, то даже если какое-то отдельное значение в конкретном поле недостоверно, то при правильном построении модели оно просто будет незначимо, и модель не будет учитывать его при итоговом принятии решения. Нас больше волнует длина этого ряда, количество значений в нем, возможность их однотипно интерпретировать и т. д. Очевидно, что появляется класс задач, где гораздо важнее количество данных, которые можно собрать, возможность их эффективно обрабатывать, сделать соответствующие выводы и на их основании встраиваться в какие-либо процессы. Несмотря на то что класс систем, который отвечает за отчетность, еще продолжает жить в банках, уже возникает совершенно иной, принципиально новый класс. Он базируется на следующем принципе: чем ближе ты находишься к источнику, тем выше вероятность получить правильный результат.

Таким образом, процессы управления данными для систем разного класса начинают существенно меняться. При этом понятно, что есть факторы, которые влияют, в том числе, и на саму возможность человеческого мозга обработать информацию. Если источников бесконечно много, и каждый из них описывает одну и ту же историю разными способами, то data-аналитику зачастую бывает сложно понять, где, как, когда, каким образом и какой конкретный источник данных необходимо применять. Поэтому возникают промежуточные хранилища, каталоги с метаданными, которые должны описывать состав имеющихся хранилищ, содержать перечни данных в этих источниках. Возникает желание использовать некоторые унифицированные схемы работы с данными. Например, тот же самый BIAN (Международная некоммерческая ассоциация BIAN собрала ведущих архитекторов банков, поставщиков банковского софта и провайдеров услуг для выработки общих стандартов, основанных на принципах сервис-ориентированной архитектуры (SOA). В состав разработчиков референтной отраслевой архитектуры входят такие банки, как: ABN AMRO Group, Credit Suisse, Societe Generale Group, Deutsche Bank, Unicredit Group, ING, Achmea, Rabobank, UBS, Banco Galicia и другие, и производители ПО  – Temenos, Diasoft, Infosys, Sopra Banking Software, TCS Banks, IBM, SAP, Microsoft и другие), как архитектурный нетворк, описывающий и состав атрибутов, и функции, либо развитие более-менее устоявшихся фреймворков, описывающих данные. Это один из сценариев того, как трансформируются системы, как они настраиваются под какую-либо оптимизированную модель.

Концепция управления процессами/данными также поменялась за последние несколько лет. С одной стороны, процесс становится несколько проще (для ряда сценариев не требуется абсолютная чистота значения в каждом поле), с другой – в некотором смысле они, напротив, становятся сложнее. Потому что необходимо понимать, как отстраиваться так, чтобы иметь возможность эффективно использовать те данные, которые уже есть внутри информационных систем, и как их при этом не терять.

31

Законодательное регулирование Big Data

В поле законодательного регулирования должно появляться только то, что действительно необходимо регулировать. Не нужно плодить новые сущности там, где можно без этого обойтись. Прежде всего это вопрос того, как работать с неинтерпретируемыми моделями (модели, которые получаются в результате обучения, переобучения и т. д.). Я считаю, что в первую очередь это инженерная задача, и только во вторую – регуляторная. Правильно сформулированный подход к ее решению может указать на возможные варианты того, как ее описать и как с ней работать.

Другая история – публичные «облака» и возможность их применения для целого класса задач, в том числе банковских. Опираясь на опыт западных банков, вполне очевидно, что принуждать банки использовать  «публичные» облака – идея бесперспективная. Но предоставление возможности использования публичных «облаков» в качестве сервиса, на мой взгляд, стало бы как минимум важным элементом общей банковской конкурентоспособности.

Сферы применения Big Data в банковском секторе

Нельзя говорить о том, что в банковской деятельности сегодня существует некая отдельная уникальная область, где применение технологии Big Data принесет максимальную пользу. В каждом конкретном случае необходимо смотреть на наличие данных, а также «аппетит» бизнес-подразделений к использованию результатов их обработки. Практически в любом кейсе можно просчитать вполне обоснованную экономически модель.

Очень важно, что инструменты, которые используются сегодня для анализа Больших данных (за вычетом прямых инфраструктурных затрат), позволяют достигать результата относительно быстро. Это отнюдь не проекты, на реализацию которых требуется 3–4 года. Поэтому я считаю, что необходимо смотреть на все возможные области применения Big Data в банкинге, тестировать их, проверять гипотезы, убеждаться, есть ли результат или нет, есть ли возможность получить отдачу в разумный срок. И только после этого принимать окончательное решение о запуске проекта.

Очевидно, что конечная целевая модель в будущем сведется к тому, что все данные, которые можно собрать и обрабатывать, будут собираться и обрабатываться во всех сферах, где только можно будет извлекать выгоду от этих данных и каким-то образом интерпретировать их для принятия текущих решений.

Читайте в этом номере:


Перейти к началу страницы

Подпишитесь на новости индустрии

Нажимая на кнопку "подписаться", вы соглашаетесь с


политикой обработки персональных данных