Data Science и моделирование в ВТБ

21 октября 2019
ТЕХНОЛОГИИ АНАЛИЗА ДАННЫХ ЖИЗНЕННО НЕОБХОДИМЫ ВСЕМ СОВРЕМЕННЫМ БАНКАМ. УПРАВЛЯТЬ АКТИВАМИ, ОЦЕНИВАТЬ РИСКИ, СОХРАНЯТЬ И НАРАЩИВАТЬ КЛИЕНТСКУЮ БАЗУ – КЛЮЧЕВЫЕ ПОТРЕБНОСТИ КРЕДИТНЫХ ОРГАНИЗАЦИЙ. ИХ НЕЛЬЗЯ УДОВЛЕТВОРИТЬ, НЕ НАУЧИВШИСЬ ЭФФЕКТИВНО ПРИМЕНЯТЬ ИНСТРУМЕНТЫ СБОРА ИНФОРМАЦИИ И АНАЛИЗА ДАННЫХ, НЕ ТРАНСФОРМИРОВАВ ОРГАНИЗАЦИЮ В СМАРТ-БИЗНЕС.


Максим Кондратенко,
член правления Банка ВТБ

Создание центра компетенции по интеллектуальной обработке данных (Центр больших данных и моделирования) в ВТБ относится к концу 2018 года. Это подразделение предназначено для решения практических задач по повышению эффективности бизнеса и операционных процессов с использованием новых технологий анализа данных и разработки моделей.

Центр аккумулирует соответствующие задачи, координирует взаимодействие аналитических команд в банке и является площадкой для обмена опытом.

Основная задача Центра – разработка моделей на основе доступных данных, в том числе больших массивов информации, а также увеличение источников таких данных. Второй важный вектор деятельности – развитие внутренних компетенций для создания решений на основе современных технологий обработки и анализа данных.

Осенью 2018 года был дан старт формированию команды. Коллеги описали общий реестр задач, под проект подбиралась и создавалась необходимая инфраструктура. Был разработан процесс взаимодействия и планы реализации инициативы. За короткий срок были сформированы кросс-функциональные команды и выстроена коммуникация, разработаны новые алгоритмы сбора, обработки и применения моделей анализа данных. С февраля 2019 года Центр приступил к разработке моделей.

Команда мечты
Центр координирует усилия аналитических команд и способствует обмену опытом в области Data Science1. В частности, проводятся регулярные встречи на площадке Data Science Hub. Участниками одной из таких встреч, которая состоялась в марте 2019 года, стали более 50 сотрудников, занимающихся разработкой математических моделей. Они представили отчеты по актуальным направлениям: новые данные, доступные для дальнейшей проработки (геоданные на основе транзакций, открытая информация по рынку недвижимости); проект по унификации данных клиентов – физических лиц; проект, связанный с графовой аналитикой2 по клиентам банка и их окружению.
Коллеги из департамента информационных технологий рассказали о планах по развитию Data Research Platform3 на основе Data Lake («озера данных»), ключевых инициативах в области инструментов анализа информации и построения отчетов на базе новых технологий.

ИТ-инфраструктура
Большие данные не будут работать и приносить деньги без соответствующей ИТ-инфраструктуры. Для решения этой задачи была создана и функционирует система Data Research Platform, в основе которой лежат самые современные технологии: Hadoop, Docker, Spark. Для работы сотрудников, занимающихся Data Science, развернуты среды для моделирования на R и Python, кроме этого, для наиболее ресурсоемких задач (обучение искусственных нейронных сетей) идет тестирование использования GPU. В планах на будущее по развитию системы: внедрение системы для захвата данных из сети Интернет, внедрение инструментов для развертывания моделей и их мониторинга в продуктивной среде и многое другое.

Что принесли новые модели
Центру уже удалось добиться первых важных результатов. Они касались сразу нескольких направлений деятельности ВТБ: от оценки кредитных рисков до оптимизации работы колл-центра.

Пример 1
Снижение нагрузки на колл-центр
Большие данные помогли оптимизировать работу колл-центра. Центр разработал модели, прогнозирующие количество звонков, которое предстоит обработать в конкретное время в конкретной группе. Такая аналитика помогает снижать нагрузку на колл-центр. Эту информацию можно использовать в организации бизнес-процессов, в том числе и при определении количества сотрудников для работы в пиковые часы.

Пример 2
Оценка кредитного риска через информацию в открытых источниках
Одна из систем оценивает кредитный риск компаний, анализируя информационный фон. Фактически она ищет новостные сообщения, содержащие определенные ключевые слова, например, «падение выручки» или «сокращение персонала». В рамках разработки модели реализовано два подхода с использованием логистической регрессии и нейронной сети. Ожидается эффект от применения этой разработки и включения ее в скоринговую систему.

Команда Центра уверена, что полученный опыт заложит хорошую основу для продуктивной работы аналитических команд и достижения новых полезных для бизнеса результатов с применением современных практик и инструментов работы с данными. Совместные усилия команд и новые знания помогут Группе ВТБ эффективно реализовать стратегические задачи.