Анализ больших данных в российском бизнесе выходит из стадии пилотных проектов и становится признанным инструментом. Этому способствовали несколько факторов. Объем накопленных данных и скорость их обновления стали действительно значительными. Технологии, прежде всего программные средства на основе открытого кода, достигли уровня зрелости и стали пригодными для использования в корпоративном сегменте. Бизнес в состоянии сформулировать задачи, которые наилучшим образом могут быть решены именно на основе применения больших данных. Уже закончены первые масштабные проекты, получены впечатляющие результаты. Однако остается еще немало как технических, так и организационных проблем, которые сдерживают развитие.
Ставшее классическим определение больших данных, сформулированное Gartner, опирается на три V: объем (volume), скорость (velocity), многообразие (variety). Пятьсемь лет назад споры шли о том, какие данные «по-настоящему большие» и где они могут появляться. В нынешней ситуации интересно исследовать сложившуюся российскую практику.
Директор по развитию центра компетенций больших данных ГК «Техносерв» Евгений Линник описывает общую картину работы с данными так: «Чаще всего первый источник, с которым начинают работать организации, – корпоративное хранилище данных, созданное для информации, на основании которой формируются отчеты для регулирующих органов и руководства компании. После того как все лежащие на поверхности кейсы, для которых раньше не хватало вычислительной мощности или места для хранения, реализованы, клиенты начинают смотреть в сторону «серых данных». Это данные из внутренних источников компании, создаваемые постоянно, но не используемые в процессе подготовки отчетности. Например, добиллинговые данные (ADR/XDR) в телекоме или данные станков в промышленности (температура изделия, параметры обработки, количество реагентов)».
Когда оба эти пласта исчерпаны, продолжает Евгений Линник, компании обращаются к данным от внешних поставщиков. Особенно развит сегмент рынка данных, связанный с клиентским опытом: он позволяет получить информацию о существующих и потенциальных клиентах организации. Специалист «Техносерва» полагает, что этот сегмент исчерпать практически невозможно – ввиду большого количества предложений. «Наши самые продвинутые заказчики находятся именно на этой ступени «эволюции больших данных», – отмечает он.
Для большинства клиентов компании Navicon главным информационным ресурсом служили отчеты из внутрикорпоративных учетных и аналитических систем, таких как CRM, ERP, BI, отмечает директор по развитию бизнеса ООО «УК «Навикон» Роман Баранов. С переходом к обработке больших данных спектр источников расширился. Для решения задач маркетинга стали анализировать «историю кликов» посетителей корпоративных сайтов (Click Stream), а также информацию из DMP (Data Management Platform), например, данные об истории кликов в Интернете. Источниками данных стали лог-файлы ИТ-систем и системы мониторинга оборудования на производствах.
У операторов связи стандартным источником данных являются записи о детализации звонков (Call Detail Record, CDR), у ретейлеров – данные чеков, а у банков – информация о транзакциях из операционных систем, рассказывает руководитель направления Data Science Teradata в России Александр Смирнов. По его мнению, особый интерес представляют производственные компании, которые начинают собирать все более детальные параметры производственных процессов, телеметрию, различные события. Эксперт отмечает, что в телекоме данные доступны уже через секунды после их поступления.
О специфике финансового сектора рассказывает руководитель отдела отраслевой экспертизы ООО «ИБС Плат фор микс» Александр Коваленко: «Основными источниками накопления данных в этой сфере являются автоматизированные банковские системы, интернет-банкинг, данные от внешних партнеров для поиска оптимального предложения клиенту».
Для банков источником данных в первую очередь являются внутренние учетные системы, в которых сохраняется информация о клиентах, их операциях и коммуникациях с банком. «Можно смело утверждать, что 80 % значимой информации находится именно в этих источниках», – говорит директор по управлению проектами Big Data & Data science ПАО «Банк ВТБ» Василий Гаршин. Оставшиеся 20 % данных находятся в самых разнообразных внутренних и внешних источниках, поясняет он: «Это могут быть и текстовые логфайлы, и разного рода базы данных (Интернет, социальные сети, данные судебной статистики и пр.). Объемы этих источников с трудом поддаются оценке, но речь идет о сотнях терабайт и даже о петабайтах, скорость накопления – десятки или сотни терабайт в месяц».
Ведущий эксперт департамента информационных технологий ЗАО «КРОК инкорпорейтед» Егор Осипов к названным выше источникам прибавляет фото и аудиоматериалы. Важно выделить, полагает он, государственные информационные сервисы, так как «вопрос интеграции с ними возникает почти всегда».
Задачи, как и источники данных, зависят от отрасли, но все же Александр Смирнов выделяет несколько общих типов задач. Первая из них – описательная аналитика. В эту группу входит построение отчетов разной степени сложности с использованием разнообразных инструментов, начиная от Excel (эта программа часто закрывает большинство задач в качестве инструмента отчетности) и заканчивая BI-инструментами, такими как Tableau и QlikView. Эти задачи являются типичными, наиболее частыми и востребованными – они позволяют ответить на вопросы типа «как изменились продажи за отчетный период» или «как менялись предпочтения клиентов». Тем не менее большие данные в рамках такой отчетности дают глубокую детализацию. В ретейле можно дойти до связки «товар – магазин» или даже до конкретного клиента, поясняет Александр Смирнов.
Кроме обычной отчетности, актуальны задачи более продвинутого, исследовательского характера. Например, производственным компаниям недостаточно просто знать, что 2 % выпущенных изделий являются браком, – им важно понимать, какие именно факторы повлияли на это. «В результате нескольких наших проектов в производственном секторе были сделаны выводы, которые удивили даже технологов со стажем», – говорит Александр Смирнов.
По его мнению, высшим пилотажем работы с данными является не просто отображение каких-то фактов или их объяснение, а прогнозирование. Прогноз продаж, выхода из строя оборудования, оттока клиентов – эти и многие другие задачи высоко востребованы, считает представитель Teradata в России. Он подчеркивает, что «важно не просто получение качественной модели, но ее имплементация в продуктивной среде – при построении, например, системы кредитного скоринга».
Основными классами задач, которые решают заказчики «Техносерва» с использованием больших данных, являются улучшение клиентского опыта, оптимизация внутренних процессов компании, управление данными с целью их последующего использования в классических процессах аналитики, борьба с мошенничеством и информационная безопасность. Отдельно Евгений Линник отмечает такую задачу, как выявление «нестандартного поведения», которая особенно актуальна для финансового сектора. Наиболее популярными направлениями для применения больших данных традиционно считаются маркетинг и продажи, напоминает генеральный директор ООО «Клевер Дата» (ГК «ЛАНИТ») Денис Афанасьев. Он рассказывает о растущем интересе со стороны B2C-компаний к использованию внутренних и внешних данных о клиентской аудитории – главным образом, для решения задач персонализации коммуникаций и таргетированной онлайн-рекламы.
В частности, на основе различных атрибутов данных потребителей, алгоритмов их поведения можно строить предиктивные аналитические модели для прогноза вероятности оттока клиентов. Построенный процесс дает высокие результаты в режиме реального времени – выгоду можно измерить в десятках процентов, отмечает Денис Афанасьев.
Василий Гаршин считает, что решения на основе больших данных применимы везде, где требуется анализ значительных объемов информации с использованием инструментов статистического анализа и алгоритмов машинного обучения. В первую очередь это области кредитных рисков, CRMкампаний, борьба с мошенничеством, коллекторская деятельность. Представитель Банка ВТБ отмечает, что большие данные в связке с машинным обучением позволяют эффективно решать задачи оптимизации объема наличности в банкоматах, повышения качества обслуживания клиентов.
Руководитель департамента предпроектного консалтинга по бизнес-приложениям Oracle в СНГ Нина Путинцева видит два основных типа задач. Во-первых, создание «аналитической песочницы», позволяющей получать новые знания за счет консолидации нескольких крупных источников данных, имеющих разную структуру. В результате у клиентов появляется возможность более эффективно осуществлять многие бизнес-процессы: проведение маркетинговых кампаний, отслеживание мошеннических операций, планирование операционной деятельности и др. Основные пользователи – отделы маркетинга банков и розничных сетей, риск-менеджмент банков. Во-вторых, снижение стоимости хранения исторических данных, доступ к которым нужен на периодической основе (так называемых холодных данных).
Типы продуктов по частоте применения Александр Коваленко распределяет следующим образом: решения для хранения неструктурированных данных и реализации поисковых и контекстных механизмов Apache Hadoop и Cloudera, аналитические СУБД Vertica, Oracle IM и Greenplum, платформа анализа данных Apache Spark, комплексные программно-аппаратные решения Oracle Big Data Appliance, классические серверы x86 с платформами Open Source. «Все большую популярность для запуска сервисов аналитики и хранения больших данных набирает платформа Nutanix», – отмечает представитель «ИБС Платформикс».
Индустрия постепенно понимает, что правильное решение – разумная комбинация открытых технологий, таких как Hadoop или Spark, с высокопроизводительными аналитическими СУБД, считает Александр Смирнов. «Правильной является ситуация, когда для задач сбора данных строится Data Lake на Hadoop, а для задач потребления данных с помощью инструментов Business Intelligence используется высокопроизводительная СУБД, источником для которой является Data Lake. Стоит также уделить внимание инструментам бесшовной интеграции данных, обеспечивающим возможность в рамках одного запроса «на лету» объединять информацию из различных источников – таким как Teradata QueryGrid», – отмечает он. Все чаще встречаются требования по загрузке данных из реляционных СУБД в Hadoop и системы обработки событий в реальном времени, отмечает Нина Путинцева. Oracle добавил этот функционал в высокопроизводительное программное обеспечение для захвата изменений данных GoldenGate.
Денис Афанасьев рассказывает, что для работы с внутренними аудиторными данными используются DMP. Сбор данных из доступных источников компании, создание единого профиля по каждому клиенту и формирование сегментов на основе различных атрибутов пользовательских данных – первостепенные задачи, которые выполняет DMP. Такие платформы создаются как в облаке, так и внутри корпоративной ИТинфраструктуры, что актуально для компаний с большим объемом конфиденциальных клиентских данных (телеком, банки, платежные системы и др.). Кроме того, все больше поставщиков подключаются к специализированным независимым биржам данных (класс решений Data Exchange), где потребителям доступны внешние данные, включая социально-демографические параметры (пол, возраст, образование, работа, семейное положение), различные интересы, намерения о покупке, наличие недвижимости/автомобиля/домашних животных и многие другие атрибуты, в том числе поведенческие.
«Для реальных проектов применяйте проверенные технологии, но не забывайте пилотировать инновации, – советует Василий Гаршин. – Мы используем комбинацию вендорских решений и продуктов с открытым кодом, проверенных в ходе ряда пилотных проектов. Для работы с большими данными применяем Cloudera Hadoop, технологии SAS, набор библиотек машинного обучения (Anaсonda, MLlib, h2o), для визуализации данных – MS Power BI и решения с открытым кодом».
В области аппаратных решений Василий Гаршин рекомендует смотреть на предложения поставщиков используемых баз данных – например от Oracle и Teradata. «Так можно получить дополнительный выигрыш в скорости обмена данными и сэкономить на поддержке, – считает он. – Использование модулей оправданно при построении критичных для бизнеса решений. Для пилотных проектов можно взять и самостоятельно собранные конфигурации, но для этого в штате необходимо иметь квалифицированных специалистов поддержки». Представитель Банка ВТБ не рекомендует использовать для работы с большими данными виртуальные машины.
В корпоративном сегменте наиболее актуальной на уровне архитектуры является связка из стека экосистемы Hadoop и СУБД на основе MPP (Massive Parallel Processing), отмечает Егор Осипов. По его мнению, среди вендоров Hadoop сильным является Cloudera, а Hortonworks чуть менее популярен в связи с высоким входным порогом. Стремительно набирает популярность отечественный дистрибутив Arenadata Hadoop, разработчиком которого является ООО «ИБС Экспертиза», входящее в группу компаний IBS.
«На виду решения SAP HANA и Exasol, но при их применении важно учитывать много специфических моментов, поэтому мы не наблюдаем взрывного роста их популярности», – утверждает специалист «КРОК». Целый ряд продуктов ETL и Metadata Management работает с данным стеком, напоминает он, такие инструменты есть у Informatica, Oracle, Talend и других вендоров. Для классических задач хранения и производительной работы сложных комбинированных систем аналитики, считает Егор Осипов, оптимально подходят all-flash-массивы. Кроме того, повышается востребованность кластерных вычислений для сложных расчетов и работы с VR-контентом. OPEX-программы, которые «КРОК» предоставляет совместно с вендорами, позволяют оперативно модернизировать парк оборудования и снижать капитальные затраты в несколько раз (до пяти).
На рынке есть и решения, ориентированные на промышленность. «Продукт ITPS AVIST (Asset Visualization Smart Technology) – интеграционная платформа (совместимая с программным обеспечением многих вендоров), которая собирает и анализирует большие данные в режиме реального времени на основе встроенных интеллектуальных алгоритмов, создает на их основе точную интегрированную модель производства, оптимизирует производственные планы и поддерживает интегрированное управление производством», – рассказывает заместитель генерального директора по операционной деятельности ГК ITPS Эдуард Нелюбин.
Александр Коваленко отмечает, что существуют две основные технологические проблемы: производительность решения при работе с данными большого количества пользователей и стабильность элементов программных решений с открытым кодом. «Но не они – камень преткновения. Наибольшей проблемой до сих пор является целый ряд общих для многих финансовых организаций черт: непонимание заказчиком ценности аналитики, отсутствие глубоких знаний об источниках данных, отсутствие персонала с квалификацией, подходящей для внедрения и сопровождения проекта. При всем этом заказчику необходимо осознавать, что аналитика больших данных требует значительных инвестиций, и нужно понимать, какие выгоды он хочет получить благодаря возможности анализировать поведение клиентов», – уверен он.
Основной проблемой при внедрении инструментария больших данных чаще всего является общая неготовность ИТслужбы заказчика к консолидации информации из внешних и внутренних источников, полагает Евгений Линник. Также отсутствуют шины передачи данных и стандартизированные методы работы с источниками. Частой проблемой становится получение внешних данных. «Подход к поиску кейсов для больших данных – задача исследовательская. Она требует большой гибкости в процессах работы ИТ-служб (подключение новых источников и доработка существующих для обеспечения более детального «логирования») и бизнеса в целом», – подчеркивает представитель «Техносерва».
Чисто технологические проблемы не так широко распространены, соглашается Александр Смирнов. Гораздо чаще возникают сложности организационного или методологического характера. Например, параллельно развивающиеся хранилища данных в нескольких подразделениях, которые зачастую никак не связаны между собой и построены на разных технологиях. Опасность в том, что данные в этих хранилищах невозможно анализировать совместно, и они могут содержать противоречивую информацию (для описания такой ситуации есть термин data silos). Отсутствие в компании единого центра, отвечающего за работу с данными, приводит к тому, что data silos во многих организациях множатся в геометрической прогрессии. Однако, по мнению специалиста Teradata, в последние годы компании стали уделять этой проблеме больше внимания.
Роман Баранов видит две большие проблемы, решение которых лежит вне проектной плоскости. «Одна – завышенные ожидания от технологий и желание получить, по сути, философский камень, который будет все превращать в золото. Поэтому всегда должны быть четко сформулированные KPI. Вторая – незрелость технологий. В «экосистеме» Apache Hadoop доступно очень много продуктов для трансформации данных, – говорит представитель «УК «Навикон», – но только некоторые из них имеют стабильную версию, а остальные дорабатываются или находятся на стадии бета-тестирования. Это вносит коррективы в процесс разработки».
Такую точку зрения поддерживает и Егор Осипов: «Люди, привыкшие к проприетарным решениям корпоративного класса, обычно рассчитывают, что решение из «коробки» будет работать с минимальными настройками. Однако для того чтобы продукты из экосистемы Hadoop начали работать стабильно, связанно друг с другом, потребуется еще много усилий грамотного и опытного инженера. Многие заказчики оказываются к этому не готовы. Поэтому мы нередко помогаем им стабилизировать уже развернутую систему».
В силу незрелости технологий больших данных приходится бороться с несовместимостью различного ПО, непростым является и процесс обновления версий, отмечает Василий Гаршин. Он видит трудности с организацией и ведением бизнес-глоссария данных для предоставления пользователям, а также технологические сложности с обеспечением конфиденциальности и ограничением доступа к данным. «Все эти проблемы преодолимы, но надо быть готовыми к выделению значительного ресурса для их решения», – считает он.
Василий Гаршин подчеркивает, что анализ больших данных помогает найти узкие места или скрытые возможности для роста. Речь может идти о миллиардах рублей в год. Повышение продаж и снижение рисков – вот основные результаты работы с большими данными, считает Александр
Коваленко. Егор Осипов дополняет этот перечень возможностями формировать более персонализированные маркетинговые предложения, увеличивать объемы продаж и конверсии от рекламных кампаний, а также возможностями проанализировать риски при открытии новых точек продаж, спрогнозировать выручку и объем закупок.
Евгений Линник обращает внимание на сокращение издержек и увеличение выручки. Он приводит пример: «Компания «Аэрофлот» в 2017 году с помощью больших данных смогла реализовать маркетинговую акцию в правильное время, за правильные деньги и для правильной аудитории. Благодаря этому ее конверсия была в 6,5 раза выше, чем у традиционной маркетинговой акции, а доход – в 5,5 раза больше».
Александр Смирнов видит результаты применения больших данных в принятии более оперативных бизнес-решений, способности заглянуть за горизонт благодаря прогностическим инструментам, а также возможности радикально изменить бизнес-модель, перейдя, например, к составлению четко персонализированных предложений клиентам в режиме реального времени. Ключевые подтвержденные бизнес-результаты или эффекты, которые дает анализ больших данных, – это сокращение трудозатрат и времени на сбор и подготовку информации, повышение оперативности принятия решений и их качества, отмечает Эдуард Нелюбин. Главное, подчеркивает он, заключается в том, что становится возможным решение задач значительно большего размера и сложности, а следовательно, компании достигают ранее недоступных по масштабу эффектов.
Статья опубликована в журнале «Стандарт»