С каждым годом мы все больше погружаемся в цифровой век. Хранилища данных, существующие на рынке уже много лет, начали перестраиваться под новые запросы, образовывая целые фабрики данных.
На смену относительно простым системам, таким как хранилище и озера данных, постепенно приходят более сложные экосистемы, содержащие большое количество технологических решений. Эти решения позволяют закрыть потребности в высокой доступности большого объема разноструктурированных данных, их финансово выгодном хранении и защите от несанкционированного доступа.
Для решения подобных задач строятся сложные программно-аппаратные комплексы путем комбинирования большого количества различных компонентов.
Изменения затронули и интеграционные процессы. Раньше это были механизмы, которые брали пачку данных, перекладывали их из одного места в другое, выполняли некую математику, проверку качества данных. Следующим шагом стала лямбда-архитектура, которая привнесла онлайн-интеграцию, и казалось, что этого достаточно. Далее в мир пришел IoT (интернет вещей), данных стало еще больше, они стали иначе поступать и обрабатываться. На смену пришла каппа-архитектура, которая может быть как самостоятельным решением, так и дополнять лямбда-архитектуру, это тоже достаточно многокомпонентная система, с которой необходимо уметь правильно взаимодействовать.
Трансформируются и средства предоставления информации конечным потребителям. Вместо простых отчетов появляется огромный класс различных сервисов, которые позволяют пользователю решать большое количество задач, связанных с получением выгоды от данных: либо посредством прямой реализации информации, либо косвенно – от оптимизации сопутствующих процессов. Появляются различные сервисы, «песочницы данных», в которых пользователи могут апробировать свои предложения, проанализировать, насколько они эффективны и применимы.
Весь этот комплекс решений мы называем «фабрикой данных», это один из современных инструментов цифровой трансформации бизнеса. Необходимость в фабрике данных для предприятий возникает, когда:
происходит усложнение, увеличение количества данных;
складывается понимание, что из данных можно извлекать больше пользы;
появляется необходимость подходить к данным ответственно, чтобы обеспечить большую эффективность использования корпоративной информации.
Методология внедрения
Внедрение фабрики данных априори не может быть простым, это всегда большие проекты, рассчитанные на длительное время. Как правило, в эти проекты включаются крупные компании, которые хотят получить всестороннюю выгоду. Изначально такие истории были достаточно рискованными из-за большого срока реализации и внушительного финансирования. Мы оценили все риски и разработали две концепции внедрения подобных проектов. Первая концепция – это классический подход, когда платформа целиком внедряется под ИТ-стратегию компании-заказчика, осознаются все выгоды ее внедрения и потенциал развития.
Второй подход, который мы разработали с целью снижения рисков, – это интерактивный подход, внедрение через MVP. С технической стороны платформа состоит из множества связанных между собой компонентов, каждый из которых закрывает определенную функционально-техническую область, что позволяет внедрять компоненты отдельными составляющими. С точки зрения бизнеса выделяются небольшие бизнес-блоки, на которых можно проводить R&D-апробацию различных теорий от внедрения этой платформы. Мы двигаемся пошагово, и каждые 4-6 месяцев демонстрируя, какую выгоду приносит внедрение тех или иных компонентов. Таким образом, заказчик может быстро оценить бенефиты еще на этапе апробации проекта.
Технологическая реализация
Фабрики данных эволюционно выросли из хранилищ данных, поэтому концептуально можно выделить три больших слоя технологической реализации: интеграционный, слой хранения и сервисный слой. Также в фабрику данных следует добавить систему управления данными, сервисы DevOps и DataOps, которые позволяют правильно настраивать и управлять жизненным циклом внедрения различных потоков данных и обращения с ними.
Если более детально рассматривать концептуальную архитектуру и изучать интеграционный слой на технологическом уровне, можно отметить классические ETL/ELT-средства. Стоит обратить внимание, что сейчас наблюдается тренд: вместо популярных несколько лет назад еnterprise- решений от больших вендоров на первый план выходят оpen source-средства, такие как NiFi, Airflow, с возможностью писать интеграции либо на уровне баз данных, либо на уровне дополнительных скриптов на Python, которые оказываются сопоставимы с enterprise-решениями. В них выше порог входа, но это компенсируется гибкостью и стоимостью самого программного средства, которая зачастую либо очень низка, либо бесплатна. Говоря об интеграции, нельзя забывать про стриминговые платформы, message-broker, такие как RabbitMQ, Kafka, которые позволяют передавать большие потоки данных в режиме реального времени, при этом производить с ними еще относительно несложные трансформации.
Следующий слой – это слой хранения данных. Этой составляющей не коснулись кардинальные изменения: по-прежнему применяется классическое температурное хранение данных с выделением области витрин. Витрины могут быть сделаны с использованием большого количества различных технологий, которые потребляют данные из единой платформы хранения в согласованной модели. Такой подход показывает хороший результат и минимизирует работу по адаптации пользователей к изменениям.
Важно выделить такое новшество, как «песочница», или маркетплейс данных, когда конечный пользователь может заказать в фабрике какой-то набор данных и независимо работать с ним, реализовывая концепции.
Но и здесь появляются новые компоненты, такие как система управления данными, или Data Governance: Data Catalog, Data Lineage. Сюда же можно отнести MDM и Data Quality системы, то есть все системы, которые управляют данными как бизнес-сущностью. Тематика Data Governance гораздо шире, чем фабрика данных, это уже отдельная область знаний, в которую входят организационные единицы, методологические регламенты, программные компоненты.
И наконец, третий концептуальный слой, который направлен на конечного потребителя данных. Эта составляющая тоже усложняется: появляются различные бизнес-сервисы, «песочницы данных», Data-порталы, где пользователь может дополнять готовые схемы.
Как пример из окружающей нас жизни – сейчас в большом количестве запускаются различные приложения у государственных структур, банков, телекоммуникационных компаний. Умные сервисы помогают конечному пользователю в разных жизненных сферах.
Управление данными
Процесс управления данными появился достаточно давно и во многих крупных компаниях уже внедрен. Однако стоит осветить управление данными применительно к фабрике.
Это в первую очередь Data Quality – ответственность за качество данных. Если раньше это были технические проверки данных (формат, уравнения сходимости и т.п.), то теперь это проверки вида «Если у меня придут неправильные данные в эти поля, что это будет значить для моей компании?», «Если я не сформирую какой-то отчет, на что это повлияет? Сколько денег я потеряю из-за этого?», «Важны ли для меня эти данные или я просто хранил их для каких-то сопутствующих операций?».
Это и глоссарии данных – Data Catalog. Не секрет, что в компаниях существует множество версий правды – фабрика данных с каталогом дает удобную возможность контролировать их и управлять ими.
И конечно же, это архитектура данных – физическая и бизнес-модель, набор таблиц, связей между ними и их соответствие бизнес-процессам компании.
Подводя итог, хочется еще раз подчеркнуть важность данных и перемен, которые они сопровождают. Все больше компаний, процессов и людей вовлекаются в высокотехнологичную работу с информацией и начинают получать от нее прямую выгоду, совершая более осознанные действия и точнее прогнозируя их последствия. Мы, со своей стороны, можем только приветствовать эти перемены и давать нашим партнерам уверенность в правильности выбранного направления.