Александр
Волынский

архитектор облачной платформы Mail.ru Cloud Solutions
© ComNews
22.06.2020

В 2011 году общий объем созданных и реплицированных человечеством данных составил более 1,8 зеттабайт (1,8 трлн Гб). К 2018 году этот показатель вырос до 33 зеттабайт. По прогнозу IDC, к 2025 году мы сгенерируем уже 173 зеттабайт информации.

Такая статистика подтверждает тезис, что с данными сегодня должны работать все без исключения. Не осталось сомнений в том, что компании всех размеров и отраслей обрабатывают и анализируют получаемую информацию. Поэтому я бы хотел поговорить об этапах развития культуры работы с данными в бизнесе.

Как не превратить озеро в болото?

Базис для работы с данными для большинства организаций — это ERP и CRM-системы. Эти простые инструменты помогают извлекать пользу из информации и доступны практически любой компании. Это своего рода фундамент, который позволяет генерировать качественные данные, с которыми можно работать.

На определенном этапе зрелости, когда и систем, и форматов данных становится больше, компания понимает, что разрозненную информацию гораздо эффективнее агрегировать в одном месте, чем вручную собирать по различным источникам. Инициируется проект по созданию Data Lake (озеро данных), которое в дальнейшем становится основным хранилищем "сырых" корпоративных данных. Как правило, на этом этапе в Data Lake загружается как можно больше информации изо всех имеющихся у компании ресурсов.

Первичному "наполнению" Data Lake зачастую сопутствуют одни и те же ошибки. Например, загружаемая информация может дублироваться из-за того, что разные отделы выгружали в хранилища данные из одних и тех же источников. На этапе выгрузки компании часто жертвуют безопасностью данных в угоду скорости реализации проекта. В итоге, доступ к хранилищу предоставляется большому количеству сотрудников, а на проверку и чистку загружаемой информации закрывают глаза.

Data Lake таким образом быстро превращается в Data Swamp (болото данных) и о пользе речь уже не идет. Пользоваться хранилищем, в котором часть данных дублируется по несколько раз, а другая и вовсе опасна для системы, не только неэффективно, но и крайне нежелательно. Данные в таком "болоте" не структурированы, поиск сложный и неудобный, пользователи быстро разочаровываются в новой системе и возвращаются к ручной обработке информации.

Избежать "заболачивания" помогут простые действия: систематизировать подход к построению озера данных, тщательно контролировать процесс подключения источников и сбор информации, не забывать про ИБ и следить за уровнями доступа.

Если компания все-таки погрязла в "болоте", выходом из ситуации и следующим этапом развития культуры работы с данными может стать создание хранилища данных или Data Warehouse (DWH). Идеальный сценарий — тесная интеграция DWH с Data Lake. Озером данных в данном случае может выступать источником для хранилища. При этом предварительная очистка и стандартизирование информации может проходить в источнике, а далее обработанные данные загружаются в DWH.

Если Data Lake зачастую строят на основе Hadoop-стека, используя в том числе Spark или Hive, то при построении Data Warehouse обычно применяют MPP-системы (Massive Parallel Processing). Стоит упомянуть такие классические системы, которые стали негласными стандартами отрасли, как Vertica, Greenplum, Hana. Возможности горизонтального масштабирования, колоночное хранение данных, специализация под OLAP-нагрузку — в совокупности это создает идеальное решение для построения хранилища.

При ориентации на OpenSource-решения важно отметить Greenplum. Решение с одной стороны позволяет начать построение хранилища данных с минимальными затратами, а с другой — сохраняет альтернативу перехода на платную версию и получение поддержки. Если рассматривать платные версии, то существует два лидера — Pivotal Greenplum и Arenadata DB, разработанная на основе Greenplum с открытым исходным кодом. Отечественные компании отдают предпочтение базе данных от Arenadata, так как вся поддержка и разработка находится на территории России, что значительно ускоряет решение повседневных вопросов. С недавнего времени Arenadata DB доступна в облаке Mail.ru Cloud Solutions, за счет чего развертывание решения для хранения и обработки больших данных для пользователей платформы MCS проходит в несколько кликов и без предварительных затрат на инфраструктуру.

В итоге, Data Warehouse помогает решить одну из главных проблем — формирование единого источника достоверной информации, который исключает ошибки и неточности, в том числе дублирование записей. Решение предполагает очистку данных, приведение данных к определенным единым стандартам, что помогает структурировать систему и упростить дальнейший поиск. Минимизируются и угрозы информационной безопасности, так как зона ответственности по предоставлению доступа и загрузке закреплена за конкретными специалистами.

Такой подход неизбежно усложняет систему: отдельным сегментам потребуется индивидуальный подход узкоспециализированных сотрудников. Для аналитиков это дополнительная нагрузка, так как для получения нужной информации им придется сначала искать специалистов, ответственных за конкретную часть системы. Конечно, с этим уже можно работать, но до "культуры работы с данными" еще далеко. Подобная организация процессов значительно снижает эффективность и повышает затраты на хранилище, так как Data Scientists придется тратить много времени на механические действия и поиск.

Стратегический подход

Следующим естественным этапом развития культуры работы с данными станет Data Governance (DG) — стратегическое управление информацией на корпоративном уровне. DG предполагает разработку индивидуальной для каждой компании стратегии работы с данными. Для реализации Data Governance необходимо структурировать всю имеющуюся у бизнеса информацию о данных. В дальнейшем DG становится основой для подхода Data Management (DM), который подразумевает управление данными на уровне практического применения, стандартизированное с помощью систем ETL или MDM.

Высокий уровень культуры работы с данными характеризуется созданием каталогов информации с функцией Self-Service (самообслуживание). Эти инструменты позволяют выстроить удобную структуру, а также демократизировать данные без ущерба для безопасности: источникам автоматически присваиваются теги и документация, пользователям предоставляются ограниченные сэмплы, формируется user interface. Цель создания таких каталогов — сделать работу с Data Lake и Data Warehouse доступной любому сотруднику компании, даже без технических навыков.

Компания формирует своего рода "шведский стол", где каждый может самостоятельно собрать желаемое блюдо из ингредиентов и составляющих. Например, структура и интерфейс должны быть такими, чтобы сотрудник бизнес-подразделения мог добавить новый источник к базе, не погружаясь в разработку, или выгрузить отчет с нужной информацией без обращения к СУБД.

Интересно, что подобные каталоги решают проблемы информационной безопасности, которые возникают при создании DWH. Контролем доступа, как правило, занимаются высококвалифицированные специалисты, ведь на кону стоит репутация и благосостояние компании. Именно поэтому сложная структура хранилища провоцирует издержки с обеих сторон: пользователи долго ждут нужные им разрешения, а эксперты тратят время на выдачу доступа. В данном случае грамотно организованные каталоги данных не только упрощают этот процесс для потребителей, но и снижают нагрузку на ценных сотрудников.

На острие работы с данными

В погоне за скоростью и точностью принятия решений, созданием более полной картины и системным видением развития многие большие компании уверенно двигаются в сторону data-driven подхода. Работая с крупными заказчиками, мы обращаем внимание на своего рода парадокс.

С одной стороны, корпорации не всегда серьезно воспринимают Open Source и крайне редко приходят с запросом на новые разработки, которые только вышли из стадии beta-тестирования. Сервисы на базе открытого исходного кода составляют основную часть рынка Big Data-решений, но крупные компании продолжают ориентироваться на платную поддержку. Это приводит к тому, что они либо вовсе отказываются от использования Open Source, либо соглашаются, но перекладывают ответственность за обновления и работоспособность систем на поставщика. С другой стороны, от корпораций регулярно поступают запросы на доработку и кастомизацию даже самых зрелых и проверенных решений под конкретные задачи. Во многом это связано с тем, что адаптировать решение под потребности проще, чем перестраивать бизнес-процессы под готовый сервис.

Сегодня мы видим, что в крупных компаниях созрел спрос на комплексные end-to-end решения, которые подразумевают возможность полной реализации проекта: от обучения модели, анализа данных и экспериментов до вывода продукта в production, его версионирования и дальнейшего контроля качества работы. Для этого недостаточно разрозненного "букета" решений по работе с данными, требуется единая среда, единый UI, в котором Data Science-специалист может пройти от самого начала до финальной реализации: от эксперимента и создания ML-модели — до вывода готовой модели машинного обучения в прод.

На этом этапе важную роль начинают играть облачные сервисы, которые автоматизируют часть задач и предоставляют масштабируемую инфраструктуру для обработки больших данных, которую можно взять по клику в облаке и не держать у себя для ресурсоемких операций, проводимых лишь время от времени.

Облака позволяют компании вывести работу с данными на качественно новый уровень. Возьмем, к примеру Arenadata DB, о которой мы рассказывали ранее. В отличие от использования аналогичных аналитических баз данных On Premises, облачная инфраструктура MCS позволяет до 5 раз ускорить построение сложных аналитических запросов благодаря возможности быстрого масштабирования до сотен узлов.

Преимущества также проявляются при использовании всего Big Data-стека — Hadoop, Spark, Airflow, Kafka и так далее — в облаке, вместе с другими сервисами, где они тесно интегрированы. Поскольку разные решения находятся в рамках одной сети, получается заметно сократить время передачи данных между ними.

Если говорить про подход к построению инфраструктуры, крупные компании из-за повышенного внимания к информационной безопасности отдают предпочтение частным облакам, которые размещаются в их центрах обработки данных. При этом среди малых предприятий, которые не могут себе позволить иметь в штате большое количество узких специалистов, востребованы публичные облака и решения по моделям PaaS и SaaS, которые предлагают различные варианты тарификации и возможности гибкого управления ресурсами.

Приоритет небольших компаний — скорость прототипирования, гибкое управление ресурсами (скейлинг) и минимизация расходов. Поэтому все процессы, которые можно передать под ответственность провайдера, делегируются. В том числе ИБ и администрирование сервисов.

Сегодня уже ни для кого не секрет, что данные — наиболее ценный для бизнеса ресурс. На мой взгляд, очень важно повышать уровень культуры работы с информацией, чтобы она приносила пользу компании. Облачные технологии становятся естественным этапом развития компании. Высокая эффективность обработки данных, возможности быстрого масштабирования, минимизация издержек с помощью автоматизации рутинных процессов и передачи ответственности за настройку и работоспособность инфраструктуры — эти факторы в значительной мере ускоряют переход Big Data в облака.