Озера данных и Big data

Озера данных: как устроены data lakes и зачем они нужны

Рынок data lakes в 2019 году достиг $3,74 млрд, а к 2025 году он вырастет до $17,6 млрд. Компании все чаще отдают предпочтение озерам, а не хранилищам. С их помощью можно извлекать ценные инсайты, отслеживать неожиданные закономерности, быстрее и эффективнее продвигать новые продукты и услуги. Для распределенной компании с множеством подразделений — это настоящая золотая жила. Специалисты компании DST Global рассказали, как извлечь максимум из новой data-архитектуры.

Озера, витрины и хранилища

Представьте, что у компании есть доступ к неисчерпаемому информационному ресурсу — погружаясь в него, аналитики регулярно получают ценные бизнес-инсайты и запускают новые, более совершенные продукты. Примерно по такому принципу работают озера данных — data lakes. Это относительно новый вид data-архитектуры, позволяющий воедино собирать сырые и разрозненные сведения из разных источников, а потом находить им эффективное применение. Первыми с технологией начали экспериментировать такие гиганты, как Oracle, Amazon и Microsoft — они же разработали удобные сервисы для построения озер.

Сам термин data lake ввел Джеймс Диксон, основатель платформы Pentaho. Он сравнивал витрины данных с озерами данных: первые похожи на бутилированную воду, которую очистили, отфильтровали и упаковали. Озера — это открытые водоемы, в которые вода стекается из разных источников. В них можно погружаться, а можно брать образцы с поверхности. Существуют еще дата-хранилища, которые выполняют конкретные задачи и служат определенным интересам. Озерные репозитории, напротив, могут принести пользу многим игрокам, если их грамотно использовать.

Казалось бы, потоки сведений только усложняют работу аналитикам, ведь сведения не структурированы, к тому же их слишком много. Но если компания умеет работать с данными и извлекать из них пользу, озеро не превращается в «болото».

Извлекаем данные из «бункера»

И все-таки какую пользу приносят data lakes компаниям? Их главное преимущество — это изобилие. В репозиторий попадают сведения от разных команд и подразделений, которые обычно никак между собой не связаны. Возьмем для примера онлайн-школу. Разные отделы ведут свою статистику и преследуют свои цели — одна команда следит за метриками удержания пользователей, вторая изучает customer journey новых клиентов, а третья собирает информацию о выпускниках. Доступа к полной картине нет ни у кого. Но если аккумулировать разрозненные сведения в едином репозитории, то можно обнаружить интересные закономерности. Например, окажется, что пользователи, которые пришли на курсы дизайна и просмотрели хотя бы два вебинара, чаще других доходят до конца программы и строят успешную карьеру на рынке. Эта информация поможет компании удержать студентов и создать более привлекательный продукт.

Часто неожиданные закономерности обнаруживаются случайно — так, озеро данных помогает дата-аналитикам экспериментально «скрещивать» разные потоки сведений и находить параллели, которые в других обстоятельствах они бы вряд ли обнаружили.

Источники данных могут быть любыми: у онлайн-школы это будет статистика с разных каналов продвижения, у фабрики — показатели IoT-датчиков, график использования станков и показатели износа оборудования, у маркетплейса — сведения о наличии товаров в стоке, статистика продаж и данные о самых популярных платежных методах. Озера как раз помогают собирать и изучать массивы информации, которые обычно никак не пересекаются и попадают в поле внимания разных отделов.

Еще один плюс дата-озер — это извлечение данных из разрозненных репозиториев и закрытых подсистем. Часто сведения хранятся в подобии информационного «бункера», доступ к которому есть только у одного подразделения. Перенести из него материалы сложно или невозможно — слишком много ограничений. Озера эту проблему решают.

Итак, можно выделить как минимум восемь преимуществ озер данных:

Помогают дата-аналитикам получать ценные инсайты.

Позволяют компании быстро принимать решения, опираясь на статистику и факты.

Дают возможность экспериментировать с разными типами данных из разных источников.

Делают процесс аналитики более демократичным и стирают барьеры между подразделениями.

Обеспечивают высокий уровень централизации и детализации данных — это позволяет найти «иголку в стоге сена».

Подходят компаниям разного размера — на ранней стадии можно начать с мини-озер и постепенно наращивать объемы.

Упрощают бизнес-процессы — например, позволяют делать cross-domain запросы и создавать комплексную продуктовую отчетность.

Обходятся дешевле, чем хранилища, потому что данные не нуждаются в предварительной обработке.

Озера в первую очередь нужны распределенным и разветвленным командам. Классический пример — Amazon. Корпорация аккумулировала данные из тысячи разных источников. Так, одни только финансовые транзакции хранились в 25 различных базах, которые были по-разному устроены и организованы. Это создавало путаницу и неудобства. Озеро помогло собрать все материалы в одном месте и установить единую систему защиты данных. Теперь специалисты — дата- и бизнес-аналитики, разработчики и CTO — могли брать нужные им компоненты и обрабатывать их, используя разные инструменты и технологии. А машинное обучение помогло аналитикам Amazon строить сверхточные прогнозы — теперь они знают, сколько коробок определенного размера потребуется для посылок в условном Техасе в ноябре.

Четыре шага к дата-озерам

Также разработчики компании DST Global рассказали о том что у data lakes есть и недостатки. В первую очередь они требуют дополнительных ресурсов и высокого уровня экспертизы — по-настоящему извлечь из них пользу могут только высококвалифицированные аналитики. Также потребуются дополнительные инструменты Business Intelligence, которые помогут преобразовать инсайты в последовательную стратегию.

Другая проблема — это использование сторонних систем для поддержания data lakes. В этом случае компания зависит от провайдера. Если в системе произойдет сбой или утечка данных, это может привести к крупным финансовым потерям. Однако главная проблема озер — это хайп вокруг технологии. Часто компании внедряют этот формат, следуя моде, но не знают, зачем на самом деле им это нужно. В результате они тратят большие суммы, но не добиваются окупаемости. Поэтому эксперты советуют еще на стадии подготовки к запуску определить, какие бизнес-задачи будут решать озера.

Эксперты DST Global (dstglobal.ru) выделяют четыре стадии создания data lakes:

Создание платформы для сбора сырых данных. На этом этапе важно научиться извлекать и хранить сведения.

Развитие платформы и первые эксперименты. Дата-аналитики уже начинают анализировать данные и строить прототипы аналитических моделей.

Тесная интеграция с дата-хранилищами. На этой стадии в озера стекаются все большие массивы данных, а процесс навигации упрощается.

Дата-озеро становится ключевым элементом архитектуры. Развиваются новые сценарии применения, появляются новые надстройки и сервисы с удобными интерфейсом, компания начинает использовать бизнес-модель Data-as-a-Service.

Алгоритмы-аналитики

В самом аккумулировании данных нет ничего принципиально нового, но благодаря развитию облачных систем, платформ с открытым кодом и в целом увеличению компьютерных мощностей работать с озерной архитектурой сегодня могут даже стартапы.

Еще одним драйвером отрасли стало машинное обучение — технология отчасти упрощает работу аналитиков и дает им больше инструментов для пост-обработки. Если раньше специалист потонул бы в количестве файлов, сводок и таблиц, теперь он может «скормить» их алгоритму и быстрее построить аналитическую модель.

Использование дата-озер в комплексе с ИИ помогает не просто централизованно анализировать статистику, но и отслеживать тренды на протяжении всей истории работы компании. Так, один из американских колледжей собрал сведения об абитуриентах за последние 60 лет. Учитывались данные о количестве новых студентов, а также показатели по трудоустройству и общая экономическая ситуация в стране. В результате вуз скорректировал программу так, чтобы студенты заканчивали учебу, а не бросали курсы на полпути.

Какие еще бизнес-задачи могут решать дата-озера:

Эффективно распределять ресурсы, чтобы избежать дефицита товара в периоды пикового спроса.

Строить более точные прогнозы и предугадывать тренды, а также запускать инновационные продукты раньше конкурентов.

Сегментировать аудиторию и определять интересы даже самых нишевых групп.

Строить более подробные и точные отчеты, которые помогут улучшить показатели и повысить производительность.

Более эффективно настраивать алгоритмы продвижения и рекомендательные системы.

Экономить ресурсы на производстве или в лаборатории — даже если это комплексная структура вроде ЦЕРНа.

Впрочем, озера используют не только в бизнес-среде — например, в начале пандемии AWS собрала в едином репозитории сведения о COVID-19: данные исследований, статьи, статистические сводки. Информацию регулярно обновляли, а доступ к ней предоставили бесплатно — платить нужно было только за инструменты для аналитики.

Data lakes нельзя считать универсальным инструментом и панацеей, но в эпоху, когда данные считаются новой нефтью, компаниям важно искать разные пути исследования и применения big data. Главная задача — это централизация и консолидация разрозненных сведений. В эпоху микросервисов и распределенных команд часто возникают ситуации, когда один отдел не знает, над чем работает другой. Из-за этого бизнес тратит ресурсы, а разные специалисты выполняют одинаковые задачи, часто не подозревая об этом. В конечном итоге это снижает эффективность и перегружает «оперативную систему» компании. Как показывают опросы, большинство компаний инвестирует в озера данных как раз для повышения операционной эффективности. Но результаты превосходят ожидания: у ранних адептов технологии выручка и прибыль растут быстрее, чем у отстающих, а главное, они быстрее выводят на рынок новые продукты и услуги.

Комментарии
RSS
Комментарий удален
02:44
+2
А можно поподробней, как работает BigQuery? Я думаю всем будет полезно. Я точно знаю про Redshift, Azure DW и Snowflake.
02:48
+1
Это очень большая тема. И в одном абзаце не напишешь пожалуй. Там, как и везде наверное, огромное количество нюансов, ограничений и прочих тонкостей.
Если очень обобщённо и упрощённо, то платить нужно за хранение данных и за чтение данных (во время запросов). На самом деле там ещё куча всего, за что нужно платить (и куча всего бесплатно), но эти две вещи на поверхности.
cloud.google.com/bigquery/pricing
Если говорить о хранении данных (тупо, глупо и в лоб), то
cloud.google.com/bigquery/pricing
и
cloud.google.com/storage/pricing
И, взяв первый же вариант (US Multi Region), то хранение будет стоить (в месяц)
BigQuery — $0.020 per GB
Standard Storage — $0.026 per GB
То есть BigQuery как бы дешевле…
Запросы — $5.00 per TB прочитанных данных

У меня получались запросы, которые стоили по несколько десятков долларов, но это редкость.

На тему скорости — если интерактивный запрос выполняется дольше 30 — 40 секунд (независимо от объёма данных), то я бы остановил его и стал бы думать, а что я собственно делаю (не так).

Что касается того, что можно покупать заранее (в BigQuery) — то это слоты (для запросов) — cloud.google.com/bigquery/docs/slots — но это для больших потребителей (сам никогда не использовал, но наверное кто-то использует).

И ещё нужно помнить про ограничения — cloud.google.com/bigquery/quotas

Если у вас более конкретные вопросы — напишите в googlecloud-community.slack #bigquery channel. Я ежедневно его просматриваю, и, если могу помочь, то отвечаю.
Ваш комментарий
Загрузка...
Вам может быть интересно
70 процентов ведущих мировых поставщиков коммерческих IT-продуктов занимаются разработкой пилотных проектов в сфере технологии распределенного реестра. К таким выводам пришли в своем недавнем ...
Предыдущие несколько лет в дискуссиях разработчиков DST Global о тенденциях циф...
Специалисты DST Global (dstglobal.ru) провели исс...

Новые комментарии

Хорошая статья и комментарии, полезные советы, но я бы добавил. 1. Формы должны быть короткими Когда пользователь посещает ваш сайт, естест...
Я не поняла на счет «черного и белого». На счет догм было же уже написано в начале моего коммента. Про начальников — что я имела ввиду — разработ...
Алгоритм Mobile First влияет на поисковую выдачу не только во время мобильного серфинга, но и при использовании десктопных устройств. Основная и мобил...
Есть и еще один совет. Обязательно оставляйте на странице «воздух». Должна быть очевидная, естественная навигация без отвлекающих факторов (таких как ...

Заявка на услуги DST

Наш специалист свяжется с Вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.

Россия, Москва

Комсомольский пр-т, д.28

8 800 5508827
Заказать звонок

Режим работы: Пн-Пт 10:00-19:00

info@dstglobal.ru

Задать вопрос по почте

Укажите ваше имя
Укажите ваше email
Укажите ваше телефон