Озера данных vs обычные БД

Data lake — огромное хранилище, где данные хранятся в неупорядоченном и необработанном виде. Данные в Data lake можно сравнить с рыбой в озере, которая приплыла из реки. Вы не можете точно сказать, какая рыба в озере есть и где конкретно она находится. А чтобы ее приготовить (обработать данные), эту рыбу еще нужно поймать.

Итак, Data lake принимает любые файлы и любых форматов, причем источник данных тоже не имеет значения. При этом могут приниматься данные из CRM- либо ERP-систем, а также банковских программ, продуктовых каталогов, датчиков, умных устройств и т. д., то есть любых систем, которые сегодня использует бизнес.

Когда эти данные сохранены, вы можете с ними работать, извлекая по определенному шаблону в классические БД либо анализируя и обрабатывая непосредственно прямо внутри Data lake (в этих целях можно использовать, к примеру, Hadoop).

Таким образом, ключевым отличием озер данных от стандартных БД является структура. Если в БД хранятся лишь четко структурированные данные, то в озерах — неструктурированные данные, которые никак не систематизированы и не упорядочены.

Пример

Представьте, что у нас есть некий пул данных, и этих данных довольно много. В случае с классической БД нам надо определить тип имеющихся данных, проанализировать их, потом структурировать. Лишь после выполнения всех этих действий мы сможем записать данные в четко определенное место в БД. А потом создать алгоритм, который будет работать с конкретными ячейками (мы же знаем, что и в каких ячейках хранится).

В случае с озером данных все обстоит иначе: информация структурируется на выходе, то есть в тот момент, когда нам потребуется извлечь данные либо их проанализировать. Причем анализ сам по себе никак не влияет на данные в озере — они так и останутся неструктурированными.

Говоря простым языком, озеро данных — это жесткий диск, где хранятся все, имеющиеся у вас файлы. База данных — это таблица, где все эти файлы учтены.

Другие различия:

Полезность данных. В БД все данные актуальны для компании, то есть полезны, причем прямо сейчас (бесполезные данные отсеивают и удаляют). В озерах данных хранят и полезные, и бесполезные данные, которые могут как пригодиться в ближайшем будущем, так и не пригодиться вовсе.

Типы данных. В БД хранятся таблицы, имеющие конкретные цифры и текст, т. е. распределенные по структуре. В озерах — любые данные: аудио, видео, картинки, файлы, документы и т. п.

Гибкость. Гибкость классической БД невысока, а актуальные для нее типы данных, как и структуру, надо определять еще на старте. Когда появляются данные новых форматов, БД надо перестраивать. У озер же гибкость максимальна, ведь заранее определять ничего не надо, как и перестраивать при появлении данных нового формата.

Цена. Обслуживание БД стоит недешево, особенно если речь идет о хранении большого объема данных. Организация сложной инфраструктуры, фильтрация — все это стоит денег. В этом плане Data lake дешевле, ведь платить надо лишь за занятые гигабайты.

Доступность данных и их понятность. А вот тут уже плюс на стороне БД, ведь данные в базе способны прочитать и понять практически любые сотрудники компании. Что касается Data lake, то тут для структуризации данных в озере нужны специально подготовленные техспециалисты (Data Scientists/Engineers).

Сценарии применения. Классические БД идеальны для хранения важной информации, к примеру, основной аналитики, которая должна быть под рукой всегда. В озерах данных лучше хранить архивы неочищенных данных, которые могут пригодиться потом. Данные можно накапливать, что называется, про запас, а не под конкретный запрос бизнеса.

Что такое озера данных и почему в них дешевле хранить big data

Сейчас все вокруг твердят про пользу big data. В итоге бизнес пытается работать с масштабными базами данных, но сталкивается с проблемой — все данные разнородные и неструктурированные, перед загрузкой в базы их нужно долго обрабатывать. В итоге работа с big data оказывается слишком сложной и дорогой, а часть данных теряется, хотя могла бы принести пользу в будущем.

Помочь с этим могут data lake — озера данных, которые помогают быстро и недорого работать с большими объемами неструктурированных данных. Расскажем о их особенностях, ключевых отличиях озер от обычных баз данных и о сферах, в которых они будут наиболее полезны.

Что такое data lake

На русский язык data lake переводится как «озеро данных». Оно представляет собой огромное хранилище, в котором разные данные хранятся в «сыром», то есть неупорядоченном и необработанном виде. Данные в data lake как рыба в озере, которая попала туда из реки, — вы точно не знаете, какая именно там рыба и где она находится. А чтобы «приготовить» рыбу, то есть обработать данные, ее нужно еще поймать.

Мы в своей жизни чаще всего сталкиваемся именно с неструктурированными данными. Видеоролики, книги, журналы, документы Word и PDF, аудиозаписи и фотографии — все это неструктурированные данные, и все они могут хранится в Data Lake.

Как работает озеро данных

Data lake — это огромное хранилище, которое принимает любые файлы всех форматов. Источник данных тоже не имеет никакого значения. Озеро данных может принимать данные из CRM- или ERP-систем, продуктовых каталогов, банковских программ, датчиков или умных устройств — любых систем, которые использует бизнес.

Уже потом, когда данные сохранены, с ними можно работать — извлекать по определенному шаблону в классические базы данных или анализировать и обрабатывать прямо внутри data lake.

Для этого можно использовать Hadoop — программное обеспечение, позволяющее обрабатывать большие объемы данных различных типов и структур. С его помощью собранные данные можно распределить и структурировать, настроить аналитику для построения моделей и проверки предположений, использовать машинное обучение.

Еще одним примером инструмента обработки данных в data lake являются BI-системы, помогающие бизнесу решать задачи углубленной аналитики (data mining), прогнозного моделирования, а также визуализировать полученные результаты. Область использования многогранна — от финансового менеджмента до управления рисками и маркетинга.

«Чтобы работать с озером данных, в компании должны быть технические специалисты: Data Scientist, Data Developer, бизнес-аналитик. Такие специалисты имеют доступ к данным в data lake и могут их обрабатывать с помощью различных аналитических систем и подходов. В data lake данные можно обрабатывать без извлечения — достаточно оборудовать системы для анализа прямо внутри озера».

Чем озера данных отличаются от обычных баз данных

Ключевое отличие озер данных от обычных баз данных — структура. В базах данных хранятся только четко структурированные данные, а в озерах — неструктурированные, никак не систематизированные и неупорядоченные.

Пример: представим, что есть вольное художественное описание вашей целевой аудитории: «Девушки возрастом 20–30 лет, незамужние, обычно без детей, работающие на низких руководящих должностях. И мужчины 18–25 лет, женатые, без детей, без четкого места работы». Такое описание — неструктурированные данные, которые можно загрузить в data lake.

Чтобы эти данные о целевой аудитории стали структурированными, их нужно обработать и преобразовать в таблицу:

В классической базе данных вы должны определить тип данных, проанализировать их, структурировать — и только потом записать в четко определенное место базы данных. Мы можем создать алгоритм, который работает с конкретными ячейками, потому что четко знаем, что хранится в этих ячейках.

В случае с озером данных информацию структурируют на выходе, когда вам понадобится извлечь данные или проанализировать их. При этом процесс анализа не влияет на сами данные в озере — они так и остаются неструктурированными, чтобы их было также удобно хранить и использовать для других целей.

Если упростить, можно представить, что data lake — это ваш жесткий диск, на котором хранятся все ваши файлы. А база данных — таблица, в которой учтены все эти файлы.

Есть и другие различия между базами данных и озерами данных:

Полезность данных. В базах данных все данные полезны и актуальны для компании прямо сейчас. Данные, которые пока кажутся бесполезными, отсеиваются и теряются навсегда.

В озерах хранятся в том числе и бесполезные данные, которые могут пригодиться в будущем или не понадобиться никогда.

Типы данных. В базах хранятся таблицы с конкретными цифрами и текстом, распределенными по четкой структуре.

В озерах лежат любые данные: картинки, видео, звук, файлы, документы, разнородные таблицы.

Гибкость. У базы данных гибкость низкая — еще на старте нужно определить актуальные для нее типы данных и структуру. Если появятся данные новых форматов — базу придется перестраивать.

У озер гибкость максимальная, потому что ничего не нужно определять заранее. Если вы вдруг решите записывать новые данные, например, видео с камер для распознавания лиц, озеро не придется перестраивать.

Стоимость. Базы данных стоят дороже, особенно если требуется хранить много данных. Нужно организовывать сложную инфраструктуру и фильтрацию, все это требует денег.

Озеро данных стоит намного дешевле — вы платите исключительно за занятые гигабайты.

Понятность и доступность данных. Данные в базе легко смогут прочитать и понять любые сотрудники компании, с ними могут работать бизнес-аналитики.

Чтобы структурировать данные в озере требуются технические специалисты, например Data Scientist.

Сценарии использования. Базы данных идеальны для хранения важной информации, которая всегда должна быть под рукой, либо для основной аналитики.

В озерах данных хорошо хранить архивы неочищенной информации, которая может пригодиться в будущем. Еще там хорошо создавать большую базу для масштабной аналитики.

Кому и зачем нужны озера данных

Озера данных можно использовать в любом бизнесе, который собирает данные. Маркетинг, ритейл, IT, производство, логистика — во всех этих сферах можно собирать big data и загружать их в data lake для дальнейшей работы или анализа.

Часто озера используют для хранения важной информации, которая пока не используется в аналитике. Или даже для данных, которые кажутся бесполезными, но, вероятно, пригодятся компании в будущем.

«Data lake позволяет накапливать данные «про запас», а не под конкретный запрос бизнеса. За счет того, что данные всегда «под рукой», компания может быстро проверить любую гипотезу или использовать данные для своих целей. Например, для оптимизации логистики и эффективного управления цепочками поставок — от более детального планирования и прогнозирования объема продаж до поставок в нужном количестве, нужного качества, в нужное время с минимальными затратами».

Например, вы используете на производстве сложное оборудование, которое часто ломается. Вы внедряете IoT, интернет вещей — установили датчики для контроля за состоянием оборудования. Данные с этих датчиков можно собирать в Data Lake без фильтрации. Когда данных накопится достаточно, вы сможете их проанализировать и понять, из-за чего случаются поломки и как их предотвратить.

Или можно использовать data lake в маркетинге. Например, в ритейле и e-commerce можно хранить в data lake разрозненную информацию о клиентах: время, проведенное на сайте, активность в группе в соцсетях, тон голоса при звонках менеджеру и регулярность покупок. Потом эту информацию можно использовать для глобальной и масштабной аналитики и прогнозирования поведения клиентов.

Таким образом, озера данных нужны для гибкого анализа данных и построения гипотез. Они позволяют собрать как можно больше данных, чтобы потом с помощью инструментов машинного обучения и аналитики сопоставлять разные факты, делать невероятные прогнозы, анализировать информацию с разных сторон и извлекать из данных все больше пользы.

Исследование ANGLING FOR INSIGHT IN TODAY’S DATA LAKE показывает, что компании, внедрившие Data Lake, на 9% опережают своих конкурентов по выручке. Так что можно сказать, что озера данных нужны компаниям, которые хотят зарабатывать больше, используя для этого анализ собственных данных.

«Компании-лидеры используют передовые подходы к аналитике данных, хранящихся в data lake, например машинное обучение. Для этого подходит информация из различных источников: логи (журналы регистрации событий), данные из социальных сетей, данные с разнообразных девайсов (смартфоны, умные часы, планшеты) и другие. С помощью такого подхода к анализу данных компания может получить полезные инсайты различной природы, вывести закономерности, предположить появление тех или иных сценариев в будущем».

Чем опасны data lake

У озер данных есть одна серьезная проблема. Любые данные, попадающие в data lake, попадают туда практически бесконтрольно. Это значит, что определить их качество невозможно. Если у компании нет четкой модели данных, то есть понимания типов структур данных и методов их обработки, плохо организовано управление озером, в нем быстро накапливаются огромные объемы неконтролируемых данных, чаще всего бесполезных. Уже непонятно, откуда и когда они пришли, насколько релевантны, можно ли их использовать для аналитики.

В итоге наше озеро превращается в болото данных — бесполезное, пожирающее ресурсы компании и не приносящее пользы. Все, что с ним можно сделать, — полностью стереть и начать собирать данные заново.

Чтобы озеро не стало болотом, нужно наладить в компании процесс управления данными — data governance. Главная составляющая этого процесса — определение достоверности и качества данных еще до загрузки в data lake. Есть несколько способов это сделать:

отсекать источников с заведомо недостоверными данными;

ограничить доступ на загрузку для сотрудников, у которых нет на это прав;

проверять некоторые параметры файлов, например не пропускать в озеро картинки, которые весят десятки гигабайт.

Настроить такую фильтрацию проще, чем каждый раз структурировать данные для загрузки в базу данных. Если процесс налажен, в data lake попадут только актуальные данные, а значит, и сама база будет достоверной.

Управление данными — это не факультативная, а приоритетная задача. В компании должен быть отдельный сотрудник, ответственный за data governance. Обычно это Chief Data Officer, CDO.

«Накапливать данные в расчете “потом разберемся, зачем нужно, и поймем, как использовать” — неправильно. Потом вычленить что-то полезное из этого огромного массива абсолютно разных данных будет сложно и затратно. Поэтому при проектировании любого озера данных в первую очередь надо еще “на берегу” определиться, для каких целей его строить».

Главное о data lake — озерах данных

Data lake — это озеро данных, хранилище, в котором собрана неструктурированная информация любых форматов из разных источников.

Озера данных дешевле обычных баз данных, они более гибкие и легче масштабируются.

Озера данных можно использовать для любых целей: анализов, прогнозов, оптимизации бизнес-процессов.

Данные можно извлекать из озера по определенным признакам или анализировать прямо внутри озера, используя системы аналитики.

Если собирать слишком много данных «просто так» и никак с ними не работать, озеро может стать бесполезным болотом. Поэтому важно заранее определить, для чего именно вы собираете данные, и не накапливать их просто так. Если вы все еще не можете выбрать подход в разработке своего проекта, обратитесь к опытным разработчикам компании DST Global (dstglobal.ru), которые помогут с определением требований, планированием, разработкой и поддержкой проекта. 

Озера данных vs обычные БД
Получить консультацию у специалистов DST
Напишите нам прямо сейчас, наши специалисты расскажут об услугах и ответят на все ваши вопросы.
Комментарии
RSS
12:27
Хранилище и сервер для вычислений работают отдельно друг от друга, в этом ключевое отличие озера данных от базы данных.

В традиционных базах данных (и самых первых озерах для Hadoop) хранилище тесно связано с серверами для вычислений: хранилище встроено в сервер или сервер напрямую подключен к хранилищу.

В современной облачной архитектуре озера данных хранилище не зависит от вычислительной платформы. Данные хранят в облачном объектном хранилище — обычно в открытом формате вроде Parquet. Для вычислений используют stateless-серверы, их можно включать и отключать по необходимости.

Преимущества такого подхода:

Снижение затрат на вычисления. Серверы работают не все время, на период простоя их можно отключить и таким образом снизить затраты на эксплуатацию.
Масштабируемость. Вам не нужно приобретать оборудование с расчетом на пиковые нагрузки. Количество серверов, процессоров и модулей памяти можно увеличивать или уменьшать в зависимости от потребностей.
Автономность. Серверы и кластеры для вычислений могут одновременно читать одни и те же данные. Так что разные команды могут параллельно читать данные в одних и тех же кластерах, не мешая друг другу.
Вам может быть интересно
В статье специалистами компании DST Global обсуждается, как развивались архитектуры баз данных для обработки больших данных, облака и искусственного интеллекта, включая СУБД, NoSQL и облачные решения....
В этой статье cпециалисты компании DST Global сравнивают решения баз данных RDS ...
Узнайте от разработчиков DST Global, как интеграци...
Потоковые базы данных — это супергерои управ...
В этой статье от разработчиков компании DS Global,...
Oracle MySQL HeatWave — революционная технол...
В этой статье специалисты компании DST Global расс...
В этой статье специалисты DST Global рассматривают...
При выборе базы данных предстоит принять важное ре...
Многим из нас периодически приходилось слышать три...
Именно SRE-инженер находится в первых рядах, если ...

Новые комментарии

Раньше не хотели внедрять себе CRM систему, после того как установили DST CRM просто вынесла мозг своим функционалом, тысяча кнопок, менеджеры DST по ...
Уже зарегистрировался на Эпсилоне, соц сеть быстро развивается, оно и понятно сейчас такое время когда советы психологов да и просто людей которые аде...
Как минимум Роман искусственный интеллект — это моделирование человеческого интеллекта в машинах, которые запрограммированы на то, чтобы мыслить и учи...
Хотелось бы узнать — что может сделать искусственный интеллект для CMS? И чем это поможет администраторам и для моего бизнеса в прикладном понятии

Заявка на услуги DST

Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.

Адрес

Россия, Ижевск, ул.Салютовская,
д.1, офис 17

8 495 1985800
Заказать звонок

Режим работы: Пн-Пт 10:00-19:00

info@dstglobal.ru

Задать вопрос по почте

Укажите ваше имя
Укажите ваше email
Укажите ваше телефон