Что такое DWH?

Многим из нас периодически приходилось слышать три магические буквы DWH. Давайте посмотрим, что это такое и чем отличается DWH от обычных баз данных.

DWH расшифровывается как data warehouse, из чего легко догадаться, что аббревиатура имеет отношение к данным. Однако DWH отличается от простых баз данных. По сути, data warehouse — это склад данных, причем данных, которые нужны и важны для принятия решений в компании. Но, согласитесь, СУБД тоже содержат важные данные о клиентах, складских запасах, покупках и пр. Так где же граница между DWH и обычной БД?

Разница следующая:

Типы хранимых данных. Простые СУБД хранят данные строго для конкретных подсистем. То есть БД склада хранит данные о складских запасах и ничего более. Если это БД отдела кадров, то тут хранятся данные по персоналу, но уж точно не данные о товарах и сделках. Что касается DWH, то тут обычно хранится информацию разных подразделений, то есть данные и по складу, и по товарам, и по сделкам, и по персоналу.

Объемы данных. Простая база данных, которую ведут в рамках стандартной деятельности компании, включает в себя лишь актуальную информацию, то есть данные, нужные в текущий момент времени для функционирования конкретной системы. А вот в DWH пишут не столько копии актуальных состояний, сколько агрегированные значения и данные исторического характера. К примеру, это могут быть запасы различных категорий товаров за последние 5 лет. Или полные данные по сделкам и продажам. В общем все данные, имеющие критическое значение для бизнеса.

Место в рабочих процессах. Как правило, поступающая информация сразу попадает в рабочие БД, а уже оттуда часть записей поступает в DWH. То есть склад данных, по большему счету, отражает состояние других баз данных и бизнес-процессов в компании, причем эти данные отражаются после того, как будут внесены изменения в рабочих БД.

Делаем вывод

Говоря простыми словами, DWH представляет собой систему данных, которая отделена от оперативной системы обработки данных в компании. То есть речь идет о корпоративных хранилищах, где хранятся архивные данные в удобном для анализа виде. Как было сказано выше, это могут быть данные из разных, порой даже очень разнородных источников. При этом данные перед сохранением предварительно обрабатываются. Из загрузка осуществляется вследствие ETL-процессов по извлечению, преобразованию и загрузке. Если же сказать совсем упрощенно, то решения ETL и DWH — это единая система, предназначенная для хранения корпоративной информации и работы с ней.

Структура DWH

Data Warehouse представляет собой единое корпоративное хранилище архивных данных из различных источников (департаментов, систем и т. д.). Цель такого хранилища — предоставить возможность принимать верные решения по управлению бизнесом, основываясь на целостной информационной картине. То есть в описываемом нами случае данные из различных систем хранятся не разрозненно, а целиком, что, по сути, консолидирует наиболее важную бизнес-информацию, плюс позволяет подготавливать качественные отчеты в автоматическом режиме.

DWH-хранилище – это сложная технология, имеющая непростую архитектуру. В этой архитектуре можно выделить нескольких уровней:

1. Область по сбору первичных данных. Именно сюда поступает информация из различных отделов компании и баз данных.

2. Ядро. Здесь разрозненная информация, которая поступает в хранилище, структурируется и приводится к нужным ключам/нужному виду. Как раз на этом этапе обеспечивается целостность и полнота данных.

3. Витрины аналитики. На третьем уровне данные преобразуются в в такие структуры, с какими будет удобнее работать при решении конкретных задач. Сами по себе витрины бывают первичные (они помогают решать довольно простые задачи) и вторичные (для решения нетиповых задач, составления сложных аналитических отчетов и т. п.).

4. Сервисный слой. Этот слой отвечает за управление 3-мя предыдущими. Он не имеет никаких сведений, зато управляет ими и производит аудит. С его помощью обеспечивается мониторинг данных, а также оперативное устранение ошибок.

Разрабатывать DWH-решения должны только опытные специалисты, обладающие глубокими профессиональными знаниями, для этого Вы можете обратиться в компанию DST Global. Только в этом случае можно получить относительно простой, но эффективный в применении продукт.

Тенденции развития рынка DWH

Специалисты DST Global считают, что к 2025 году рынок хранилищ данных (Data Warehouse) превысит $30 млрд. Такой рост объясняют не только повсеместным внедрением DWH в целях управления большими данными, но и увеличением объемов инвестиций в облачные платформы. Но причем здесь облачные технологии, и какие еще тенденции характерны для BigData? Давайте разбираться.

Облачные решения — катализатор роста спроса на DWH

Большие инвестиции, направленные на внедрение облачных платформ, соответствующим образом повышают и спрос на решения для хранения данных. Все дело в том, что локальное оборудование заметно отстает от актуальных требований к вычислительным мощностям/объемам хранения, в результат чего многие компании и делают выбор в пользу облачных технологий. И это неудивительно, ведь в облаке можно хранить, по сути, неограниченные объемы данных, получая при этом практически любые вычислительные мощности, причем получить их можно, что называется, по требованию.

Рост интереса к гибридным решениям по хранению данных

Тенденция такова, что ожидается рост и рынка соответствующих гибридных решений, причем на 15 % в год. Множество компаний, решая модернизировать существующие системы, выбирают интеграцию облака со своей локальной инфраструктурой. В итоге получается своеобразный симбиоз: с одной стороны - гибкость и масштабируемость облаков, с другой -- сохранение возможности локального хранения части данных.

Преимущества неструктурированных данных сохраняется

В 2018 году сегмент неструктурированных данных занимал значительную часть рынка. По прогнозам специалистов, такая ситуация сохранится, поэтому можно услышать цифры в районе 65 % в 2025 году. Да и сами компании прекрасно понимают экономический потенциал неструктурированных данных, ведь эти данные, полученные из различных источников (соцсетей, электронной почты, геолокации, истории поиска) оказывают существенную помощь в разработке стратегии для роста бизнеса.

Data mining — важное направление развития

Этот сегмент тоже развивается в пределах 10 % в год. На практике компании применяют интеллектуальный анализ в целях поиска важной информации в громадном количестве корпоративных данных. При этом новые Data mining-инструменты позволяют:

- обнаруживать мошенников;

- сегментировать клиентов;

- выполнять корпоративное наблюдение.

DWH и крупные компании

Так как с каждым годом увеличиваются объемы корпоративных данных и соответствующие бюджеты, то возникает повышенный интерес к внедрению DWH-решений, особенно среди крупных компаний. Следовательно, данный сегмент рынка может расти приблизительно на 10 % в год.

Где больше всего будут работать с данными по мнению специалистов DST Global?

Ожидается, что речь идет о здравоохранении, причем говорят о 15%-ном ежегодном росте. Все дело в том, что по причине повсеместной цифровизации медучреждения стали сталкиваться с проблемой управления данными. Применение DWH позволяет более эффективно использовать данные в следующих целях:

- автоматизированный мониторинг состояния пациентов;

- диагностика заболеваний;

- разработка новых лекарств.

Как DWH-решения помогают бизнес-аналитике?

Благодаря DWH, бизнес-аналитики могут перевести управление компанией из искусства в науку. И это неудивительно, ведь наличие под рукой результатов измерений по сотням показателей дает возможность выдвигать различные гипотезы и ставить эксперименты. При этом правильность решений убедительно подтверждается объективными цифрами, которые получают бизнес-аналитики из DWH.

Пример из практики

Давайте представим, что в вашем интернет-магазине упала выручка. Менеджеры зовут бизнес-аналитика с просьбой разобраться в проблеме. Аналитик идет в DWH, вынимает данные по продажам/выручке/числу пользователей/расходам, в результате чего формирует отчет, который уже подробно и с цифрами покажет причины случившегося. Менеджеры изучают информацию и принимают обоснованные решения по маркетинговой политике, изменении ассортимента товаров и т. п.

А что, если бы вышеупомянутого аналитического отчета не существовало? Вопрос риторический, т. к. менеджерам пришлось бы решать проблему чуть ли не наугад.

Логично задать следующий вопрос: а зачем держать для всего этого DWH? Ведь всегда можно зайти в БД различных систем, просто выдернув оттуда все, что надо. Да, так можно, но не нужно. Причины следующие:

1. Доступ к необходимым данным. Когда компания большая, то для получения данных из различных источников придется собирать разрешения на доступы. Есть разные подразделения, каждое из которых имеет свои БД и пароли, которые запрашиваются отдельно. В DWH все проще, т. к. все необходимое всегда под рукой и в готовом виде. Ты просто идешь и дергаешь нужную статистику.

2. Сохранность данных. В DWH данные не теряются, плюс хранятся в виде, который удобен для принятия решений: в наличии как исторические записи, так и агрегированные значения. В операционной БД такой информации может не быть. К примеру, вряд ли админы будут хранить на складском сервере десятилетний архив запасов. А вот в DWH это нормально.

3. Устойчивость работы бизнес-систем. DWH можно оптимизировать для работы бизнес-аналитиков, которые могут запрашивать весьма и весьма большие объемы информации. Когда это делается посредством DWH, запрос может обрабатываться долго, но это ни для кого не проблема. Когда это делается посредством боевой БД сервера, возможны отказы и проблемы для остальных систем. Короче говоря, DWH исключает риск, что бизнес-аналитики что-то сломают или "подвесят".

И еще один штрих

Вообще, стоит сказать, что оптимальные управленческие решения — это ведь далеко не всегда максимизация прибыли. Здесь и создание новых производственных мощностей, и минимизация отрицательного влияния на экологию, и повышение качества жизни сотрудников, и лояльность клиентов, и, как следствие, стабильность бизнеса в долгосрочной перспективе. На первый взгляд речь идет об эфемерных показателях, однако на деле их можно анализировать посредством BI и данных, полученных из DWH.

Вывод прост: в современном мире, если у вас нет DWH и аналитиков то Вы можете обратиться в компанию DST Global (dstglobal.ru), иначе управление бизнесом становится слепой ездой по льду — при определенной сноровке вы, может, и попадете куда надо, однако вероятность улететь в сугроб либо врезаться в столб весьма и весьма высока. 

Что такое DWH?
Получить консультацию у специалистов DST
Напишите нам прямо сейчас, наши специалисты расскажут об услугах и ответят на все ваши вопросы.
Комментарии
RSS
14:21
+1
Большое спасибо за статью, хорошее структурирование подходов, хочу ее показать коллегам, чтобы не пересказывать своими словами плюсы подхода именно в контексте гибкости.
12:25
Мы пришли к такому взгляду на DWH как на продукт, у которого есть два типа пользователей:

Те, кто производят данные. Это более технические пользователи — аналитики-контрибьюторы и инженеры, которые загружают данные и строят над ними отчёты.

Те, кто используют данные. Менеджеры продукта и аналитики, которые ищут данные, проверяют гипотезы и отвечают на вопросы бизнеса.

Сейчас мы собираем данные в DWH более чем из сотни внутренних и внешних источников. Наше хранилище выросло до 1 Pb, мы по-прежнему используем Vertica, к которой добавился ClickHouse, куда мы вынесли весь ClickStream. Для визуализации используем Tableau, сейчас в нём порядка 3300 отчётов. У нас 300 внутренних пользователей и около 50 сервисов, которые получают и используют данные из хранилища автоматически.

То, куда мы хотим двигаться дальше, можно описать в двух словах: демократизация аналитики. Мы хотим, сделать так, чтобы работа с данными и принятие решений на данных было как можно проще для высокоуровневых пользователей. Для этого мы будем продолжать развивать и продвигать концепцию self-service и доведём ETL и систему пересчётов до того уровня, чтобы все пользователи могли сделать простую задачу самостоятельно.

Другая важная проблема связана с доверием к данным. Мы хотим сделать понятный и прозрачный критерий доверия, который будет иметь численное отражение в системе. Третье направление, куда мы идём, связано с realtime-аналитикой. Мы уже очень хорошо умеем строить аналитику T-1, но этого недостаточно. Мы сняли технические блокеры с этой задачи, внедрив ClickHouse, но дальше предстоит внедрение продуктового применения наших решений.

Мы планируем развивать аналитику под ключ, ведь Авито ещё больше растёт, и у нас появляются всё более крупные бизнес-юниты. У них могут отличаться SLA и они могут требовать своей инфраструктуры. Также хотим развивать внутреннюю IDE для работы с данными, написания запросов и скриптов. А чтобы бороться с проблемами, которые вызывают рост и масштабирование, а также поддерживать отказоустойчивость инфраструктуры, планируем рассмотреть разные облачные решения и работу с холодными данными из других систем.
Вам может быть интересно
Узнайте о преимуществах от разработчиков компании DST Global о запуске распределенных баз данных в Kubernetes в эпоху искусственного интеллекта.Облачные технологии открыли новую эру требований к ...
Oracle — самая популярная база данных в мире. Благодаря функциональности е...
В этом комплексном сравнении от разработчиков комп...
: создание эффективных практик разработки и обслуж...
В этой статье рассматривается, что такое потоковая...
В обычных базах данные хранятся в структурированно...
Базы данных (БД) — способ хранения и организ...
В этой статье cпециалисты компании DST Global срав...
Узнайте от разработчиков DST Global, как интеграци...

Новые комментарии

Я использую DST Platform для управления нашим интернет-магазином, и могу с увере...
Работа с DST Platform стала для нашей компании настоящим прорывом. Мы создали ма...
Мы использовали эту платформу для создания корпоративного сайта и социальных сет...

Заявка на услуги DST

Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.

Адрес

Ижевск, ул. Воткинское шоссе, д. 170 Е, Технопарк Нобель, офис 1117

8 495 1985800
Заказать звонок

Режим работы: Пн-Пт 10:00-19:00

info@dstglobal.ru

Задать вопрос по почте

Укажите ваше имя
Укажите ваше email
Укажите ваше телефон