Современный стек данных

Будучи дата-инженером, работавшим в самых разных компаниях, в том числе и в DST Global, я достаточно часто использовал Microsoft SQL Server. В этом разделе я расскажу Вам о проблемах, возникающих при работе с этой традиционной системой, с которыми мне довелось столкнуться. Позже мы рассмотрим, как современный стек данных (MDS) справляется с большинством этих трудностей; многие из них стали для меня настоящим открытием!

Масштабирование

Традиционные развертывания SQL Server часто использовали локальные серверы, а это означало, что масштабирование с учетом растущих объемов данных требовало значительных инвестиций в оборудование и могло привести к длительным простоям во время обновлений. Более того, когда у нас стало меньше данных, у нас оставалось все это дополнительное оборудование, которое, по сути, нам было не нужно. Но мы все равно платили за него. Это все равно, что платить за целый автобус, хотя нужно всего лишь несколько мест…

Сложные ETL- процессы

SSIS широко использовался для работы с ETL — процессами. Безусловно, это был достаточно мощный инструмент, но и он во многом имел ограниченный функционал, особенно по сравнению с более современными решениями по интеграции данных. Примечательно, что Microsoft SQL Server решил большинство этих ограничений с помощью Azure Data Factory и SQL Server Data Tools (SSDT):

— Звонки по API: с самого начала SSIS не работал со звонками по API. Для работы с веб-сервисами нужны были сложные скрипты, что значительно усложняло ETL – процессы;
— Распределение памяти: задания SSIS требуют внимательного управления памятью. Без достаточного количества серверной памяти сложные задания с данными становились просто невыполнимыми;
— Аудит: для мониторинга и устранения неполадок требовался серьезный аудит пакетовSSIS, что увеличивало объем работы с данными;
— Контроль версий: в ранних версиях SSIS возникали проблемы с интеграцией системы контроля версий, что затрудняло отслеживание изменений и негативно сказывалось на эффективности работы команды специалистов в обрасти данных;
— Работа с несколькими платформами: управление SSIS из систем, отличных от Windows, было достаточно сложной задачей, поскольку этот инструмент был ориентирован исключительно на Windows.

Техническое обслуживание

Обслуживание локальных серверов требовало значительных ресурсов и рабочего времени. Я помню, как много усилий и времени требовалось для того, чтобы обеспечить бесперебойную работу систем, которая зачастую сопровождалось нежелательными простоями.

Интеграция

Интеграция SQL Server с новыми инструментами и платформами не всегда проходила гладко. Для решения этой задачи приходилось в буквальном смысле ломать голову, что в значительной степени усложняло нашу архитектуру данных.

Как современный стек данных помог мне справиться со всеми этими трудностями

Современный стек данных (Modern Data Stack, MDS) позволил справиться со множеством трудностей, с которыми мне приходилось сталкиваться в процессе работы с SQL Server. Теперь для хранения данных мы смогли использовать облачные технологии, иными словами нам больше не нужно было тратиться на дорогостоящие серверы, которые не всегда были нам нужны. Получать данные из разных источников стало намного проще, поскольку появились инструменты, делающие все за нас. Сложное кодирование стало пережитком прошлого.

Когда нужно было отсортировать или очистить данные, мы могли делать это непосредственно в БД с помощью самых простых команд. Это позволило избежать головной боли, связанной с управлением большими серверами или «копанием» в Big Data в поиске крошечной ошибки.

Так что с помощью MDS мы смогли сэкономить уйму времени и смогли. Как будто у нас появились умные помощники, которые взяли на себя решение самых сложных задач, а мы смогли сосредоточиться на самом главном — изучении того, что говорят нам данные, и получении полезных инсайтов.

Компоненты MDS

MDS состоит из нескольких уровней, каждый из которых оперирует специализированными инструментами, которые в совокупности позволяют оптимизировать процессы обработки данных.

— Загрузка и интеграция данных — извлечение и загрузка данных из различных источников, включая API, базы данных и SaaS-приложения. Инструменты интеграции: Fivetran, Stitch, Airbyte, Segment и т.д.

— Хранение данных — современные облачные хранилища данных и озера данных предлагают масштабируемые, гибкие и экономически эффективные решения для хранения данных. Облачные хранилища данных: Google Bigquery, Snowflake, Redshift и т.д.

— Преобразование данных — такие инструменты, как dbt (data build tool), позволяют выполнять преобразования данных непосредственно в хранилищах данных с помощью простого SQL.

— Аналитика данных и BI — аналитические решения и BI инструменты позволяют исследовать данные гораздо быстрее и эффективнее, визуализировать их и обмениваться информацией в рамках всей организации. BI инструменты: Tableau, Looker, Power BI, Good Data

— Извлечение данных и обратный ETL — позволяет организациям оперативно использовать данные, загружая их в бизнес-приложения, что позволяет оперативно принимать решения на основе проверенных данных. Инструменты обратного ETL: Hightouch, Census

— Оркестрация данных — платформы, позволяющие автоматизировать рабочие процессы обработки данных. Инструменты оркестрации данных: Airflow, Astronomer, Dagster, AWS Step Functions

— Data Governance и безопасность данных — Data governance уделяет особое внимание управлению доступа к данным, а также обеспечению строгого соответстивия нормативным требованиям, а также требованиям в области защиты данных. С помощью Data Governance можно легко организовать активы данных. Инструменты организации данных: Alation, Collibra, Apache Atlas.

— Качество данных — обеспечивает надежность и точность данных благодаря их своевременной проверки и очистки, что позволяет быстрее принимать решения на основе данных. Инструменты обеспечения высокого качества данных: Talend, Monte Carlo, Soda, Anomolo, Great Expectations

— Моделирование данных — помогает в разработке схем баз данных, обеспечивает гибкость архитектуры данных. Инструменты моделирования данных: Erwin, SQLDBM

MDS и более эффективное управление затратами

MDS – это фантастика! Он определенно ускоряет работу с данными и избавляет data – инженеров от изнуряющей головной боли. Несмотря на то, что он дает нам возможность применять в свой работе крутейшими инструментами, все — таки по прежнему важно следить за расходами. Облачные технологии с оплатой по факту использования — это здорово, поскольку что мы платим только за то, что используем. Но, как и в случае с оплатой услуг связи, необходимо рационально подходить к своим потребностям в области использования облачных технологий. Поэтому, наслаждаясь головокружительным функционалом MDS, очень важно должны следить за тем, как именно мы его используем. Если Вы не хотите, чтобы предъявленный счет за предоставленные услуги не стал для Вас неприятной неожиданностью, внимательно следите за используемыми инструментами и внимательно взвешиваете все за и против их использования в своей работе.

Комментарии и отзывы экспертов

6 комментариев

RSS

Петр Широков

04.05.2025 12:14

# ↓

Современный стек данных (Modern Data Stack, MDS) — это совокупность инструментов для интеграции данных, которые позволяют организациям собирать, обрабатывать, хранить и анализировать данные.

Некоторые компоненты современного стека данных:

— Источник данных. Это различные источники, такие как базы данных или сторонние приложения, которые содержат необработанные данные.
— Инструменты конвейера данных. Они собирают и перемещают данные из источников данных.
— Хранилище данных. Это облачное решение для хранения данных, в котором хранятся все организованные данные, собранные из источника данных с помощью инструментов конвейера данных.
— Инструменты преобразования данных. Они помогают преобразовать необработанные данные в модель данных, которая позволяет аналитикам извлекать из них ценную информацию.
— Платформы для анализа данных. Они должны содержать гибкую визуализацию, быть доступными и легко интерпретируемыми для всех пользователей.

Некоторые характеристики современного стека данных:

— Масштабируемость. Позволяет организациям легко увеличивать или уменьшать масштаб в соответствии с потребностями проекта.
— Эффективность. Интеграция облачных платформ помогает сэкономить время и ресурсы.
— Гибкость. Позволяет компаниям добавлять или удалять сервисы в стеке данных без необходимости настраивать систему с нуля.
— Экономическая эффективность. По сравнению с собственными решениями снижение стоимости облачных технологий помогает повысить экономию средств.

Современный стек данных предназначен для обработки больших объёмов данных, обеспечивая масштабируемость, гибкость и возможности обработки в реальном времени.

Арсений Сычев

04.05.2025 12:15

Современный стек данных отражает эволюцию управления данными, переход от традиционных монолитных систем к более гибким облачным архитектурам. Современный стек данных предназначен для работы с Big Data, обеспечивая масштабируемость, гибкость и возможность обработки данных в режиме реального времени. Он является модульным, что позволяет организациям использовать специализированные инструменты для каждого этапа обработки данных: сбор данных, хранение, преобразование и анализ данных. Поскольку компании уделяют большое внимание принятию решений, основанных исключительно на данных, современный стек данных является неотъемлемой частью процесса получения практических знаний, выработки лучших практик и внедрения передовых инноваций.

Александр Ткачев

04.05.2025 12:17

Илья Ряжин

28.05.2025 11:39

Какие преимущества даёт использование объектного хранения в современном стеке данных?

Георгий Тонкаев

28.05.2025 11:41

# ↑ ↓

Использование объектного хранения в современном стеке данных предоставляет несколько ключевых преимуществ:

Масштабируемость: объектное хранение позволяет легко масштабировать систему, что особенно важно при работе с большими объёмами данных.

Производительность: современные объектные СХД обеспечивают высокую производительность, что позволяет эффективно обрабатывать и анализировать данные.

Гибкость: лучшие в своём классе объектные СХД могут быть развёрнуты в различных инфраструктурах, что подчёркивает важность программно-определяемых систем хранения.

Интеграция с другими элементами стека: объектное хранение легко интегрируется с элементами остальной части стека, служа основой для архитектуры озёр-хранилищ (lakehouse).

Автотрейд

28.05.2025 11:42

Использование объектного хранения в современном стеке данных предоставляет ряд преимуществ, которые связаны с масштабируемостью, быстродействием и управлением метаданными.

Масштабируемость

Объектные хранилища позволяют увеличивать объём данных по мере роста информации без необходимости модернизации оборудования. Это достигается за счёт распределённой архитектуры, где данные распределяются между несколькими узлами.

Например, облачные объектные хранилища (например, S3) поддерживают «эластичное масштабирование»: ресурсы предоставляются по запросу, а оплата обычно идёт только за использованные ресурсы.

Быстродействие

Благодаря простой структуре данных и эффективной индексации объектное хранилище обеспечивает высокую скорость операций чтения и записи. Это важно для приложений с высокой нагрузкой.

Кроме того, географическое распределение серверов хранилища может использоваться как сеть доставки контента (CDN), что ускоряет загрузку данных для пользователей по всему миру.

Управление метаданными

Каждый объект в объектном хранилище сопровождается подробным набором метаданных, которые описывают его свойства (тип контента, дата создания, размер и т. д.). Это упрощает управление данными: метаданные позволяют организовывать информацию по атрибутам и категориям, улучшать индексацию.

В некоторых реализациях объектного хранилища поддерживается управление версиями объектов, что позволяет сохранять указатели на предыдущие версии и выбирать конкретную версию для чтения.

Примеры применения

Объектные хранилища используются в различных сферах, например:
— Электронная коммерция — для хранения изображений товаров, пользовательских данных и логов активности.
— Медиа и развлечения — для работы с мультимедиа-контентом, например, платформами потокового видео, подкастов и онлайн-курсов.
— ИТ и разработка — для тестирования, хранения логов и резервных копий.
— Финансовый сектор — для хранения клиентских данных, аналитики и отчётности.
— Образование и исследования — для управления большими массивами данных, включая учебные материалы, результаты экспериментов.

Заявка на услуги DST

Адрес

8 495 1985800

info@dstglobal.ru

Адрес

8 495 1985800

info@dstglobal.ru