Плавная миграция к современной экосистеме данных

02.02.2024

Откройте для себя эффективные стратегии плавного перехода к современной облачной экосистеме данных и внедрения инноваций в среду данных вашей организации.

Разработчики компании DST Global активно участвовали в оказании помощи различным клиентам в их инициативах по миграции В течение последних нескольких лет и модернизации данных. Размышляя о проблемах, с которыми они столкнулись, и о ценных извлеченных уроках, специалисты DST считают, что обмен мнениями, которые могут принести пользу более широкому сообществу, имеет важное значение.

В нынешней ситуации многие организации переходят от управления локальными корпоративными хранилищами больших данных, такими как Oracle, SQL или Hadoop, к облачным решениям, таким как Snowflake, Synapse или Databricks. Этот сдвиг обусловлен такими факторами, как повышение эффективности, снижение затрат, масштабируемость и улучшение пользовательского опыта. Однако процесс миграции всей экосистемы данных из локальной среды в облако сопряжен с многочисленными проблемами и непредвиденными сценариями. Надежная стратегия обработки данных имеет решающее значение, принимая во внимание существующие системы, характер производимых данных, модели использования и конкретные требования различных отделов и сегментов пользователей. Здесь разработчики компании DST Global излагают ключевые рекомендации и соображения, которые должны стать частью вашей комплексной стратегии обработки данных.

Понимание портфеля и возможностей планирования

Крайне важно потратить время на понимание существующей ситуации, понимание задействованных инструментов и платформ обработки данных, а также сбор всех пользователей, на которых это влияет прямо или косвенно. В более крупных организациях этот шаг часто игнорируется до тех пор, пока не будет принято решение о переходе или закрытии системы, что приводит к проблемам при адаптации и обучении пользователей. Оценка требований на начальных этапах помогает планировать мощности и получать оптовые скидки для таких сервисов, как Databricks или Snowflake. Некоторыми ключевыми элементами, которые следует включить на этапе раннего планирования или обнаружения, являются предполагаемый размер данных (исторические и ежедневные объемы), источники данных (тип и формат), база пользователей с различными потребностями в данных (аналитики данных, специалисты по обработке данных, бизнес-пользователи, приложения-потребители, и т. д.), понимание потребностей в приеме и преобразовании данных, а также определение методов и моделей потребления данных.

Установите личность пользователя и стратегию доступности данных

Это предполагает определение ролей пользователей и уровней доступа на ранних стадиях процесса. Внедрение управления доступом на основе ролей (RBAC) для различных ролей, таких как администратор, инженер по данным и специалист по данным, а также создание групп домена оптимизирует регистрацию пользователей и управление ими. Кроме того, оценка требований безопасности на основе конфиденциальности данных имеет решающее значение, особенно для конфиденциальной или личной информации (PII). Выявление необходимости маскировки на уровне столбцов и определение политик маскировки данных на основе ролей пользователей повышают меры безопасности.

Услуги и инструменты

На основе первоначальной оценки вы должны сопоставить необходимые наборы инструментов и сервисы с вашими потребностями. Вот ключевые соображения:

- Какой поставщик облачных услуг — Azure, AWS, Google и т. д.

- Выбор хранилищ данных и нового хранилища — Azure Data Lake, AWS S3, Snowflake, Azure Synapse и т. д.

- Инструменты приема данных в зависимости от форматов и источников данных — Фабрика данных, конвейеры Azure Synapse, AWS Glue и т. д.

- Инструменты для ETL или ELT — Databricks, dbt, Matillion и т. д.

- Качество данных и управление данными – Purview, Collibra, Anomalo, Monte Carlo и т. д.

Задержка и соображения производительности

При создании новой экосистемы данных уделите приоритетное внимание минимизации задержек и повышению производительности для своевременной доступности данных. Оптимизируйте обработку данных с помощью распределенных вычислений, используйте потоковую передачу в реальном времени и включайте базы данных в памяти для быстрого поиска. Внедрите механизмы кэширования часто используемых данных, чтобы обеспечить быстрый доступ к востребованной информации. В совокупности эти шаги способствуют созданию гибкой и эффективной экосистемы данных.

Наблюдаемость данных и качество данных

Чтобы обеспечить надежную наблюдаемость и качество данных, рассмотрите возможность создания информационных панелей для конвейеров приема данных, проведения проверок точности с присвоенными показателями качества и реализации проверок актуальности и доступности данных. Кроме того, он включает в себя механизмы обнаружения аномалий, настройку автоматических оповещений об отклонениях, поощрение обратной связи с пользователями, выполнение регулярного профилирования данных и ведение полной документации и каталогов для наборов данных. В совокупности эти меры способствуют созданию хорошо контролируемой экосистемы высококачественных данных, которая соответствует стандартам как наблюдаемости, так и качества.

Команды/Организационная структура/Различные рабочие направления

Создание устойчивой и эффективной экосистемы данных требует тщательного рассмотрения структуры групп данных и организационных рамок. Рассмотрите возможность создания четких каналов связи и механизмов сотрудничества между группами обработки данных и другими отделами для содействия межфункциональной синергии. Определите роли и обязанности внутри групп данных, обеспечив баланс между специализацией и гибкостью. Поощряйте культуру непрерывного обучения и развития навыков, учитывая быстро развивающийся характер технологий обработки данных. Внедрите политики управления данными для обеспечения целостности и соответствия данным. Рассмотрите возможность привлечения преданных своему делу архитекторов данных, инженеров, ученых и аналитиков, чтобы обеспечить разнообразный набор навыков, соответствующий целям организации. Используйте масштабируемые и гибкие методологии для быстрой адаптации к меняющимся требованиям к данным. Регулярно оценивайте и оптимизируйте организационную структуру с учетом роста и меняющихся потребностей в данных, создавая среду, в которой приоритет отдается инновациям, сотрудничеству и эффективности в более широкой экосистеме данных.

Управление операциями с данными

Создание и эффективное управление командой L1 для операций с данными требует стратегического подхода, начиная с тщательной оценки критичности источников данных и критически важных конвейеров данных. Крайне важно определить уровень срочности и конфиденциальности, связанный с каждым компонентом данных, чтобы определить необходимость в команде L1 или группы эксплуатации и обслуживания (O&M). Установите четкие инструкции и протоколы для команды L1, определяя их роли и обязанности в мониторинге и реагировании на повседневные проблемы с данными.

Внедряйте упреждающие меры, такие как автоматические оповещения и регулярные проверки, чтобы обеспечить быстрое обнаружение и решение эксплуатационных проблем. Должны быть предусмотрены регулярные учебные занятия и механизмы обмена знаниями, чтобы команда L1 была хорошо подготовлена к решению растущих проблем с данными. Кроме того, развивайте культуру постоянного совершенствования внутри команды, поощряя обратную связь и итеративные улучшения для оптимизации эффективности операций с данными.

Вывод из эксплуатации/закат

Комплексная инвентаризация на начальном этапе обнаружения (пункт № 1 выше) должна предоставить вам существующие источники данных, приложения и инфраструктуру для выявления зависимостей и взаимозависимостей. Расставьте приоритеты миграции данных на основе критичности, начиная с некритичных для бизнеса функций, чтобы проверить эффективность новой системы. Установите поэтапный подход, постепенно выводя из эксплуатации устаревшие компоненты и проверяя целостность данных на протяжении всего процесса. Открыто общайтесь с заинтересованными сторонами, предоставляя достаточное обучение и поддержку во время перехода. Убедитесь, что новая облачная система соответствует нормативным и нормативным требованиям, и обновите документацию, чтобы точно отразить изменения. Внедрите надежные процедуры архивирования исторических данных и внимательно следите за ними, чтобы оперативно решать любые непредвиденные проблемы. Проведите тщательное тестирование и проверку перед окончательным выводом из эксплуатации и постоянно оценивайте производительность и безопасность новой системы после миграции. Такой осторожный и поэтапный подход обеспечивает плавный и успешный выход из устаревшей экосистемы данных, одновременно оптимизируя преимущества новой облачной инфраструктуры.

Пользовательский опыт и адаптация

Начните с понимания потребностей пользователей и рабочих процессов, чтобы убедиться, что новая система соответствует их ожиданиям. Разработайте интуитивно понятный и удобный интерфейс, отдавая предпочтение простоте и эффективности. Предоставляйте пользователям комплексные учебные занятия и ресурсы для ознакомления с новой экосистемой данных, предлагая постоянную поддержку через пользовательские форумы или службы поддержки. Внедрите поэтапный процесс адаптации, позволяющий пользователям постепенно акклиматизироваться. Регулярно собирайте отзывы пользователей, чтобы устранить любые болевые точки и итеративно улучшать UX. Открыто рассказывайте о преимуществах новой системы, подчеркивая улучшенные функциональные возможности и эффективность. Создайте понятную документацию и учебные пособия, которые помогут пользователям самостоятельно ориентироваться в новой экосистеме. Непрерывный мониторинг взаимодействия пользователей и обратной связи позволит своевременно вносить изменения, способствуя положительному и продуктивному пользовательскому опыту в новой экосистеме данных.

Хранение данных, архивирование, резервное копирование и аварийное восстановление

Эффективное управление хранением, архивированием, резервным копированием и аварийным восстановлением данных в новой экосистеме данных имеет решающее значение для обеспечения целостности данных и непрерывности бизнеса. Рассмотрите возможность категоризации данных на основе их критичности и требований соответствия, а также принятия решений о сроках хранения. Установите автоматизированные процессы резервного копирования для регулярного сбора и безопасного хранения данных. Внедрите надежный план аварийного восстановления, включающий регулярное тестирование и тренировки для проверки его эффективности. Определите четкую политику архивирования, определив данные, которые можно безопасно переместить в долгосрочное хранилище. Регулярно пересматривайте и обновляйте эти политики, чтобы они соответствовали меняющимся потребностям бизнеса и изменениям в законодательстве. Тщательно отслеживайте управление жизненным циклом данных, обеспечивая своевременное удаление устаревших или несоответствующих данных. Подробно документируйте все процедуры, чтобы обеспечить плавное восстановление и соблюдение стандартов соответствия. Регулярно проверяйте и обновляйте планы аварийного восстановления, политики архивирования и процедуры резервного копирования в соответствии с меняющимися потребностями бизнеса и нормативными изменениями. Этот целостный подход к управлению данными обеспечивает устойчивость, соответствие требованиям и эффективное восстановление в случае непредвиденных событий.

В дополнение к вышеизложенным соображениям крайне важно рассмотреть различные методы потребления данных, адаптированные к различным профилям пользователей. Поймите уникальные потребности аналитиков данных, ученых, бизнес-пользователей и приложений, потребляющих данные. Оценивайте и оптимизируйте механизмы доставки данных, инструменты визуализации и форматы отчетов, чтобы обеспечить подход, ориентированный на пользователя. Эта инклюзивная стратегия гарантирует, что новая экосистема данных не только соответствует техническим требованиям, но и полностью согласуется с предпочтениями и рабочими процессами различных групп пользователей.

Эти соображения служат отправной точкой для разработки комплексного плана вашей новой экосистемы данных. Разработчикам DST Global очень хотелось бы узнать о вашем опыте и проблемах, возникших на вашем пути модернизации данных. Не стесняйтесь поделиться своими мыслями или задать любые вопросы в комментариях. Ваше участие ценится.

Плавная миграция к современной экосистеме данных

Получить консультацию у специалистов DST

Заказать консультацию

Напишите нам прямо сейчас, наши специалисты расскажут об услугах и ответят на все ваши вопросы.

Нравится 273

Комментарии и отзывы экспертов

9 комментариев

RSS

Сергей Андрющенко

02.02.2024 05:17

# ↓

Как я понимаю Databricks, как и Snowflake, предлагает быструю, размещаемую на хостинге поставщика базу данных с практически бесконечными возможностями масштабирования.

Артем Высоков

02.02.2024 05:17

# ↑ ↓

Databricks — это в первую очередь Spark и сопутсвующая экосистема, плюс сейчас инструменты для всяких ML/AI/Data Science. Данные они для вас тоже могут хранить, но это необязательно — мы, например, этой функциональностью не пользуемся. Никакую БД они не предлагают — lakehouse это другое, но SQL интерфейс у этого всего есть.

Славянская Культура

02.02.2024 05:19

# ↓

У нас несколько иной опыт работы со Snowflake. Нужен был data lake, а самописное решение на Postgress/RDS уже явно не тянуло.

Ребята из Snowflake аккуратно и правильно собрали все требования и выкатили кастомизированную презентацию, которая покрывала 97% проблем. Не было никаких продаванов и левых менеджеров. Было 2 программиста-ставших-сейлсами, которые очень грамотно и четко отвечали на все проблемы либо сами сразу, либо посовещавшись с командой разработки.

Прототип запилили тоже они, причем всего за пару недель.

В итоге осталось очень приятное впечатление. Единственный неприятный момент — негибкая система кредитов по принципу «use it or loose it», которая держит на коротком поводке.

Отчасти, поэтому и ушли в итоге на BigQuery, но это уже совсем другая история…

Артем Высоков

02.02.2024 05:20

# ↑ ↓

Так в итоге и не понятно, зачем вам даталейк, если подшел в итоге вариант с реляционной ДБ

Роман Яковлев

02.02.2024 05:33

# ↓

Snowflake же просто sql engine, может и быстрый, не трогал, но запустить жава код как у бриксов с расчетами хоть ядерного синтеза не выйдет.

Рустам Шайхутдинов

02.02.2024 05:34

# ↑ ↓

Кому нужны расчеты ядерного синтеза, это бред, а sql нужен всем

Роман Яковлев

02.02.2024 05:34

# ↑ ↓

Примерно половине пользователей датабрикс нужны. тренировка моделей не сильно от расчетов ядерного синтеза отличается. или видосик разложить на кадры и прогнать через опознавание лиц через opencv.

Юрий Осипов

02.02.2024 05:48

# ↓

Если выбирать DB as a Service, то Snowflake — отличный конкурент Redshift, BigQuery. Если же надо развернуть BigData кластер в облаке, то здесь Databricks даёт готовое «скучное» решение.

Проблема в том, что «скучное» решение не подходит, когда у вас на проекте Kafka, Cassandra и HDFS. Тут уж берёте Spark и пишете нескучный BigData код.

Рустам Шайхутдинов

02.02.2024 05:49

# ↑ ↓

А почему kafka с databricks не подходит? Hdfs вы имеете в виду не в облаке, а в в своих датацентрах?

Другие публикации канала

Эволюция Developer Experience: как искусственный интеллект переосмысливает будущее разработки ПО

Тенденции облачных вычислений на 2024 год

GitOps, Kubernetes и разработка платформ

Вам может быть интересно

Аналитика медицинских данных: вызовы и решения в современной медицине

Успешная аналитика медицинских данных требует комплексного подхода, включающего очистку и интеграцию информации, обеспечение конфиденциальности и постепенное масштабирование системы. Современная медиц...

Инженерия данных

25.07.2025

Стратегия интеграции Dark Data в бизнес-процессы

Dark data — это огромные объемы неструктурированной информации, собираемой...

Инженерия данных

18.06.2025

Проектирование долговечных систем обработки данных

В этой статье вы узнаете, как четыре принципа &mda...

Инженерия данных

13.05.2025

Современный стек данных

продолжает развиваться, но он по-прежнему стремит...