Плавная миграция к современной экосистеме данных

Откройте для себя эффективные стратегии плавного перехода к современной облачной экосистеме данных и внедрения инноваций в среду данных вашей организации.

Разработчики компании DST Global активно участвовали в оказании помощи различным клиентам в их инициативах по миграции В течение последних нескольких лет и модернизации данных. Размышляя о проблемах, с которыми они столкнулись, и о ценных извлеченных уроках, специалисты DST считают, что обмен мнениями, которые могут принести пользу более широкому сообществу, имеет важное значение.

В нынешней ситуации многие организации переходят от управления локальными корпоративными хранилищами больших данных, такими как Oracle, SQL или Hadoop, к облачным решениям, таким как Snowflake, Synapse или Databricks. Этот сдвиг обусловлен такими факторами, как повышение эффективности, снижение затрат, масштабируемость и улучшение пользовательского опыта. Однако процесс миграции всей экосистемы данных из локальной среды в облако сопряжен с многочисленными проблемами и непредвиденными сценариями. Надежная стратегия обработки данных имеет решающее значение, принимая во внимание существующие системы, характер производимых данных, модели использования и конкретные требования различных отделов и сегментов пользователей. Здесь разработчики компании DST Global излагают ключевые рекомендации и соображения, которые должны стать частью вашей комплексной стратегии обработки данных.

Понимание портфеля и возможностей планирования

Крайне важно потратить время на понимание существующей ситуации, понимание задействованных инструментов и платформ обработки данных, а также сбор всех пользователей, на которых это влияет прямо или косвенно. В более крупных организациях этот шаг часто игнорируется до тех пор, пока не будет принято решение о переходе или закрытии системы, что приводит к проблемам при адаптации и обучении пользователей. Оценка требований на начальных этапах помогает планировать мощности и получать оптовые скидки для таких сервисов, как Databricks или Snowflake. Некоторыми ключевыми элементами, которые следует включить на этапе раннего планирования или обнаружения, являются предполагаемый размер данных (исторические и ежедневные объемы), источники данных (тип и формат), база пользователей с различными потребностями в данных (аналитики данных, специалисты по обработке данных, бизнес-пользователи, приложения-потребители, и т. д.), понимание потребностей в приеме и преобразовании данных, а также определение методов и моделей потребления данных.

Установите личность пользователя и стратегию доступности данных

Это предполагает определение ролей пользователей и уровней доступа на ранних стадиях процесса. Внедрение управления доступом на основе ролей (RBAC) для различных ролей, таких как администратор, инженер по данным и специалист по данным, а также создание групп домена оптимизирует регистрацию пользователей и управление ими. Кроме того, оценка требований безопасности на основе конфиденциальности данных имеет решающее значение, особенно для конфиденциальной или личной информации (PII). Выявление необходимости маскировки на уровне столбцов и определение политик маскировки данных на основе ролей пользователей повышают меры безопасности.

Услуги и инструменты

На основе первоначальной оценки вы должны сопоставить необходимые наборы инструментов и сервисы с вашими потребностями. Вот ключевые соображения:

- Какой поставщик облачных услуг — Azure, AWS, Google и т. д.

- Выбор хранилищ данных и нового хранилища — Azure Data Lake, AWS S3, Snowflake, Azure Synapse и т. д.

- Инструменты приема данных в зависимости от форматов и источников данных — Фабрика данных, конвейеры Azure Synapse, AWS Glue и т. д.

- Инструменты для ETL или ELT — Databricks, dbt, Matillion и т. д.

- Качество данных и управление данными – Purview, Collibra, Anomalo, Monte Carlo и т. д.

Задержка и соображения производительности

При создании новой экосистемы данных уделите приоритетное внимание минимизации задержек и повышению производительности для своевременной доступности данных. Оптимизируйте обработку данных с помощью распределенных вычислений, используйте потоковую передачу в реальном времени и включайте базы данных в памяти для быстрого поиска. Внедрите механизмы кэширования часто используемых данных, чтобы обеспечить быстрый доступ к востребованной информации. В совокупности эти шаги способствуют созданию гибкой и эффективной экосистемы данных.

Наблюдаемость данных и качество данных

Чтобы обеспечить надежную наблюдаемость и качество данных, рассмотрите возможность создания информационных панелей для конвейеров приема данных, проведения проверок точности с присвоенными показателями качества и реализации проверок актуальности и доступности данных. Кроме того, он включает в себя механизмы обнаружения аномалий, настройку автоматических оповещений об отклонениях, поощрение обратной связи с пользователями, выполнение регулярного профилирования данных и ведение полной документации и каталогов для наборов данных. В совокупности эти меры способствуют созданию хорошо контролируемой экосистемы высококачественных данных, которая соответствует стандартам как наблюдаемости, так и качества.

Команды/Организационная структура/Различные рабочие направления

Создание устойчивой и эффективной экосистемы данных требует тщательного рассмотрения структуры групп данных и организационных рамок. Рассмотрите возможность создания четких каналов связи и механизмов сотрудничества между группами обработки данных и другими отделами для содействия межфункциональной синергии. Определите роли и обязанности внутри групп данных, обеспечив баланс между специализацией и гибкостью. Поощряйте культуру непрерывного обучения и развития навыков, учитывая быстро развивающийся характер технологий обработки данных. Внедрите политики управления данными для обеспечения целостности и соответствия данным. Рассмотрите возможность привлечения преданных своему делу архитекторов данных, инженеров, ученых и аналитиков, чтобы обеспечить разнообразный набор навыков, соответствующий целям организации. Используйте масштабируемые и гибкие методологии для быстрой адаптации к меняющимся требованиям к данным. Регулярно оценивайте и оптимизируйте организационную структуру с учетом роста и меняющихся потребностей в данных, создавая среду, в которой приоритет отдается инновациям, сотрудничеству и эффективности в более широкой экосистеме данных.

Управление операциями с данными

Создание и эффективное управление командой L1 для операций с данными требует стратегического подхода, начиная с тщательной оценки критичности источников данных и критически важных конвейеров данных. Крайне важно определить уровень срочности и конфиденциальности, связанный с каждым компонентом данных, чтобы определить необходимость в команде L1 или группы эксплуатации и обслуживания (O&M). Установите четкие инструкции и протоколы для команды L1, определяя их роли и обязанности в мониторинге и реагировании на повседневные проблемы с данными. Внедряйте упреждающие меры, такие как автоматические оповещения и регулярные проверки, чтобы обеспечить быстрое обнаружение и решение эксплуатационных проблем. Должны быть предусмотрены регулярные учебные занятия и механизмы обмена знаниями, чтобы команда L1 была хорошо подготовлена к решению растущих проблем с данными. Кроме того, развивайте культуру постоянного совершенствования внутри команды, поощряя обратную связь и итеративные улучшения для оптимизации эффективности операций с данными.

Вывод из эксплуатации/закат

Комплексная инвентаризация на начальном этапе обнаружения (пункт № 1 выше) должна предоставить вам существующие источники данных, приложения и инфраструктуру для выявления зависимостей и взаимозависимостей. Расставьте приоритеты миграции данных на основе критичности, начиная с некритичных для бизнеса функций, чтобы проверить эффективность новой системы. Установите поэтапный подход, постепенно выводя из эксплуатации устаревшие компоненты и проверяя целостность данных на протяжении всего процесса. Открыто общайтесь с заинтересованными сторонами, предоставляя достаточное обучение и поддержку во время перехода. Убедитесь, что новая облачная система соответствует нормативным и нормативным требованиям, и обновите документацию, чтобы точно отразить изменения. Внедрите надежные процедуры архивирования исторических данных и внимательно следите за ними, чтобы оперативно решать любые непредвиденные проблемы. Проведите тщательное тестирование и проверку перед окончательным выводом из эксплуатации и постоянно оценивайте производительность и безопасность новой системы после миграции. Такой осторожный и поэтапный подход обеспечивает плавный и успешный выход из устаревшей экосистемы данных, одновременно оптимизируя преимущества новой облачной инфраструктуры.

Пользовательский опыт и адаптация

Начните с понимания потребностей пользователей и рабочих процессов, чтобы убедиться, что новая система соответствует их ожиданиям. Разработайте интуитивно понятный и удобный интерфейс, отдавая предпочтение простоте и эффективности. Предоставляйте пользователям комплексные учебные занятия и ресурсы для ознакомления с новой экосистемой данных, предлагая постоянную поддержку через пользовательские форумы или службы поддержки. Внедрите поэтапный процесс адаптации, позволяющий пользователям постепенно акклиматизироваться. Регулярно собирайте отзывы пользователей, чтобы устранить любые болевые точки и итеративно улучшать UX. Открыто рассказывайте о преимуществах новой системы, подчеркивая улучшенные функциональные возможности и эффективность. Создайте понятную документацию и учебные пособия, которые помогут пользователям самостоятельно ориентироваться в новой экосистеме. Непрерывный мониторинг взаимодействия пользователей и обратной связи позволит своевременно вносить изменения, способствуя положительному и продуктивному пользовательскому опыту в новой экосистеме данных.

Хранение данных, архивирование, резервное копирование и аварийное восстановление

Эффективное управление хранением, архивированием, резервным копированием и аварийным восстановлением данных в новой экосистеме данных имеет решающее значение для обеспечения целостности данных и непрерывности бизнеса. Рассмотрите возможность категоризации данных на основе их критичности и требований соответствия, а также принятия решений о сроках хранения. Установите автоматизированные процессы резервного копирования для регулярного сбора и безопасного хранения данных. Внедрите надежный план аварийного восстановления, включающий регулярное тестирование и тренировки для проверки его эффективности. Определите четкую политику архивирования, определив данные, которые можно безопасно переместить в долгосрочное хранилище. Регулярно пересматривайте и обновляйте эти политики, чтобы они соответствовали меняющимся потребностям бизнеса и изменениям в законодательстве. Тщательно отслеживайте управление жизненным циклом данных, обеспечивая своевременное удаление устаревших или несоответствующих данных. Подробно документируйте все процедуры, чтобы обеспечить плавное восстановление и соблюдение стандартов соответствия. Регулярно проверяйте и обновляйте планы аварийного восстановления, политики архивирования и процедуры резервного копирования в соответствии с меняющимися потребностями бизнеса и нормативными изменениями. Этот целостный подход к управлению данными обеспечивает устойчивость, соответствие требованиям и эффективное восстановление в случае непредвиденных событий.

В дополнение к вышеизложенным соображениям крайне важно рассмотреть различные методы потребления данных, адаптированные к различным профилям пользователей. Поймите уникальные потребности аналитиков данных, ученых, бизнес-пользователей и приложений, потребляющих данные. Оценивайте и оптимизируйте механизмы доставки данных, инструменты визуализации и форматы отчетов, чтобы обеспечить подход, ориентированный на пользователя. Эта инклюзивная стратегия гарантирует, что новая экосистема данных не только соответствует техническим требованиям, но и полностью согласуется с предпочтениями и рабочими процессами различных групп пользователей.

Эти соображения служат отправной точкой для разработки комплексного плана вашей новой экосистемы данных. Разработчикам DST Global очень хотелось бы узнать о вашем опыте и проблемах, возникших на вашем пути модернизации данных. Не стесняйтесь поделиться своими мыслями или задать любые вопросы в комментариях. Ваше участие ценится. 

Плавная миграция к современной экосистеме данных
Получить консультацию у специалистов DST
Напишите нам прямо сейчас, наши специалисты расскажут об услугах и ответят на все ваши вопросы.
Комментарии
RSS
Как я понимаю Databricks, как и Snowflake, предлагает быструю, размещаемую на хостинге поставщика базу данных с практически бесконечными возможностями масштабирования.
05:17
+4
Databricks — это в первую очередь Spark и сопутсвующая экосистема, плюс сейчас инструменты для всяких ML/AI/Data Science. Данные они для вас тоже могут хранить, но это необязательно — мы, например, этой функциональностью не пользуемся. Никакую БД они не предлагают — lakehouse это другое, но SQL интерфейс у этого всего есть.
У нас несколько иной опыт работы со Snowflake. Нужен был data lake, а самописное решение на Postgress/RDS уже явно не тянуло.

Ребята из Snowflake аккуратно и правильно собрали все требования и выкатили кастомизированную презентацию, которая покрывала 97% проблем. Не было никаких продаванов и левых менеджеров. Было 2 программиста-ставших-сейлсами, которые очень грамотно и четко отвечали на все проблемы либо сами сразу, либо посовещавшись с командой разработки.

Прототип запилили тоже они, причем всего за пару недель.

В итоге осталось очень приятное впечатление. Единственный неприятный момент — негибкая система кредитов по принципу «use it or loose it», которая держит на коротком поводке.

Отчасти, поэтому и ушли в итоге на BigQuery, но это уже совсем другая история…
05:20
+3
Так в итоге и не понятно, зачем вам даталейк, если подшел в итоге вариант с реляционной ДБ
05:33
+2
Snowflake же просто sql engine, может и быстрый, не трогал, но запустить жава код как у бриксов с расчетами хоть ядерного синтеза не выйдет.
05:34
+2
Кому нужны расчеты ядерного синтеза, это бред, а sql нужен всем
05:34
+2
Примерно половине пользователей датабрикс нужны. тренировка моделей не сильно от расчетов ядерного синтеза отличается. или видосик разложить на кадры и прогнать через опознавание лиц через opencv.
05:48
+1
Если выбирать DB as a Service, то Snowflake — отличный конкурент Redshift, BigQuery. Если же надо развернуть BigData кластер в облаке, то здесь Databricks даёт готовое «скучное» решение.

Проблема в том, что «скучное» решение не подходит, когда у вас на проекте Kafka, Cassandra и HDFS. Тут уж берёте Spark и пишете нескучный BigData код.
05:49
А почему kafka с databricks не подходит? Hdfs вы имеете в виду не в облаке, а в в своих датацентрах?
Вам может быть интересно
В этой статье разработчики компании DST Global расскажут про синхронные и асинхронные взаимодействия в облачных приложениях, изучайте варианты использования, проблемы и стратегические приложения при п...
В этой статье разработчиками компании DST Global рассматривается распределенное ...
В этой статье разработчики компании DST Global рас...
Ориентируйтесь в развивающейся среде облачных вычи...
Бессерверная архитектура стала горячей темой в мир...
Amazon ECS упрощает развертывание контейнеров Dock...

Новые комментарии

Раньше не хотели внедрять себе CRM систему, после того как установили DST CRM просто вынесла мозг своим функционалом, тысяча кнопок, менеджеры DST по ...
Уже зарегистрировался на Эпсилоне, соц сеть быстро развивается, оно и понятно сейчас такое время когда советы психологов да и просто людей которые аде...
Как минимум Роман искусственный интеллект — это моделирование человеческого интеллекта в машинах, которые запрограммированы на то, чтобы мыслить и учи...
Хотелось бы узнать — что может сделать искусственный интеллект для CMS? И чем это поможет администраторам и для моего бизнеса в прикладном понятии

Заявка на услуги DST

Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.

Адрес

Россия, Ижевск, ул.Салютовская,
д.1, офис 17

8 495 1985800
Заказать звонок

Режим работы: Пн-Пт 10:00-19:00

info@dstglobal.ru

Задать вопрос по почте

Укажите ваше имя
Укажите ваше email
Укажите ваше телефон