Архитектуры данных в эпоху искусственного интеллекта

30.11.2024

Архитектура данных быстро развивается из-за развития GenAI, что требует от компаний перехода от хранилищ данных к интегрированным фабрикам данных и ячейкам данных.

Данные по мнению специалистов компании DST Global, станут важнейшим компонентом всех аспектов мира в 2025 году. Они более ценны, чем большинство товаров, и существует экспоненциально растущая потребность в более безопасном и точном обмене, использовании, хранении и организации этих данных.

Архитектура данных — это всего лишь правила и рекомендации, которым пользователи должны следовать при хранении и использовании данных. Объединение и объединение управления данными в единую платформу дает значительные преимущества, но возникают также новые проблемы, такие как сложность данных и соображения безопасности, которые еще больше усложнят эту оптимизацию. Популярность генеративного искусственного интеллекта (широко известного как GenAI), который движет технологической отраслью, будет означать, что архитектура данных будет полностью изменена в эту революционную современную эпоху.

Неудивительно, что, поскольку эта модернизация захватывает мир очень быстро и конкурентно, возникают усиливающиеся стрессовые факторы и давление, заставляющее быстро ее придерживаться. Хотя есть прогнозы, что 80% предприятий будут использовать API-интерфейсы GenAI или приложения с поддержкой GenAI, менее 25% банковских учреждений внедрили свои критически важные данные в целевую архитектуру; это только одна отрасль. Существует необходимость отойти от хранилищ данных и перейти к более новым и современным фабрикам данных и ячейкам данных .

Бункеры данных — это старые новости: речь идет о фабриках данных и сетках данных

В автомобильной промышленности, среди прочего, возникла необходимость отойти от устаревших хранилищ данных. В хранилищах данных информация недоступна. Это зашло в тупик только для одной организации. Это препятствует любому общению или развитию, а также группирует данные для единоразового использования без учета трансформации и развития, которые могут произойти, если они рассматриваются как общий актив .

Фабрика данных — это подход к объединению управления данными. Как уже упоминалось, данные часто заблокированы, и структуры данных стремятся разблокировать их на макроуровне и сделать доступными множеству объектов для многочисленных дифференцированных целей. Сетка данных разделяет данные на продукты и доставляет их всем сторонам децентрализованно и с собственным индивидуальным управлением.

Этот переход к современной архитектуре данных также меняется с появлением искусственного интеллекта (ИИ). ИИ может помочь обнаружить сложные закономерности, генерировать прогнозы и даже автоматизировать многие процессы. Это может повысить точность и в значительной степени улучшить масштабируемость и гибкость. Однако существуют также проблемы с качеством данных, прозрачностью, этическими и юридическими факторами, а также сбоями в интеграции. Это приводит к появлению множества стратегий и идей, которые могут помочь направить и сгладить переход от традиционной к современной архитектуре данных.

Ключевые стратегии

Сначала создайте минимально жизнеспособный продукт

Ускорение результатов в инициативах по архитектуре данных может быть достигнуто гораздо быстрее, если вы начнете с необходимого минимума и на его основе будете строить свое хранилище данных. Начните с рассмотрения всех вариантов использования и поиска одного компонента, который необходимо разработать, чтобы можно было доставить продукт данных.

Расширение может происходить со временем благодаря использованию и обратной связи, что фактически приведет к созданию более адаптированного и желательного продукта.

Воспитывать, Воспитывать, Воспитывать

Объясните своему ключевому персоналу, как важно иметь возможность и быть готовым к переходу от ранее знакомых устаревших систем данных к современным архитектурам, таким как озера данных или гибридные облачные платформы. Переход к унифицированной, гибридной или облачной системе управления данными на начальном этапе может показаться сложной задачей, но он необходим для обеспечения комплексного управления жизненным циклом данных и готовности к использованию искусственного интеллекта. Инвестируя в непрерывное образование и обучение, организации могут повысить грамотность в области данных, упростить процессы и улучшить долгосрочное управление данными, готовясь к масштабируемым и безопасным практикам аналитики.

Предвидеть проблемы ИИ

Будучи подготовленным к типичным проблемам ИИ, можно предсказать и предвидеть проблемы, что может помочь сократить время простоя и разочарования при модернизации архитектуры данных. Некоторые из основных из них: качество данных, объем данных, конфиденциальность данных, а также предвзятость и справедливость. Очистка данных, профилирование и маркировка, смягчение предвзятости, проверка и тестирование, мониторинг, периферийные вычисления, мультимодальное обучение, федеративное обучение, обнаружение аномалий и правила защиты данных — все это может помочь минимизировать препятствия, создаваемые ИИ.

Ключевые выводы разработчиков DST Global

Объединение данных выгодно для конкуренции

Практически единодушно принято решение, что объединение данных полезно для бизнеса. Это помогает упростить процессы, повысить гибкость, улучшить управление данными и безопасность, упростить интеграцию с новыми инструментами и моделями ИИ, а также улучшить масштабируемость. Структура данных приносит пользу бизнесу и может увеличить конкурентное преимущество за счет понимания пяти конкурентных сил: новых участников, переговоров с поставщиками, переговоров с покупателями, соперничества конкурентов и угроз замены продуктов/услуг.

Данные — это продукт

Существует мнение, что данные должны управляться предметной областью, рассматриваться и обрабатываться как активы, самообслуживаться на платформе и подвергаться федеративному вычислительному управлению. Это достигается за счет разделения данных по домену и типу; включение метаданных для того, чтобы данные существовали и объяснялись в своем собственном, изолированном формате; возможность самостоятельно искать и находить данные; и поддерживающая и организованная жилищная структура.

Обработка нескольких источников данных является сложной задачей

Очень важно помнить, что объединение данных из многочисленных источников затруднено. Возможности реального времени для некоторых процессов, таких как обнаружение мошенничества, онлайн-покупки и здравоохранение, просто еще не готовы. Необходимо принять стандарты и политику. Неизбежны проблемы с управлением всеми облаками и источниками данных, потенциальные нарушения безопасности и проблемы управления, а также необходимость постоянного развития и настройки.

Современная архитектура данных будет развиваться с появлением искусственного интеллекта

Несмотря на трудности и сложности обновления существующих и традиционных методов архитектуры данных, нет сомнений в том, что современная архитектура данных будет включать в себя и ИИ. ИИ будет продолжать расти и помогать организациям использовать данные предписывающим , а не описательным способом. Хотя многие люди с настороженностью относятся к ИИ, по-прежнему существует огромная надежда и видение того, что он создаст возможности, максимизирует производительность и приведет к инновациям на всех рынках, включая структуру данных и управление. Те, кто следит за искусственным интеллектом и современной архитектурой данных, узнают преимущества повышения производительности и операционной эффективности, улучшения качества обслуживания клиентов и управления рисками.

Архитектуры данных в эпоху искусственного интеллекта

Получить консультацию у специалистов DST

Заказать консультацию

Напишите нам прямо сейчас, наши специалисты расскажут об услугах и ответят на все ваши вопросы.

архитектуры данных

ии

искусственный интеллект

artificial intelligence

Нравится 195

Комментарии пользователей
и отзывы экспертов

3 комментария

RSS

HyperPC

30.11.2024 20:07

# ↓

Современные архитектуры обработки данных состоят из микросервисов, API, средств аналитики, моделей генеративного ИИ и не только. Они используются для поиска, анализа и публикации данных для конечных пользователей и различных сервисов. Конвейеры данных, состоящие из различных инструментов обработки, перемещают данные от системы к системе.

В ходе такого перемещения может происходить тиражирование и синхронизация данных, но чаще всего выполняется интеграция (извлечение из различных источников и объединение для дальнейшего использования), обычно в автоматизированном режиме. Для работы с поточными данными применяются высокомасштабируемые надежные конвейеры с определенными соглашениями об уровне обслуживания, регламентирующими производительность, допустимую задержку и вероятность ошибок. Если архитектура управления данными распределенная, она может быть построена по принципу сетки (Data Mesh) или матрицы (Data Fabric); важную роль при этом также может играть система управления нормативно-справочной информацией (НСИ).

Для организации конвейеров данных применяются технологии разного уровня сложности: в числе самых простых — обратные HTTP-вызовы (webhook), механизмы публикации-подписки и сервисы IFTTT, к более сложным относятся микросервисы. Конвейеры могут иметь различную архитектуру: пакетная обработка, когда группы записей перемещаются от системы к системе по мере завершения обработки; событийно-зависимая архитектура; архитектуры Lambda и Kappa, сочетающие обработку реального времени и пакетную; конвейеры на основе микросервисов.

Существует масса облачных платформ для построения конвейеров данных с функциями интеграции и работы с потоками. Популярны, в частности, бессерверные архитектуры наподобие AWS Lambda и Google Cloud Functions. Конвейеры реализуют на разных языках программирования, но исследователи и инженеры данных обычно пользуются Python. Возможности интеграции данных и создания конвейеров также есть во многих СУБД, хранилищах данных, системах организации озер данных, платформах ИИ и машинного обучения.

Конвейеры данных применяются для решения самых разных задач бизнеса и необходимы во всех случаях, когда происходит обмен информацией между несколькими системами учета. Простые конвейеры передают записи с минимальными преобразованиями данных и объединяют данные из разных источников, сложные могут обеспечивать оркестровку многоэтапных рабочих процессов, поддерживать работу по исследованию данных, обрабатывать сигналы датчиков Интернета вещей. Команды DevOps применяют конвейеры данных телеметрии для контроля работоспособности приложений, диагностики проблем с производительностью и отладки ошибок.

Помимо этого в наши дни конвейеры данных используются в работе систем генеративного ИИ — они соединяют векторные базы данных, озера данных и большие языковые модели для поддержки подкрепления ответов актуальными данными предприятия. Такие конвейеры обеспечивают весь цикл разработки, тестирования, развертывания, мониторинга и дообучения моделей (MLOps), а также руководство ими (governance).

Внутри конвейеров может происходить преобразование данных согласно требованиям систем-получателей. В простом случае записи при этом сопоставляются, объединяются и очищаются, в более сложных может происходить агрегация, обобщение и дополнение групп записей, документов и т. п. Если традиционные хранилища данных наполнялись по принципу извлечения, преобразования и загрузки (ETL), то теперь благодаря удешевлению хранения применяется принцип извлечения, загрузки и преобразования (ELT), который обеспечивает дополнительную гибкость. Кроме того, в процессе прохождения по конвейеру возможно преобразование данных, в том числе поточных, — для задач аналитики реального времени, обработки транзакций по банковским картам, распознавания мошенничества и т. д. К операциям преобразования относятся фильтрация, агрегация, разбиение на блоки, дополнение и обнаружение аномалий.

Важная функция конвейеров, особенно для регулируемых отраслей, — отслеживание «родословной» данных (data lineage): соответствующие механизмы позволяют выяснять происхождение и все изменения данных на протяжении их жизненного цикла. Такие функции есть в платформах каталогов данных и руководства данными и системами ИИ.

Наладка конвейеров — дело непростое. Нужно обеспечить регистрацию ошибок в данных, позаботившись о том, чтобы проблемы в отдельных записях не останавливали конвейер; необходимо добиться устойчивой производительности конвейера, особенно при больших нагрузках; кроме того, нужно исключить повторную отправку уже переданных записей при ошибках передачи, чтобы не нарушить преобразования.

К конвейерам данных, обслуживающим модели машинного обучения и генеративного ИИ, предъявляются более высокие требования по производительности и качеству с учетом объема проходящих по ним данных и необходимости обеспечить точность работы модели. Руководство соответствующими данными сложнее, поскольку в таких конвейерах одновременно идет работа с неструктурированными, полуструктурированными и структурированными учебными данными.

Необходимо предусмотреть меры по улучшению характеристик наблюдаемости таких конвейеров с помощью средств мониторинга, контроля качества данных и предотвращения дрейфа данных (нежелательного изменения характеристик модели при ее эксплуатации). Средства обеспечения наблюдаемости, работая с информацией реального времени, дают аналитикам возможность доверять данным, которыми они пользуются, и заранее предупреждают об аномалиях и выбросах.

В числе наиболее сложных задач эксплуатации конвейеров — обнаружение и оперативное устранение проблем, обусловленных изменениями API и схем источников данных. С решением могут помочь средства генеративного ИИ, которые облегчают разработку и обслуживание конвейеров данных. Возможно даже обеспечение автоматического обновления процессов ETL с использованием способности моделей ИИ обнаруживать и исправлять типовые неполадки, вызванные, например, изменением схемы или числовым переполнением.

Agrarium

30.11.2024 20:10

# ↓

Архитектура данных стремительно развивается благодаря развитию генеративного искусственного интеллекта (GenAI), что требует от компаний перехода от хранилищ данных к интегрированным фабрикам данных и ячейкам данных. По мнению специалистов компании DST Global, данные станут важнейшим компонентом всех аспектов жизни уже в 2025 году, они ценнее большинства товаров, и существует растущая потребность в более безопасном и точном обмене, использовании, хранении и организации этих данных.

Архитектура данных представляет собой набор правил и рекомендаций для хранения и использования информации. Объединение управления данными в единую платформу даёт значительные преимущества, но возникают новые проблемы, связанные со сложностью данных и безопасностью, которые усложняют оптимизацию.

Популярность GenAI, движущей силы технологической отрасли, приведёт к полной трансформации архитектуры данных в эту революционную эпоху. Неудивительно, что модернизация происходит так быстро и конкуренция усиливается, вызывая стресс и давление, требующее быстрого внедрения изменений.

Хотя прогнозируется, что 80% предприятий будут использовать API-интерфейсы GenAI или приложения с поддержкой GenAI, только 25% банков внедрили критически важные данные в целевую архитектуру, и это только одна отрасль. Таким образом, необходимо отказаться от хранилищ данных и перейти к более современным фабрикам данных и ячейкам данных.

Иван Терешенко

08.12.2024 01:23

# ↓

Мы постоянно говорим о том, что ИИ сокращает время выполнения задач и позволяет сосредоточиться на более важных процессах. А какие процессы более важные?

Мы можем быстрее получать данные для анализа, на основе которых мы с невиданной ранее скоростью можем делать выводы и полученную информацию применять для принятия решений.

И получается, что тот самый важный процесс, для которого нам высвобождает время ИИ – это именно принятие решений: постановка целей, формулирование задач и пр.
ИИ может дать нам ответ на вопрос, а вот что с этой информацией делать решает человек.

Главное отличие искусственного интеллекта от естественного разума в отсутствии воли. Сам ИИ не задает вопросов, что там – на глубине океана, в недрах Земли или на бескрайних просторах космоса.

То же самое происходит и на более приземленном уровне – сам по себе ИИ денег не заработает и бизнес не создаст. А вот человек с ИИ в качестве инструмента получает не только новые, ранее недоступные возможности, но новые требования к уровню собственного развития и скорости адаптации к изменениям.

Управление ИИ стало новой компетенцией. Уже сейчас мы сталкиваемся с таким явлением, как нейросотрудники, по применению которых надо как-то принимать решения, обучать взаимодействию персонал, писать ТЗ разработчикам на их функционал и пр.

Я бы сказал, что ИИ забирает у нас тот функционал, который мы уже давно хорошо освоили, но медленно выполняем, и ставит перед нами необходимость выполнения более сложной деятельности: находить цель и стремиться к ее достижению.

Другие публикации канала

Как искусственный интеллект меняет способ написания кода разработчиками

Какой технологический стек выбрать в 2025 году

Разрушительный потенциал больших языковых моделей на устройствах

Архитектуры данных в эпоху искусственного интеллекта

Адрес

8 495 1985800

info@dstglobal.ru