Заявка на услуги DST
Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.
Не секрет, что в настоящее время идет золотая лихорадка в области разработки искусственного интеллекта. Согласно Индекс рабочих тенденций 2025 г. По данным Microsoft и Linkedin, более 40% руководителей предприятий ожидают полной перестройки своих бизнес-процессов с нуля с использованием искусственного интеллекта (ИИ) в течение следующих нескольких лет. Этот сейсмический сдвиг — не просто технологическое обновление; это фундаментальная трансформация того, как работают компании, принимают решения и взаимодействуют с клиентами. Это быстрое развитие подпитывает спрос на данные и инструменты управления данными первой стороны. Согласно Forrester, ошеломляющий 92% лидеров технологических компаний планируют увеличить бюджеты на управление данными и ИИ в 2025 году.
В последнем Глобальное исследование McKinsey по вопросам искусственного интеллекта, 65% респондентов указали, что их организации регулярно используют генеративные технологии ИИ. Хотя это принятие означает значительный скачок вперед, оно также подчеркивает критическую проблему: качество данных, питающих эти системы ИИ. В отрасли, где эффективный ИИ настолько хорош, насколько хороши данные, на которых он обучен, надежные и точные данные становится все труднее найти.
Высокая цена плохих данных
Плохие данные — проблема не новая, но ее влияние усиливается в эпоху ИИ. Еще в 2017 году исследование Массачусетского технологического института (MIT) подсчитало, что плохие данные обходятся компаниям в ошеломляющие 15–25 % их доходов. В 2021 году По оценкам Gartner что плохие данные стоят организаций в среднем 12.9 млн долларов в год.
Грязные данные — данные, которые неполны, неточны или непоследовательны — могут иметь каскадный эффект на системы ИИ. Когда модели ИИ обучаются на некачественных данных, полученные идеи и прогнозы в корне ошибочны. Это не только подрывает эффективность приложений ИИ, но и создает значительные риски для предприятий, полагающихся на эти технологии для принятия критически важных решений.
Это создает серьезную головную боль для корпоративных команд по науке о данных, которым приходится все больше концентрировать свои ограниченные ресурсы на очистке и организации данных. В недавнем отчет о состоянии инженерного дела, подготовленный DBT, 57% специалистов по науке о данных назвали низкое качество данных основной проблемой в своей работе.
Последствия для моделей ИИ
Влияние неверных данных на развитие ИИ проявляется тремя основными способами:
- Снижение точности и надежности: Модели ИИ процветают на шаблонах и корреляциях, полученных из данных. Когда входные данные испорчены, модели выдают ненадежные результаты; широко известные как «галлюцинации ИИ». Это может привести к ошибочным стратегиям, сбоям в работе продукта и потере доверия клиентов.
- Усиление смещения: Грязные данные часто содержат предубеждения которые, если их не контролировать, укореняются в алгоритмах ИИ. Это может привести к дискриминационной практике, особенно в таких деликатных областях, как найм, кредитование и обеспечение соблюдения законов. Например, если инструмент ИИ для подбора персонала обучен на предвзятых исторических данных о найме, он может несправедливо отдавать предпочтение определенным демографическим группам по сравнению с другими.
- Увеличение эксплуатационных расходов: Несовершенные системы ИИ требуют постоянной настройки и переобучения, что требует дополнительного времени и ресурсов. Компании могут оказаться в постоянном цикле исправления ошибок вместо инноваций и улучшений.
Грядущий датапокалипсис
«Мы быстро приближаемся к «переломному моменту» — когда количество контента, созданного не человеком, значительно превзойдет количество контента, созданного человеком. Достижения в области ИИ сами по себе предоставляют новые инструменты для очистки и проверки данных. Однако общее количество контента, созданного ИИ в Интернете, растет экспоненциально.
По мере того, как в Интернете появляется все больше контента, созданного с помощью ИИ, и этот контент создается специалистами LLM, обученными работать с контентом, созданным с помощью ИИ, мы сталкиваемся с будущим, в котором собственные и надежные данные становятся уязвимыми и ценными товарами.
Проблемы размывания данных
Распространение контента, создаваемого ИИ, создает несколько серьезных проблем для отрасли:
- Контроль качества: становится все труднее различать данные, созданные человеком, и данные, созданные искусственным интеллектом, что затрудняет обеспечение качества и надежности данных, используемых для обучения моделей искусственного интеллекта.
- Проблемы интеллектуальной собственности: поскольку модели ИИ непреднамеренно извлекают и извлекают уроки из контента, созданного ИИ, возникают вопросы о правах собственности и связанных с данными данных, что может привести к юридическим осложнениям.
- Этические последствия: Отсутствие прозрачности в отношении происхождения данных может привести к этическим проблемам, таким как распространение дезинформации или усиление предвзятости.
Данные как услуга становятся фундаментальной идеей
Все чаще ищут решения Data-as-a-Service (DaaS) для дополнения и улучшения данных первой стороны в целях обучения. Истинная ценность DaaS заключается в том, что сами данные были нормализованы, очищены и оценены для различной точности и вариантов использования в коммерческих приложениях, а также в стандартизации процессов для соответствия Системе, обрабатывающей данные. По мере развития этой отрасли я предсказываю, что мы начнем видеть эту стандартизацию во всей отрасли данных. Мы уже видим этот толчок к единообразию в секторе розничных медиа.
Поскольку ИИ продолжает проникать в различные отрасли, значимость качества данных будет только усиливаться. Компании, которые отдают приоритет чистым данным, получат конкурентное преимущество, в то время как те, кто пренебрегает этим, очень быстро отстанут.
Высокая стоимость грязных данных в разработке ИИ — это насущная проблема, которую нельзя игнорировать. Низкое качество данных подрывает саму основу систем ИИ, что приводит к некорректным выводам, увеличению затрат и потенциальным этическим ловушкам. Принимая комплексные стратегии управления данными и способствуя культуре, которая ценит целостность данных, организации могут смягчить эти риски.
В эпоху, когда данные — это новая нефть, обеспечение их чистоты — не просто техническая необходимость, а стратегический императив.
Скрытая стоимость грязных данных в разработке ИИ
Грязные данные ослабляют ИИ, увеличивают затраты, вводят предвзятость и вызывает риски соответствия. Сильное управление данными обеспечивает надежные результаты ИИ.
Искусственный интеллект действует как преобразующая сила, которая трансформирует различные отрасли, включая здравоохранение, вместе с финансами и всеми другими секторами. Системы ИИ достигают своей высокой производительности за счет данных, которые были должным образом подготовлены для учебных целей. Успех ИИ зависит от высококачественных данных, потому что неточные все включенные или дублированные данные или противоречивые записи приводят как к снижению производительности, так и к более высоким эксплуатационным затратам, смещенным решениям и ошибочному пониманию. Разработчики искусственного интеллекта преуменьшают истинное влияние грязных расходов, связанных с данными, потому что эти факторы напрямую влияют на уровни эффективности бизнеса вместе с доверием пользователя и достижением проектов.
Финансовое бремя плохого качества данных
Финансовые затраты представляют собой один прямые расходы, связанные с использованием грязных данных в процессах разработки ИИ . Организации, которые зависят от систем искусственного интеллекта для автоматизации решений, должны бюджет значительные расходы на очистку данных, подготовку их к обработке и проверку существующих наборов данных. Исследования показывают, что плохое качество данных ежегодно создает миллионы долларов финансовых потерь благодаря нескольким проблемам эффективности, ошибок прогнозирования и неэффективности ресурсов. Неисправные данные, которые обучают моделей ИИ, иногда приводят компании к ошибкам, связанным с потерей ресурсов и неправильным нацеливанию на клиентов, за которыми следуют неправильные здравоохранения пациентов.
Очистка и исправление неверных данных создают дополнительную работу, которая подчеркивает инженерный и научный персонал, при этом приводя к финансовым затратам. Специалисты по данным посвящают основные части своего рабочего времени задачам очистки данных, которые отвлекают существенное внимание от оптимизации моделей и инновационной работы. Неэффективный процесс борьбы с нарушениями данных приводит как к более медленным срокам разработки ИИ, так и к повышенным операционным расходам, которые делают проекты невыгодными и задерживают выпуск продуктов, полученных на A,.
Предвзятость и этические риски
Наличие грязных данных приводит к моделям ИИ для разработки и укрепления смещений, что дает неэтичные и предвзятые результаты. Качество производительности ИИ полностью зависит от его обучающих данных, потому что смещения в этом входе приведут к тому, что ИИ производит смещенные результаты. Справедливые и непредвзятые системы ИИ работают менее эффективно в области распознавания лиц и найма алгоритмов и процессов кредитования, основанных на решениях, из-за их неотъемлемых предрассудков против конкретных секторов населения.
Использование предвзятого ИИ наносит серьезный ущерб организационной репутации. Решения искусственного интеллекта со встроенными предубеждениями вызовут проблемы с юридическими требованиями для организаций, в то же время разозлив клиентов и ведущие регуляторы, чтобы осмотреть их. Корректировка смещения ИИ после развертывания требует дополнительных трудностей и расходов, которые превышают расходы, связанные с обслуживанием качества данных во время разработки. Компании должны устанавливать наборы данных, которые в первую очередь являются чистыми разнообразием и репрезентативностью, чтобы минимизировать этические риски и повысить справедливость ИИ, а также надежность.
Снижение производительности и точности модели
Высококачественные данные служат основой, которая делает модели искусственного интеллекта эффективными в своих прогнозирующих задачах, но коррумпированные данные заставляют их создавать неточные прогнозы. Наличие грязных данных создает несоответствия, что усложняет алгоритмы машинного обучения, чтобы обнаружить значительные закономерности. Прогнозирующая система технического обслуживания в производстве с использованием искусственного интеллекта даст плохие результаты, если он будет тренировать, используя поврежденные показания датчиков, поскольку это приводит к недостаточным сбоям сбоя в оборудовании, которые создают неожиданные разбивки оборудования с дорогостоящими операционными остановками.
AI-powered, способствующие поддержке клиентов, предоставляют пользователям ненадежную информацию после обучения на неточных данных, которые ослабляют доверие клиентов к брендам. Проблемы эффективности, вызванные грязными данными, заставляют компании постоянно регулировать свои системы ИИ путем переподготовки и ручной корректировки, что приводит к расходам, которые снижают общую эксплуатационную эффективность. Инициирование разрешений качества данных в начале разработки создает более долговечные и надежные модели системы ИИ.
Соответствие и нормативные проблемы
Организации сталкиваются с существенными проблемами в соответствии с правилами конфиденциальности GDPR и CCPA из -за существующего грязного риска данных в их системах. Законы о защите данных нарушаются, когда организации хранят неточные или дублированные данные, которые приводят к существенным юридическим последствиям вместе со существенными финансовыми штрафами. Компании, которые работают с конфиденциальной финансовой и связанной с здоровьем информации, должны гарантировать точные данные, поскольку это требуется в соответствии с правилами регулирования.
Регулирование систем ИИ посредством объяснимых функций и прозрачных процессов принятия решений представляет собой новый спрос как со стороны регулирующих органов, так и с ключевыми заинтересованными сторонами. Неправильные источники данных в сочетании с нетронутыми решениями по ИИ угрожают доверию пользователей и регуляторов, поскольку организации не могут защищать свои решения на основе искусственного интеллекта. Организации, которые устанавливают надежные протоколы управления данными наряду с системами проверки, достигают соответствия нормативным требованиям и повышают прозрачность и подотчетность в их системах ИИ.
Роль управления данными в смягчении грязных данных
Успешное выполнение управления данными требует проактивных мер для уменьшения негативных последствий грязных данных во время разработки ИИ. Организации должны разработать полные системы управления данными, которые объединяют оценку данных с методами сокращения данных и устойчивыми процедурами изучения. Комбинация стандартизированных подходов ввода данных вместе с автоматизированными системами очистки данных уменьшает ошибки данных, которые не позволяют им повредить модели ИИ перед реализацией.
Организации должны разрабатывать системы ответственности данных, которые устанавливают важную практику на протяжении всей их операционной культуры. Сотрудники нуждаются в обучении по правильным процедурам обработки данных, работая с инженерами и учеными, наряду с членами бизнеса для достижения улучшенных результатов качества данных. Сильные структуры управления данными, развернутые организациями, сокращают ошибки ИИ и операционные угрозы и обеспечивают максимально возможные выгоды от инноваций ИИ.
Путь вперед: решение проблем с грязными данными
Реализация ИИ требует чистых данных , поскольку неточные данные приводят к обширным финансовым последствиям и ущербу этических принципах, а также снижают эффективность модели и нарушают нормативные требования. Успех ИИ в значительной степени зависит от точности базовых данных, поскольку технология требует качественных данных. Организации по мнению разработчиков компании DST Global, должны разработать сильные подходы к управлению данными, а также инструменты очистки данных и правила управления, чтобы уменьшить опасности, которые связаны с непригодным качеством данных. Обращение к грязным точкам данных в начале трубопровода ИИ позволяет предприятиям повысить надежность ИИ, установить доверие пользователей и достичь максимальной стоимости от своих проектов с ИИ.
Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.
Ижевск, ул. Воткинское шоссе, д. 170 Е, Технопарк Нобель, офис 1117
Задать вопрос по почте
Большие данные, машинное обучение, интернет вещей постепенно внедряются все большим количеством компаний из разных отраслей, не только из сферы высоких технологий. И часто оказывается, что на конкретном предприятии полезные технологии менее плодотворны, чем в футуристических обзорах или обещаниях вендоров. Компании строят дата-центры, создают хранилища данных, начинают собирать данные, покупают решения для их обработки, а потом не используют. И происходит то, что мы называем «гниением данных».
Даже если на старте собирают те данные, которые нужны, то далее, при невыстроенных организационных и технических процессах контроля за качеством данных, они постепенно становятся все менее релевантными. Сегодня кто-то задел плечом камеру, которая снимает производственный процесс, и вот уже хранилище накапливает фото или видео угла стены. Завтра датчик на производственной линии сломался и вместо ценных данных пишет в хранилище мусор. Послезавтра склад внедрил новую систему автоматизации или кладовщик придумал способ, как воровать изделия, специфическим образом отображая это в хранилище.
Обычно разбираться с «гниющими данными» начинают тогда, когда при попытке их использования выясняется, что они абсолютно не применимы, или произошла утечка данных, или заканчивается место в хранилище. Правда, если заканчивается место, то всегда можно купить дополнительное железо.
Если бы данными пользовались в режиме онлайн, «гниения» не возникало бы. Что этому мешает?
Мешает отсутствие надлежащего уровня организационной культуры. Разные люди и подразделения могут влиять на данные с вполне конструктивными целями. Но сейчас, когда данные используются не только для автоматизации нужного им технологического процесса, а для той же предиктивной аналитики, тому, кто меняет данные, следует лишний раз задуматься, на что это изменение повлияет. Многократно наблюдал, как одно подразделение создает нужную предсказательную модель, а другое в это время молча меняет станок посреди производственной линии, и работы первого подразделения идут насмарку. То есть нужен организационный подход к управлению данными на уровне всего бизнеса.
Мешает отсутствие опыта реальных проектов с применением больших данных. Десятки и сотни компаний и людей проводили хакатоны по задачам с использованием больших данных. Но только единицы смогли довести проекты до того, что эти большие данные и аналитика на их основе системно приносят пользу бизнесу. Распространенная ситуация, когда компания создает «озеро данных», потому что эти «озера» создают все. Но зачем оно нужно, как именно оно будет применяться в реальной жизни, имеет крайне смутное представление. Пусть даже на защите бюджета они демонстрируют красивую и футуристичную презентацию. А потом, когда речь заходит про использование данных, проекты стоят: выясняется, что собрали не то и не так. Например, чтобы удешевить решение, сделали так, что данные поступают раз в сутки, а они применимы, только если задержка не более одной минуты.
Или вот такой пример из практики. Мы строили модель, которая прогнозировала вероятность брака итогового изделия в зависимости от настроек производственной линии, комплектующих и т. п. Ничего не получалось до тех пор, пока не выяснилось, что если конкретным исполнителям удавалось «впарить» бракованное изделие, то они задним числом корректировали запись, как будто брака не было. Делали они это, понятное дело, чтобы максимизировать свою премию. Мы это смогли выяснить, анализируя логи и данные смежных систем. Когда разобрались, модель построили. То есть тут могут помочь как организационные меры по недопущению таких нарушений, так и технические — по аналитическому выявлению такого рода поведения.
Я привел один пример, но подобных подводных камней на одном производстве мы вместе с менеджментом встречали больше десятка. Мы стараемся не входить в проект, если нам не могут обеспечить присутствие специалиста по работе с данными непосредственно при производственном процессе.
Какие имеются решения для предотвращения использования «грязных данных»?
Системный подход должен включать в себя образовательные, организационные (в том числе мотивационные) и технические меры, которые будут обеспечивать постоянство качества данных. И главное, данные должны постоянно использоваться, а производственные процессы, применяющие эти данные, должны включать в себя постоянный контроль за данными.
При этом часто бывает невозможно решить задачу на уровне одного подразделения — нужно учитывать влияние смежных подразделений. У нас была задача, когда мы делали индивидуальные рекомендации для розничной сети. На исторических данных все работало нормально, а в эксплуатации бывали случаи, когда индивидуальные рекомендации не давали вообще никакого эффекта. Начали разбирать и быстро выяснили проблему. Одна наша программистка была клиенткой этой сети. И у нее в мессенджере два сообщения от сети. Первое — наше, индивидуальное предложение с небольшой индивидуальной скидкой на конкретный товар. И второе — общая рассылка по сети, что по случаю дня рождения скидка на все 20%. Естественно, на фоне этого эффект от нашего сообщения нулевой.
Зачем компании обращаются к системному интегратору, а не к консультантам, например?
У нас есть опыт десятков внедрений в разных отраслях. Мы знаем типовые сложности, с которыми клиенты сталкиваются именно в России. В то же время разбираемся и в железе, и в информационной безопасности, и во всех сопровождающих историях. То есть мы можем оказать комплексную услугу. Компании легче иметь одного ответственного подрядчика, который в состоянии закрыть все потребности, связанные с внедрением технологий от поставки оборудования до разработки всего необходимого программного обеспечения, создания BI-системы, «озера данных» и моделей для аналитики.
Каковы типичные ошибки компаний, которые хотят монетизировать свои данные и заинтересованы в их чистоте?
Для успеха любого внедрения технологий работы с данными важно, чтобы внутри предприятия был человек, который в состоянии «драйвить» изменения.
Опишу типичную ситуацию. Правление решает, что цифровизация нужна, выделяются деньги, кому-то в ИТ-отделе или специально нанятому директору по цифровой трансформации ставится эта задача. Дальше создается дирекция по работе с информацией, набирается талантливая команда. Потом они приезжают на региональный завод, где никто с «этими хипстерами» не хочет разговаривать. Либо говорят одно, а думают другое, либо открыто саботируют. Аппаратный вес директора по производству и его слово для рабочих гораздо более значимы, чем у приехавшего директора по трансформации. В девяти из десяти случаев результат столкновения планов с реальностью предсказуем.
Есть ли выход?
Нам просто нужно прожить эту историю в режиме онлайн. Практика постепенно учит. С внедрением в промышленности ERP-систем 15 лет назад тоже поначалу все было непросто. Их внедряли для галочки, и многие не верили в пользу, а теперь много успешных кейсов.
Раньше всех научились работать с данными в высокотехнологичных индустриях, потом в банковской сфере, в ретейле. В промышленности степень технологической зрелости иная. Бизнесу поначалу тяжело даже осознать важность этого процесса, не говоря уже о внедрении полученных результатов в производственный процесс.
Для успеха работы с данными в промышленности очень важно, чтобы процесс «драйвил» человек с полномочиями в ранге вице-президента или сопоставимой позиции, способный скоординированно заставлять все подразделения двигаться в одну сторону.
Важно, чтобы проект допускал на стартовом этапе логику R&D, когда есть исследование, а не просто подход: вот время, вот ресурсы — обеспечь результат. Вначале могут уточняться цель, метрики, вскрываться подробности. И те же закупки должны быть к этому готовы.
Однажды мы внедряли проект в двух аптечных сетях. В одной получилось увеличить средний чек за счет того, что система подсказывала провизору, что рекомендовать дополнительно к покупке клиента, а в другой настроить рекомендации не удалось. То, что сработало на предприятии А, может не сработать на предприятии Б в силу некоторых различных стартовых условий и данных. Поэтому важно исследовать гипотезы перед проектом внедрения.
Но потом не менее важно уметь перейти от логики исследования к логике полноценного комплексного внедрения. И многие на этом переходе ломаются.
А что является самым важным для компаний?
Сейчас для всех важна эффективность производственных процессов. Если одна построенная на больших данных и машинном обучении модель позволит снизить брак на 3%, другая — сэкономить 2% сырья, третья — разгрузить на 10% склад, совокупный эффект будет существенен для экономики предприятия. Тот, кто первым сможет комплексно это сделать, вырывается вперед и обгоняет остальных. Среди наших клиентов в отдельных отраслях есть предприятия, конкурентоспособные на глобальном уровне. Рывок эффективности на 10–20% позволит им вырваться в мировые лидеры.
Но, как показывает новый опрос исследователей, занимающихся проблемами анализа данных и машинного обучения, такие ожидания далеки от реальности, потому что самой большой проблемой в этих профессиях является довольно рутинная очистка «грязных данных».
Как показал опрос, проведенный научным сообществом Kaggle (который приобретен Google ранее в этом году), около 16 700 опрошенных из 1,3 миллиона членов сообщества чаще всего называли одними из самых больших барьеров в работе «грязные данные», за которыми следует отсутствие знаний в этой области.
Но что такое «грязные данные» и почему это такая проблема? Сегодня всем понятно, что данные являются горюче-смазочным материалом для цифровой экономики, но особенно это верно в таких областях, как машинное обучение.
Современные системы ИИ обычно учатся на примерах, поэтому, если демонстрировать им массу фотографий кошек, со временем ИИ начнет распознавать их основные характеристики. Такие компании, как Google и Amazon, смогли создать столь эффективные платформы распознавания образов и речи, потому что у них есть целые массивы данных от пользователей.
Но системы ИИ по-прежнему являются лишь компьютерными программами, которые могут вести себя как капризные дети, если вы нажмете не ту кнопку в неподходящее время. Вот и приходится людям контролировать массивы данных из сотен тысяч записей, отслеживать недостающие значения и удалять любые ошибки форматирования.
Сайт Kaggle посвящен проблемам теории и анализа данных, наиболее известен своими конкурсами, где компании публикуют конкретную задачу, связанную с данными, а затем платят человеку, который находит лучшее программное решение. (Деньги сами по себе невелики, но победа это хороший способ привлечь внимание потенциальных заказчиков.) И это означает, что сайт Kaggle также стал хранилищем интересных наборов данных для пользователей. Они варьируются от коллекции из 22 000 исследований для высшей школы до компьютерной томографии на предмет рака легких и множество фотографий рыб.
Все интересные новинки сегодня связаны с ИИ. Хотя для текстовой и цифровой информации более подходящими являются прежние методы. Поэтому, если вы планируете в ближайшее время перейти на машинное обучение или обработку данных, будьте готовы перейти к работе с электронными таблицами.