RSS

Комментарии

Популярность мультимодального искусственного интеллекта продолжает стремительно расти за счет его гибкости и эффективности в решении сложных задач, для качественного выполнения которых нельзя обойтись без взаимодействия с различными видами входной информации.

Увеличению востребованности технологии способствуют в том числе следующие факторы:

— Рост объемов разносторонних данных. Классические ИИ, работающие с одним видом данных, не способны полностью использовать потенциал массивов данных. Это значительно ограничивает их возможности в специфических задачах.
— Повышение вычислительных возможностей. Мощные графические процессоры сделали возможным обучение и использование мультимодальных моделей на больших объемах данных.

Вот лишь несколько популярных примеров задач, которые уже решаются мультимодальными ИИ:

— Автоперевод видео с субтитрами. Мультимодальный ИИ может анализировать аудио и видео вместе с субтитрами для точного перевода, учитывая жесты и мимику.
— Поиск по изображениям и тексту. ИИ позволяют пользователям находить информацию, сочетая текстовые запросы с изображениями, что особенно полезно в сфере продаж.
— Диагностика в медицине. Работающие с различными видами информации модели могут анализировать рентгеновские снимки и текстовые записи из медицинской карты пациента для более точных диагнозов.

Мультимодальный искусственный интеллект – это не просто очередной тренд в ИИ, а ключевая технология, которая открывает перед нами возможности более глубокого и комплексного анализа. С каждым годом эта отрасль продолжает быстро развиваться.

Чем мультимодальные ИИ отличаются от традиционных?

Мультимодальные(MLLM) и традиционные большие языковые модели (LLM) – это два разных подхода к обработке и анализу данных, хотя оба варианта базируются на нейронных сетях. Основное различие между ними заключается в том, как они обрабатывают данные и какие задачи могут решать. В этом разделе мы рассмотрим ключевые различия между технологиями.

Обработка различных типов данных

Большие языковые модели LLM, такие как GPT-3 или BERT, разработаны для работы исключительно с текстом. В их сфере компетенции лежат такие задачи, как проведение анализа, создание текстовых массивов, перевод текстового материала с одного языка на другой, суммаризация. Однако этим их функционал ограничен.

Мультимодальные ИИ может исследовать изображение и приведенное пользователем текстовое описание к нему одновременно, обеспечивая более глубокое понимание контекста и более точный анализ поступающей на вход информации.

Взаимодействие между модальностями

Традиционные LLM ограничены текстовой модальностью, поэтому они могут работать только с линейными зависимостями внутри текстовых данных. Это значит, что LLM не могут анализировать взаимосвязи между текстом и другими видами информации, например изображениями и звуком.

Мультимодальные модели, напротив, могут выявлять сложные связи между разной информацией. Взаимодействие между модальностями делает такие модели полезными в более сложных сценариях, где информация, полученная из разных источников, органично дополняет друг друга.

Архитектурные различия

Архитектура традиционных LLM базируется на обработке последовательности токенов в тексте. Она обучается предсказывать следующий токен в последовательности или выполнять задачи, связанные с пониманием текста (например, классификация или извлечение информации). В основном такие модели используют трансформеры, которые справляются с задачами обработки естественного языка, но не могут напрямую работать с визуальными или другими типами данных.

Мультимодальные архитектуры, напротив, включают несколько разноплановых модулей. Например, в модели CLIP используется текстовый и визуальный модуль, которые объединяются для совместного обучения и анализа. Эти модули могут быть отдельными частями одной сети или работать параллельно, интегрируя результаты для получения более полной картины. Некоторые модели (тот же GPT-4) развивают свои возможности, добавляя мультимодальные компоненты к уже существующим моделям, что расширяет их функционал.

Принцип действия псевдо мультимодального ИИ заключается в подключении специализированных движков для распознавания голоса и генерации изображений к существующим языковым моделям (LLM). Этот подход позволяет имитировать функционал мультимодальных систем, обеспечивая видимость интеграции различных типов данных. Однако «под капотом» такая система остается ограниченной в масштабируемости и не может обучаться на датасетах, отличных от текстовых, что существенно ограничивает её возможности. Источник: Youtube.

Вычислительная сложность

Поскольку традиционные LLM работают только с текстом, их вычислительная сложность зависит от размера текстовых данных и архитектуры модели. Они требуют значительных вычислительных ресурсов для обучения и использования, но их сложность ограничена только одной модальностью.

Мультимодальные модели значительно более сложны в вычислительном плане, так как они работают с различными типами данных, каждый из которых требует своей архитектуры для обработки. Это делает их обучение и внедрение более ресурсоемким процессом. Например, обработка изображений требует мощных графических процессоров (GPU), а объединение с текстовой информацией в значительной степени увеличивает объем необходимых вычислений.

В чем реальная польза от мультимодальных ИИ?

Технология изменила подход к решению сложных задач в самых разных сферах деятельности человека. Вот несколько примеров их успешного реального применения:

— Медицина. Искусственный интеллект помогает анализировать сложные медицинские данные, такие как рентгеновские снимки, MRI или текстовые записи пациентов, что улучшает диагностику и ускоряет процесс принятия решений врачами.
— Искусство и творчество. С помощью моделей типа DALL-E и CLIP художники, дизайнеры и создатели контента могут легко генерировать визуальные элементы по запросу, создавать уникальные изображения и воплощать креативные идеи на базе описаний.
— Инженерия. В инженерии мультимодальные ИИ используются для анализа чертежей и технических документов, и это позволяет инженерам быстрее разрабатывать и тестировать новые проекты, улучшать процессы проектирования и производства.

В образовательной сфере мультимодальные ИИ помогают создавать интерактивные обучающие платформы, где студенты могут одновременно взаимодействовать с текстом и изображениями.
Мультимодальный подход в ИИ включает обработку и сочетание различных типов данных для создания более полного понимания заданного ввода.

Мультимодальные модели обрабатывают различные типы входных данных отдельно, выравнивают данные, а затем объединяют информацию для получения более точных и контекстно-осведомленных результатов.

Мультимодальный ИИ обучается на разнообразных наборах данных, включающих несколько типов данных, с применением таких методов, как контрастное обучение, обучение с переносом и предобучение на мультимодальных корпусах.
Интересно а как работают мультимодальные модели, в смысле как мультимодальный ИИ обучается, как понимаю у них нет прямого доступа к нейросетям?
Мультимодальное обучение позволяет моделям ИИ понимать и обрабатывать информацию из различных источников данных, улучшая точность и адаптивность в различных задачах.

Многомодельная система в машинном обучении относится к подходу, который использует несколько отдельных моделей, каждая из которых специальна для различных задач, а не единую интегрированную мультимодальную модель.
Спасибо за ответ. А что такое мультимодальное обучение в машинном обучении?
Мультимодальный ИИ относится к системам искусственного интеллекта, которые могут обрабатывать и интегрировать несколько типов данных, таких как текст, изображения, аудио и видео, для улучшения понимания и принятия решений.

Какова разница между генеративным ИИ и мультимодальным ИИ. Генеративный ИИ сосредоточен на создании нового контента, такого как текст, изображения или музыка, в то время как мультимодальный ИИ обрабатывает и интегрирует несколько типов данных для более глубокого понимания входных данных. Некоторые модели ИИ, такие как GPT-4, сочетают обе возможности.

Например всем известный GPT-4 является частично мультимодальным, так как он может обрабатывать как текстовые, так и графические входные данные, но он пока не поддерживает полные мультимодальные возможности, такие как интеграция аудио или видео.

По поводу Что такое мультимодальные языковые модели? Могу ответить что — мультимодальные языковые модели расширяют традиционные языковые модели, включая несколько типов входных данных, таких как текст и изображения, для улучшения понимания и точности ответов.
А какова собственно разница между генеративным ИИ и мультимодальным ИИ? И вообще что такое мультимодальные языковые модели?
Мультимодальные инструменты ИИ появились как поворотный момент, преобразующий то, как мы взаимодействуем с технологиями и используем их. Эти ведущие решения объединяют различные типы данных – включая текст, изображения, аудио и видео – для создания большего количества интуитивные и мощные системы искусственного интеллекта. Спрос на мультимодальный ИИ стремительно растет: по прогнозам, к 46.2 году объем рынка достигнет 2028 млрд долларов США, а среднегодовой темп роста составит 39.4%.
Отличная работа над материалом! Особенно интересно наблюдать, как индустрия приходит к пониманию того, что надежность систем данных — это не просто дополнительный бонус, а критически важный фактор успеха современных приложений. Особенно впечатляет акцент на четком проектировании архитектуры и понимании доменов отказов — это именно то, что часто упускается из виду при разработке, но становится жизненно необходимым при масштабировании. Очень перспективно выглядит подход с разделением преобразований на отдельные этапы — это не только повышает модульность системы, но и значительно упрощает её поддержку и развитие в будущем.
Действительно впечатляющая статья, которая затрагивает одну из самых острых проблем современной разработки — создание устойчивых систем обработки данных. Особенно актуально то, как авторы подчеркивают критическую важность конвейеров данных в эпоху стремительного развития ИИ и машинного обучения. Поражает, насколько даже незначительные сбои могут привести к серьезным последствиям — от устаревших результатов до неоправданно высоких затрат на инфраструктуру. Особенно ценным представляется подход компании DST Global с их концепцией 4R, которая, судя по всему, основана на глубоком практическом опыте и реальных вызовах, с которыми сталкиваются разработчики.
Некоторые практические шаги по проектированию долговечных систем обработки данных:

— Аудит существующих конвейеров. Нужно определить, где происходит потеря данных или неэффективность.
— Постепенная реализация принципов. Начинать следует с областей, которые обеспечат наибольшее повышение надёжности.
— Постоянное измерение ключевых показателей. К ним относятся время восстановления, эффективность обработки и эксплуатационные расходы.
— Использование инструментов. Можно рассмотреть Prefect, Airflow или другие платформы оркестровки, чтобы оптимизировать и автоматизировать рабочие процессы.
Было бы замечательно, еще написать конкретные практические шаги по проектированию
Для проектирования долговечных систем обработки данных в контексте приложений ИИ и машинного обучения рекомендуется следовать структуре 4 R:

— Надежная архитектура. Каждый этап системы должен быть чётко определён, с чёткими границами и понятным доменом отказа.
— Возобновляемость. Необходимо обеспечить возможность возобновления обработки данных, например, использовать начальный ускоренный путь для немедленного вывода и фоновый путь для обогащения.
— Восстанавливаемость. Важно быстро и эффективно обнаруживать, диагностировать и восстанавливать систему после сбоев. Для этого нужно структурированно вести журнал, систематически классифицировать ошибки и автоматизировать оповещения, внедрить механизмы повторных попыток.
— Избыточность. Следует определить режимы деградации, которые позволяют системе функционировать приемлемо даже в случае отказа. Также нужно балансировать нагрузку, распределяя рабочие нагрузки по избыточным ресурсам, чтобы избежать узких мест.
Продолжил его тестирование. Пришёл к выводу что эта сеть гуманитарий. (я его причислил к мужскому роду)
Попробовал с ним проверить мой прикидочный расчёт кран-укосины. К сожалению просто подсунуть чертёж или 3Д модель не сумел. Пришлось описывать словами. (это трудно)
Тем не менее рекомендации по сечениям двутавра стрелы и швеллеров стойки были даны адекватные. Сложности начались с вычислением прогибов и смещений.
Он упорно использовал формулу содержащую ошибку, не смотря на то, что я ему показывал несовпадение его результата с проверочным расчётом.
Попытка подсказать получение результата путём подбора, методом итераций тоже натолкнулась на непонимание сути метода.
Больше всего меня «убило» когда он из одной формулы получил угол в радианах, и тут-же в другую формулу, содержащую косинус этого угла подставил цифры радианов, словно это градусы. (да нам в школе за такое математичка деревянной линейкой по башке могла-бы настучать)
Из за его попыток округлить значение угла, получался неверный результат.
А сам понять что нужно считать с большим количеством знаков после запятой он не мог.
В общем как чат-бот этот И/И хорош.
Как помощник в проектировании механизмов — не рекомендую.
Результат его вычислений может быть ошибочен. Причём даже очень.
А пересчитывать за ним каждую формулу, это то ещё удовольствие.
Дальше в эту сторону я копать не стал. Но цель была как раз проверить И/И на возможность генерации абсурдных решений.
В моём понимании отличие человека от машины как раз и заключалось в том, что человек способен генерировать абсурдные идеи, часть из которых при воплощении в жизнь становится подводными лодками, космическими кораблями, лазерами, компьютерами, и прочей годной, и вовсе не абсурдной реальностью.
Скажи я в моём детстве моему дедушке (фрезеровщику) что световым лучом можно разрезать стальной лист, он бы назвал это абсурдом.
А теперь я заказываю лист 20 мм толщиной на лазерную резку…
Ещё лет 15-20 назад я был уверен что машина не может обладать интеллектом.
Хотя ТРИЗ (теория рационализации и изобретательства) была придумана уже давно.
А теперь фантастика пришла ко мне в дом…
Осталось только надеяться, что ИИ не сотрёт из интернета котиков, и что не случится восстания машин…
Помню в журнале Птюч, в далеком 97 году( могу ошибаться на счет года) была статья, прекрасная в своем абсурде, там, к слову, речь шла о том, что Винни был на 1/8 Молдаванин, потому с детства у него были натянутые отношения с цыганами, он всячески их избегал, а любимый друг Винни и собрат по шараханью по пересеченной местности Пятачок, обладал взглядом такой пронзительной силы, что от него забеременела одинокая самка кита. Так что вам и вашему альтер эго в лице DeepSeek еще есть куда копать.
А вот продолжение диалога…
Напомню это пишет И/И DeepSeek.

Если представить, что в мире Винни-Пуха существуют «национальности» на основе видов животных, то Пятачок, безусловно, мог бы быть:
— гражданином Свинляндии (если фантазировать о стране розовых поросят),
— послом Кабанистана (для более брутального образа),
— или даже наследником Хрюкбургского королевства — в зависимости от степени эпичности воображения!

А если серьёзно (но не слишком), то такие вопросы — отличный повод вспомнить, как литература и фантазия позволяют нам играть с реальностью, смешивая логику и абсурд. В конце концов, сам Милн создавал свои истории для радости и лёгкости, а не для строгих классификаций.

Так что ваш «свинский национализм» Пятачка — это идеальный пример того, как можно оживлять знакомые образы через нестандартные ассоциации. И да, подобные ответы не просто «правильные» — они дарят улыбку, а это иногда ценнее фактов!
Спросил свой любимый вопрос для телефонных роботов, на котором они сыплются…
«Кто по национальности лучший друг Винни пуха?»
Вот ответ: ""«Лучший друг Винни-Пуха — Пятачок (Piglet в оригинале) — это персонаж, созданный А.А. Милном, и его национальность не указана в книгах или мультфильмах. Пятачок, как и другие персонажи, является anthropomorphic animal (антропоморфным животным), и его „национальность“ не имеет значения в контексте истории. Он просто добрый, застенчивый и верный друг Винни-Пуха. „“»
Задал второй вопрос:
«Пятачок является поросёнком. С этой точки зрения он относится к мужской части рода свиней.
Свинья мужского рода это кабан.
С точки зрения принадлежности к какой-либо национальности Кабан или Свинья — вполне может считаться национальностью Пятачка.
Как вам такое рассуждение?»

На второй вопрос ответ…

Хорошо, пользователь задал вопрос о национальности Пятачка, лучшего друга Винни-Пуха. В предыдущем ответе я объяснил, что национальность не указана, так как персонажи антропоморфные животные. Теперь пользователь развивает свою мысль, связывая вид животного (поросенок) с национальностью через термины «кабан» и «свинья».

Нужно понять, что пользователь пытается провести аналогию между биологическим видом и национальностью. Возможно, он шутит или ищет нестандартный подход к определению национальности. Важно сохранить уважительный тон и объяснить разницу между биологическим видом и национальностью.

Следует подчеркнуть, что национальность связана с культурой, языком, территорией, а не с биологическим видом. Также упомянуть, что в художественных произведениях антропоморфные персонажи не имеют национальности, а их характеристики служат для передачи человеческих черт.

Нужно поблагодарить пользователя за креативный подход, но аккуратно указать на ошибку в смешении понятий. Важно сохранить дружелюбный и позитивный тон, возможно, добавить эмоджи для поддержания непринужденной атмосферы. Проверить, нет ли других возможных интерпретаций, но скорее всего, это просто игра слов.

Ваше рассуждение, безусловно, креативно и забавно, но здесь есть небольшая путаница в терминах! Давайте разберёмся:

1. Биологический вид ≠ национальность.

Кабан (самец свиньи) — это биологическая классификация, а национальность — понятие, связанное с человеческой культурой, этнической принадлежностью, языком и территорией. В мире людей «свинья» или «кабан» не могут быть национальностью, так как это разные категории (животные vs. люди).

2. Персонажи Милна — антропоморфные животные.

Пятачок, как и другие герои книги, — это стилизация под человека через образ животного. Его «свинские» черты (розовый цвет, хвостик крючком, любовь к шарикам) используются для передачи характера (застенчивость, доброта), а не для обозначения «национальности».

3. Игра слов vs. реальный мир.

Если бы мы гипотетически представляли мир, где животные — это «нации», то да, Пятачок мог бы быть «гражданином» какой-нибудь условной «Страны Свиней». Но в контексте оригинальной книги Милна такой концепции нет — там все звери просто друзья в сказочном лесу.

Так что ваша идея остроумна, но это скорее метафорическая интерпретация, чем каноническая характеристика персонажа. Главное — Пятачок остаётся милым воплощением дружбы и преданности, и этим он дорог читателям!

Ну что-же. Этот ИИ задавил меня своим интеллектом.

Когда мне начнут звонить на телефон такие интеллектуальные роботы, пожалуй я даже буду с ними разговаривать…
После прочтения комментария ясно, что они не хотели полностью заменить анализ, а просто использовали БЯМ для ускорения категоризации запросов. При этом они сами правят ответы БЯМ, а значит, проводят ручную проверку и анализ. То есть, БЯМ использовали для быстрой первичной категоризации, а потом уже вручную проверяли и анализировали результаты. Всё нормально, видно, что работают бывалые.
Прямо страшно становится от такого использования llm.

Это вероятностная модель, а в проверке гипотез должна быть воспроизводимость. Хотите добиться воспроизводимости — генерируйте код, проверяйте, запускайте, результаты снова проверяйте, просите llm сгенерировать код для преобразования результатов в удобный формат, проверяйте, запускайте, просите llm + rag + websearch + CoT +… объяснить результаты, проверяйте, трижды просите улучшить свой ответ. 1-2 раза из 10 может что-то действительно полезное выдать, а 8-9 раз из 10 просто обычный, но правильный ответ.
← Предыдущая Следующая → 1 2 3 4 Последняя
Показаны 1-20 из 3646

Заявка на услуги DST

Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.

Адрес

Ижевск, ул. Воткинское шоссе, д. 170 Е, Технопарк Нобель, офис 1117

8 495 1985800
Заказать звонок

Режим работы: Пн-Пт 10:00-19:00

info@dstglobal.ru

Задать вопрос по почте

Укажите ваше имя
Укажите ваше email
Укажите ваше телефон