Последние сообщения

Белорусская косметика
Белорусская косметика
  • Сообщений: 4
  • Последний визит: 17 мая 2025 в 21:18

Просто сохраняет POST-переменную как обычно и все.

Металл Профиль
Металл Профиль
  • Сообщений: 5
  • Последний визит: 27 мая 2025 в 12:40

В каком-то структурированном формате — markdown, html.

Артемий Казанцев
Артемий Казанцев
  • Сообщений: 14
  • Последний визит: 17 мая 2025 в 21:16

Популярность мультимодального искусственного интеллекта продолжает стремительно расти за счет его гибкости и эффективности в решении сложных задач, для качественного выполнения которых нельзя обойтись без взаимодействия с различными видами входной информации.

Увеличению востребованности технологии способствуют в том числе следующие факторы:

— Рост объемов разносторонних данных. Классические ИИ, работающие с одним видом данных, не способны полностью использовать потенциал массивов данных. Это значительно ограничивает их возможности в специфических задачах.

— Повышение вычислительных возможностей. Мощные графические процессоры сделали возможным обучение и использование мультимодальных моделей на больших объемах данных.

Вот лишь несколько популярных примеров задач, которые уже решаются мультимодальными ИИ:

— Автоперевод видео с субтитрами. Мультимодальный ИИ может анализировать аудио и видео вместе с субтитрами для точного перевода, учитывая жесты и мимику.

— Поиск по изображениям и тексту. ИИ позволяют пользователям находить информацию, сочетая текстовые запросы с изображениями, что особенно полезно в сфере продаж.

— Диагностика в медицине. Работающие с различными видами информации модели могут анализировать рентгеновские снимки и текстовые записи из медицинской карты пациента для более точных диагнозов.

Мультимодальный искусственный интеллект – это не просто очередной тренд в ИИ, а ключевая технология, которая открывает перед нами возможности более глубокого и комплексного анализа. С каждым годом эта отрасль продолжает быстро развиваться.

Чем мультимодальные ИИ отличаются от традиционных?

Мультимодальные(MLLM) и традиционные большие языковые модели (LLM) – это два разных подхода к обработке и анализу данных, хотя оба варианта базируются на нейронных сетях. Основное различие между ними заключается в том, как они обрабатывают данные и какие задачи могут решать. В этом разделе мы рассмотрим ключевые различия между технологиями.

Обработка различных типов данных

Большие языковые модели LLM, такие как GPT-3 или BERT, разработаны для работы исключительно с текстом. В их сфере компетенции лежат такие задачи, как проведение анализа, создание текстовых массивов, перевод текстового материала с одного языка на другой, суммаризация. Однако этим их функционал ограничен.

Мультимодальные ИИ может исследовать изображение и приведенное пользователем текстовое описание к нему одновременно, обеспечивая более глубокое понимание контекста и более точный анализ поступающей на вход информации.

Взаимодействие между модальностями

Традиционные LLM ограничены текстовой модальностью, поэтому они могут работать только с линейными зависимостями внутри текстовых данных. Это значит, что LLM не могут анализировать взаимосвязи между текстом и другими видами информации, например изображениями и звуком.

Мультимодальные модели, напротив, могут выявлять сложные связи между разной информацией. Взаимодействие между модальностями делает такие модели полезными в более сложных сценариях, где информация, полученная из разных источников, органично дополняет друг друга.

Архитектурные различия

Архитектура традиционных LLM базируется на обработке последовательности токенов в тексте. Она обучается предсказывать следующий токен в последовательности или выполнять задачи, связанные с пониманием текста (например, классификация или извлечение информации). В основном такие модели используют трансформеры, которые справляются с задачами обработки естественного языка, но не могут напрямую работать с визуальными или другими типами данных.

Мультимодальные архитектуры, напротив, включают несколько разноплановых модулей. Например, в модели CLIP используется текстовый и визуальный модуль, которые объединяются для совместного обучения и анализа. Эти модули могут быть отдельными частями одной сети или работать параллельно, интегрируя результаты для получения более полной картины. Некоторые модели (тот же GPT-4) развивают свои возможности, добавляя мультимодальные компоненты к уже существующим моделям, что расширяет их функционал.

Принцип действия псевдо мультимодального ИИ заключается в подключении специализированных движков для распознавания голоса и генерации изображений к существующим языковым моделям (LLM). Этот подход позволяет имитировать функционал мультимодальных систем, обеспечивая видимость интеграции различных типов данных. Однако «под капотом» такая система остается ограниченной в масштабируемости и не может обучаться на датасетах, отличных от текстовых, что существенно ограничивает её возможности. Источник: Youtube.

Вычислительная сложность

Поскольку традиционные LLM работают только с текстом, их вычислительная сложность зависит от размера текстовых данных и архитектуры модели. Они требуют значительных вычислительных ресурсов для обучения и использования, но их сложность ограничена только одной модальностью.

Мультимодальные модели значительно более сложны в вычислительном плане, так как они работают с различными типами данных, каждый из которых требует своей архитектуры для обработки. Это делает их обучение и внедрение более ресурсоемким процессом. Например, обработка изображений требует мощных графических процессоров (GPU), а объединение с текстовой информацией в значительной степени увеличивает объем необходимых вычислений.

В чем реальная польза от мультимодальных ИИ?

Технология изменила подход к решению сложных задач в самых разных сферах деятельности человека. Вот несколько примеров их успешного реального применения:

— Медицина. Искусственный интеллект помогает анализировать сложные медицинские данные, такие как рентгеновские снимки, MRI или текстовые записи пациентов, что улучшает диагностику и ускоряет процесс принятия решений врачами.

— Искусство и творчество. С помощью моделей типа DALL-E и CLIP художники, дизайнеры и создатели контента могут легко генерировать визуальные элементы по запросу, создавать уникальные изображения и воплощать креативные идеи на базе описаний.

— Инженерия. В инженерии мультимодальные ИИ используются для анализа чертежей и технических документов, и это позволяет инженерам быстрее разрабатывать и тестировать новые проекты, улучшать процессы проектирования и производства.

В образовательной сфере мультимодальные ИИ помогают создавать интерактивные обучающие платформы, где студенты могут одновременно взаимодействовать с текстом и изображениями.

Елена Коврегина
Елена Коврегина
  • Сообщений: 9
  • Последний визит: 31 мая 2025 в 11:16

Мультимодальное обучение позволяет моделям ИИ понимать и обрабатывать информацию из различных источников данных, улучшая точность и адаптивность в различных задачах.

Многомодельная система в машинном обучении относится к подходу, который использует несколько отдельных моделей, каждая из которых специальна для различных задач, а не единую интегрированную мультимодальную модель. 

Елена Коврегина

Интересно а как работают мультимодальные модели, в смысле как мультимодальный ИИ обучается, как понимаю у них нет прямого доступа к нейросетям?

Металл Профиль

Мультимодальный подход в ИИ включает обработку и сочетание различных типов данных для создания более полного понимания заданного ввода.

Мультимодальные модели обрабатывают различные типы входных данных отдельно, выравнивают данные, а затем объединяют информацию для получения более точных и контекстно-осведомленных результатов.

Мультимодальный ИИ обучается на разнообразных наборах данных, включающих несколько типов данных, с применением таких методов, как контрастное обучение, обучение с переносом и предобучение на мультимодальных корпусах. 

Металл Профиль
Металл Профиль
  • Сообщений: 5
  • Последний визит: 27 мая 2025 в 12:40

Мультимодальное обучение позволяет моделям ИИ понимать и обрабатывать информацию из различных источников данных, улучшая точность и адаптивность в различных задачах.

Многомодельная система в машинном обучении относится к подходу, который использует несколько отдельных моделей, каждая из которых специальна для различных задач, а не единую интегрированную мультимодальную модель. 

Елена Коврегина

Интересно а как работают мультимодальные модели, в смысле как мультимодальный ИИ обучается, как понимаю у них нет прямого доступа к нейросетям?

Елена Коврегина
Елена Коврегина
  • Сообщений: 9
  • Последний визит: 31 мая 2025 в 11:16

Мультимодальное обучение позволяет моделям ИИ понимать и обрабатывать информацию из различных источников данных, улучшая точность и адаптивность в различных задачах.

Многомодельная система в машинном обучении относится к подходу, который использует несколько отдельных моделей, каждая из которых специальна для различных задач, а не единую интегрированную мультимодальную модель. 

Белорусская косметика
Белорусская косметика
  • Сообщений: 4
  • Последний визит: 17 мая 2025 в 21:18

А какова собственно разница между генеративным ИИ и мультимодальным ИИ? И вообще что такое мультимодальные языковые модели?

Белорусская косметика

Мультимодальный ИИ относится к системам искусственного интеллекта, которые могут обрабатывать и интегрировать несколько типов данных, таких как текст, изображения, аудио и видео, для улучшения понимания и принятия решений.

Какова разница между генеративным ИИ и мультимодальным ИИ. Генеративный ИИ сосредоточен на создании нового контента, такого как текст, изображения или музыка, в то время как мультимодальный ИИ обрабатывает и интегрирует несколько типов данных для более глубокого понимания входных данных. Некоторые модели ИИ, такие как GPT-4, сочетают обе возможности.

Например всем известный GPT-4 является частично мультимодальным, так как он может обрабатывать как текстовые, так и графические входные данные, но он пока не поддерживает полные мультимодальные возможности, такие как интеграция аудио или видео.

По поводу Что такое мультимодальные языковые модели? Могу ответить что — мультимодальные языковые модели расширяют традиционные языковые модели, включая несколько типов входных данных, таких как текст и изображения, для улучшения понимания и точности ответов. 

Елена Коврегина

Спасибо за ответ. А что такое мультимодальное обучение в машинном обучении?

Елена Коврегина
Елена Коврегина
  • Сообщений: 9
  • Последний визит: 31 мая 2025 в 11:16

А какова собственно разница между генеративным ИИ и мультимодальным ИИ? И вообще что такое мультимодальные языковые модели?

Белорусская косметика

Мультимодальный ИИ относится к системам искусственного интеллекта, которые могут обрабатывать и интегрировать несколько типов данных, таких как текст, изображения, аудио и видео, для улучшения понимания и принятия решений.

Какова разница между генеративным ИИ и мультимодальным ИИ. Генеративный ИИ сосредоточен на создании нового контента, такого как текст, изображения или музыка, в то время как мультимодальный ИИ обрабатывает и интегрирует несколько типов данных для более глубокого понимания входных данных. Некоторые модели ИИ, такие как GPT-4, сочетают обе возможности.

Например всем известный GPT-4 является частично мультимодальным, так как он может обрабатывать как текстовые, так и графические входные данные, но он пока не поддерживает полные мультимодальные возможности, такие как интеграция аудио или видео.

По поводу Что такое мультимодальные языковые модели? Могу ответить что — мультимодальные языковые модели расширяют традиционные языковые модели, включая несколько типов входных данных, таких как текст и изображения, для улучшения понимания и точности ответов. 

Белорусская косметика
Белорусская косметика
  • Сообщений: 4
  • Последний визит: 17 мая 2025 в 21:18

А какова собственно разница между генеративным ИИ и мультимодальным ИИ? И вообще что такое мультимодальные языковые модели?

Металл Профиль
Металл Профиль
  • Сообщений: 5
  • Последний визит: 27 мая 2025 в 12:40

Мультимодальные инструменты ИИ появились как поворотный момент, преобразующий то, как мы взаимодействуем с технологиями и используем их. Эти ведущие решения объединяют различные типы данных – включая текст, изображения, аудио и видео – для создания большего количества интуитивные и мощные системы искусственного интеллекта. Спрос на мультимодальный ИИ стремительно растет: по прогнозам, к 46.2 году объем рынка достигнет 2028 млрд долларов США, а среднегодовой темп роста составит 39.4%.

Игорь Симонян
Игорь Симонян
  • Сообщений: 13
  • Последний визит: 27 мая 2025 в 13:06

Такая же ситуация была, с хостером решали этот вопрос вместе. Сайт с 200к+ записями. Нам в какой-то момент 32 гб стало мало при TTL кеша редис в 86400. Было решено просто добавить еще 1 плашку на 32 гб.

PS Скажу сразу что редис очень не любит когда его ограничивают в ОЗУ. При ограничении в ОЗУ начинает страдать ЦП. Замкнутый круг получается.
Итог: или откажитесь от объектного кеша или разрешите брать столько ОЗУ сколько надо или попробуйте уменьшить TTL кеша (но это тоже спорно)

Белорусская косметика
Белорусская косметика
  • Сообщений: 4
  • Последний визит: 17 мая 2025 в 21:18

Не понимаю вашей проблемы. Redis будет удалять самые старые записи, если он заполнен. Если ничего не делать, он всё ещё будет хорошо работать в качестве кэша.

10 ГБ — это слабая загруженность, на самом деле. Такой объём можно полностью уместить в Redis или Tarantool.

Антон Павлов
Антон Павлов
  • Сообщений: 1
  • Последний визит: 16 мая 2025 в 17:50

Нет поводов для волнений, но можно увеличить объём памяти для редиса.

Насколько будет заполнение кеша зависит от настроек (что кешировать. на сколько и тп), трафика и пр. и будет ровно столько сколько нужно для эффективной работы сайта, но не больше выделенного.

Сразу видно что база не оптимизирована. У нас записей намного больше, но база немногим превышает 500мб.

Артем Высоков
Артем Высоков
  • Сообщений: 6
  • Последний визит: 15 мая 2025 в 16:26

Хорошо у нас DST Marketplace, CS-Cart и Битрикс 24 работать со всеми он сможет? 

Иван Терешенко

Да с DST Platform на 100% своих возможностей, с CS-Cart и Битрикс а также любыми другими  движками только через модули, что приведет к снижению функционала на 60-70% но работать конечно сможет 

Иван Терешенко
Иван Терешенко
  • Сообщений: 40
  • Последний визит: Сегодня в 21:06

Тоже в последнее время задумываемся над тем чтоб установить ИИ-консультант к себе на сайт, а также облегчить труд контенщикам и снизить нагрузку на службу поддержки, интересует, может ли DST AI работать не только на базе DST Platform? У нас просто есть несколько сайтов, которые интегрированы между собой, так получилось что они на разных CMS системах и перейти полностью на одну сейчас не предоставляется возможным 

Иван Терешенко

DST AI имеет полную интеграцию с DST Platform, а вот с другими системами только в виде модулей т.е. уже имеет не полную интеграцию, что конечно приведет к снижению его возможностей, в любом случае сейчас DST AI можно установить на любую CMS или даже CRM систему и он будет выполнять свои функции, разве что только на 60-70 % меньше от того что он мог бы сделать на DST Platform. 

В дальнейшем мы конечно постараемся снизить данный процент, но естественно что какой бы не был универсальный DST AI максимально он сможет работать только на базе DST Platform 

Артем Высоков

Хорошо у нас DST Marketplace, CS-Cart и Битрикс 24 работать со всеми он сможет? 

Заявка на услуги DST

Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.

Адрес

Ижевск, ул. Воткинское шоссе, д. 170 Е, Технопарк Нобель, офис 1117

8 495 1985800
Заказать звонок

Режим работы: Пн-Пт 10:00-19:00

info@dstglobal.ru

Задать вопрос по почте

Укажите ваше имя
Укажите ваше email
Укажите ваше телефон