Напишите нам прямо сейчас, наши специалисты расскажут об услугах и ответят на все Ваши вопросы.
Напишите нам прямо сейчас, наши специалисты расскажут об услугах и ответят на все Ваши вопросы.
Наш специалист свяжется с Вами, обсудит оптимальную стратегию сотрудничества, поможет сформировать бизнес требования и рассчитает стоимость услуг.
Наш специалист свяжется с Вами, обсудит оптимальную стратегию сотрудничества, поможет сформировать бизнес требования и рассчитает стоимость услуг.
Заполните онлайн-заявку и получите выгодное спецпредложение прямо сейчас.
За вами будет закреплен персональный менеджер, который расскажет о платформе, ответит на все ваши вопросы и сформирует для вас коммерческое предложение.
Наш специалист свяжется с Вами и
обсудит время собеседования.
Сейчас у меня — 0,52-0.64 по директу, и 0.65 по адсенсу.
Архитектурно DALL-E это версия GPT-3, к которой был добавлен хитрый способ токенизации изображений, позволяющий создавать мультимодальный словарь, в котором часть токенов отвечает за текст, а вторая часть за изображение.
Что означает мультимодальность? Это модальность в разных сочетаниях, таких как: видео и текст, аудио и текст. Таким образом, вы можете представить это себе как классическую задачу для компьютера в сфере искусственного интеллекта, который может обрабатывать происходящее на изображении, интерпретировать и описывать все происходящие события, учитывая фон, изменения положений вещей в пространстве и контекст происходящего.
После некоторого количества исследований, стало понятно, что DALL-E способна порождать широкий ассортимент генеративных изображений. Можно сказать, что охват и виральность мультимодального искусственного интеллекта потенциально широки и в первую очередь могут применяться в сферах, связанных с творчеством, дизайном и игровой индустрии. Поэтому наряду с большим успехом визуального представления текста, OpenAI опасаются, что такие модели могут сильно повлиять на социальную и экономическую системы. И, уже по сложившейся традиции, не стали выпускать DALL-E в открытый доступ.
Несмотря на это, они выпустили CLIP (Contrastive Image-Language Pretraining, что можно перевести как контрастное предварительное обучение образному языку), который в своём роде половина движка DALL-E.
CLIP – ещё одна мультимодальная сеть, способная оценить изображение и соотнести, подходит ли к ней подпись или наоборот. Таким образом, CLIP принимает текст и изображение и связывает их непроизвольным способом, что, в свою очередь, позволило применять иные модели, способные генерировать изображения вместе с ним, такие как VQGAN.
VQGAN (Vector Quantized Generative Adversarial Network), что переводится как векторная квантованная генеративная адверсариальная сеть — это генеративно-состязательная нейросеть, которую используют для изучения изображений и создания новых, на основе ранее увиденных. Работая вместе, VQGAN генерирует изображение, а CLIP выступает как ранжировщик, оценивая насколько хорошо изображение подходит тексту. Именно эту связку мы используем ниже для того, чтобы вы сами смогли создать результат их совместной работы, даже не обладая навыками программирования, но не стоит забывать и про ruDALL-E.
По аналогии с ruGPT-3, Сбер выпустил первую мультимодальную нейросеть ruDALL-E, основанную на архитектуре DALL-E, способную понимать русский язык, и сделал её открытой, а также создал сайт, на котором можно по любому запросу попробовать сгенерировать изображение.
По словам управляющего директора департамента SberDevices Сергея Маркова несмотря на то, что в описании к DALL-E содержалась информация про архитектуру решения, pipeline, который использовался, но сведений все равно было недостаточно. Поэтому для создания своей версии модели требовалось пробовать и экспериментировать, отталкиваясь от полученных результатов. А самое большое количество сил было потрачено на сбор данных.
Вернёмся к связке VQGAN + CLIP. Сейчас будет описание, каким образом VQGAN генерирует изображения, которое в последствии оценивает CLIP. Если вас не очень интересует, что там под капотом VQGAN, то можете смело перейти к следующей части создания своего изображения.
Рассмотрим, как VQGAN в VQGAN-CLIP работает для генерации и синтеза изображений с высоким разрешением, которые мы видим сегодня
Метод преобразования для синтеза изображений в высоком разрешении состоит из двух этапов.
На первом этапе (нижняя половина изображения) кодировщик и декодер обучаются восстанавливать изображения. Это базовый квантованный автоматический кодировщик плюс дискриминатор, который классифицирует образцы как настоящие или поддельные. Взаимодействие с ним улучшает реконструкцию, позволяя синтезировать убедительно поддельные образцы.
Имеется входное изображение, и мы хотим обучить такое скрытое пространство, которое закодировало бы всю семантическую информацию об этом изображении. Информацию, которую можно было бы использовать для восстановления изображения.
Используемый квантованный кодировщик, был предложен ранее в другой статье (VQ-VAE, van den OORD et al., 2018). Стоит уточнить, что векторное квантование — это метод обработки сигналов для кодирования векторов. Он представляет все визуальные части, обнаруженные на этапе свертки, в квантованной форме, что делает его менее затратным с точки зрения вычислений после передачи в трансформер.
Основная идея здесь заключается в том, что для каждого в ячейке тензора мы находим ближайшего соседа слова в кодовой книге. После чего используем его вместо исходного вектора, поэтому в основном на этом этапе мы вычисляем аргумент для каждой ячейки в тензоре и заменяем его на кодовое слово, которое было получено из кодовой книги, и вместо того, чтобы использовать кодировщик только на полученных словах, мы также применяем его к кодовой книге.
Таким образом, VQGAN использует кодовую книгу как промежуточное представление, после чего кодовая книга изучается с использованием векторного квантования (VQ).
VQGAN делает векторы признаков похожими на присвоенные кодовые слова в кодовой книге, и в то же время кодовые слова также обучаются напоминать распределение векторов признаков в наборе данных.
Проблема здесь в том, что свёрточная природа кодировщика и декодера не позволяет им моделировать долгоиграющие взаимосвязи, потому что поле восприятия каждого свёрточного слоя ограничено, что обычно не позволяет моделировать и генерировать большие изображения. В то же время трансформер – это архитектура, которая позволяет моделировать такие взаимосвязи, но у него есть свои ограничения, он не может работать с действительно большими последовательностями, потому что для этого требуется вычислять взаимосвязь между каждой парой элементов этой последовательности, что требует больших вычислительных ресурсов из-за квадратичной масштабируемости.
Создатели предлагают, моделировать изображение не на уровне пикселей напрямую, а на основе кодовых слов изученной кодовой книги. То есть после того, как модель первого этапа узнала, что у нас есть кодовая книга, и мы можем использовать её, чтобы обучить трансформер для генерации последовательности этих кодовых слов.
Таким образом, у нас есть закодированная последовательность с индексами s<i, которая может быть очень длинной, а трансформер прогнозирует распределение возможных следующих индексов p(si|s<i).
Преимущество заключается в том, что разрешение, с которым мы работаем, намного ниже, чем разрешения исходного пиксельного изображения, поэтому мы можем моделировать более длинные взаимосвязи внутри изображений. Каждый блок последовательности соответствует местоположению, которое представляет собой сотни пикселей.
Обучение этого трансформера является вторым этапом. Мы не обновляем модель первого этапа, а генерируем последовательность кодовых слов, которая будет образовывать желаемое разрешение, а затем мы используем тензор кодовых слов и передадим его в декодер для создания нового изображения, в основном не ограниченного размером.
Чтобы повысить эффективность вычислительных ресурсов трансформера, авторы ограничивали контекст с помощью скользящего окна. Это означает, что при генерации каждого патча он получает информацию только от своих соседей.
Что должно работать, когда изображение имеет некоторые однородные структуры, например, различные изображения пейзажей.
Делая выводы, мы можем сказать, что реализованный в VQGAN двухэтапный подход состоит из свёрточной нейронной сети в форме GAN, который состоит из кодировщика и декодера, и трансформера, использующего окно скользящего внимания при выборке изображений, и который требует использования кодовой книги, полученной с помощью векторного квантования для улучшения масштабирования. Кодовая книга же обучается вместе с двумя моделями.
Всё это демонстрирует нам возможность синтеза изображений с высоким разрешением, позволяя создавать в своём роде произведения искусства.
Напоследок напишу, что Кэтрин Кроусон не советует использовать очень большие разрешения для изображений, зачастую колабу не хватает памяти для реализации такого контента. А также, что вы можете придавать больший вес некоторым из своих заданных слов, добавив двоеточие, а затем число до 100, например: пустыня:50 | в снегу:25", при условии, что вы задаёте множественный запрос. От себя добавлю, что проблемы начинали возникать при попытке сгенерировать изображения свыше 700 на 700.
Как видите, использовать подобные технологии становится всё проще, а их результат, не в единичных случаях, вызывает интерес. Студия Артемия Лебедева уже в 20 году во всю использовала нейронную сеть под человеческим именем “Николай Иронов”, как автоматизацию творческого процесса с коммерческим потенциалом, а нашумевшая NFT-токенизация подстегнула рядовых пользователей к цифровому искусству, частью которого является генеративное искусство. Лично меня прельщает мысль о подобном выходе за рамки восприятия искусства человеком, когда грань между произведением и созерцателем практически стёрта, искусство приобретает новые инструменты, а инструменты порождают искусство.
Это сфера компьютерных наук, которая занимается разработкой систем, обладающих интеллектуальными способностями. Эти системы способны выполнять задачи по созданию аудио и видео материалов, распознаванию речи, пониманию языка, распознаванию образов, принятию решений. Улучшая эффективность, анализируя данные и автоматизируя процессы, технологии ИИ способны открыть новые возможности для бизнеса и жизни в целом.
2. Машинное обучение (ML)
ML является узконаправленной, специализированной ветвью искусственного интеллекта, которая сосредоточена на создании алгоритмов, позволяющих программам извлекать знания из существующих данных, а также улучшать свои результаты без явного программирования. Основываясь на обучающих данных и обрабатывая их с помощью статистических методов, ML способно делать прогнозы и принимать решения.
3. Генеративный искусственный интеллект
Это направление в ИИ, фокусирующееся на создании нового текстового, музыкального и графического контента. Генеративные модели могут создавать уникальные образцы, которые не просто копируют исходные обучающие данные, а генерируют оригинальные выходные данные.
4. Большие языковые модели (LLM)
LLM являются специфическим типом генеративных моделей, заточенных специально для работы с естественным языком. Они обучаются на обширных текстовых наборах данных, что позволяет им понимать грамматику и семантику языка. Эти модели могут выполнять переводы, отвечать на вопросы и создавать оригинальные тексты.
Таким образом, основная разница между этими четырьмя понятиями заключается в их уровне абстракции и специфике задач. AL охватывает все аспекты создания «умных» систем, ML — это конкретный метод обучения, LLM — это специализированные модели для работы с языком, а генеративный AL — подход, позволяющий создавать новые данные на основе существующих.
— Генеративный ИИ сосредоточен на создании нового контента, такого как текст, изображения или музыка. Обычно работает в рамках одной модальности, например текста или изображений. Примеры: глубокие генеративные модели (GANs, VAEs), модели генерации текста.
— Мультимодальный ИИ обрабатывает и интегрирует несколько типов данных для более глубокого понимания входных данных. Может работать с такими модальностями, как текст, изображения, аудио, видео и данные сенсоров. Принципиальное преимущество мультимодальных моделей — способность более полно понимать контекст и нюансы задач. Примеры: интеллектуальные помощники (например, Alexa, Google Assistant), системы, обрабатывающие графические и текстовые данные.
Некоторые модели ИИ, такие как GPT-4, сочетают обе возможности.
Увеличению востребованности технологии способствуют в том числе следующие факторы:
— Рост объемов разносторонних данных. Классические ИИ, работающие с одним видом данных, не способны полностью использовать потенциал массивов данных. Это значительно ограничивает их возможности в специфических задачах.
— Повышение вычислительных возможностей. Мощные графические процессоры сделали возможным обучение и использование мультимодальных моделей на больших объемах данных.
Вот лишь несколько популярных примеров задач, которые уже решаются мультимодальными ИИ:
— Автоперевод видео с субтитрами. Мультимодальный ИИ может анализировать аудио и видео вместе с субтитрами для точного перевода, учитывая жесты и мимику.
— Поиск по изображениям и тексту. ИИ позволяют пользователям находить информацию, сочетая текстовые запросы с изображениями, что особенно полезно в сфере продаж.
— Диагностика в медицине. Работающие с различными видами информации модели могут анализировать рентгеновские снимки и текстовые записи из медицинской карты пациента для более точных диагнозов.
Мультимодальный искусственный интеллект – это не просто очередной тренд в ИИ, а ключевая технология, которая открывает перед нами возможности более глубокого и комплексного анализа. С каждым годом эта отрасль продолжает быстро развиваться.
Чем мультимодальные ИИ отличаются от традиционных?
Мультимодальные(MLLM) и традиционные большие языковые модели (LLM) – это два разных подхода к обработке и анализу данных, хотя оба варианта базируются на нейронных сетях. Основное различие между ними заключается в том, как они обрабатывают данные и какие задачи могут решать. В этом разделе мы рассмотрим ключевые различия между технологиями.
Обработка различных типов данных
Большие языковые модели LLM, такие как GPT-3 или BERT, разработаны для работы исключительно с текстом. В их сфере компетенции лежат такие задачи, как проведение анализа, создание текстовых массивов, перевод текстового материала с одного языка на другой, суммаризация. Однако этим их функционал ограничен.
Мультимодальные ИИ может исследовать изображение и приведенное пользователем текстовое описание к нему одновременно, обеспечивая более глубокое понимание контекста и более точный анализ поступающей на вход информации.
Взаимодействие между модальностями
Традиционные LLM ограничены текстовой модальностью, поэтому они могут работать только с линейными зависимостями внутри текстовых данных. Это значит, что LLM не могут анализировать взаимосвязи между текстом и другими видами информации, например изображениями и звуком.
Мультимодальные модели, напротив, могут выявлять сложные связи между разной информацией. Взаимодействие между модальностями делает такие модели полезными в более сложных сценариях, где информация, полученная из разных источников, органично дополняет друг друга.
Архитектурные различия
Архитектура традиционных LLM базируется на обработке последовательности токенов в тексте. Она обучается предсказывать следующий токен в последовательности или выполнять задачи, связанные с пониманием текста (например, классификация или извлечение информации). В основном такие модели используют трансформеры, которые справляются с задачами обработки естественного языка, но не могут напрямую работать с визуальными или другими типами данных.
Мультимодальные архитектуры, напротив, включают несколько разноплановых модулей. Например, в модели CLIP используется текстовый и визуальный модуль, которые объединяются для совместного обучения и анализа. Эти модули могут быть отдельными частями одной сети или работать параллельно, интегрируя результаты для получения более полной картины. Некоторые модели (тот же GPT-4) развивают свои возможности, добавляя мультимодальные компоненты к уже существующим моделям, что расширяет их функционал.
Принцип действия псевдо мультимодального ИИ заключается в подключении специализированных движков для распознавания голоса и генерации изображений к существующим языковым моделям (LLM). Этот подход позволяет имитировать функционал мультимодальных систем, обеспечивая видимость интеграции различных типов данных. Однако «под капотом» такая система остается ограниченной в масштабируемости и не может обучаться на датасетах, отличных от текстовых, что существенно ограничивает её возможности. Источник: Youtube.
Вычислительная сложность
Поскольку традиционные LLM работают только с текстом, их вычислительная сложность зависит от размера текстовых данных и архитектуры модели. Они требуют значительных вычислительных ресурсов для обучения и использования, но их сложность ограничена только одной модальностью.
Мультимодальные модели значительно более сложны в вычислительном плане, так как они работают с различными типами данных, каждый из которых требует своей архитектуры для обработки. Это делает их обучение и внедрение более ресурсоемким процессом. Например, обработка изображений требует мощных графических процессоров (GPU), а объединение с текстовой информацией в значительной степени увеличивает объем необходимых вычислений.
В чем реальная польза от мультимодальных ИИ?
Технология изменила подход к решению сложных задач в самых разных сферах деятельности человека. Вот несколько примеров их успешного реального применения:
— Медицина. Искусственный интеллект помогает анализировать сложные медицинские данные, такие как рентгеновские снимки, MRI или текстовые записи пациентов, что улучшает диагностику и ускоряет процесс принятия решений врачами.
— Искусство и творчество. С помощью моделей типа DALL-E и CLIP художники, дизайнеры и создатели контента могут легко генерировать визуальные элементы по запросу, создавать уникальные изображения и воплощать креативные идеи на базе описаний.
— Инженерия. В инженерии мультимодальные ИИ используются для анализа чертежей и технических документов, и это позволяет инженерам быстрее разрабатывать и тестировать новые проекты, улучшать процессы проектирования и производства.
В образовательной сфере мультимодальные ИИ помогают создавать интерактивные обучающие платформы, где студенты могут одновременно взаимодействовать с текстом и изображениями.
Мультимодальные модели обрабатывают различные типы входных данных отдельно, выравнивают данные, а затем объединяют информацию для получения более точных и контекстно-осведомленных результатов.
Мультимодальный ИИ обучается на разнообразных наборах данных, включающих несколько типов данных, с применением таких методов, как контрастное обучение, обучение с переносом и предобучение на мультимодальных корпусах.
Многомодельная система в машинном обучении относится к подходу, который использует несколько отдельных моделей, каждая из которых специальна для различных задач, а не единую интегрированную мультимодальную модель.
Какова разница между генеративным ИИ и мультимодальным ИИ. Генеративный ИИ сосредоточен на создании нового контента, такого как текст, изображения или музыка, в то время как мультимодальный ИИ обрабатывает и интегрирует несколько типов данных для более глубокого понимания входных данных. Некоторые модели ИИ, такие как GPT-4, сочетают обе возможности.
Например всем известный GPT-4 является частично мультимодальным, так как он может обрабатывать как текстовые, так и графические входные данные, но он пока не поддерживает полные мультимодальные возможности, такие как интеграция аудио или видео.
По поводу Что такое мультимодальные языковые модели? Могу ответить что — мультимодальные языковые модели расширяют традиционные языковые модели, включая несколько типов входных данных, таких как текст и изображения, для улучшения понимания и точности ответов.
— Аудит существующих конвейеров. Нужно определить, где происходит потеря данных или неэффективность.
— Постепенная реализация принципов. Начинать следует с областей, которые обеспечат наибольшее повышение надёжности.
— Постоянное измерение ключевых показателей. К ним относятся время восстановления, эффективность обработки и эксплуатационные расходы.
— Использование инструментов. Можно рассмотреть Prefect, Airflow или другие платформы оркестровки, чтобы оптимизировать и автоматизировать рабочие процессы.