Заявка на услуги DST
Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.
Искусственный интеллект достиг значительных успехов, но традиционные системы ИИ в основном работали в пределах одного типа данных — обрабатывали только текст, изображения или аудио одновременно. Мультимодальный ИИ — это прорыв, который позволяет ИИ обрабатывать и интегрировать несколько типов данных одновременно, имитируя то, как люди воспринимают и понимают мир.
Для бизнес-лидеров, исследователей ИИ/МЛ и ИТ-должностных лиц мультимодальный ИИ представляет собой значительное продвижение в возможностях ИИ, предлагая более точные инсайты, улучшенное принятие решений и расширенную автоматизацию в различных отраслях. Этот путеводитель разбивает основные концепции, технические основы и практические приложения мультимодального ИИ.
Что такое мультимодальный ИИ: всесторонний обзор от разработчиков DST Global
Мультимодальный ИИ относится к системам искусственного интеллекта, которые могут обрабатывать, понимать и генерировать результаты, используя несколько типов данных — таких как текст, изображения, аудио, видео и данные сенсоров — одновременно. В отличие от традиционного ИИ, который работает в рамках одного потока данных, мультимодальный ИИ интегрирует различные источники для создания более полного и контекстно-осознанного понимания информации.
Эволюция от традиционных однотипных систем ИИ
Ранние модели ИИ (представьте: текстовый Индивидуальный ИИ-чат-бот или система распознавания изображений) были разработаны для обработки одного типа ввода за раз. Хотя они были эффективны в своих соответствующих областях, эти модели испытывали трудности с задачами, требующими кросс-модального понимания, такими как анализ видео с интерпретацией произнесенных слов. Успехи в глубоком обучении, увеличение вычислительной мощности и наличие крупных мультимодальных наборов данных проложили путь для ИИ-систем, которые могут без проблем интегрировать несколько типов данных.
Ключевые компоненты и обзор архитектуры
Системы мультимодального ИИ состоят из нескольких основных компонентов:
- Модули обработки данных, которые извлекают и форматируют данные из различных источников, таких как изображения, аудио или текст.
- Механизмы слияния, которые выравнивают и интегрируют несколько потоков данных, чтобы обеспечить согласованность.
- Модели принятия решений, которые анализируют объединенную информацию, чтобы генерировать более точные инсайты или прогнозы.
Эти системы используют техники глубокого обучения, такие как трансформеры и свёрточные нейронные сети (CNN), для выявления шаблонов и взаимосвязей между различными типами данных.
Мультимодальные модели: понимание строительных блоков
В центре мультимодального ИИ находятся специализированные модели, разработанные для эффективного управления и интеграции нескольких модальностей данных.
Архитектуры нейронных сетей для мультимодальной обработки
Мультимодальные модели часто комбинируют различные типы нейронных сетей для обработки разнообразных вводов данных. Например, CNN обрабатывают анализ изображений и видео, рекуррентные нейронные сети (RNN) или трансформеры обрабатывают последовательные данные, такие как речь или текст, а гибридные архитектуры обеспечивают бесшовную интеграцию нескольких модальностей. Эти модели позволяют ИИ понимать сложные взаимосвязи между типами данных, улучшая его способность интерпретировать и генерировать значимые инсайты.
Техники слияния данных и интеграции
Чтобы убедиться, что мультимодальные модели эффективно объединяют различные типы данных, используются различные техники слияния:
- Раннее слияние объединяет сырые данные из различных модальностей перед обработкой, позволяя модели учиться совместным представлениям с самого начала.
- Позднее слияние обрабатывает каждую модальность данных отдельно перед объединением выводов, гарантируя, что каждый источник независимо оптимизирован.
- Гибридное слияние балансирует между ранним и поздним слиянием, обеспечивая гибкость для различных приложений.
Выбор техники слияния зависит от конкретного случая использования ИИ, вычислительной эффективности и сложности данных.
Возможности кросс-модального обучения
Кросс-модальное обучение позволяет моделям ИИ переносить знания между различными типами данных. Например, ИИ, обученный как на текстовых, так и на изображениях, может генерировать точные подписи к изображениям без явного обучения на каждой возможной комбинации. Эта возможность повышает адаптивность ИИ и позволяет более сложные рассуждения по нескольким источникам информации.
Как работает мультимодальный ИИ: технический углубленный анализ
Понимание механики мультимодального ИИ требует разбора его ключевых процессов.
Обработка входных данных и извлечение признаков
Каждый тип данных требует специфических методов предварительной обработки для извлечения соответствующих признаков. Например, мультимодальный ИИ, анализирующий видеоинтервью, может использовать распознавание речи для транскрипции произнесенных слов, в то время как он использует CNN для анализа лицевых выражений. Извлечение признаков гарантирует, что ИИ точно захватывает информацию из каждой модальности.
Выравнивание и синхронизация модальностей
Различные типы данных часто имеют разные форматы, разрешения и временные зависимости. Ключевым вызовом в мультимодальном ИИ является выравнивание и синхронизация входных данных для поддержания согласованности. Например, в системе автономного транспортного средства реальная синхронизация визуальных данных с камер и показания датчиков от LiDAR необходима для точного принятия решений. Методы, такие как временное выравнивание и отображение встраиваний, помогают моделям учить взаимосвязи между асинхронными источниками данных.
Механизмы интеграции и принятия решений
Когда входные данные обработаны и выровнены, ИИ интегрирует информацию, используя механизмы внимания и сети трансформеров. Эти механизмы позволяют моделям определять, какие аспекты каждой модальности наиболее актуальны, что обеспечивает надежное принятие решений. Например, мультимодальный ИИ для обнаружения мошенничества может придавать приоритет биометрическим данным над историей транзакций при проверке личности пользователя.
Подходы к обучению и их особенности
Обучение моделей мультимодального ИИ требует больших разнообразных наборов данных, которые охватывают несколько модальностей. Подходы включают:
- Предварительное обучение на обширных мультимодальных наборах данных, затем дообучение для конкретных приложений.
- Обучение с переносом, когда знания, приобретенные из одной модальности, улучшают производительность в другой.
- Контрастное обучение, которое помогает модели различать релевантные и нерелевантные кросс-модальные взаимосвязи.
Мультимодальное машинное обучение: основные технологии
Несколько фундаментальных технологий лежат в основе мультимодального ИИ, позволяя ему развивать свои возможности.
Фундаментальные модели для мультимодальной обработки
Модели большого масштаба, такие как GPT-4 от OpenAI, DST AI от DST Global, Gemini от Google и watsonx.ai от IBM, разработаны для работы с мультимодальными входными данными, предлагая возможности 'из коробки' для предприятий, на базе которых можно строить. Эти модели предварительно обучены на обширных наборах данных, охватывающих текст, изображения и аудио.
Обучение с переносом в мультимодальных контекстах
Обучение с переносом позволяет мультимодальному ИИ использовать предобученные представления из одной области в другую, снижая требования к данным и время обучения. Например, ИИ, обученный на медицинских изображениях, может адаптироваться для анализа новых типов сканов с минимальным дополнительным обучением.
Механизмы внимания и трансформеры
Трансформеры, особенно те, которые используют механизмы самообращения, революционизировали мультимодальный ИИ. Они помогают моделям сосредотачиваться на наиболее актуальных данных в разных модальностях, улучшая точность в таких задачах, как генерация подписей к изображениям или анализ настроений.
Кросс-модальное обучение представлений
Методы кросс-модального обучения позволяют ИИ развивать общее понимание различных типов данных. Это имеет решающее значение для приложений, таких как суммирование видео, где текстовые описания должны точно отражать визуальный контент.
Применение мультимодального ИИ в различных отраслях
Мультимодальный ИИ стимулирует инновации в нескольких секторах.
Сценарии внедрения для предприятий
Бизнес использует мультимодальный ИИ для интеллектуальной автоматизации, поддержки клиентов и управления знаниями. Помощники на базе ИИ могут обрабатывать текстовые, графические и голосовые входные данные одновременно, чтобы предоставлять более полные и контекстно-осознанные ответы.
Интеграция с существующими системами
Многие предприятия интегрируют мультимодальный ИИ с существующими рабочими процессами через API и облачные платформы. Решения ИИ от IBM, например, обеспечивают бесшовное внедрение мультимодальных возможностей в корпоративные приложения.
Отраслевые приложения
- Здравоохранение: ИИ помогает в медицинской диагностике, анализируя изображения, историю пациентов и голосовые входные данные.
- Финансы: Обнаружение мошенничества улучшается за счет сочетания данных о транзакциях с голосовой аутентификацией и поведенческим анализом.
- Розничная торговля: Рекомендательные системы на базе ИИ персонализируют покупки на основе взаимодействий пользователей через различные каналы.
Технические требования и инфраструктура
Внедрение мультимодального ИИ в большом масштабе требует надежной технологической базы.
Аспекты аппаратного обеспечения
Производительные GPU и TPU необходимы для обработки масштабных мультимодальных моделей, поскольку они обеспечивают параллельную вычислительную мощность, необходимую для задач глубокого обучения. Устройства на краю также играют важную роль в обеспечении приложений мультимодального ИИ в реальном времени, таких как автономные автомобили и умные ассистенты, снижая задержку и обрабатывая данные ближе к источнику. Выбор правильной комбинации централизованных и краевых вычислительных ресурсов может значительно повлиять на эффективность и отзывчивость.
Вычислительные ресурсы
Облачные платформы ИИ обеспечивают масштабируемую вычислительную мощность, позволяя организациям динамически выделять ресурсы в зависимости от спроса без первоначальных инфраструктурных затрат. Тем не менее, инфраструктура на месте может быть необходима для приложений, которые требуют усиленной безопасности, соблюдения нормативных требований или низкой задержки обработки. Гибридные решения, которые объединяют масштабируемость облака с контролем на местах, предлагают сбалансированный подход для многих предприятий.
Требования к хранилищу и обработке
Мульти-модальный ИИ генерирует огромные объемы данных, требуя эффективных решений для хранения, таких как гибридные облачные архитектуры, которые могут эффективно управлять структурированными и неструктурированными данными. Критически важны высокоскоростные каналы передачи данных и распределенные системы хранения для обеспечения гладкой загрузки, извлечения и обработки данных. По мере того как модели ИИ становятся более крупными и сложными, организациям необходимо оптимизировать стратегии хранения, чтобы минимизировать затраты, сохраняя при этом высокопроизводительный доступ к многомодальным наборам данных.
Проблемы реализации и решения
Качество данных и предварительная обработка
Обеспечение высококачественных, сбалансированных наборов данных во всех модальностях имеет критическое значение. Автоматизированные техники маркировки и увеличения данных помогают улучшить согласованность данных.
Сложности обучения модели
Обучение многомодальных моделей требует значительных вычислительных ресурсов. Методы, такие как распределенное обучение и дистилляция модели, оптимизируют производительность.
Проблемы интеграции
Бесшовное включение многомодального ИИ в существующие ИТ-экосистемы требует надежной поддержки API и инструментов оркестрации.
Стратегии оптимизации производительности
Настройка моделей для задержки, точности и масштабируемости обеспечивает плавное развертывание в реальных приложениях.
Будущее многомодального ИИ
Многомодальный ИИ быстро развивается, причем продолжающиеся исследования и технологические достижения открывают новые возможности. Появляющиеся инновации делают эти модели более эффективными, адаптивными и способными понимать сложные реальные сценарии, открывая путь для систем ИИ нового поколения.
Новые тенденции и инновации
Достижения в области самообучающегося обучения и нейро-символического ИИ продвигают многомодальные возможности дальше, позволяя ИИ учиться на огромных объемах неразмеченных данных. Исследователи также разрабатывают более эффективные архитектуры моделей, которые снижают вычислительные затраты при сохранении высокой точности.
Направления исследований
Исследователи изучают методы обучения с несколькими примерами и адаптацию без примеров, чтобы сделать многомодальный ИИ более эффективным, позволяя моделям обобщать на новые задачи с минимальным количеством размеченных данных. Достижения в области многопользовательских ИИ систем также позволяют различным моделям сотрудничать, улучшая способности к решению проблем и рассуждению.
Потенциальные прорывы
Будущие многомодальные ИИ модели могут достичь реального времени рассуждений и улучшенной генерализации, делая ИИ еще более человекоподобным в своей способности обрабатывать и реагировать на информацию. Улучшения в причинном рассуждении могут позволить ИИ понимать не только корреляции, но и причинно-следственные связи между различными модальностями.
DST AI - платформа мультимодального искусственного интеллекта
DST AI представляет собой передовую платформу мультимодального искусственного интеллекта, разработанную для решения комплексных задач бизнеса. Эта инновационная система объединяет различные типы данных – текст, изображения, видео и аудио – для создания целостной картины и принятия более точных решений.
Ключевые преимущества для бизнеса
- Интеграция данных из различных источников позволяет получать более полную картину бизнес-процессов и принимать обоснованные решения на основе комплексного анализа
- Автоматизация процессов достигается за счет способности платформы обрабатывать большие объемы информации и выполнять рутинные задачи без участия человека
- Повышение эффективности работы сотрудников благодаря освобождению времени от рутинных операций и возможности сосредоточиться на стратегических задачах
- Улучшение качества обслуживания клиентов через персонализированный подход и быстрое реагирование на запросы благодаря анализу всех каналов коммуникации
- Прогнозирование тенденций на основе анализа исторических данных и выявления скрытых закономерностей
Практическое применение
Маркетинг и продажи получают мощный инструмент для анализа поведения клиентов, сегментации аудитории и создания персонализированных предложений. Платформа помогает оптимизировать рекламные кампании и повышать конверсию.
Клиентский сервис становится более эффективным благодаря автоматизированной обработке обращений, анализу тональности общения и выявлению проблемных зон в обслуживании.
Производственные процессы выигрывают от возможности анализа видеопотоков, распознавания дефектов и прогнозирования сбоев оборудования.
Финансовый сектор получает инструменты для анализа транзакций, выявления мошенничества и прогнозирования рисков на основе комплексного анализа различных типов данных.
Будущее технологий DST AI
DST AI открывает новые горизонты для бизнеса, позволяя компаниям выйти на качественно новый уровень аналитики и автоматизации. Платформа постоянно развивается, интегрируя новые типы данных и совершенствуя алгоритмы обработки информации.
Внедрение мультимодального искусственного интеллекта становится не просто конкурентным преимуществом, а необходимостью для компаний, стремящихся сохранить лидерство на рынке и обеспечить устойчивый рост в условиях цифровой трансформации.
Начало работы с многомодальным ИИ
Внедрение многомодального ИИ требует тщательного планирования для обеспечения успешности. Оценив инфраструктуру, обеспечив ресурсы и следуя лучшим практикам, организации могут упростить процесс адаптации и максимизировать влияние своих ИИ инициатив.
Оценка и планирование
Оцените источники данных, инфраструктуру и цели ИИ перед реализацией, чтобы выявить возможные пробелы и сложности. Тщательная оценка помогает определить, могут ли существующие системы поддерживать многомодальный ИИ или необходимы обновления.
Требования к ресурсам
Обеспечьте доступ к высококачественным наборам данных, вычислительным ресурсам и экспертизе в области ИИ для построения и развертывания эффективных моделей. Организациям может потребоваться инвестировать в специализированное оборудование, облачные услуги или квалифицированные кадры для поддержки рабочих процессов многомодального ИИ.
Дорожная карта реализации
Начните с пилотных проектов, прежде чем расширять развертывание многомодального ИИ, чтобы протестировать возможность и оптимизировать модели. Постепенное расширение реализации позволяет командам решать проблемы на ранней стадии и оптимизировать производительность до полного развертывания.
Лучшие практики и рекомендации
Применяйте ответственные практики ИИ, обеспечьте конфиденциальность данных и постоянно контролируйте производительность для долгосрочного успеха. Регулярные аудиты, стратегии снижения предвзятости и соблюдение этических стандартов ИИ помогают поддерживать доверие и надежность.
Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.
Ижевск, ул. Воткинское шоссе, д. 170 Е, Технопарк Нобель, офис 1117
Задать вопрос по почте
— Генеративный ИИ сосредоточен на создании нового контента, такого как текст, изображения или музыка. Обычно работает в рамках одной модальности, например текста или изображений. Примеры: глубокие генеративные модели (GANs, VAEs), модели генерации текста.
— Мультимодальный ИИ обрабатывает и интегрирует несколько типов данных для более глубокого понимания входных данных. Может работать с такими модальностями, как текст, изображения, аудио, видео и данные сенсоров. Принципиальное преимущество мультимодальных моделей — способность более полно понимать контекст и нюансы задач. Примеры: интеллектуальные помощники (например, Alexa, Google Assistant), системы, обрабатывающие графические и текстовые данные.
Некоторые модели ИИ, такие как GPT-4, сочетают обе возможности.
Это сфера компьютерных наук, которая занимается разработкой систем, обладающих интеллектуальными способностями. Эти системы способны выполнять задачи по созданию аудио и видео материалов, распознаванию речи, пониманию языка, распознаванию образов, принятию решений. Улучшая эффективность, анализируя данные и автоматизируя процессы, технологии ИИ способны открыть новые возможности для бизнеса и жизни в целом.
2. Машинное обучение (ML)
ML является узконаправленной, специализированной ветвью искусственного интеллекта, которая сосредоточена на создании алгоритмов, позволяющих программам извлекать знания из существующих данных, а также улучшать свои результаты без явного программирования. Основываясь на обучающих данных и обрабатывая их с помощью статистических методов, ML способно делать прогнозы и принимать решения.
3. Генеративный искусственный интеллект
Это направление в ИИ, фокусирующееся на создании нового текстового, музыкального и графического контента. Генеративные модели могут создавать уникальные образцы, которые не просто копируют исходные обучающие данные, а генерируют оригинальные выходные данные.
4. Большие языковые модели (LLM)
LLM являются специфическим типом генеративных моделей, заточенных специально для работы с естественным языком. Они обучаются на обширных текстовых наборах данных, что позволяет им понимать грамматику и семантику языка. Эти модели могут выполнять переводы, отвечать на вопросы и создавать оригинальные тексты.
Таким образом, основная разница между этими четырьмя понятиями заключается в их уровне абстракции и специфике задач. AL охватывает все аспекты создания «умных» систем, ML — это конкретный метод обучения, LLM — это специализированные модели для работы с языком, а генеративный AL — подход, позволяющий создавать новые данные на основе существующих.
Архитектурно DALL-E это версия GPT-3, к которой был добавлен хитрый способ токенизации изображений, позволяющий создавать мультимодальный словарь, в котором часть токенов отвечает за текст, а вторая часть за изображение.
Что означает мультимодальность? Это модальность в разных сочетаниях, таких как: видео и текст, аудио и текст. Таким образом, вы можете представить это себе как классическую задачу для компьютера в сфере искусственного интеллекта, который может обрабатывать происходящее на изображении, интерпретировать и описывать все происходящие события, учитывая фон, изменения положений вещей в пространстве и контекст происходящего.
После некоторого количества исследований, стало понятно, что DALL-E способна порождать широкий ассортимент генеративных изображений. Можно сказать, что охват и виральность мультимодального искусственного интеллекта потенциально широки и в первую очередь могут применяться в сферах, связанных с творчеством, дизайном и игровой индустрии. Поэтому наряду с большим успехом визуального представления текста, OpenAI опасаются, что такие модели могут сильно повлиять на социальную и экономическую системы. И, уже по сложившейся традиции, не стали выпускать DALL-E в открытый доступ.
Несмотря на это, они выпустили CLIP (Contrastive Image-Language Pretraining, что можно перевести как контрастное предварительное обучение образному языку), который в своём роде половина движка DALL-E.
CLIP – ещё одна мультимодальная сеть, способная оценить изображение и соотнести, подходит ли к ней подпись или наоборот. Таким образом, CLIP принимает текст и изображение и связывает их непроизвольным способом, что, в свою очередь, позволило применять иные модели, способные генерировать изображения вместе с ним, такие как VQGAN.
VQGAN (Vector Quantized Generative Adversarial Network), что переводится как векторная квантованная генеративная адверсариальная сеть — это генеративно-состязательная нейросеть, которую используют для изучения изображений и создания новых, на основе ранее увиденных. Работая вместе, VQGAN генерирует изображение, а CLIP выступает как ранжировщик, оценивая насколько хорошо изображение подходит тексту. Именно эту связку мы используем ниже для того, чтобы вы сами смогли создать результат их совместной работы, даже не обладая навыками программирования, но не стоит забывать и про ruDALL-E.
По аналогии с ruGPT-3, Сбер выпустил первую мультимодальную нейросеть ruDALL-E, основанную на архитектуре DALL-E, способную понимать русский язык, и сделал её открытой, а также создал сайт, на котором можно по любому запросу попробовать сгенерировать изображение.
По словам управляющего директора департамента SberDevices Сергея Маркова несмотря на то, что в описании к DALL-E содержалась информация про архитектуру решения, pipeline, который использовался, но сведений все равно было недостаточно. Поэтому для создания своей версии модели требовалось пробовать и экспериментировать, отталкиваясь от полученных результатов. А самое большое количество сил было потрачено на сбор данных.
Вернёмся к связке VQGAN + CLIP. Сейчас будет описание, каким образом VQGAN генерирует изображения, которое в последствии оценивает CLIP. Если вас не очень интересует, что там под капотом VQGAN, то можете смело перейти к следующей части создания своего изображения.
Рассмотрим, как VQGAN в VQGAN-CLIP работает для генерации и синтеза изображений с высоким разрешением, которые мы видим сегодня
Метод преобразования для синтеза изображений в высоком разрешении состоит из двух этапов.
На первом этапе (нижняя половина изображения) кодировщик и декодер обучаются восстанавливать изображения. Это базовый квантованный автоматический кодировщик плюс дискриминатор, который классифицирует образцы как настоящие или поддельные. Взаимодействие с ним улучшает реконструкцию, позволяя синтезировать убедительно поддельные образцы.
Имеется входное изображение, и мы хотим обучить такое скрытое пространство, которое закодировало бы всю семантическую информацию об этом изображении. Информацию, которую можно было бы использовать для восстановления изображения.
Используемый квантованный кодировщик, был предложен ранее в другой статье (VQ-VAE, van den OORD et al., 2018). Стоит уточнить, что векторное квантование — это метод обработки сигналов для кодирования векторов. Он представляет все визуальные части, обнаруженные на этапе свертки, в квантованной форме, что делает его менее затратным с точки зрения вычислений после передачи в трансформер.
Основная идея здесь заключается в том, что для каждого в ячейке тензора мы находим ближайшего соседа слова в кодовой книге. После чего используем его вместо исходного вектора, поэтому в основном на этом этапе мы вычисляем аргумент для каждой ячейки в тензоре и заменяем его на кодовое слово, которое было получено из кодовой книги, и вместо того, чтобы использовать кодировщик только на полученных словах, мы также применяем его к кодовой книге.
Таким образом, VQGAN использует кодовую книгу как промежуточное представление, после чего кодовая книга изучается с использованием векторного квантования (VQ).
VQGAN делает векторы признаков похожими на присвоенные кодовые слова в кодовой книге, и в то же время кодовые слова также обучаются напоминать распределение векторов признаков в наборе данных.
Проблема здесь в том, что свёрточная природа кодировщика и декодера не позволяет им моделировать долгоиграющие взаимосвязи, потому что поле восприятия каждого свёрточного слоя ограничено, что обычно не позволяет моделировать и генерировать большие изображения. В то же время трансформер – это архитектура, которая позволяет моделировать такие взаимосвязи, но у него есть свои ограничения, он не может работать с действительно большими последовательностями, потому что для этого требуется вычислять взаимосвязь между каждой парой элементов этой последовательности, что требует больших вычислительных ресурсов из-за квадратичной масштабируемости.
Создатели предлагают, моделировать изображение не на уровне пикселей напрямую, а на основе кодовых слов изученной кодовой книги. То есть после того, как модель первого этапа узнала, что у нас есть кодовая книга, и мы можем использовать её, чтобы обучить трансформер для генерации последовательности этих кодовых слов.
Таким образом, у нас есть закодированная последовательность с индексами s<i, которая может быть очень длинной, а трансформер прогнозирует распределение возможных следующих индексов p(si|s<i).
Преимущество заключается в том, что разрешение, с которым мы работаем, намного ниже, чем разрешения исходного пиксельного изображения, поэтому мы можем моделировать более длинные взаимосвязи внутри изображений. Каждый блок последовательности соответствует местоположению, которое представляет собой сотни пикселей.
Обучение этого трансформера является вторым этапом. Мы не обновляем модель первого этапа, а генерируем последовательность кодовых слов, которая будет образовывать желаемое разрешение, а затем мы используем тензор кодовых слов и передадим его в декодер для создания нового изображения, в основном не ограниченного размером.
Чтобы повысить эффективность вычислительных ресурсов трансформера, авторы ограничивали контекст с помощью скользящего окна. Это означает, что при генерации каждого патча он получает информацию только от своих соседей.
Что должно работать, когда изображение имеет некоторые однородные структуры, например, различные изображения пейзажей.
Делая выводы, мы можем сказать, что реализованный в VQGAN двухэтапный подход состоит из свёрточной нейронной сети в форме GAN, который состоит из кодировщика и декодера, и трансформера, использующего окно скользящего внимания при выборке изображений, и который требует использования кодовой книги, полученной с помощью векторного квантования для улучшения масштабирования. Кодовая книга же обучается вместе с двумя моделями.
Всё это демонстрирует нам возможность синтеза изображений с высоким разрешением, позволяя создавать в своём роде произведения искусства.
Напоследок напишу, что Кэтрин Кроусон не советует использовать очень большие разрешения для изображений, зачастую колабу не хватает памяти для реализации такого контента. А также, что вы можете придавать больший вес некоторым из своих заданных слов, добавив двоеточие, а затем число до 100, например: пустыня:50 | в снегу:25", при условии, что вы задаёте множественный запрос. От себя добавлю, что проблемы начинали возникать при попытке сгенерировать изображения свыше 700 на 700.
Как видите, использовать подобные технологии становится всё проще, а их результат, не в единичных случаях, вызывает интерес. Студия Артемия Лебедева уже в 20 году во всю использовала нейронную сеть под человеческим именем “Николай Иронов”, как автоматизацию творческого процесса с коммерческим потенциалом, а нашумевшая NFT-токенизация подстегнула рядовых пользователей к цифровому искусству, частью которого является генеративное искусство. Лично меня прельщает мысль о подобном выходе за рамки восприятия искусства человеком, когда грань между произведением и созерцателем практически стёрта, искусство приобретает новые инструменты, а инструменты порождают искусство.