Заявка на услуги DST
Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.
Эмоциональный ИИ расшифровывает чувства по данным лица и голоса, используя передовые алгоритмы, сталкиваясь с проблемами, связанными с предвзятостью данных и проблемами конфиденциальности.
Искусственный интеллект (ИИ) произвел революцию во многих секторах, от финансов до здравоохранения. Одна особенно интригующая ветвь ИИ, которая появилась, — это «Эмоциональный ИИ». Emotion AI, также известный как «аффективные вычисления», направлен на обнаружение, интерпретацию, моделирование и реагирование на человеческие эмоции. Но как он достигает этого замечательного результата? В данной статье разработчики компании DST Global углубятся и расскажут про науку, лежащую в основе Emotion AI: его алгоритмы и методы анализа данных.
1. Понимание эмоционального ИИ
Прежде чем углубляться в механику, важно понять цели Emotion AI. Распознавая человеческие эмоции, системы искусственного интеллекта могут лучше адаптировать свои реакции, делая взаимодействие более личным и человеческим. Это может найти применение в таких областях, как маркетинг (для оценки реакции потребителей), здравоохранение (для мониторинга психического благополучия пациентов) и развлечения (для более интерактивного игрового опыта).
2. Источники данных: где начинается эмоциональный ИИ
По своей сути Emotion AI опирается на огромные объемы данных, обычно получаемых из:
- Выражения лица. Современные алгоритмы компьютерного зрения глубоко погружаются в нюансы лица, улавливая микровыражения, которые часто ускользают от человеческого глаза. Эти тонкие движения могут намекать на целый спектр эмоций: от чистого восторга до глубокой печали.
- Голос и речевые модели. Помимо слов, качество тона, темп, высота и интонации нашего голоса несут эмоциональный вес. Благодаря сочетанию обработки естественного языка (НЛП) и сложного аудиоанализа Emotion AI распознает чувства, будь то энтузиазм в радостном заявлении или нерешительность в тревожном вопросе.
- Физиологические данные. Устройства, отслеживающие физиологические маркеры, такие как вариабельность сердечного ритма, проводимость кожи и даже незначительные изменения температуры, предлагают физиологический взгляд на эмоциональные состояния.
3. Алгоритмы: сердце эмоций ИИ
Как только данные собраны, сложные алгоритмы обрабатывают их, чтобы распознавать и прогнозировать эмоциональные состояния. Некоторые основные алгоритмы и методы включают в себя:
- Глубокое обучение. Глубокие нейронные сети, особенно сверточные нейронные сети (CNN), широко используются для задач распознавания изображений и лиц. Эти сети можно обучить на обширных наборах данных о человеческих лицах, чтобы распознавать тонкие движения лица, коррелирующие с различными эмоциями.
- Машины опорных векторов ( SVM ): SVM с их надежными возможностями классификации неоценимы. Они преуспевают в разделении образцов голоса, определяя, звучит ли фрагмент голоса «безмятежно» или «страдающе».
- Скрытые марковские модели (СММ): Голос — это не только отдельные моменты, но и континуум. HMM умеют анализировать последовательности, что делает их идеальными для отслеживания эмоциональных переходов в ходе разговора.
4. Анализ данных и цикл обратной связи
Одним из важнейших компонентов любой системы искусственного интеллекта, включая Emotion AI, является петля обратной связи. Как только система прогнозирует эмоцию, она сравнивается с фактической эмоцией (если она известна), и система учится на любых ошибках. Этот непрерывный процесс обучения гарантирует, что система со временем станет более точной.
Платформы Emotion AI также часто включают анализ данных в реальном времени. Это означает, что по мере поступления данных система одновременно прогнозирует и уточняет свое понимание. Это позволяет немедленно адаптироваться, например, отрегулировать тон цифрового помощника на основе отзывов пользователей.
5. Проблемы и этические соображения
Хотя Emotion AI имеет огромный потенциал, он не лишен проблем. Эмоциональные реакции невероятно сложны и могут различаться в зависимости от культуры, личного опыта и контекста. Следовательно, обеспечение разнообразия наборов данных и отсутствие непреднамеренной предвзятости алгоритмов имеет первостепенное значение.
Кроме того, существуют важные этические соображения. Идею о том, что машины «читают» наши эмоции, можно рассматривать как навязчивую, что приводит к опасениям по поводу конфиденциальности и потенциальному злоупотреблению манипулятивными способами, такими как персонализированная реклама.
Заключение
Наука, лежащая в основе Emotion AI, представляет собой увлекательное сочетание сбора данных, передовых алгоритмов и процессов непрерывного обучения. Поскольку эта область продолжает развиваться, по мнению разработчиков DST Global, она обещает сделать наше взаимодействие с машинами более интуитивным и ориентированным на человека. Однако крайне важно, чтобы, продвигаясь в этой области, мы также действовали осторожно, соблюдая конфиденциальность и обеспечивая этичное применение этой технологии.
Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.
Ижевск, ул. Воткинское шоссе, д. 170 Е, Технопарк Нобель, офис 1117
Задать вопрос по почте
Различные подходы и технологические инструменты расширяют диапазон возможностей распознавания человеческих эмоций, которые считываются с помощью видео, аудио и других биометрических сенсоров. Полученные данные обрабатываются алгоритмами машинного обучения, определяя способ, тип, тональность и эмоциональность ответной реакции. Кроме того, системы эмоционального ИИ отличаются друг от друга по своим предназначениям и целям.
Между тем, преимущества ЭИИ могут быть раскрыты в полней мере не только в области рекрутинга, но и в рамках создания продуктивной рабочей среды: оценка степени выгорания, соответствия психотипов, уровень стресса и оценка способностей справляться со сложными задачами — та информация, которая зачастую остается незамеченной сотрудниками по работе с персоналом, несомненно, станет неотъемлемым бизнес-компонентом при выстраивании как начинающих стартапов, так и развитии уже крупных и успешных корпораций и будет доступен для всех участников бизнес-рынка.
Элементы такой передовой технологии будут быстро распространяться среди сфер человеческой жизни. Скептицизм всегда сопровождает многие открытия и находки, но, к счастью, здравый разум неизменно побеждает. Именно поэтому у нас есть шанс наслаждаться “искусственным” светом, мобильной связью и скоростным интернетом. Не так давно многое из этого казалось фантастикой.
Когда мы говорим о будущем, то мыслим о чем-то далеком и гипотетическом. О чем-то невозможном, а потому туманном. Правда, конечно же, в том, что будущее начинается сегодня. Сейчас. И эмоциональный искусственный интеллект способен помочь нам сделать наше будущее значительно осознаннее и благополучнее. Помочь стать эмоционально осознаннее.
Есть много разных словарей, но наивным было бы считать, что их авторы просто соревновались друг с другом в составлении бессистемных списков эмоций. В основе больших эмоциональных словарей обычно лежит анализ лингвистических данных (статистики использования слов, используемых для передачи эмоциональной информации в различных языках). При этом сами словари нередко являются лишь «побочным продуктом» исследований, цель которых — построить «эмоциональное пространство», то есть такое представление, в котором каждая эмоция будет разделена на несколько независимых друг от друга компонент. Одну из попыток построить такое
пространство предпринял Джеймс Рассел (James A. Russell) в 1980 году. Он разложил эмоции по двум шкалам: первая, «удовольствие-неудовольствие», характеризует позитивный или негативный характер эмоции, и вторая, «возбуждение-сон», характеризует активность или пассивность психического состояния. Эта работа вызвала закономерную критику: мир эмоций не сводим к двумерному пространству. Критики предложили свою модель, уже не двухмерную, а в виде сетки, под названием «GRID» [сетка, решётка].
Так как у нас есть эмоциональный континуум, вместо задачи классификации, когда у нас есть несколько классов эмоций, мы сталкиваемся с задачей регрессии. В данном случае от модели требуется не предсказание метки конкретного эмоционального класса в соответствии с выбранным эмоциональным словарём, а оценка величины каждой из выбранных компонент эмоции. Для этой цели в стандарте EmotionML 1.0 введены системы измерений эмоций. Кроме упомянутой нами системы GRID (FRSE) с четырьмя шкалами, стандартом предусмотрена возможность использования пространства «Удовольствие-Возбуждение-Доминирование» (Pleasure, Arousal, and Dominance, PAD), основанного на трёх соответствующих шкалах, а также плоской шкалы интенсивности эмоции.
Кстати, модели эмоций могут быть и мультимодальными, так как при оценке эмоциональной окраски речи люди неизбежно ориентируются не только на звуковые признаки, но и на текст сказанного. А если вы используете видеозаписи человеческой речи, то к числу признаков добавятся ещё и признаки из видеоканала — выражение лица, а возможно и движения тела говорящего. В таком случае понадобится модель, которая сможет получать на вход мультимодальную информацию. Некоторые компоненты этой информации будут довольно универсальными для разных культур (например, то, каким образом эмоции, испытываемые человеком, влияют на его голос), а некоторые будут весьма специфичны для конкретной культуры (например, тот же язык — не факт, что нейронная сеть, которая обучалась на эмоциях людей-носителей одного языка, будет применима для распознавания эмоций у носителей другого языка).
Когда мы определились со словарём, приходит очередь разметки данных, которая является проблемной задачей: разметчики не всегда сходятся в оценках эмоциональной окраски той или иной фразы. Например, кто-то может услышать в одной фразе нейтральную окраску, а кто-то — скрытую печаль. Если вы используете при оценке систему, основанную на шкалах, то в датасете значения оценок, полученные от всех оценщиков по каждой шкале, можно подвергнуть усреднению. При использовании словаря придётся либо доверять большинству оценщиков, либо отбрасывать фразы, получившие неоднозначные оценки.
К счастью, на данный момент сформировано уже некоторое количество эмоциональных датасетов, на 2009-й год их было порядка сотни. Однако таких же объёмных, как ImageNet или LibriSpeech, для эмоциональной речи в публичном доступе так и не появилось.
Вот некоторые наиболее популярные на сегодняшний день у разработчиков публичные датасеты эмоциональной речи:
1. RAVDESS состоит из записей 24 профессиональных актёров (12 мужчин и 12 женщин), озвучивающих две фразы («у двери разговаривают дети», «собаки сидят у двери») на английском языке с североамериканским акцентом в двух вариантах: речь и пение, по две озвучки на каждый вариант. В качестве эмоционального словаря разметки использована «большая шестёрка» эмоций, к которой было добавлено «спокойствие». Каждая фраза представлена в датасете двумя уровнями эмоциональной интенсивности для каждой из эмоций, а также однократно с нейтральной окраской. Каждая запись присутствует в датасете в трёх модальностях (только видео, только звук, звук вместе с видео). RAVDESS считается одним из наиболее качественных датасетов эмоциональной речи, но лексически он крайне беден.
2. SAVEE состоит из записей четырёх актёров-мужчин, говорящих на родном для них британском английском. В качестве эмоционального словаря снова выбрана «большая шестёрка», при этом фразы с нейтральной эмоциональной окраской записывались дважды. Сами фразы были выбраны из корпуса TIMIT (датасет с записями 630 дикторов), для каждой эмоции было взято 15 фраз, при этом из них три были общими для всех эмоций, десять — разными для разных эмоций, но без эмоциональной специфики, а ещё две фразы были основаны на текстах, имеющих специфическую эмоциональную окраску для данной эмоции (например, «Кто одобрил счёт с неограниченным расходным лимитом?» для эмоции «гнев»). К сожалению, объём этого датасета крайне мал, что создаёт проблемы для разработчиков.
3. SEMAINE — это аудиовизуальная база данных, ставшая одним из продуктов исследовательской программы по созданию «Чувствующего искусственного слушателя» (Sensitive Artificial Listener, SAL) — аудиовизуальной диалоговой системы, способной вовлечь человека в длительный эмоционально окрашенный разговор. По сути разговор с агентом SAL для человека напоминает обычный разговор при помощи системы видеосвязи с той лишь разницей, что собеседником является виртуальный персонаж, внешний облик которого (лицо, мимика, движения губ во время речи) в реальном времени генерируется при помощи библиотеки для трёхмерной визуализации. Данные, содержащиеся в базе SEMAINE, были получены в результате взаимодействия между пользователями и человеком-оператором, имитирующим чувствующего искушённого слушателя, а затем и ассистентом на базе нейросетевой модели. База включает записи 959 диалогов, в которых участвовало 150 человек. Длина каждой записи составляет около 5 минут. Все диалоги были расшифрованы и размечены при помощи эмоциональных меток (использовалась система с пятью шкалами и 27 эмоциональными классами). Для части записей присутствует разметка при помощи «Системы кодирования лицевых движений» (FACS). Используя FACS, можно с лёгкостью отличить, например, дежурную «улыбку Pan-Am» (называется в честь авиакомпании Pan-American Airways, стюардессы которой должны были улыбаться каждому пассажиру) от искренней «улыбки Дюшена». Один из недостатков этого датасета в том, что различные эмоции представлены в SEMAINE крайне неравномерно, также никак не был сбалансирован ни состав участников исследования, ни лексическая основа диалогов. Тем не менее, нельзя не отметить удивительную детальность разметки.
4. TESS. В 1966 году исследователи из Северо-Западного университета разработали так называемый «Слуховой тест №6», предназначенный для измерения чувствительности слуха пациентов. Набор фраз, используемых в тесте, состоит из так называемой фразы-носителя — «Скажи слово...» — и набора из 200 различных слов, которые добавляются к фразе-носителю. Исследователи из Университета Торонто использовали этот же набор текстов, при этом каждая из фраз произносилась двумя актрисами (26 и 64 лет; обе были из региона Торонто, являлись носительницами английского языка, имели высшее и высшее музыкальное образования) с семью различными типами эмоциональной окраски (использовалась всё та же «большая шестёрка» эмоций с добавлением нейтральной окраски). Таким образом, в сумме было получено 200 × 7 × 2 = 2 800 записей. Этот весьма скромный по размерам датасет, тем не менее, нередко используется исследователями и в наши дни.
5. EMO-DB — это германоязычный массив данных, впервые представленный на конференции InterSpeech-2005. На протяжении многих лет он пользовался большой популярностью у исследователей эмоциональной речи. Десять актёров (5 женщин и 5 мужчин) имитировали эмоции, произнося по 10 предложений (5 коротких и 5 более длинных), относящихся к повседневному лексикону. Помимо звука были записаны электроглоттограммы. Электроглоттография основана на измерении динамики электрического сопротивления гортани во время произнесения фраз, что достигается при помощи пары электродов, располагаемых на передней поверхности шеи по обе стороны щитовидного хряща. 10 актёров × 10 предложений × 7 эмоций (включая нейтральную) дают нам 700 записей, однако часть записей была выполнена повторно, поэтому в базе содержится на 100 записей больше. Все записи были подвергнуты оценке с привлечением 20 оценщиков. После этого в записях со средним уровнем узнавания эмоции более 80% и средней оценкой убедительности более 60% разметчики дополнительно оценили интенсивность проявления эмоции. По современным меркам этот датасет невелик и может быть использован разве что в учебных целях.
6. IEMOCAP — это массив, созданный Лабораторией анализа и интерпретации речи Университета Южной Калифорнии, включающий в себя записи диалогов (спонтанных и на основе заранее подготовленных сценариев) десяти участников. Данные состоят из аудиозаписи с расшифровкой, видео, а также подробной информации о выражении лица и движениях рук, а также эмоциональной разметки («большая шестёрка» + «другая эмоция» + нейтральная окраска, а также оценка эмоций по трём шкалам — валентность, активация и доминирование). Общий объём корпуса составляет около 12 часов.
7. RUSLANA — первая открытая русскоязычная база данных эмоциональной речи. Была создана в 2002 году. RUSLANA содержит записи 61 человека (12 мужчин и 49 женщин), которые произносили десять предложений с выражением следующих эмоциональных состояний: удивление, счастье, гнев, грусть, страх и нейтрально (без эмоциональной окраски). Таким образом, база содержит в сумме 61 × 10 × 6 = 3 660 записей. Хотя с момента появления RUSLANA свет увидели ещё несколько открытых русскоязычных эмоциональных датасетов, например, аудиовизуальный RAMAS и весьма внушительный по объёму (более 20 000 записей) набор эмоциональной детской речи EmoChildRu, открытых датасетов взрослой эмоциональной речи, превосходящих RUSLANA по объёму, до сегодняшнего дня так и не создано.
Стоит заметить, что на «игрушечных» эмоциональных датасетах, как RAVDESS, TESS, EMO-DB, IEMOCAP результаты улучшаются по несколько раз в год. Вы можете сами убедиться в этом, набрав в поисковой системе название соответствующего датасета и аббревиатуру SOTA (state-of-the-art, уровень развития, «лучший результат по какому-либо критерию»). Однако у этих улучшений иногда бывает проблема с воспроизводимостью, ввиду чего к результатам без публикации исходного кода следует относиться с осторожностью. Чтобы избежать возможных ошибок или неоднозначностей, многие исследователи предпочитают публиковать не только статьи, но и кодовую базу своих проектов. Крупнейшим каталогом таких публикаций является ресурс paperswithcode.com, позволяющий найти работы, устанавливающие SOTA для самых разных задач машинного обучения, в том числе и для задачи распознавания эмоций.