Разработка параметров эффективности использования аудиовизуальных материалов для обучения автоматизированному анализу лицевых экспрессий

КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер проекта 25-78-00172

НазваниеРазработка параметров эффективности использования аудиовизуальных материалов для обучения автоматизированному анализу лицевых экспрессий

Руководитель Алюнина Юлия Матвеевна, Кандидат филологических наук

Организация финансирования, регион Федеральное государственное автономное образовательное учреждение высшего образования "Российский университет дружбы народов имени Патриса Лумумбы" , г Москва

Конкурс №110 - Конкурс 2025 года «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными, приоритетного направления деятельности Российского научного фонда «Поддержка молодых ученых»

Область знания, основной код классификатора 08 - Гуманитарные и социальные науки; 08-453 - Языкознание

Ключевые слова Эморадар, аудиовизуальный перевод, лицевая экспрессия, база данных, эмотиология, лингвистика эмоций, лицевая перцепция, машинный перевод

Код ГРНТИ16.31.61

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
ЦЕЛЬЮ исследования является разработка параметров эффективности использования аудиовизуальных материалов для обучения компьютерному анализу лицевых экспрессий с учётом артикуляционной специфики, которая сопровождает речевое поведение. МАТЕРИАЛОМ исследования выступают русскоязычные трейлеры к отечественным фильмам и видеозаписи фрагментов театральных постановок. ОБЪЕКТОМ исследования являются лицевые экспрессии, в мимических проявлениях которых задействованы мышцы артикуляционного аппарата, отвечающие в том числе за извлечение звуков. Например, по Системе кодирования лицевых экспрессий микромимическое выражение удивления складывается из таких двигательных единиц: подниматель внутренней части брови + подниматель внешней части брови + подниматель верхнего века + широкое открывание рта. При этом в образования некоторых звуков открывание рта тоже активизируется – звук [а], присутствие которого в речи далеко не всегда связано с выражением удивления. В пособии по артикуляции движение речевого аппарата при произнесении [а] описано так: «Рот широко открыт. Губы спокойны <…>» (Новикова Е.В. 2019). Неизбежная активизация мышц, которые отвечают и за извлечение звуков, и за выражение эмоций, может сказываться на качестве компьютерного определения эмоционального состояния человека по лицевым экспрессиям. ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ и НАУЧНАЯ ЦЕННОСТЬ в решении заявленной проблемы состоят в следующем: - введение в научный оборот исследований в области определения корреляций между эмоциональной микромимикой лица и движением артикуляционного аппарата человека в процессе речи; - развитие программ машинного перевода аудиовизуального контента (Rask AI, Veed и др.), которые пока ещё не учитывают микромимику движения лица ни с точки зрения эмоциональной экспрессии, ни с позиции артикуляции, что сказывается на результате машинного перевода видео и значительно отличает его от результата труда человека, соблюдающего принцип синхронизации движения губ при переводе под дубляж; - отсутствие обучающих баз для тренировки программ компьютерного распознавания лицевых экспрессий по видео, которые не искусственно создаются под конкретное исследование и, но соответствуют (или максимально приближены к) реальным условиям, в которые впоследствии внедряются технологии распознавания лицевых экспрессий в быту. АКТУАЛЬНОСТЬ исследования связана с возможностями научной и практической реализации его результатов: - развитие эмотиологии как научного направления на стыке лингвистики и психологии посредством введения в её аппарат качественно новой методологии анализа эмоционального состояния говорящего, сочетающей компьютерный анализ лицевых экспрессий и микромимику лица, обусловленную артикуляционным поведением в процессе коммуникации и монологичных высказываний; - выявление и описание параметров эффективности для создания и развития обучающих баз на материале видеороликов для тренировки нейросетей идентифицировать человеческие эмоции по лицевым экспрессиям с минимизацией ошибок в такой идентификации, которые могут быть обусловлены влиянием артикуляционного аппарата на микромимику лица, отвечающую в том числе за выражение эмоций; - внедрение усовершенствованной технологий компьютерного анализа лицевых экспрессий в разработки, относящиеся к категории социальных роботов, которые могут быть обучены с меньшей погрешностью распознавать человеческие эмоции по микромимике, анализируя лицевые экспрессии в сочетании с артикуляционным поведением человека; - внедрение технологий компьютерного анализа лицевых экспрессий в машинные переводчики видео, которые могут быть обучены переводить видеоконтент с учётом не только текста речевых сообщений, но и с учётом сочетания артикуляции с мимическим проявлением эмоций актёров/спикеров, произносящих реплики в кадре.

Ожидаемые результаты
В результате выполнения запланированных работ по проекту ожидается разработка параметров эффективности использования аудиовизуальных произведений для создания обучающей базы, предназначенной для тренировки программного обеспечения распознавать лицевые экспрессии по микромимике с учётом влияния на неё артикуляции в процессе речи. Гипотеза исследования состоит в том, что во фрагментах театральных постановок микромимические проявления эмоций будут более чёткими, чем в трейлерах к художественным фильмам. Данное ожидание связано с тем, что в театре эмоции выражаются актёрами более артикулировано или гипертрофировано. Используя терминологию FACS, можно сказать, что в театре используются эмблемы лица. На этом основании можно построить предположение, что видеозаписи театральных постановок будут в большей степени пригодны для обучения технологий распознавания лицевых экспрессий, а параметры эффективности использования аудиовизуальных материалов для обучения автоматизированной идентификации мимических проявлений эмоций будут отличаться для художественных фильмов и для театральных постановок. Результаты исследования могут найти ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ в следующих областях. (1) В сфере развития методов и приёмов машинного обучения технологий, которые распознают эмоциональное состояние человека по лицевым экспрессиям и имитируют его средствами нейросетевой генерации посредством создания видеороликов с помощью ИИ. При этом сгенерированное видеоизображение говорящего человека должно быть таким, чтобы у зрителя/адресата не возникало диссонанса между тем, как у нейросетевого спикера посредством микромимики выражаются эмоции, и тем, как происходит движение артикуляционного аппарата в процессе речи. (2) В разработке алгоритмов машинного перевода аудиовизуального контента (браузерный Яндекс переводчик, Speek и др.). На нынешнем уровне своего развития эти технологии не учитывают микромимику эмоций и работу артикуляционного аппарата, которые непременно принимаются во внимание переводчиком-человеком, особенно если перевод выполняется под дубляжное озвучивание, отличительной особенностью которого является соблюдение принципа артикуляционной синхронности. Он заключается в том, что движение губ актёров в переводе аудиовизуального произведения должно совпадать с движением губ этого произведения в оригинальном озвучивании. Человек в процессе перевода подбирает такие слова, которые совпадают по артикуляции двух языках. Машинные переводчики не способны учесть данный нюанс. В этой связи анализ потенциала аудиовизуальных материалов сформировать базу для тренировки автоматизированной идентификации лицевых экспрессий может сделать вклад в усовершенствование технологий машинного перевода видео. НАУЧНАЯ ЦЕННОСТЬ результатов исследования видится в развитии эмотиологии в частности, находящейся на стыке лингвистики и психологии, а также лингвистики в целом. Среди всех сфер, в которых на сегодняшний день широко применяются технологии распознавания лицевых экспрессий, их внедрение в лингвистические исследования представлено в наименьшей степени. Преобладает использование компьютерных программ в анализе эмоций в сферах, косвенно связанных с лингвистикой, как дефектология и сурдология (Li W., Xu Q., Liu S., Yu L., Yang Y. et al. 2022; Holiday S., Hayers J.L., Park H., Lyu Y., et al., 2023; Deshpande N., Nunnari F., Avramidis E. 2022; Tursunova Z.F., 2024; Foteinopoulou N.M., Patras I., 2024; Султанова З.А., 2024 и др.). На этом фоне наиболее очевидным видится развитие такого направления в лингвистике, в котором использование технологий анализа лицевых экспрессий будут использоваться для изучения корреляции мимических проявлений эмоций и вербального поведения, внешним проявлением которого является движение речевого аппарата. Общественная значимость заявленного исследования усматривается прежде всего в возможности применения его результатов (1) в усовершенствовании технологий машинного перевода видеоконтента, объёмы которого постоянно увеличиваются, (2) разработке социальных роботов, способных определять настроение своих пользователей не только по их микромимике, но по сочетанию микромимики и артикуляции, обусловленной речевым поведением человека.