КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 18-11-00145

НазваниеРазработка и исследование интеллектуальной системы для комплексного паралингвистического анализа речи

РуководительКарпов Алексей Анатольевич, Доктор технических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки "Санкт-Петербургский Федеральный исследовательский центр Российской академии наук", г Санкт-Петербург

Период выполнения при поддержке РНФ 2018 г. - 2020 г. 

Конкурс№28 - Конкурс 2018 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами».

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-726 - Системы и технологии интеллектуального анализа данных и распознавания образов

Ключевые словаречевые технологии, речевые интерфейсы, человеко-машинное взаимодействие, компьютерная паралингвистика, автоматическое распознавание речи и эмоций, анализ психофизиологического состояния диктора, речевая криминалистика, искусственный интеллект, распознавание образов, цифровая обработка сигналов, обработка естественного языка, машинное обучение

Код ГРНТИ50.10.41, 20.19.29, 16.31.21


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Компьютерная паралингвистика (computational paralinguistics) является одной из новых и самых динамично развивающихся областей современных речевых технологий, она изучает и анализирует различные невербальные аспекты в естественной речи, текстах и многомодальной коммуникации: эмоции, акценты, интонации, психофизиологические состояния, особенности произношения, параметры голоса человека и другие невербальные характеристики речи. Паралингвистика касается, в основном, вопросов как речь произносится, а не что конкретно произносится. Автоматическое распознавание эмоций в речи (emotional/affective computing) является наиболее популярной и востребованной областью компьютерной паралингвистики, она тесно связана с такими исследованиями как распознавание состояния диктора и анализ особенностей его голоса. Текущее состояние говорящего, как правило, соответствует динамично изменяющимся окружающим условиям и может описываться такими параметрами как психоэмоциональное и физиологическое состояние, состояние здоровья, усталость, стресс, депрессия и т.д. Особенности же диктора соответствуют неизменным или относительно постоянным характеристикам человека: пол, возраст, рост, акцент, этническая принадлежность, медицинские заболевания, например, болезнь Паркинсона или Альцгеймера, и т.д. Это направление сейчас очень популярно в мировой науке, в зарубежной научной литературе выходит масса публикаций об исследованиях в области автоматизированного анализа и распознавания паралингвистических явлений в речи, например, в журналах IEEE Transactions on Affective Computing; IEEE/ACM Transactions on Audio, Speech, and Language Processing; Speech Communication; Computer Speech and Language; Journal on Multimodal User Interfaces, трудах ведущих международных конференций по речевым технологиям INTERSPEECH, ICASSP, ICMI, ACII, SPECOM, Диалог и др. С 2009 года в рамках главной конференции по речевым технологиям INTERSPEECH проходят ежегодные международные соревнования по компьютерной паралингвистике Computational Paralinguistics ChallengE (ComParE, http://compare.openaudio.eu), посвященные различным направлениям исследований в области компьютерной паралингвистики. Первые соревнования были посвящены анализу эмоций в речи дикторов в рамках нескольких конкурсов и речевых баз данных. С тех пор соревнования ComParE проводятся ежегодно и де-факто являются чемпионатом мира по компьютерной паралингвистике, они проводились уже 9 раз по различным направлениям паралингвистического анализа речи, в частности: выявление состояния алкогольного опьянения, определение наличия болезни Паркинсона по речи, конфликта в речевом диалоге, оценка привлекательности голоса, степени усталости диктора, состояния депрессии, определение акцента, пола и возраста диктора, оценка ложности/истинности речевых сообщений, степени искренности диктора, наличия простуды, и т.д., периодически возвращаясь к анализу психоэмоциональных состояний человека как ключевому направлению компьютерной паралингвистики. Руководитель данного проекта д.т.н. А.А. Карпов участвовал в 3-х последних соревнованиях ComParE в Германии в 2015 г., в США в 2016 г. и в Швеции в 2017 г. совместно с турецкими коллегами, и наша объединенная команда становилась победителем всех трех соревнований по отдельным конкурсам. Предложенная нами система была основана на вычислении широкого пространства низкоуровневых акустических признаков с их последующей многоуровневой нормализацией, а также использовала классификаторы на основе искусственных нейронных сетей экстремального обучения ELM. Однако разнообразные глубокие нейронные сети (deep neural networks) и методы интегрального распознавания (end-to-end) нами для этой проблемы пока не использовались, что определяет содержание новых научно-исследовательских работ по данному проекту. Среди существенных проблем в данной области можно выделить: cбор, анализ и аннотирование представительных многодикторных корпусов речи, записанных в естественных условиях, для исследования паралингвистических характеристик речи; машинное обучение моделей паралингвистических явлений/характеристик речи без учителя или с частичным использованием обучающих данных с минимальной разметкой; межкорпусные, многоязычные и многомодальные исследования по паралингвистическому анализу речи, включая распознавание естественных эмоций дикторов; повышение точности распознавания и робастности автоматических систем для паралингвистического анализа в реальном масштабе времени. При этом очень мало российских публикаций по компьютерной паралингвистике, за исключением статей по автоматическому распознаванию эмоций, имитированных (сыгранных) актерами или обычными людьми (дикторами), и систематических исследований и проектов в области компьютерной паралингвистики в России практически не ведется. Основной целью данного проекта РНФ является создание новой интеллектуальной компьютерной системы для комплексного паралингвистического анализа разговорной речи вне зависимости от языка. Особенностью создаваемой системы будет являться то, что она сможет осуществлять комплексный паралингвистический анализ речевых аудиосигналов, т.е. одновременно автоматически анализировать речь диктора на предмет определения его пола и возраста, психоэмоционального состояния, давать оценку истинности/ложности высказываний, а также анализировать иные паралингвистические характеристики речи. При этом автоматическая система будет нацелена не только на обработку русской речи, но также и речи на других мировых языках для обеспечения возможности универсального паралингвистического анализа речи. Таким образом, данное исследование является актуальным и масштабным как в рамках российской, так и мировой науки. В отличие от других речевых технологий (систем автоматического распознавания и понимания речи, синтеза речи, машинного перевода речи), системы паралингвистического анализа речи не завязаны на конкретный естественный язык, поэтому возможно создать практически универсальные методы обработки невербальной акустической информации, конечно, с учетом того, что средства/качества выражения эмоций в некоторой степени отличаются у разных народов и культур. Основными задачами данного проекта являются разработка, теоретические и экспериментальные исследования математического, программного и информационно-лингвистического обеспечения для перспективной интеллектуальной системы паралингвистического анализа речи. Для успешного выполнения проекта должны быть решены эти задачи, сведенные в 3 последовательных этапа работ: 1) разработка информационно-лингвистического и математического обеспечения для интеллектуальной системы комплексного паралингвистического анализа речи (2018 г.); 2) разработка и исследование математического и программного обеспечения для интеллектуальной системы комплексного паралингвистического анализа речи (2019 г.); 3) тестирование и количественное оценивание интеллектуальной системы комплексного паралингвистического анализа речи, обобщение результатов (2020 г.). В ходе предлагаемых работ будет получен ряд новых научно-технических результатов (модели, методы, алгоритмы, компьютерные программы и речевые базы данных) и усовершенствованы предложенные ранее подходы к комплексному анализу различных паралингвистических характеристик речи на основе методов цифровой обработки речевых сигналов и современных методов машинного обучения, в том числе на основе глубоких нейронных сетей. К планируемым результатам научных исследований следует также отнести подготовку и издание цикла научных публикаций (не менее 18 опубликованных статей в 2018-2020 гг.) по результатам работ в российских и международных журналах (в том числе в журнале первого квартиля Q1, например, в Neurocomputing или в IEEE Transactions on Affective Computing) и трудах ведущих международных конференций по данной тематике (в частности, INTERSPEECH, SPECOM, AINL, Диалог и др.), индексируемых в Web of Science / Scopus, а также государственную регистрацию РИД (программы для ЭВМ) в Роспатенте. Создаваемая интеллектуальная система для комплексного паралингвистического анализа речи может быть в дальнейшем использована во многих разработках и технологиях, имеющих прикладное коммерческое назначение, в том числе в автоматизированных телефонных контакт-центрах для анализа поведения человека-оператора и звонящих абонентов (в том числе для распознавания ”телефонных террористов” и для речевой криминалистики), в интеллектуальных мобильных приложениях на базе смартфонов, системах речевого и многомодального человеко-машинного взаимодействия и диалоговых системах, технологиях виртуальной и дополненной реальности, социальной робототехнике, маркетинге, для оперативной оценки психофизиологического состояния операторов в области авиации и космоса, а также в иных областях науки и техники. В дальнейшем может быть актуальным развитие создаваемой в данном проекте интеллектуальной системы паралингвистического анализа речи в плане добавления к ней новых визуальных модальностей (мимика лица, жестикуляция, направление взгляда) для многомодального анализа психоэмоционального состояния индивида.

Ожидаемые результаты
В ходе проекта ожидается получить новые научно-технические результаты по способам, методам и технологиям автоматического распознавания и комплексного анализа речи для обнаружения паралингвистических явлений в речи. Среди основных результатов проекта планируются следующие: 1) Расширенный аналитический обзор по теме паралингвистического анализа речи, включающий не менее 100 современных научных публикаций и иных источников информации, опубликованных за последние 7 лет. 2) Новое и усовершенствованное математическое обеспечение, включающее математические модели, методы и алгоритмы, предназначенное для эффективного параметрического представления аудиосигналов, выбора признаков и классификации паралингвистических явлений в разговорной речи, основанное на современных методах машинного обучения, в том числе глубоких нейронных сетях (deep neural networks) и методах интегрального (end-to-end) распознавания. 3) Новое и дополненное существующее информационно-лингвистическое обеспечение, включающее комплекс из нескольких речевых баз данных на различных языках с аннотацией и временной разметкой данных, предназначенное для исследований паралингвистических явлений в разговорной речи взрослых и детей, а также для обучения вероятностных моделей разрабатываемой интеллектуальной системы. 4) Новое и усовершенствованное программное обеспечение интеллектуальной системы, включающее комплекс программ для ЭВМ на языках высокого уровня, предназначенное для автоматического анализа и распознавания различных паралингвистических явлений (включая пол, возраст дикторов, психоэмоциональное состояние, ложность сообщений, а также другой паралингвистической информации) в разговорной речи, функционирующее с высоким качеством распознавания речевой информации в режиме реального времени, а также демо-версии интеллектуальной системы комплексного паралингвистического анализа речи. 5) Результаты экспериментальных исследований интеллектуальной системы комплексного паралингвистического анализа речи с использованием подготовленных речевых корпусов и результаты участия в ежегодных международных соревнованиях (чемпионате) по компьютерной паралингвистике INTERSPEECH Computational Paralinguistics Challenge в 2018-2020 гг. с использованием речевых корпусов, предложенных организаторами. 6) Подготовку и издание цикла научных публикаций (не менее 18 опубликованных статей в 2018-2020 гг.) по результатам работ в международных и российских журналах и трудах ведущих международных конференций по данной тематике, индексируемых в Web of Science/Scopus/РИНЦ, а также государственная регистрация РИД в Роспатенте. Данные результаты будут соответствовать передовому мировому уровню и в определенных аспектах его превосходить. Полученные в ходе проекта результаты должны оказать влияние на прикладные исследования и разработки в области речевых технологий, многомодального человеко-машинного взаимодействия, диалоговых систем и искусственного интеллекта в РФ. Создаваемая интеллектуальная система для комплексного паралингвистического анализа речи может быть использована во многих разработках и технологиях, имеющих прикладное коммерческое назначение, в том числе в автоматизированных телефонных контакт-центрах для анализа поведения человека-оператора и звонящих абонентов (в том числе для распознавания ”телефонных террористов”), в интеллектуальных мобильных приложениях на базе смартфонов, системах речевого и многомодального человеко-машинного взаимодействия и диалоговых системах, технологиях виртуальной и дополненной реальности, социальной робототехнике, оперативная оценка психофизиологического состояния операторов в области авиации и космоса, а также в иных областях науки и техники. Кроме того, методы распознавания эмоций человека в речи и анализа истинности/ложности высказываний могут быть использованы в полиграфе для комплексного биометрического анализа психофизиологического состояния испытуемых (в том числе в российских специальных службах).


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2018 году
Выполненные на первом этапе проекта в 2018 отчетном году работы включают в себя расширенный аналитический обзор существующего информационно-лингвистического и математического обеспечения, связанного с областью компьютерной паралингвистики, разработку новых и совершенствование существующих моделей, методов и алгоритмов комплексного паралингвистического анализа речи, а также сбор и анализ доступных многодикторных речевых корпусов (информационно-лингвистическое обеспечение) на различных естественных языках для многоцелевых исследований паралингвистических речевых явлений. 1) Аналитический обзор предметной области включает в себя более 140 научно-технических источников литературы, более 130 из которых были опубликованы за последние 7 лет. В обзор вошли такие разделы, как описание предметной области; актуальные цели и задачи компьютерной паралингвистики; способы сбора, аннотации и обработки существующих речевых корпусов на разных языках, представляющие различные паралингвистические явления, в том числе психоэмоциональные состояния, ложь, стресс, состояние здоровья, сна, а также индивидуальные характеристики дикторов, такие, как пол, возраст, языковой акцент и другие. В обзор также вошло описание открытых международных соревнований по компьютерной паралингвистике ComParE, ежегодно проходящих в рамках международной конференции INTERSPEECH, в которых участвовали исполнители данного проекта. Помимо этого, в обзоре были описаны современные достижения и передовые технологии, применяющиеся в области автоматического анализа паралингвистических явлений: представлены методы извлечения и обработки акустических признаков, их нормализации; поиск оптимальных представлений информативных признаков; алгоритмы классификации, включающие в себя как традиционные методы машинного обучения, так и самые современные нейросетевые архитектуры; способы обучения классификаторов, в том числе, использование кросс-корпусного анализа и аугментации данных. Дана классификация существующих и применяющихся на практике методов машинного обучения в области компьютерной паралингвистики, проанализированы преимущества и недостатки каждого метода, приведены примеры успешного применения подходов на практике. Также приведена классификация типов акустических признаков, играющих важную роль в системах распознавания паралингвистических событий, даны основные характеристики каждой группы. 2) После поиска и сбора существующего открытого информационно-лингвистического обеспечения были проанализированы следующие базы данных, содержащие различные паралингвистические явления: базы данных эмоционально окрашенной русской речи: RUSLANA, RAMAS, EmoChildRu; базы данных эмоциональной речи на других языках: англоязычные – IEMOCAP, CreativeIT, SEMAINE; немецкоязычные – EMODB, USoM; франкоязычная – RECOLA; турецкоязычная – BUEMODB. Базы данных с правдивыми и ложными речевыми сообщениями: Deceptive Speech Database (DSD), CSC Deceptive Speech (CSC), база данных Университета Ноттингема, база данных Университета Сучжоу (Китай), корпус Columbia X-Cultural Deception Corpus (CXD Corpus). Базы данных, содержащие индивидуальные характеристики дикторов (пол и возраст): aGender, ELSDSR, Mandarin, NIST SRE 2008, NIST SRE 2010, N-Best. Другие найденные речевые базы данных с паралингвистическими явлениями: базы данных, содержащие речь людей с болезнью Паркинсона; базы данных, содержащие речь с различными акцентами. В общей сложности для проведения исследований было получено более 20 свободно-доступных речевых корпусов, содержащих различные паралингвистические явления. Из анализа полученных открытых баз данных можно сделать вывод, что задача распознавания эмоций превалирует в современной области компьютерной паралингвистики, что видно из большого количества существующих данных. Корпуса лживой речи значительно уступают по количеству и объему, а также возможности открытого использования данных в целях исследований. Для распознавания возраста и пола подходят практически любые базы данных, содержащие базовую информацию о дикторах. Одной из самых малоисследованных задач в области компьютерной паралингвистики является распознавание наличие заболеваний по речи (например, болезни Паркинсона или Альцгеймера), в силу малого количества подходящих дикторов, а также конфиденциальности процедуры записи пациентов. 3) В целях разработки интеллектуальной системы комплексного паралингвистического анализа речи было предложено новое и усовершенствовано существующее математическое обеспечение для вычисления и выделения акустических признаков, в том числе: а) Усовершенствован метод извлечения акустических признаков с использованием программного инструментария openSMILE, который предоставляет возможность извлечения стандартных акустических признаков на уровне всего высказывания. Количество таких признаков очень высоко (более 6 тыс.), поэтому существует необходимость предварительной обработки векторов признаков перед их использованием для классификации. Нами предложен новый подход к нормализации полученных признаков с помощью каскадного применения операций нормализации на разных уровнях цифровой обработки аудиосигнала. В результате такой метод обработки позволяет избавиться от вариативности между дикторами, сократить диапазон изменения значений различных признаков и привести любой набор данных к удобному виду для обработки, что приводит к повышению эффективности работы классификаторов. б) Предложен метод извлечения признаков на каждом кадре при помощи рекуррентной нейронной сети с длинной кратковременной памятью (РНС-ДКП), которая известна своей эффективностью при моделировании временных последовательностей. Специальные ячейки памяти ДКП позволяют хранить информацию о предыдущих событиях, закодированную в виде активации соответствующих параметров сети. Такая архитектура имеет преимущество перед обычными РНС, которое выражается, во-первых, в возможности моделировать неограниченно длинные последовательности, и, во-вторых, в отсутствии проблемы взрывающихся градиентов, присущей архитектурам РНС без ДКП. Предложенный способ извлечения признаков позволяет моделировать временные изменения в речевом сигнале, захватывать динамическую структуру данных и генерировать абстрактное представление, содержащее скрытые информативные признаки, недоступные для выражения через стандартные статистические методы openSMILE. Таким образом, комбинация глобальных статистических признаков openSMILE и признаков, полученных на выходе РНС-ДКП, моделирующих локальную структуру данных и ее изменения во времени, позволяет воспользоваться преимуществами обоих методов, которые являются комплиментарными. в) Предложен новый подход к кросс-корпусному обучению классификаторов, позволяющий использовать больше данных для обучения и добиться более высокой точности и робастности классификации. В ходе данной работы было сделано несколько выводов, в том числе о том, что измерения активации и валентности являются сильно коррелированными, поэтому обучение системы на активации эмоции, а тестирование на валентности эмоции, показывает высокие результаты. Это верно в том случае, если исходное распределение эмоциональных дескрипторов в пространстве активация-валентность обучающего корпуса имеет положительную корреляцию, как например, для корпусов RECOLA и SEMAINE. По этой причине при использовании кросс-корпусного обучения необходимо тщательно подбирать корпуса, подходящие по характеристикам распределения к целевому корпусу тестирования. г) Предложен новый метод к генерации новых данных на основе уже имеющихся обучающих наборов из разных корпусов. Данный метод является простой, но эффективной стратегией генерации новых данных для преодоления сложностей, связанных с кросс-корпусным моделированием на несовпадающих распределениях обучающих и целевых ковариационных структур. 4) По результатам выполненных работ были подготовлены и опубликованы 3 статьи в англоязычных изданиях (Lecture Notes in Computer Science и Proceedings of INTERSPEECH), индексируемых в базах данных Scopus/Web of Science и 2 статьи в изданиях, индексируемых в РИНЦ, подготовлена 1 журнальная статья, которая принята к публикации в 2019 г. Сделаны устные доклады по текущим результатам проекта на международных научных конференциях INTERSPEECH-2018 (Хайдерабад, Индия, 2-6 сентября 2018), SPECOM-2018 (Лейпциг, Германия, 18-22 сентября 2018) и ИТУ/МКПУ-2018 (Санкт-Петербург, 4-6 октября 2018). Кроме того, авторы приняли участие в 10-м паралингвистическом соревновании ComParE в рамках 19-й международной конференции INTERSPEECH-2018 по конкурсному направлению определения оценки эмоционального состояния дикторов, предоставленной самими дикторами в виде самооценки (Self-Assessed Sub-Сhallenge), и оказались в числе 3-х лучших финалистов конкурса. В целях освещения результатов данного проекта создана веб-страница в глобальной сети Интернет, посвященная данному исследованию: http://hci.nw.ru/ru/projects/18

 

Публикации

1. Величко А.Н., Карпов А.А., Будков В.Ю. Аналитический обзор речевых корпусов для систем определения ложных речевых сообщений Материалы конференции «Информационные технологии в управлении» (ИТУ-2018), Санкт-Петербург, ИТУ-2018, С. 534-538 (год публикации - 2018)

2. Верхоляк O.В., Кайя Х., Карпов А.А. Modeling short-term and long-term dependencies of the speech signal for paralinguistic emotion classification Труды СПИИРАН (SPIIRAS Proceedings), - (год публикации - 2019)

3. Кайа Х., Федотов Д., Йешилканат А., Верхоляк О.В., Жанг Й., Карпов А.А. LSTM Based Cross-corpus and Cross-task Acoustic Emotion Recognition Proceedings of the Annual Conference of the International Speech Communication Association INTERSPEECH, INTERSPEECH-2018, c. 521-525 (год публикации - 2018) https://doi.org/10.21437/Interspeech.2018-2298

4. Маркитантов М.В., Карпов А.А. Аналитический обзор подходов к автоматическому распознаванию возраста диктора по голосу Материалы конференции «Информационные технологии в управлении» (ИТУ-2018), Санкт-Петербург, ИТУ-2018, С. 539-542 (год публикации - 2018)

5. Марковников Н.М., Кипяткова И.С., Ляксо Е.Е. End-to-End Speech Recognition in Russian Lecture Notes in Computer Science, т. LNAI 11096, с. 377–386 (год публикации - 2018) https://doi.org/10.1007/978-3-319-99579-3_40

6. Федотов Д., Кайа Х., Карпов А.А. Context Modeling for Cross-Corpus Dimensional Acoustic Emotion Recognition: Challenges and Mixup Lecture Notes in Computer Science, т. LNAI 11096, с. 155–165 (год публикации - 2018) https://doi.org/10.1007/978-3-319-99579-3_17


Аннотация результатов, полученных в 2019 году
В 2019 году командой исполнителей был выполнен 2-й этап проекта РНФ, связанный с разработкой и исследованием математического и программного обеспечения для интеллектуальной системы комплексного паралингвистического анализа речи и получены следующие основные результаты: Разработано новое математическое обеспечение и усовершенствованы существующие модели, методы, и алгоритмы для задач цифровой обработки речевых сигналов и машинной классификации паралингвистических явлений в разговорной речи в нескольких направлениях: 1) автоматическое распознавание естественных эмоций (психоэмоциональных состояний) диктора, в том числе в диалоговой речи; 2) автоматическое распознавание потенциальной лжи (состояний внутреннего психологического давления и стресса) в высказываниях; 3) автоматическое определение пола и возрастной группы диктора; 4) автоматическое определение типа адресата речевого сообщения. На данном этапе нами были разработаны и исследованы 5 различных нейросетевых архитектур моделей на основе глубокого обучения, 3 подхода с использованием традиционных методов машинного обучения, а также методы отбора информативных признаков, алгоритмической композиции, доменной адаптации, и многоуровневого анализа контекста. В целях анализа психоэмоциональной составляющей речи человека была предложена 2-х уровневая архитектура организации рекуррентных нейронных сетей с длинной кратковременной памятью RNN-LSTM, позволяющая анализировать как индивидуальный поток речи, так и речевое взаимодействие двух партнеров в диалоге. Это является важным результатом, так как позволяет добиться не только высокой точности классификации, но также и большей стабильности и робастности работы системы. Для решения паралингвистической задачи распознавания ложной информации в речи нами разработана алгоритмическая композиция, позволяющая использовать ансамбль машинных классификаторов для понижения погрешностей каждого индивидуального классификатора и большей устойчивости бинарного распознавания. Также нами разработаны и исследованы несколько полносвязных FCNN и сверточных нейронных сетей CNN для задачи распознавания пола и возрастной группы диктора по голосу. Дополнительно были разработаны несколько нейросетевых архитектур, в том числе с использованием интегрального подхода (end-to-end) к распознаванию паралингвистических явлений в речи, позволяющие определять тип адресата речевого сообщения (человек/компьютер или взрослый/ребенок). Такие компоненты являются важным составляющим интеллектуальной системы паралингвистического анализа, так как они позволяют различать речевые сообщения пользователя, направленные к компьютерной системе и требующие от нее ответной реакции, от высказываний, направленных к другим людям, на которые ответная реакция системы не требуется. На основе предложенных математических моделей разработано новое программное обеспечение в виде прототипов компьютерных программ для ЭВМ на языке программирования высокого уровня Python. В целях интеграции существующих программных средств в разрабатываемую интеллектуальную систему был проведен анализ и изучение открытого прикладного программного обеспечения, предназначенного для автоматической обработки и распознавания паралингвистической информации в речи. Всего проанализировано 18 программных инструментариев и средств, находящихся в открытом доступе, включая: 3 программных инструментария для извлечения акустических признаков (OpenSMILE, Praat, librosa), 3 библиотеки для тензорных вычислений (TensorFlow, Theano, NumPy), 3 набора программных средств построения общих моделей машинного обучения (Scikit-learn, WEKA, RapidMiner), 5 библиотек для создания и обучения глубоких нейросетевых архитектур (CNTK, PyTorch, Keras, Caffe, MXNet), 3 инструментария для автоматического распознавания речи (Speech Recognition, Pocketsphinx, SpeechKit) и инструментарий общего назначения SoX. Сделан выбор в пользу нескольких систем извлечения признаков (openSMILE, librosa), а также выбраны наилучшие библиотеки машинного обучения и построения глубоких нейросетевых архитектур (TensorFlow, PyTorch, Keras), с помощью которых реализовано математическое и программное обеспечение, представленное в отчете по проекту. Разработано и зарегистрировано в Роспатенте программное обеспечение («Программная система для определения пола и возраста диктора по голосу GASpeakerRecognizer», свидетельство о государственной регистрации программы для ЭВМ № 2019662952). Данная компьютерная программа позволяет захватывать речевые данные диктора онлайн с помощью микрофона, а также считывать имеющиеся аудиофайлы и анализировать их на предмет паралингвистической информации. В результате обработки речевого сигнала в графическом интерфейсе пользователя выводятся пол и возрастная группа говорящего, а также вероятность принадлежности говорящего к каждой из 7 рассматриваемых гендерно-возрастных групп (ребенок 7-14 лет, 15-24, 25-54, 55-80 лет, мужчина или женщина). Математическое обеспечение, использованное при разработке данной программы для ЭВМ, включает в себя комплексную сверточную нейронную сеть CNN, обученную на базе данных немецкой речи aGender. Разработан прототип программного обеспечения для распознавания 4-х категорий естественных эмоций человека по речи (радость, грусть, злость, нейтральное состояние). После прохождения процедуры регистрации, состоящей из записи голоса пользователя, все последующие тестовые записи нормализуются и адаптируются под данного пользователя. Математическое обеспечение, использованное при разработке этой программы, включает в себя линейные модели классификации в виде матриц проектирования, полученных в ходе обучения на базах данных RUSLANA, EMODB, BUEMODB и др. Оба созданных прототипа являются частью разрабатываемой интеллектуальной системы комплексного паралингвистического анализа речи, и в дальнейшем будут встроены в общую архитектуру. Расширено доступное для исследований и разработок информационно-лингвистическое обеспечение (многодикторные речевые корпуса, транскрипции речевых записей и словари) на различных естественных языках. К официально доступным в СПИИРАН речевым базам данных эмоционально окрашенной речи и паралингвистических явлений (RUSLANA, RAMAS, EmoChildRu, IEMOCAP, CreativeIT, SEMAINE, EMODB, USoMS, RECOLA, BUEMODB, Deceptive Speech Database (DSD), CSC Deceptive Speech (CSC), база данных Университета Ноттингема, база данных Университета Сучжоу (Китай), база данных Columbia X-Cultural Deception Corpus (CXD Corpus), aGender, ELSDSR, Mandarin, NIST SRE 2008, NIST SRE 2010, N-Best) были добавлены новые речевые корпусы. В частности, корпус австрийской речи GRASS AUS, содержащий 38 дикторов и богатую паралингвистическую разметку, включающую в себя пол, возраст, образование, род деятельности, место жительство дикторов и др., речевой корпус Styrialects, в который входят немецкоязычные аудиозаписи на различных диалектах Штирии (область Австрии) от 55 дикторов из 25 различных регионов. В рамках участия в 9-х международных соревнованиях по аудиовизуальному анализу эмоций AVEC-2019 были также получены несколько многомодальных корпусов, содержащих эмоционально окрашенную речь, в том числе уровень стресса/депрессии и межкультурное проявление эмоций различных дикторов. В целях создания системы распознавания адресата высказывания были получены 2 корпуса на немецком языке, содержащие речевые сообщения людей, направленные к другим людям или к голосовым помощникам: SVC (Smart Video Corpus), VACC (Voice Assistant Conversation Corpus), а также корпус HB англоязычных речевых сообщений, направленных к другим взрослым, либо к детям. Всего официально получены 9 новых речевых баз данных, содержащих различную паралингвистическую информацию, в том числе стресс, эмоции, диалекты дикторов, а также типы адресатов речевых сообщений. Проведены экспериментальные исследования и получены количественные результаты работы программной подсистемы распознавания эмоциональных состояний дикторов в кросс-корпусной установке с применением метода доменной адаптации и анализа акустического контекста как самого говорящего, так и его партнера в речевом диалоге. В полученных результатах отражены точность распознавания активации и валентности базовой системы распознавания, а также улучшение, которое влекут за собой предложенные методы. Эксперименты проводились на англоязычной речевой базе данных IEMOCAP, классификация происходила по трем категориям [низкая, средняя, высокая] отдельно для каждого из двух измерений эмоционального пространства [валентность, активация]. Полученные нами значения точности распознавания обоих параметров превзошли ранее опубликованные в литературе. Таким образом, подтверждена эффективность разработанной нами системы. Результаты экспериментов на двух новых наборах признаков, полученных с помощью систем автоматического распознавания речи ASR и автоматической сегментации речи в целях моделирования состояния депрессии и синдрома посттравматического стресса показывают высокую разрешающую способность предложенных признаков и целесообразность их использования в будущем. Результаты включают в себя точность распознавания семи классов сегментированных аудиоданных, точность распознавания уровня депрессии и межкультурного проявления эмоций с учетом использования предложенных признаков и комбинации предложенных моделей. Эксперименты проводились на базе данных, предоставленной организаторами международных соревнований AVEC-2019. Предварительные результаты экспериментов, посвященных выявлению характеристик потенциальной лжи человека в его речевых высказываниях, являющихся показателями стресса и внутреннего давления, влияющих на психоэмоциональное состояние диктора, отражают точность бинарной классификации высказываний по категориям [правда, ложь] в зависимости от используемых методов, а также их комбинации на базе данных Real-Life Trial Deception Detection Dataset. Из полученных результатов можно сделать вывод, что выдвигаемая гипотеза о большей эффективности алгоритмической композиции по сравнению с отдельным классификаторами полностью оправдывается. Полученный опыт и выводы, сделанные нами по результатам проведенных экспериментов, являются ценными для дальнейшего достижения целей и задач проекта и разработки интеллектуальной системы комплексного паралингвистического анализа речи. Проведены экспериментальные исследования и получены количественные результаты работы интеллектуальной компьютерной системы в задаче автоматического анализа пола и возраста дикторов по речи с использованием многодикторных речевых данных. Результаты экспериментов с несколькими предложенными моделями на основе полносвязных и сверточных нейронных сетей CNN применительно к задачам распознавания пола и возрастной группы диктора по акустическим характеристикам включали в себя как совместное, так и раздельное распознавание пола и возрастной группы диктора. Получена точность классификации с помощью метода опорных векторов SVM, 1, 2, 3 и 4-слойных полносвязных нейронных сетей, простой сверточной нейросети, а также 3 и 4-уровневых сверточных нейросетей CNN. Анализ полученных результатов экспериментов включает в себя сравнение точности распознавания данных паралингвистических явлений в зависимости от различных наборов признаков: конфигурационные файлы признаков openSMILE и спектральных представлений (MEL, MFCC), а также влияние метода PCA и количества сохраняемой дисперсии данных на результаты классификации. Экспериментальные исследования в данной задаче проводились на речевой базе данных aGender. Результаты экспериментальных исследований в этой и других рассматриваемых задачах компьютерной паралингвистики показали, что выбор оптимальной модели классификации существенно зависит от условий задачи и качества обучающих речевых данных. Не существует универсального классификатора, одинаково эффективно справляющегося со всеми экспериментальными установками и данными. Это подтверждает гипотезу об отсутствии универсального решения в поиске и оптимизации, которая говорит о том, что любые два алгоритма оптимизации сравнимы по эффективности, если усреднить их результаты на множестве всех возможных задач. В рамках данного проекта при построении интеллектуальной системы комплексного паралингвистического анализа речи это означает, что невозможно ограничиться лишь одним методом распознавания паралингвистической информации, и обосновывает необходимость одновременного применения нескольких методов, в том числе с помощью алгоритмической композиции, позволяющей компенсировать погрешности отдельных классификаторов. Наша команда, включающая исполнителей проекта, приняла участие в 11-х международных соревнованиях по компьютерной паралингвистике INTERSPEECH 2019 Computational Paralinguistics Challenge (Грац, Австрия, http://www.compare.openaudio.eu/tasks/), где проводила экспериментальные исследования разработанных автоматических систем с использованием предложенных организаторами речевых баз данных. Коллектив исполнителей занял почетное 2-е место в конкурсе по распознаванию звуков детей Baby Sounds Sub-Challenge, существенно превысив базовые значения эффективности классификации на валидационных и тестовых данных; 4-е место в конкурсе по распознаванию степени сонливости диктора (Continuous Sleepiness Sub-Challenge), превысив базовые значения коэффициента корреляции на валидационных и тестовых данных; 4-е место в конкурсе по распознаванию диалектов Штирии по речи носителей (Styrian Dialects Sub-Challenge. Кроме этого, коллектив исполнителей проекта принял участие в нескольких направлениях соревнования по аудио-визуальному распознаванию эмоций 9th International Audio/Visual Emotion Challenge AVEC-2019 (Ницца, Франция, https://sites.google.com/view/avec2019/home). В задаче определения кросс-культурного проявления эмоций наша команда (SUN) заняла 3-е место, а в задаче по определению уровня стресса – 5-е. По результатам проведенных исследований нами подготовлен и опубликован цикл научных статей в англо- и русскоязычных изданиях и журналах со ссылками на проект РНФ. В 2019 году были опубликованы 8 статей в изданиях, индексируемых международными базами данных Scopus, Web of Science и РИНЦ. Руководитель и исполнители проекта участвовали и выступали с устными, стендовыми и приглашенными докладами по результатам проекта на следующих международных научных конференциях: 44-я IEEE Международная конференция ICASSP-2019; 9-й ACM Международный семинар AVEC-2019; 20-я ACL Международная конференция SIGDial-2019; 21-я Международная конференция SPECOM-2019; 13-й Международный симпозиум IDC-2019; III Международная конференция по инженерной и прикладной лингвистике «Пиотровские Чтения – 2019» (А.А. Карпов выступил с пленарным докладом "Компьютерная паралингвистика: основные задачи и достижения современных систем"); 8-й Междисциплинарный семинар «Анализ разговорной русской речи» АР3-2019; VIII Конгресс молодых ученых КМУ ИТМО 2019. Подготовлена и успешно подана заявка на регистрацию разработанной программы для ЭВМ в Роспатенте: Программная система для определения пола и возраста диктора по голосу (GASpeakerRecognizer), Свидетельство о государственной регистрации № 2019662952 от 07.10.2019 г., авторы: Маркитантов М. В., Карпов А.А., правообладатель: СПИИРАН, https://www.rosrid.ru/rid/CQVY0YRX5L4WRZO9WFELN6VH Результаты данного проекта освещались в СМИ: новости информационного агентства ТАСС - https://nauka.tass.ru/nauka/6659327, а также сюжет в передаче "Матрица науки" на телеканале «Санкт-Петербург» - https://topspb.tv/programs/releases/96873/ Все выполненные работы и полученные научные результаты полностью соответствуют целям проекта и заявленным задачам проекта РНФ. Для освещения основных результатов проекта создана веб-страница на интернет-сайте Лаборатории речевых и многомодальных интерфейсов СПИИРАН: http://hci.nw.ru/ru/projects/18

 

Публикации

1. Ахтямов О.В., Зигерт И., Карпов А.А., Минкер В. Cross-Corpus Data Augmentation for Acoustic Addressee Detection Proceedings of the 20th International Conference SIGDial-2019, pp. 274-283, W19-5933 (год публикации - 2019)

2. Величко А.Н., Будков В.Ю., Кагиров И.А., Карпов А.А. Applying Ensemble Learning Techniques and Neural Networks to Deceptive and Truthful Information Detection Task in the Flow of Speech Studies in Computational Intelligence, IDC 2019, SCI vol. 868, pp. 477-482, 2020 (год публикации - 2020) https://doi.org/10.1007/978-3-030-32258-8_56

3. Верхоляк О.В., Кайя Х., Карпов А.А. Моделирование кратко- и долговременных зависимостей речевого сигнала для паралингвистической классификации эмоций (Modeling Short-Term and Long-Term Dependencies of the Speech Signal for Paralinguistic Emotion Classification) Труды СПИИРАН (SPIIRAS Proceedings), № 1, Т. 18, С. 30-56 (год публикации - 2019) https://doi.org/10.15622/sp.18.1.30-56

4. Верхоляк О.В., Федотов Д.В., Кайа Х., Жанг Й., Карпов А.А. Hierarchical Two-Level Modelling of Emotional States in Spoken Dialog Systems Proceedings of 44th IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP-2019, pp. 6700-6704. (год публикации - 2019) https://doi.org/10.1109/ICASSP.2019.8683240

5. Кайя Х., Федотов Д., Дресвянский Д., Дойран М., Мамонтов Д., Маркитантов М., Салах А., Кавчар Е., Карпов А.А., Салах А.А. Predicting Depression and Emotions in the Cross-roads of Cultures, Para-linguistics, and Non-linguistics Proceedings of 9th International Audio/Visual Emotion Challenge and Workshop AVEC 2019, co-located with ACM Multimedia 2019, 2019, pp. 27-35. (год публикации - 2019) https://doi.org/10.1145/3347320.3357691

6. Маркитантов М.В., Верхоляк О.В. Automatic Recognition of Speaker Age and Gender Based on Deep Neural Networks Lecture Notes in Computer Science (Lecture Notes in Artificial Intelligence), LNAI, vol. 11658, pp. 327-336. (год публикации - 2019) https://doi.org/10.1007/978-3-030-26061-3_34

7. Маркитантов М.В., Карпов А.А. Автоматическое распознавание возраста и пола диктора на основе глубоких нейронных сетей Информационно-измерительные и управляющие системы, Том 17, № 5, 2019, С. 76-83. (год публикации - 2019) https://doi.org/10.18127/j20700814-201905-10

8. Маркитантов М.В. Аналитический обзор систем автоматического распознавания возраста диктора по голосу Сборник трудов VIII Конгресса молодых ученых, Университет ИТМО, 2019, Том 3, С. 246-251. (год публикации - 2019)

9. Маркитантов М.В., Карпов А.А. Программная система для определения пола и возраста диктора по голосу (GASpeakerRecognizer) -, 2019662952 (год публикации - )

10. - Телепередача "Матрица науки", программа о речевых технологиях Телеканал «Санкт-Петербург», - (год публикации - )

11. - Ученые из Петербурга учат компьютер распознавать эмоции, болезни и ложь по речи человека Информационное агентство ТАСС, http://rscf.ru/ru/node/raspoznavat-emotsii-bolezni-i-lozh (год публикации - )


Аннотация результатов, полученных в 2020 году
В 2020-м году коллективом исполнителей был выполнен 3-й этап проекта РНФ, связанный с тестированием и количественным оцениванием интеллектуальной системы комплексного паралингвистического анализа речи, а также обобщением результатов работ, и получены следующие основные результаты: Проведено исследование методик комплексирования компьютерных алгоритмов и методов для автоматического анализа и обнаружения различных паралингвистических явлений в разговорной речи дикторов, в частности: расширение вектора признаков, построение дифференцированных моделей, применение многозадачного обучения (multi-task learning), а также трансферного обучения (transfer learning). Разработаны новые математические модели и методы, в том числе, использующие гендерно-возрастную информации на этапе распознавания эмоций диктора, а также для использования информации об эмоциональном состоянии на этапе определения истинности/ложности речевого высказывания. Проведены экспериментальные исследования и количественное оценивание результатов комплексного паралингвистического анализа речи с использованием собранных речевых корпусов, доказывающие эффективность предложенных математических моделей. С использованием речевых корпусов aGender, Ruslana, EmoDB, DSD и RLTDDD было установлено, что использование информации о поле и возрасте диктора позволяет добиться прироста в качестве автоматического распознавания эмоций по количественному показателю невзвешенной средней полноты UAR (Unweighted Average Recall) в среднем на 4,5%, а сведения об эмоциональном состоянии говорящего повышают значение показателя качества распознавания истинности/ложности высказывания UAR в среднем на 2,1%. Экспериментальные результаты показывают, что модели распознавания эмоций, обученные на женских голосах, достигают большей точности классификации (до 100% при некоторых условиях), чем модели, обученные на мужских голосах (до 94.0%). При этом наиболее информативными психоэмоциональными состояниями в задаче распознавания лжи диктора являются злость, страх и нейтральное состояние, что коррелирует с другими результатами, известными по психологической литературе. Также установлено, что проявление эмоции счастья, наряду с другими акустическими характеристиками речи, также может быть показателем истинности/ложности высказывания. Это может объясняться тем, что во время лжи люди могут имитировать состояние радости для прикрытия своих истинных чувств. Разработано новое математическое обеспечение и усовершенствованы существующие модели, методы, и алгоритмы для задачи распознавания истинности/ложности речевого сообщения по голосовым характеристикам диктора. Проведены экспериментальные исследования на двух речевых базах данных: DSD и RLTDDD2. Экспериментально исследованы в данной задаче машинные классификаторы на основе методов градиентного бустинга, бутстрэп-агрегирования (бэггинг, bagging) с методом k-ближайших соседей (k-NN), а также метод опорных векторов (SVM), метод k-ближайших соседей, метод случайного леса, логистическая регрессия. Получена количественная оценка работы предложенных классификаторов, достигающая значения F-меры = 85,6% за счет аугментации данных методом SMOTE с целью уменьшения дисбаланса классов и применения методов уменьшения размерности признакового пространства методом главных компонент (PCA). Также проведены экспериментальные работы, подтверждающие теоретические исследования, что эмоции страха и гнева имеют положительное влияние на количественные показатели определения истинности и ложности информации по речи. По сравнению с базовыми моделями, не использующими информацию об эмоциональном состоянии диктора, при включении дополнительных эмоциональных признаков удалось достичь значения F1-меры = 88,7%, что дает абсолютный прирост в 3,1%. В 2020 г. были разработаны и зарегистрированы в Роспатенте две Программы для ЭВМ: 1) Программная система комплексного анализа паралингвистических явлений в речи (ComPAS — Complex Paralinguistic Analysis of Speech), и 2) Программная система для распознавания эмоций в речи (ProSpER – Program for Speech Emotion Recognition). Программная система комплексного анализа паралингвистических явлений в речи ComPAS построена на основе клиент-серверной архитектуры, она реализует следующий функционал: регистрация новых пользователей, считывание и запись аудиофайлов, обработка тестовой аудиозаписи и сохранение ее статистических параметров, персональная адаптация к индивидуальным особенностям разговорной речи каждого нового пользователя, автоматическое распознавание пола и возрастной группы пользователя (7 классов), психоэмоционального состояния (злость, грусть, счастье и нейтральное состояние) и истинности/ложности высказываний пользователя. Графический пользовательский интерфейс приложения поддерживает русский и английский языки. На данный момент представленная система ComPAS является единственной программой, позволяющей давать комплексную паралингвистическую оценку голосовому сигналу, включая пол и возраст говорящего, а также эмоциональную окраску и истинность высказывания. Вторая разработанная программная система для распознавания эмоций в речи ProSpER характеризуется эффективной схемой адаптации к зарегистрированным пользователям, хорошей обобщающей способностью за счет применения кросс-корпусных моделей обучения, быстротой срабатывания, а также высокой точностью распознавания по 4 основным эмоциональным классам: счастье, злость, грусть и нейтральное состояние. Кроме того, в рамках проекта принято участие в нескольких международных соревнованиях по компьютерной паралингвистике. В 12-х международных соревнованиях по компьютерной паралингвистике INTERSPEECH 2020 Computational Paralinguistics Challenge (онлайн конференция, 25-29 октября 2020 г.) коллектив исполнителей проекта участвовал в конкурсах по трем направлениям: 1) распознавание эмоций пожилых людей, 2) распознавание фазы дыхания, и 3) распознавание наличия медицинской маски по речи диктора. В 2-х конкурсах из 3-х наша объединенная команда заняла первое место, добившись самой высокой точности распознавания. По результатам участия в соревнованиях получены два диплома за первое место по направлениям распознавания эмоций пожилых людей и определения фазы дыхания диктора. Нами были предложены и разработаны 3 различные компьютерные системы, обученные на предложенных речевых базах данных, и совмещающие в себе ансамблевый подход к классификации паралингвистических явлений для достижения наилучшей эффективности функционирования на новых данных, а также эффективный подход к обучению на основе кросс-валидации, который показал наилучшие результаты по сравнению с традиционным разделением данных на обучающую и валидационную выборку. Исследованы как акустические, так и лингвистические признаки разговорной речи, а также нейросетевые подходы, использующие предобученные модели, позволяющие улучшить процесс обучения на ограниченных наборах обучающих данных. В задаче распознавания эмоций пожилых людей была предложена гибридная система, включающая в себя методы обработки как акустической, так и лингвистической информации. Для моделирования эмоционального параметра активации психики был предложен метод обработки акустических параметров голоса, основанный на извлечении векторов Фишера. Эти векторы подавались на вход машинного классификатора, основанного на машинах экстремального обучения (Extreme Learning Machine, ELM). В ходе исследования использовались 2 разновидности ELM: ядерные (kernel ELM) и взвешенные (weighted kernel ELM) модели для нивелирования эффекта дисбаланса классов. Для моделирования эмоционального параметра валентности были использованы несколько представлений лингвистических признаков, в том числе: модели TF*IDF, Fasttext, высокоуровневые признаки полярности, а также признаки, извлекаемые на основе тональных словарей. Благодаря применению предложенных методов удалось достичь показателя UAR = 63,7% и 57,5% для валентности и активации, соответственно, что превосходит базовые значения организаторов конкурса на 14,5% и 7,1%. По результатам этого конкурсного направления наша российско-голландско-немецкая команда заняла первое место среди 14 команд-участников. В задаче распознавания фазы дыхания нами предложены два интегральных подхода (end-to-end, E2E). Первый подход основан на комбинации сверточных и рекуррентных нейросетевых архитектур 1D CNN + LSTM RNN, которые напрямую использовали необработанные аудиосигналы. Второй подход основан на предварительно обученной модели ResNet18 c двумя последовательными управляемыми рекуррентными блоками (ResNet18 + GRU), на вход которой подавались спектрограммы. После этого происходило объединение результатов лучших моделей как на уровне предсказаний, так и на уровне представления признаков, которые извлекались с последних слоев 1D CNN и ResNet18. Наша наилучшая программная система показала средний коэффициент корреляции Пирсона PCC = 0,640 при кросс-валидации и PCC = 0,763 на тестовом наборе данных, что превысило результат базовой системы PCC = 0,731. В данном конкурсе соревнования наша объединенная команда также заняла первое место. В задаче определения наличия медицинской маски у диктора нами был предложен подход, основанный на предобученной модели ResNet18 с различными оптимизаторами (Adam и SGD). Наша автоматическая система показала значение показателя UAR = 84,3% при кросс-валидации и на тестовом наборе данных UAR = 75,9%, что значительно превосходит базовый результат конкурса на 4,1%. В итоге, в общем зачете в данном конкурсе мы заняли четвертое место из более 20 команд-участников. Все полученные результаты были представлены на топовой 21-й международной конференции INTERSPEECH-2020 и опубликованы в двух статьях в трудах конференции. Результаты соревнований доступны на официальном интернет-сайте серии соревнований ComParE http://www.compare.openaudio.eu/winners/. Помимо соревнований INTERSPEECH ComParE-2020 коллектив исполнителей проекта также принял участие в международных соревнованиях FG-2020 Competition: Affective Behavior Analysis in-the-wild (ABAW, https://ibug.doc.ic.ac.uk/resources/fg-2020-competition-affective-behavior-analysis/), где предложенные нами многомодальные системы, основанные на глубоких нейросетевых архитектурах и трансферном обучении, заняли третье место в конкурсе по распознаванию 7 базовых эмоциональных выражений лиц: злость, отвращение, страх, счастье, грусть, удивление и нейтральное состояние. С помощью предложенных методов удалось достичь значения официального показателя точности распознавания 42,1%, что превышает базовое значение на 6,1%. Помимо заявленного плана работ, на 3-м этапе проекта также были предложены и исследованы дополнительные методы повышения эффективности работы классификаторов, в том числе, распознавание эмоций по выражениям лиц и семантике высказывания, распознавание адресата речевого высказывания, а также распознавание типа дыхания и наличия медицинской маски по речи диктора. Рассмотрена возможность практического применения систем распознавания эмоций дикторов на примере имитационного моделирования работы телефонного контакт-центра. Применение предложенного алгоритма перераспределения звонков на основе распознавания текущего психоэмоционального состояния абонента позволяет значительно сократить время ожидания для приоритетных звонков. В рамках выполнения данного проекта РНФ в 2020 году всего было опубликовано 15 научных работ, в том числе: 5 журнальных статей, 9 статей в трудах научных конференций и одна глава в коллективной монографии. Среди этих работ 10 были опубликованы в международных англоязычных изданиях, индексируемых базами данных WoS/Scopus, включая журналы уровня Q1 (Sensors и Applied Sciences) и труды высокорейтинговых международных конференций (INTERSPEECH, SPECOM, ACM ICMI Workshop WoCBU и др.), а остальные – в русскоязычных изданиях, индексируемых в РИНЦ и ВАК. Помимо этого, результаты данного проекта РНФ активно освещались в СМИ. Информационно-сервисный интернет-портале о науке Indicator.Ru опубликовал интервью с руководителем проекта А.А. Карповым “Нейросети научили лучше распознавать паралингвистические явления” [https://indicator.ru/mathematics/neiroseti-nauchili-luchshe-raspoznavat-paralingvisticheskie-yavleniya-11-12-2020-840835.htm], интернет-изданием ITMO.NEWS опубликовано интервью с основным исполнителем проекта О.В. Верхоляк “Компьютерная паралингвистика на службе у старения” [https://news.itmo.ru/ru/science/it/news/9806/], а газетой "Коммерсантъ" опубликована статья “Чуткий собеседник без ключевого слова. Усовершенствованный голосовой помощник на равных поговорит с человеком” [https://www.kommersant.ru/doc/4373096]. Все выполненные работы и полученные научные результаты полностью соответствуют цели и заявленным задачам проекта РНФ. Для освещения основных результатов проекта создана веб-страница на интернет-сайте Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН (СПИИРАН): http://hci.nw.ru/ru/projects/18

 

Публикации

1. Ахтямов О.В., Зигерт И., Карпов А.А., Минкер В. Using Complexity-Identical Human- and Machine-Directed Utterances to Investigate Addressee Detection for Spoken Dialogue Systems Sensors, 2020, vol. 20, 2740 (год публикации - 2020) https://doi.org/10.3390/s20092740

2. Боянич М., Делич В., Карпов А.А. Call Redistribution for a Call Center Based on Speech Emotion Recognition Applied Sciences, 2020, vol. 10, 4653. (год публикации - 2020) https://doi.org/10.3390/app10134653

3. Боянич М., Делич В., Карпов А.А. Effect of Emotion Distribution on a Call Processing for an Emergency Call Center Proceedings of 28th Telecommunications Forum TELFOR 2020, - (год публикации - 2020)

4. Величко А.Н., Карпов А.А. A Study of Data Scarcity Problem for Automatic Detection of Deceptive Speech Utterances CEUR Workshop Proceedings, CEUR-WS, 2020, vol-2552 (год публикации - 2020)

5. Верхоляк О.В., Двойникова А.А., Карпов А.А. A Bimodal Approach for Speech Emotion Recognition using Audio and Text Journal of Internet Services and Information Security, Vol. 11, No. 1, pp. 80-96 (год публикации - 2021) https://doi.org/10.22667/JISIS.2021.02.28.080

6. Двойникова А.А., Верхоляк О.В., Карпов А.А. Emotion Recognition and Sentiment Analysis of Extemporaneous Speech Transcriptions in Russian Lecture Notes in Computer Science, LNAI vol. 12335, 2020, pp. 136-144 (год публикации - 2020) https://doi.org/10.1007/978-3-030-60276-5_14

7. Кайа Х., Верхоляк О.В., Маркитантов М.В., Карпов А.А. Combining Clustering and Functionals based Acoustic Feature Representations for Classification of Baby Sounds In Companion Publication of the 2020 International Conference on Multimodal Interaction (ICMI’20 Companion) - WoCBU'20 Workshop, - (год публикации - 2020) https://doi.org/10.1145/3395035.3425182

8. Маркитантов М., Дресвянский Д., Мамонтов Д., Кайа Х., Минкер В., Карпов А.А. Ensembling End-to-End Deep Models for Computational Paralinguistics Tasks: ComParE 2020 Mask and Breathing Sub-Challenges Proceedings of 21st International Conference INTERSPEECH 2020, pp. 2072-2076 (год публикации - 2020) https://doi.org/10.21437/Interspeech.2020-2666

9. Маркитантов М.В. Transfer Learning in Speaker’s Age and Gender Recognition Lecture Notes in Computer Science, LNAI vol. 12335, 2020, pp. 326-335 (год публикации - 2020) https://doi.org/10.1007/978-3-030-60276-5_32

10. Маркитантов М.В., Карпов А.А. Автоматическое распознавание пола и возраста человека с помощью нейронных сетей с временной задержкой на основе акустических признаков Труды Всероссийской акустической конференции ВАК-2020, 2020, С. 374-380 (год публикации - 2020)

11. Рюмина Е.В., Карпов А.А. Сравнительный анализ методов устранения дисбаланса классов эмоций в видеоданных выражений лиц Научно-технический вестник информационных технологий, механики и оптики, 2020. Т. 20. № 5. С. 683–691 (год публикации - 2020) https://doi.org/10.17586/2226-1494-2020-20-5-683-691

12. Рюмина Е.В., Карпов А.А. Facial Expression Recognition using Distance Importance Scores Between Facial Landmarks CEUR Workshop Proceedings (Proceedings of 30th International Conference Graphicon-2020), CEUR Workshop Proceedings, Vol. 2744, paper 32 (год публикации - 2020)

13. Соганчиоглу Г., Верхоляк О.В., Кайа Х., Федотов Д.В., Кадее Т., Салах А., Карпов А.А. Is Everything Fine, Grandma? Acoustic and Linguistic Modeling for Robust Elderly Speech Emotion Recognition Proceedings of 21st International Conference INTERSPEECH 2020, 2020, pp. 2097-2101. (год публикации - 2020) https://doi.org/10.21437/Interspeech.2020-3160

14. Двойникова А.А., Карпов А.А. Аналитический обзор подходов к распознаванию тональности русскоязычных текстовых данных Информационно-управляющие системы, 2020, № 4, C. 20-30 (год публикации - 2020) https://doi.org/10.31799/1684-8853-2020-4-20-30

15. Рюмина Е.В., Карпов А.А. Аналитический обзор методов распознавания эмоций по выражениям лица человека Научно-технический вестник информационных технологий, механики и оптики, 2020. Т. 20. № 2. С. 163–176 (год публикации - 2020) https://doi.org/10.17586/2226-1494-2020-20-2-163-176

16. Верхоляк О.В., Карпов А.А. Глава “Автоматический анализ эмоционально окрашенной речи” Монография "Голосовой портрет ребенка с типичным и атипичным развитием" / Е. Е. Ляксо, О. В. Фролова, С. В. Гречаный, Ю. Н. Матвеев, О. В. Верхоляк, А. А. Карпов. СПб.: Издательско-полиграфическая ассоциация высших учебных заведений, 2020. 204 с., С. 149-198 (год публикации - 2020)

17. Величко А.Н., Верхоляк О.В., Карпов А.А. Программная система для распознавания эмоций в речи (ProSpER - Program for Speech Emotion Recognition) -, 2020664234 (год публикации - )

18. Верхоляк О.В., Маркитантов М.В., Величко А.Н., Кипяткова И.С., Карпов А.А. Программная система комплексного анализа паралингвистических явлений в речи (ComPAS – Complex Paralinguistic Analysis of Speech) -, 2020664233 (год публикации - )

19. - Усовершенствованный голосовой помощник сможет на равных вести диалог с человеком Пресс-служба РНФ, В публикации указано, что данные исследования поддержаны данным грантом Российского научного фонда (РНФ). (год публикации - )

20. - Компьютерная паралингвистика на службе у старения ITMO.NEWS, В публикации указано, что данные исследования поддержаны грантом Российского научного фонда (РНФ). (год публикации - )

21. - Ученые разработали компьютерные системы для распознавания эмоций пожилых людей, анализа дыхания человека и определения наличия маски по речи Пресс-служба РНФ, В публикации указано, что данные исследования поддержаны грантом Российского научного фонда (РНФ). (год публикации - )

22. - Нейросети научили лучше распознавать паралингвистические явления Информационно-сервисный портал о науке Indicator.Ru, В публикации указано, что данные исследования поддержаны грантом Российского научного фонда (РНФ). (год публикации - )

23. - Чуткий собеседник без ключевого слова Газета "Коммерсантъ", В публикации указано, что данные исследования поддержаны грантом Российского научного фонда (РНФ). (год публикации - )


Возможность практического использования результатов
Компьютерные системы паралингвистического анализа речи имеют широкое практическое применение в экономике и в социальной сфере как в качестве самостоятельных программных продуктов, так и в качестве вспомогательных технологий, интегрируемых в различные интеллектуальные комплексы для автоматической обработки голоса и речи человека. Системы автоматического распознавания эмоций уже начинают применяться в качестве технологий мониторинга психофизиологических состояний пациентов в медицинских учреждениях, домах престарелых, а также в домашних условиях, что позволяет оперативно реагировать на критические изменения в их поведении, повысить качество их жизни, а также снизить нагрузку на медицинский персонал. Помимо этого, такие системы являются эффективным решением для оценки качества обслуживания клиентов и анализа поведения операторов в телефонных контакт-центрах, банках и банкоматах, сервисных центрах и многофункциональных центрах обслуживания населения, объем поступающий обращений в которые не всегда позволяет обрабатывать аудиозаписи вручную. В частности, экспериментальные исследования, проведенные с помощью имитационного моделирования работы контакт-центра неотложной медицинской помощи, выполненные в рамках данного проекта, показали высокую эффективность применения предложенной системы автоматического распознавания эмоций для перераспределения очереди входящих телефонных звонков в зависимости от их приоритета, который определяется преобладанием у абонента эмоций страха или гнева. Системы автоматического распознавания эмоций также могут использоваться в качестве составной части голосовых помощников для систем «умного дома» и систем виртуальной/дополненной реальности, позволяя лучше адаптироваться под поведение и потребности пользователя, в интеллектуальных мобильных приложениях на базе смартфонов, социальной робототехнике, маркетинге, для оперативной оценки психофизиологического состояния операторов в области транспорта, авиации и космоса, а также в иных областях науки и техники. Система автоматического распознавания пола и возраста диктора может быть использована для улучшения человеко-машинного взаимодействия за счет адаптации к гендерно-возрастной группе пользователя, а также в работе телефонных контакт-центров, учреждений здравоохранения и для повышения эффективности целевой рекламы. Еще одним полезным применением данного инструмента является объективная оценка аудиозаписей в судебно-медицинских учреждениях, например, для сужения списка подозреваемых. Системы автоматического определения пола и возраста также могут быть использованы в биометрических технологиях распознавания личности по голосу, идентификации и верификации пользователей, а также в качестве вспомогательной технологии для распознавания других паралингвистических явлений в речи, в частности, психоэмоциональных состояний. Системы автоматического распознавания истинности/ложности речевых высказываний традиционно разрабатывалась как одна из компонент детектора лжи для судебно-медицинских учреждений при проведении судебно-криминалистических экспертиз и расследований, при выявлении ”телефонных террористов”. Такие системы могут успешно применяться и в экономической сфере, например, для принятия решения о выдаче кредита в банковских учреждениях, при проведении деловых переговоров и интервью, а также для определения вероятности правдивости публичных политических высказываний. Очень актуальны также технологии анализа и распознавания любой другой паралингвистической информации: акцента, диалекта, наличия респираторного заболевания, наличия медицинской маски на лице диктора и т.д. Интеллектуальная система комплексного распознавания паралингвистических явлений в речи актуальна при построении диалоговых системы и голосовых помощников, требующих точной адаптации к индивидуальным характеристикам и требованиям каждого пользователя. Применение системы автоматического распознавания адресата высказывания помогает улучшить взаимодействие машины сразу с несколькими пользователями, что является необходимой частью технологий «умного дома» и интеллектуальных пространств, в том числе, рабочих переговорных комнат, предполагающих общение нескольких людей, машин и даже роботов. Разрабатываемая интеллектуальная система позволит продвинуть современные достижения в области искусственного интеллекта на новый уровень, предоставляя естественное взаимодействие на базе речевого и многомодального интерфейсов, доступных широкому кругу пользователей. Таким образом, полученные в проекте научно-технические результаты вносят существенный вклад в решение задач направления из Стратегии НТР РФ, особенно в таком направлении как «Переход к передовым цифровым, интеллектуальным производственным технологиям, роботизированным системам, новым материалам и способам конструирования, создание систем обработки больших объемов данных, машинного обучения и искусственного интеллекта», а также отчасти в направлениях «Возможность эффективного ответа российского общества на большие вызовы с учетом взаимодействия человека и природы, человека и технологий, социальных институтов на современном этапе глобального развития, в том числе применяя методы гуманитарных и социальных наук» и «Противодействие техногенным, биогенным, социокультурным угрозам, терроризму и идеологическому экстремизму, а также киберугрозам и иным источникам опасности для общества, экономики и государства».