КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер проекта 18-11-00145
НазваниеРазработка и исследование интеллектуальной системы для комплексного паралингвистического анализа речи
Руководитель Карпов Алексей Анатольевич, Доктор технических наук
Организация финансирования, регион Федеральное государственное бюджетное учреждение науки "Санкт-Петербургский Федеральный исследовательский центр Российской академии наук" , г Санкт-Петербург
Конкурс №28 - Конкурс 2018 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами»
Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-726 - Системы и технологии интеллектуального анализа данных и распознавания образов
Ключевые слова речевые технологии, речевые интерфейсы, человеко-машинное взаимодействие, компьютерная паралингвистика, автоматическое распознавание речи и эмоций, анализ психофизиологического состояния диктора, речевая криминалистика, искусственный интеллект, распознавание образов, цифровая обработка сигналов, обработка естественного языка, машинное обучение
Код ГРНТИ50.10.41, 20.19.29, 16.31.21
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Компьютерная паралингвистика (computational paralinguistics) является одной из новых и самых динамично развивающихся областей современных речевых технологий, она изучает и анализирует различные невербальные аспекты в естественной речи, текстах и многомодальной коммуникации: эмоции, акценты, интонации, психофизиологические состояния, особенности произношения, параметры голоса человека и другие невербальные характеристики речи. Паралингвистика касается, в основном, вопросов как речь произносится, а не что конкретно произносится. Автоматическое распознавание эмоций в речи (emotional/affective computing) является наиболее популярной и востребованной областью компьютерной паралингвистики, она тесно связана с такими исследованиями как распознавание состояния диктора и анализ особенностей его голоса. Текущее состояние говорящего, как правило, соответствует динамично изменяющимся окружающим условиям и может описываться такими параметрами как психоэмоциональное и физиологическое состояние, состояние здоровья, усталость, стресс, депрессия и т.д. Особенности же диктора соответствуют неизменным или относительно постоянным характеристикам человека: пол, возраст, рост, акцент, этническая принадлежность, медицинские заболевания, например, болезнь Паркинсона или Альцгеймера, и т.д.
Это направление сейчас очень популярно в мировой науке, в зарубежной научной литературе выходит масса публикаций об исследованиях в области автоматизированного анализа и распознавания паралингвистических явлений в речи, например, в журналах IEEE Transactions on Affective Computing; IEEE/ACM Transactions on Audio, Speech, and Language Processing; Speech Communication; Computer Speech and Language; Journal on Multimodal User Interfaces, трудах ведущих международных конференций по речевым технологиям INTERSPEECH, ICASSP, ICMI, ACII, SPECOM, Диалог и др. С 2009 года в рамках главной конференции по речевым технологиям INTERSPEECH проходят ежегодные международные соревнования по компьютерной паралингвистике Computational Paralinguistics ChallengE (ComParE, http://compare.openaudio.eu), посвященные различным направлениям исследований в области компьютерной паралингвистики. Первые соревнования были посвящены анализу эмоций в речи дикторов в рамках нескольких конкурсов и речевых баз данных. С тех пор соревнования ComParE проводятся ежегодно и де-факто являются чемпионатом мира по компьютерной паралингвистике, они проводились уже 9 раз по различным направлениям паралингвистического анализа речи, в частности: выявление состояния алкогольного опьянения, определение наличия болезни Паркинсона по речи, конфликта в речевом диалоге, оценка привлекательности голоса, степени усталости диктора, состояния депрессии, определение акцента, пола и возраста диктора, оценка ложности/истинности речевых сообщений, степени искренности диктора, наличия простуды, и т.д., периодически возвращаясь к анализу психоэмоциональных состояний человека как ключевому направлению компьютерной паралингвистики. Руководитель данного проекта д.т.н. А.А. Карпов участвовал в 3-х последних соревнованиях ComParE в Германии в 2015 г., в США в 2016 г. и в Швеции в 2017 г. совместно с турецкими коллегами, и наша объединенная команда становилась победителем всех трех соревнований по отдельным конкурсам. Предложенная нами система была основана на вычислении широкого пространства низкоуровневых акустических признаков с их последующей многоуровневой нормализацией, а также использовала классификаторы на основе искусственных нейронных сетей экстремального обучения ELM. Однако разнообразные глубокие нейронные сети (deep neural networks) и методы интегрального распознавания (end-to-end) нами для этой проблемы пока не использовались, что определяет содержание новых научно-исследовательских работ по данному проекту.
Среди существенных проблем в данной области можно выделить: cбор, анализ и аннотирование представительных многодикторных корпусов речи, записанных в естественных условиях, для исследования паралингвистических характеристик речи; машинное обучение моделей паралингвистических явлений/характеристик речи без учителя или с частичным использованием обучающих данных с минимальной разметкой; межкорпусные, многоязычные и многомодальные исследования по паралингвистическому анализу речи, включая распознавание естественных эмоций дикторов; повышение точности распознавания и робастности автоматических систем для паралингвистического анализа в реальном масштабе времени.
При этом очень мало российских публикаций по компьютерной паралингвистике, за исключением статей по автоматическому распознаванию эмоций, имитированных (сыгранных) актерами или обычными людьми (дикторами), и систематических исследований и проектов в области компьютерной паралингвистики в России практически не ведется.
Основной целью данного проекта РНФ является создание новой интеллектуальной компьютерной системы для комплексного паралингвистического анализа разговорной речи вне зависимости от языка. Особенностью создаваемой системы будет являться то, что она сможет осуществлять комплексный паралингвистический анализ речевых аудиосигналов, т.е. одновременно автоматически анализировать речь диктора на предмет определения его пола и возраста, психоэмоционального состояния, давать оценку истинности/ложности высказываний, а также анализировать иные паралингвистические характеристики речи. При этом автоматическая система будет нацелена не только на обработку русской речи, но также и речи на других мировых языках для обеспечения возможности универсального паралингвистического анализа речи. Таким образом, данное исследование является актуальным и масштабным как в рамках российской, так и мировой науки. В отличие от других речевых технологий (систем автоматического распознавания и понимания речи, синтеза речи, машинного перевода речи), системы паралингвистического анализа речи не завязаны на конкретный естественный язык, поэтому возможно создать практически универсальные методы обработки невербальной акустической информации, конечно, с учетом того, что средства/качества выражения эмоций в некоторой степени отличаются у разных народов и культур.
Основными задачами данного проекта являются разработка, теоретические и экспериментальные исследования математического, программного и информационно-лингвистического обеспечения для перспективной интеллектуальной системы паралингвистического анализа речи. Для успешного выполнения проекта должны быть решены эти задачи, сведенные в 3 последовательных этапа работ: 1) разработка информационно-лингвистического и математического обеспечения для интеллектуальной системы комплексного паралингвистического анализа речи (2018 г.); 2) разработка и исследование математического и программного обеспечения для интеллектуальной системы комплексного паралингвистического анализа речи (2019 г.); 3) тестирование и количественное оценивание интеллектуальной системы комплексного паралингвистического анализа речи, обобщение результатов (2020 г.).
В ходе предлагаемых работ будет получен ряд новых научно-технических результатов (модели, методы, алгоритмы, компьютерные программы и речевые базы данных) и усовершенствованы предложенные ранее подходы к комплексному анализу различных паралингвистических характеристик речи на основе методов цифровой обработки речевых сигналов и современных методов машинного обучения, в том числе на основе глубоких нейронных сетей.
К планируемым результатам научных исследований следует также отнести подготовку и издание цикла научных публикаций (не менее 18 опубликованных статей в 2018-2020 гг.) по результатам работ в российских и международных журналах (в том числе в журнале первого квартиля Q1, например, в Neurocomputing или в IEEE Transactions on Affective Computing) и трудах ведущих международных конференций по данной тематике (в частности, INTERSPEECH, SPECOM, AINL, Диалог и др.), индексируемых в Web of Science / Scopus, а также государственную регистрацию РИД (программы для ЭВМ) в Роспатенте.
Создаваемая интеллектуальная система для комплексного паралингвистического анализа речи может быть в дальнейшем использована во многих разработках и технологиях, имеющих прикладное коммерческое назначение, в том числе в автоматизированных телефонных контакт-центрах для анализа поведения человека-оператора и звонящих абонентов (в том числе для распознавания ”телефонных террористов” и для речевой криминалистики), в интеллектуальных мобильных приложениях на базе смартфонов, системах речевого и многомодального человеко-машинного взаимодействия и диалоговых системах, технологиях виртуальной и дополненной реальности, социальной робототехнике, маркетинге, для оперативной оценки психофизиологического состояния операторов в области авиации и космоса, а также в иных областях науки и техники. В дальнейшем может быть актуальным развитие создаваемой в данном проекте интеллектуальной системы паралингвистического анализа речи в плане добавления к ней новых визуальных модальностей (мимика лица, жестикуляция, направление взгляда) для многомодального анализа психоэмоционального состояния индивида.
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Публикации
1.
Федотов Д., Кайа Х., Карпов А.А.
Context Modeling for Cross-Corpus Dimensional Acoustic Emotion Recognition: Challenges and Mixup
Lecture Notes in Computer Science, т. LNAI 11096, с. 155–165 (год публикации - 2018)
10.1007/978-3-319-99579-3_17
2.
Марковников Н.М., Кипяткова И.С., Ляксо Е.Е.
End-to-End Speech Recognition in Russian
Lecture Notes in Computer Science, т. LNAI 11096, с. 377–386 (год публикации - 2018)
10.1007/978-3-319-99579-3_40
3.
Кайа Х., Федотов Д., Йешилканат А., Верхоляк О.В., Жанг Й., Карпов А.А.
LSTM Based Cross-corpus and Cross-task Acoustic Emotion Recognition
Proceedings of the Annual Conference of the International Speech Communication Association INTERSPEECH, INTERSPEECH-2018, c. 521-525 (год публикации - 2018)
10.21437/Interspeech.2018-2298
4. Маркитантов М.В., Карпов А.А. Аналитический обзор подходов к автоматическому распознаванию возраста диктора по голосу Материалы конференции «Информационные технологии в управлении» (ИТУ-2018), Санкт-Петербург, ИТУ-2018, С. 539-542 (год публикации - 2018)
5. Величко А.Н., Карпов А.А., Будков В.Ю. Аналитический обзор речевых корпусов для систем определения ложных речевых сообщений Материалы конференции «Информационные технологии в управлении» (ИТУ-2018), Санкт-Петербург, ИТУ-2018, С. 534-538 (год публикации - 2018)
6. Верхоляк O.В., Кайя Х., Карпов А.А. Modeling short-term and long-term dependencies of the speech signal for paralinguistic emotion classification Труды СПИИРАН (SPIIRAS Proceedings) (год публикации - 2019)
7.
Верхоляк О.В., Кайя Х., Карпов А.А.
Моделирование кратко- и долговременных зависимостей речевого сигнала для паралингвистической классификации эмоций (Modeling Short-Term and Long-Term Dependencies of the Speech Signal for Paralinguistic Emotion Classification)
Труды СПИИРАН (SPIIRAS Proceedings), № 1, Т. 18, С. 30-56 (год публикации - 2019)
10.15622/sp.18.1.30-56
8.
Верхоляк О.В., Федотов Д.В., Кайа Х., Жанг Й., Карпов А.А.
Hierarchical Two-Level Modelling of Emotional States in Spoken Dialog Systems
Proceedings of 44th IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP-2019, pp. 6700-6704. (год публикации - 2019)
10.1109/ICASSP.2019.8683240
9.
Маркитантов М.В., Верхоляк О.В.
Automatic Recognition of Speaker Age and Gender Based on Deep Neural Networks
Lecture Notes in Computer Science (Lecture Notes in Artificial Intelligence), LNAI, vol. 11658, pp. 327-336. (год публикации - 2019)
10.1007/978-3-030-26061-3_34
10. Ахтямов О.В., Зигерт И., Карпов А.А., Минкер В. Cross-Corpus Data Augmentation for Acoustic Addressee Detection Proceedings of the 20th International Conference SIGDial-2019, pp. 274-283, W19-5933 (год публикации - 2019)
11.
Кайя Х., Федотов Д., Дресвянский Д., Дойран М., Мамонтов Д., Маркитантов М., Салах А., Кавчар Е., Карпов А.А., Салах А.А.
Predicting Depression and Emotions in the Cross-roads of Cultures, Para-linguistics, and Non-linguistics
Proceedings of 9th International Audio/Visual Emotion Challenge and Workshop AVEC 2019, co-located with ACM Multimedia 2019, 2019, pp. 27-35. (год публикации - 2019)
10.1145/3347320.3357691
12.
Величко А.Н., Будков В.Ю., Кагиров И.А., Карпов А.А.
Applying Ensemble Learning Techniques and Neural Networks to Deceptive and Truthful Information Detection Task in the Flow of Speech
Studies in Computational Intelligence, IDC 2019, SCI vol. 868, pp. 477-482, 2020 (год публикации - 2020)
10.1007/978-3-030-32258-8_56
13.
Маркитантов М.В., Карпов А.А.
Автоматическое распознавание возраста и пола диктора на основе глубоких нейронных сетей
Информационно-измерительные и управляющие системы, Том 17, № 5, 2019, С. 76-83. (год публикации - 2019)
10.18127/j20700814-201905-10
14. Маркитантов М.В. Аналитический обзор систем автоматического распознавания возраста диктора по голосу Сборник трудов VIII Конгресса молодых ученых, Университет ИТМО, 2019, Том 3, С. 246-251. (год публикации - 2019)
15.
Боянич М., Делич В., Карпов А.А.
Call Redistribution for a Call Center Based on Speech Emotion Recognition
Applied Sciences, 2020, vol. 10, 4653. (год публикации - 2020)
10.3390/app10134653
16.
Ахтямов О.В., Зигерт И., Карпов А.А., Минкер В.
Using Complexity-Identical Human- and Machine-Directed Utterances to Investigate Addressee Detection for Spoken Dialogue Systems
Sensors, 2020, vol. 20, 2740 (год публикации - 2020)
10.3390/s20092740
17.
Двойникова А.А., Карпов А.А.
Аналитический обзор подходов к распознаванию тональности русскоязычных текстовых данных
Информационно-управляющие системы, 2020, № 4, C. 20-30 (год публикации - 2020)
10.31799/1684-8853-2020-4-20-30
18.
Рюмина Е.В., Карпов А.А.
Аналитический обзор методов распознавания эмоций по выражениям лица человека
Научно-технический вестник информационных технологий, механики и оптики, 2020. Т. 20. № 2. С. 163–176 (год публикации - 2020)
10.17586/2226-1494-2020-20-2-163-176
19.
Рюмина Е.В., Карпов А.А.
Сравнительный анализ методов устранения дисбаланса классов эмоций в видеоданных выражений лиц
Научно-технический вестник информационных технологий, механики и оптики, 2020. Т. 20. № 5. С. 683–691 (год публикации - 2020)
10.17586/2226-1494-2020-20-5-683-691
20.
Маркитантов М., Дресвянский Д., Мамонтов Д., Кайа Х., Минкер В., Карпов А.А.
Ensembling End-to-End Deep Models for Computational Paralinguistics Tasks: ComParE 2020 Mask and Breathing Sub-Challenges
Proceedings of 21st International Conference INTERSPEECH 2020, pp. 2072-2076 (год публикации - 2020)
10.21437/Interspeech.2020-2666
21.
Соганчиоглу Г., Верхоляк О.В., Кайа Х., Федотов Д.В., Кадее Т., Салах А., Карпов А.А.
Is Everything Fine, Grandma? Acoustic and Linguistic Modeling for Robust Elderly Speech Emotion Recognition
Proceedings of 21st International Conference INTERSPEECH 2020, 2020, pp. 2097-2101. (год публикации - 2020)
10.21437/Interspeech.2020-3160
22. Величко А.Н., Карпов А.А. A Study of Data Scarcity Problem for Automatic Detection of Deceptive Speech Utterances CEUR Workshop Proceedings, CEUR-WS, 2020, vol-2552 (год публикации - 2020)
23.
Маркитантов М.В.
Transfer Learning in Speaker’s Age and Gender Recognition
Lecture Notes in Computer Science, LNAI vol. 12335, 2020, pp. 326-335 (год публикации - 2020)
10.1007/978-3-030-60276-5_32
24. Маркитантов М.В., Карпов А.А. Автоматическое распознавание пола и возраста человека с помощью нейронных сетей с временной задержкой на основе акустических признаков Труды Всероссийской акустической конференции ВАК-2020, 2020, С. 374-380 (год публикации - 2020)
25.
Двойникова А.А., Верхоляк О.В., Карпов А.А.
Emotion Recognition and Sentiment Analysis of Extemporaneous Speech Transcriptions in Russian
Lecture Notes in Computer Science, LNAI vol. 12335, 2020, pp. 136-144 (год публикации - 2020)
10.1007/978-3-030-60276-5_14
26. Рюмина Е.В., Карпов А.А. Facial Expression Recognition using Distance Importance Scores Between Facial Landmarks CEUR Workshop Proceedings (Proceedings of 30th International Conference Graphicon-2020), CEUR Workshop Proceedings, Vol. 2744, paper 32 (год публикации - 2020)
27.
Кайа Х., Верхоляк О.В., Маркитантов М.В., Карпов А.А.
Combining Clustering and Functionals based Acoustic Feature Representations for Classification of Baby Sounds
In Companion Publication of the 2020 International Conference on Multimodal Interaction (ICMI’20 Companion) - WoCBU'20 Workshop (год публикации - 2020)
10.1145/3395035.3425182
28. Боянич М., Делич В., Карпов А.А. Effect of Emotion Distribution on a Call Processing for an Emergency Call Center Proceedings of 28th Telecommunications Forum TELFOR 2020 (год публикации - 2020)
29. Верхоляк О.В., Карпов А.А. Глава “Автоматический анализ эмоционально окрашенной речи” Монография "Голосовой портрет ребенка с типичным и атипичным развитием" / Е. Е. Ляксо, О. В. Фролова, С. В. Гречаный, Ю. Н. Матвеев, О. В. Верхоляк, А. А. Карпов. СПб.: Издательско-полиграфическая ассоциация высших учебных заведений, 2020. 204 с., С. 149-198 (год публикации - 2020)
30.
Верхоляк О.В., Двойникова А.А., Карпов А.А.
A Bimodal Approach for Speech Emotion Recognition using Audio and Text
Journal of Internet Services and Information Security, Vol. 11, No. 1, pp. 80-96 (год публикации - 2021)
10.22667/JISIS.2021.02.28.080
Публикации
1.
Федотов Д., Кайа Х., Карпов А.А.
Context Modeling for Cross-Corpus Dimensional Acoustic Emotion Recognition: Challenges and Mixup
Lecture Notes in Computer Science, т. LNAI 11096, с. 155–165 (год публикации - 2018)
10.1007/978-3-319-99579-3_17
2.
Марковников Н.М., Кипяткова И.С., Ляксо Е.Е.
End-to-End Speech Recognition in Russian
Lecture Notes in Computer Science, т. LNAI 11096, с. 377–386 (год публикации - 2018)
10.1007/978-3-319-99579-3_40
3.
Кайа Х., Федотов Д., Йешилканат А., Верхоляк О.В., Жанг Й., Карпов А.А.
LSTM Based Cross-corpus and Cross-task Acoustic Emotion Recognition
Proceedings of the Annual Conference of the International Speech Communication Association INTERSPEECH, INTERSPEECH-2018, c. 521-525 (год публикации - 2018)
10.21437/Interspeech.2018-2298
4. Маркитантов М.В., Карпов А.А. Аналитический обзор подходов к автоматическому распознаванию возраста диктора по голосу Материалы конференции «Информационные технологии в управлении» (ИТУ-2018), Санкт-Петербург, ИТУ-2018, С. 539-542 (год публикации - 2018)
5. Величко А.Н., Карпов А.А., Будков В.Ю. Аналитический обзор речевых корпусов для систем определения ложных речевых сообщений Материалы конференции «Информационные технологии в управлении» (ИТУ-2018), Санкт-Петербург, ИТУ-2018, С. 534-538 (год публикации - 2018)
6. Верхоляк O.В., Кайя Х., Карпов А.А. Modeling short-term and long-term dependencies of the speech signal for paralinguistic emotion classification Труды СПИИРАН (SPIIRAS Proceedings) (год публикации - 2019)
7.
Верхоляк О.В., Кайя Х., Карпов А.А.
Моделирование кратко- и долговременных зависимостей речевого сигнала для паралингвистической классификации эмоций (Modeling Short-Term and Long-Term Dependencies of the Speech Signal for Paralinguistic Emotion Classification)
Труды СПИИРАН (SPIIRAS Proceedings), № 1, Т. 18, С. 30-56 (год публикации - 2019)
10.15622/sp.18.1.30-56
8.
Верхоляк О.В., Федотов Д.В., Кайа Х., Жанг Й., Карпов А.А.
Hierarchical Two-Level Modelling of Emotional States in Spoken Dialog Systems
Proceedings of 44th IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP-2019, pp. 6700-6704. (год публикации - 2019)
10.1109/ICASSP.2019.8683240
9.
Маркитантов М.В., Верхоляк О.В.
Automatic Recognition of Speaker Age and Gender Based on Deep Neural Networks
Lecture Notes in Computer Science (Lecture Notes in Artificial Intelligence), LNAI, vol. 11658, pp. 327-336. (год публикации - 2019)
10.1007/978-3-030-26061-3_34
10. Ахтямов О.В., Зигерт И., Карпов А.А., Минкер В. Cross-Corpus Data Augmentation for Acoustic Addressee Detection Proceedings of the 20th International Conference SIGDial-2019, pp. 274-283, W19-5933 (год публикации - 2019)
11.
Кайя Х., Федотов Д., Дресвянский Д., Дойран М., Мамонтов Д., Маркитантов М., Салах А., Кавчар Е., Карпов А.А., Салах А.А.
Predicting Depression and Emotions in the Cross-roads of Cultures, Para-linguistics, and Non-linguistics
Proceedings of 9th International Audio/Visual Emotion Challenge and Workshop AVEC 2019, co-located with ACM Multimedia 2019, 2019, pp. 27-35. (год публикации - 2019)
10.1145/3347320.3357691
12.
Величко А.Н., Будков В.Ю., Кагиров И.А., Карпов А.А.
Applying Ensemble Learning Techniques and Neural Networks to Deceptive and Truthful Information Detection Task in the Flow of Speech
Studies in Computational Intelligence, IDC 2019, SCI vol. 868, pp. 477-482, 2020 (год публикации - 2020)
10.1007/978-3-030-32258-8_56
13.
Маркитантов М.В., Карпов А.А.
Автоматическое распознавание возраста и пола диктора на основе глубоких нейронных сетей
Информационно-измерительные и управляющие системы, Том 17, № 5, 2019, С. 76-83. (год публикации - 2019)
10.18127/j20700814-201905-10
14. Маркитантов М.В. Аналитический обзор систем автоматического распознавания возраста диктора по голосу Сборник трудов VIII Конгресса молодых ученых, Университет ИТМО, 2019, Том 3, С. 246-251. (год публикации - 2019)
15.
Боянич М., Делич В., Карпов А.А.
Call Redistribution for a Call Center Based on Speech Emotion Recognition
Applied Sciences, 2020, vol. 10, 4653. (год публикации - 2020)
10.3390/app10134653
16.
Ахтямов О.В., Зигерт И., Карпов А.А., Минкер В.
Using Complexity-Identical Human- and Machine-Directed Utterances to Investigate Addressee Detection for Spoken Dialogue Systems
Sensors, 2020, vol. 20, 2740 (год публикации - 2020)
10.3390/s20092740
17.
Двойникова А.А., Карпов А.А.
Аналитический обзор подходов к распознаванию тональности русскоязычных текстовых данных
Информационно-управляющие системы, 2020, № 4, C. 20-30 (год публикации - 2020)
10.31799/1684-8853-2020-4-20-30
18.
Рюмина Е.В., Карпов А.А.
Аналитический обзор методов распознавания эмоций по выражениям лица человека
Научно-технический вестник информационных технологий, механики и оптики, 2020. Т. 20. № 2. С. 163–176 (год публикации - 2020)
10.17586/2226-1494-2020-20-2-163-176
19.
Рюмина Е.В., Карпов А.А.
Сравнительный анализ методов устранения дисбаланса классов эмоций в видеоданных выражений лиц
Научно-технический вестник информационных технологий, механики и оптики, 2020. Т. 20. № 5. С. 683–691 (год публикации - 2020)
10.17586/2226-1494-2020-20-5-683-691
20.
Маркитантов М., Дресвянский Д., Мамонтов Д., Кайа Х., Минкер В., Карпов А.А.
Ensembling End-to-End Deep Models for Computational Paralinguistics Tasks: ComParE 2020 Mask and Breathing Sub-Challenges
Proceedings of 21st International Conference INTERSPEECH 2020, pp. 2072-2076 (год публикации - 2020)
10.21437/Interspeech.2020-2666
21.
Соганчиоглу Г., Верхоляк О.В., Кайа Х., Федотов Д.В., Кадее Т., Салах А., Карпов А.А.
Is Everything Fine, Grandma? Acoustic and Linguistic Modeling for Robust Elderly Speech Emotion Recognition
Proceedings of 21st International Conference INTERSPEECH 2020, 2020, pp. 2097-2101. (год публикации - 2020)
10.21437/Interspeech.2020-3160
22. Величко А.Н., Карпов А.А. A Study of Data Scarcity Problem for Automatic Detection of Deceptive Speech Utterances CEUR Workshop Proceedings, CEUR-WS, 2020, vol-2552 (год публикации - 2020)
23.
Маркитантов М.В.
Transfer Learning in Speaker’s Age and Gender Recognition
Lecture Notes in Computer Science, LNAI vol. 12335, 2020, pp. 326-335 (год публикации - 2020)
10.1007/978-3-030-60276-5_32
24. Маркитантов М.В., Карпов А.А. Автоматическое распознавание пола и возраста человека с помощью нейронных сетей с временной задержкой на основе акустических признаков Труды Всероссийской акустической конференции ВАК-2020, 2020, С. 374-380 (год публикации - 2020)
25.
Двойникова А.А., Верхоляк О.В., Карпов А.А.
Emotion Recognition and Sentiment Analysis of Extemporaneous Speech Transcriptions in Russian
Lecture Notes in Computer Science, LNAI vol. 12335, 2020, pp. 136-144 (год публикации - 2020)
10.1007/978-3-030-60276-5_14
26. Рюмина Е.В., Карпов А.А. Facial Expression Recognition using Distance Importance Scores Between Facial Landmarks CEUR Workshop Proceedings (Proceedings of 30th International Conference Graphicon-2020), CEUR Workshop Proceedings, Vol. 2744, paper 32 (год публикации - 2020)
27.
Кайа Х., Верхоляк О.В., Маркитантов М.В., Карпов А.А.
Combining Clustering and Functionals based Acoustic Feature Representations for Classification of Baby Sounds
In Companion Publication of the 2020 International Conference on Multimodal Interaction (ICMI’20 Companion) - WoCBU'20 Workshop (год публикации - 2020)
10.1145/3395035.3425182
28. Боянич М., Делич В., Карпов А.А. Effect of Emotion Distribution on a Call Processing for an Emergency Call Center Proceedings of 28th Telecommunications Forum TELFOR 2020 (год публикации - 2020)
29. Верхоляк О.В., Карпов А.А. Глава “Автоматический анализ эмоционально окрашенной речи” Монография "Голосовой портрет ребенка с типичным и атипичным развитием" / Е. Е. Ляксо, О. В. Фролова, С. В. Гречаный, Ю. Н. Матвеев, О. В. Верхоляк, А. А. Карпов. СПб.: Издательско-полиграфическая ассоциация высших учебных заведений, 2020. 204 с., С. 149-198 (год публикации - 2020)
30.
Верхоляк О.В., Двойникова А.А., Карпов А.А.
A Bimodal Approach for Speech Emotion Recognition using Audio and Text
Journal of Internet Services and Information Security, Vol. 11, No. 1, pp. 80-96 (год публикации - 2021)
10.22667/JISIS.2021.02.28.080
Публикации
1.
Федотов Д., Кайа Х., Карпов А.А.
Context Modeling for Cross-Corpus Dimensional Acoustic Emotion Recognition: Challenges and Mixup
Lecture Notes in Computer Science, т. LNAI 11096, с. 155–165 (год публикации - 2018)
10.1007/978-3-319-99579-3_17
2.
Марковников Н.М., Кипяткова И.С., Ляксо Е.Е.
End-to-End Speech Recognition in Russian
Lecture Notes in Computer Science, т. LNAI 11096, с. 377–386 (год публикации - 2018)
10.1007/978-3-319-99579-3_40
3.
Кайа Х., Федотов Д., Йешилканат А., Верхоляк О.В., Жанг Й., Карпов А.А.
LSTM Based Cross-corpus and Cross-task Acoustic Emotion Recognition
Proceedings of the Annual Conference of the International Speech Communication Association INTERSPEECH, INTERSPEECH-2018, c. 521-525 (год публикации - 2018)
10.21437/Interspeech.2018-2298
4. Маркитантов М.В., Карпов А.А. Аналитический обзор подходов к автоматическому распознаванию возраста диктора по голосу Материалы конференции «Информационные технологии в управлении» (ИТУ-2018), Санкт-Петербург, ИТУ-2018, С. 539-542 (год публикации - 2018)
5. Величко А.Н., Карпов А.А., Будков В.Ю. Аналитический обзор речевых корпусов для систем определения ложных речевых сообщений Материалы конференции «Информационные технологии в управлении» (ИТУ-2018), Санкт-Петербург, ИТУ-2018, С. 534-538 (год публикации - 2018)
6. Верхоляк O.В., Кайя Х., Карпов А.А. Modeling short-term and long-term dependencies of the speech signal for paralinguistic emotion classification Труды СПИИРАН (SPIIRAS Proceedings) (год публикации - 2019)
7.
Верхоляк О.В., Кайя Х., Карпов А.А.
Моделирование кратко- и долговременных зависимостей речевого сигнала для паралингвистической классификации эмоций (Modeling Short-Term and Long-Term Dependencies of the Speech Signal for Paralinguistic Emotion Classification)
Труды СПИИРАН (SPIIRAS Proceedings), № 1, Т. 18, С. 30-56 (год публикации - 2019)
10.15622/sp.18.1.30-56
8.
Верхоляк О.В., Федотов Д.В., Кайа Х., Жанг Й., Карпов А.А.
Hierarchical Two-Level Modelling of Emotional States in Spoken Dialog Systems
Proceedings of 44th IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP-2019, pp. 6700-6704. (год публикации - 2019)
10.1109/ICASSP.2019.8683240
9.
Маркитантов М.В., Верхоляк О.В.
Automatic Recognition of Speaker Age and Gender Based on Deep Neural Networks
Lecture Notes in Computer Science (Lecture Notes in Artificial Intelligence), LNAI, vol. 11658, pp. 327-336. (год публикации - 2019)
10.1007/978-3-030-26061-3_34
10. Ахтямов О.В., Зигерт И., Карпов А.А., Минкер В. Cross-Corpus Data Augmentation for Acoustic Addressee Detection Proceedings of the 20th International Conference SIGDial-2019, pp. 274-283, W19-5933 (год публикации - 2019)
11.
Кайя Х., Федотов Д., Дресвянский Д., Дойран М., Мамонтов Д., Маркитантов М., Салах А., Кавчар Е., Карпов А.А., Салах А.А.
Predicting Depression and Emotions in the Cross-roads of Cultures, Para-linguistics, and Non-linguistics
Proceedings of 9th International Audio/Visual Emotion Challenge and Workshop AVEC 2019, co-located with ACM Multimedia 2019, 2019, pp. 27-35. (год публикации - 2019)
10.1145/3347320.3357691
12.
Величко А.Н., Будков В.Ю., Кагиров И.А., Карпов А.А.
Applying Ensemble Learning Techniques and Neural Networks to Deceptive and Truthful Information Detection Task in the Flow of Speech
Studies in Computational Intelligence, IDC 2019, SCI vol. 868, pp. 477-482, 2020 (год публикации - 2020)
10.1007/978-3-030-32258-8_56
13.
Маркитантов М.В., Карпов А.А.
Автоматическое распознавание возраста и пола диктора на основе глубоких нейронных сетей
Информационно-измерительные и управляющие системы, Том 17, № 5, 2019, С. 76-83. (год публикации - 2019)
10.18127/j20700814-201905-10
14. Маркитантов М.В. Аналитический обзор систем автоматического распознавания возраста диктора по голосу Сборник трудов VIII Конгресса молодых ученых, Университет ИТМО, 2019, Том 3, С. 246-251. (год публикации - 2019)
15.
Боянич М., Делич В., Карпов А.А.
Call Redistribution for a Call Center Based on Speech Emotion Recognition
Applied Sciences, 2020, vol. 10, 4653. (год публикации - 2020)
10.3390/app10134653
16.
Ахтямов О.В., Зигерт И., Карпов А.А., Минкер В.
Using Complexity-Identical Human- and Machine-Directed Utterances to Investigate Addressee Detection for Spoken Dialogue Systems
Sensors, 2020, vol. 20, 2740 (год публикации - 2020)
10.3390/s20092740
17.
Двойникова А.А., Карпов А.А.
Аналитический обзор подходов к распознаванию тональности русскоязычных текстовых данных
Информационно-управляющие системы, 2020, № 4, C. 20-30 (год публикации - 2020)
10.31799/1684-8853-2020-4-20-30
18.
Рюмина Е.В., Карпов А.А.
Аналитический обзор методов распознавания эмоций по выражениям лица человека
Научно-технический вестник информационных технологий, механики и оптики, 2020. Т. 20. № 2. С. 163–176 (год публикации - 2020)
10.17586/2226-1494-2020-20-2-163-176
19.
Рюмина Е.В., Карпов А.А.
Сравнительный анализ методов устранения дисбаланса классов эмоций в видеоданных выражений лиц
Научно-технический вестник информационных технологий, механики и оптики, 2020. Т. 20. № 5. С. 683–691 (год публикации - 2020)
10.17586/2226-1494-2020-20-5-683-691
20.
Маркитантов М., Дресвянский Д., Мамонтов Д., Кайа Х., Минкер В., Карпов А.А.
Ensembling End-to-End Deep Models for Computational Paralinguistics Tasks: ComParE 2020 Mask and Breathing Sub-Challenges
Proceedings of 21st International Conference INTERSPEECH 2020, pp. 2072-2076 (год публикации - 2020)
10.21437/Interspeech.2020-2666
21.
Соганчиоглу Г., Верхоляк О.В., Кайа Х., Федотов Д.В., Кадее Т., Салах А., Карпов А.А.
Is Everything Fine, Grandma? Acoustic and Linguistic Modeling for Robust Elderly Speech Emotion Recognition
Proceedings of 21st International Conference INTERSPEECH 2020, 2020, pp. 2097-2101. (год публикации - 2020)
10.21437/Interspeech.2020-3160
22. Величко А.Н., Карпов А.А. A Study of Data Scarcity Problem for Automatic Detection of Deceptive Speech Utterances CEUR Workshop Proceedings, CEUR-WS, 2020, vol-2552 (год публикации - 2020)
23.
Маркитантов М.В.
Transfer Learning in Speaker’s Age and Gender Recognition
Lecture Notes in Computer Science, LNAI vol. 12335, 2020, pp. 326-335 (год публикации - 2020)
10.1007/978-3-030-60276-5_32
24. Маркитантов М.В., Карпов А.А. Автоматическое распознавание пола и возраста человека с помощью нейронных сетей с временной задержкой на основе акустических признаков Труды Всероссийской акустической конференции ВАК-2020, 2020, С. 374-380 (год публикации - 2020)
25.
Двойникова А.А., Верхоляк О.В., Карпов А.А.
Emotion Recognition and Sentiment Analysis of Extemporaneous Speech Transcriptions in Russian
Lecture Notes in Computer Science, LNAI vol. 12335, 2020, pp. 136-144 (год публикации - 2020)
10.1007/978-3-030-60276-5_14
26. Рюмина Е.В., Карпов А.А. Facial Expression Recognition using Distance Importance Scores Between Facial Landmarks CEUR Workshop Proceedings (Proceedings of 30th International Conference Graphicon-2020), CEUR Workshop Proceedings, Vol. 2744, paper 32 (год публикации - 2020)
27.
Кайа Х., Верхоляк О.В., Маркитантов М.В., Карпов А.А.
Combining Clustering and Functionals based Acoustic Feature Representations for Classification of Baby Sounds
In Companion Publication of the 2020 International Conference on Multimodal Interaction (ICMI’20 Companion) - WoCBU'20 Workshop (год публикации - 2020)
10.1145/3395035.3425182
28. Боянич М., Делич В., Карпов А.А. Effect of Emotion Distribution on a Call Processing for an Emergency Call Center Proceedings of 28th Telecommunications Forum TELFOR 2020 (год публикации - 2020)
29. Верхоляк О.В., Карпов А.А. Глава “Автоматический анализ эмоционально окрашенной речи” Монография "Голосовой портрет ребенка с типичным и атипичным развитием" / Е. Е. Ляксо, О. В. Фролова, С. В. Гречаный, Ю. Н. Матвеев, О. В. Верхоляк, А. А. Карпов. СПб.: Издательско-полиграфическая ассоциация высших учебных заведений, 2020. 204 с., С. 149-198 (год публикации - 2020)
30.
Верхоляк О.В., Двойникова А.А., Карпов А.А.
A Bimodal Approach for Speech Emotion Recognition using Audio and Text
Journal of Internet Services and Information Security, Vol. 11, No. 1, pp. 80-96 (год публикации - 2021)
10.22667/JISIS.2021.02.28.080