Разработка новых методов улучшения качества речевых сигналов с использованием глубоких нейронных сетей

КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер проекта 22-21-00199

НазваниеРазработка новых методов улучшения качества речевых сигналов с использованием глубоких нейронных сетей

Руководитель Лепендин Андрей Александрович, Кандидат физико-математических наук

Организация финансирования, регион федеральное государственное бюджетное образовательное учреждение высшего образования "Алтайский государственный университет" , Алтайский край

Конкурс №64 - Конкурс 2021 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами»

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-202 - Интеллектуальный анализ данных и распознавание образов

Ключевые слова обработка речи, улучшение речи, очистка речи от шума, разборчивость речи, глубокое обучение, машинное обучение

Код ГРНТИ50.10.41

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Данная проект направлен на решение актуальной научной и практической проблемы разработки новых подходов к улучшению качества одноканальных речевых аудиозаписей и повышению воспринимаемой человеком разборчивости речи дикторов на основе методов глубокого обучения В настоящее время развитие новых методов и алгоритмов улучшения качества и разборчивости человеческой речи является одним из наиболее практически значимых направлений работы в области обработки акустических сигналов. Люди повсеместно осуществляют управление устройствами с помощью голосовых команд, общаются друг с другом голосовыми сообщениями в социальных сетях и мессенджерах, верифицируют личность голосом при доступе в защищенные области информационных систем. Внешние акустические условия и характеристики используемых устройств для записи голоса варьируются в очень широких пределах. Голос искажается за счет наложения нестационарных фоновых шумов различного происхождения и эффектов реверберации в замкнутых пространствах. Ухудшается естественность и разборчивость речи, появляются искажения. Это влияет как на качество общения между людьми, так и на качество предоставляемых услуг. Системы верификации, распознавания и управления также недостаточно устойчивы к влиянию сильных шумов и иных искажений. Поэтому задача улучшения качества речи, ее очистки от шума и дереверберации, является крайне актуальной. В данном проекте решение проблемы улучшения качества речевых аудиосигналов рассматривается как комплексная задача. Планируется разработка новых подходов к шумоочистке и дереверберации речи. Они будут основаны на методах глубокого обучения и цифровой обработки сигналов. Будут созданы новые специализированные архитектуры глубоких нейронных сетей, предназначенные для выявления аддитивного шумового вклада и мультипликативных искажений в акустическом сигнале. Обучение их будет происходить на наборах синтетических образцов с различной мощностью и спектральным составом шумовых добавок в варьирующихся типах открытых и закрытых виртуальных пространств. Это позволит создать и обучить более устойчивый к вариации внешних условий метод улучшения качества речи. Будет проведена разработка нового метода выделения нескольких одновременно звучащих голосов дикторов в условиях шумного помещения, вносящего дополнительные искажения в смесь их голосов. Важной частью проекта, имеющей и научную, и практическую значимость, станет изучение возможностей по оптимизации размеров и сложности разрабатываемых нейронных сетей для интеграции в реальные устройства и программное обеспечение. Будут проведена оценка эффективности интеграции независимо обученного модуля улучшения качества в системы голосовой верификации, распознавания речи. Планируется разработка нового подхода к созданию относительно малых по числу параметров нейронных сетей для улучшения качества, которые смогут работать в режиме реального времени.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Публикации

1. Насретдинов Р.С., Ильяшенко И.Д., Филин Я.А., Лепендин А.А. Очистка зашумленного речевого сигнала с помощью глубокой нейронной сети с самовниманием Высокопроизводительные вычислительные системы и технологии, Т. 6, № 1, С. 44-51 (год публикации - 2022)

2. Лепендин А.А., Насретдинов Р.С. Разработка метода шумоочистки речевых сигналов для улучшения качества биометрической голосовой верификации Проблемы правовой и технической защиты информации, Выпуск X. C. 19-25. (год публикации - 2022)

3. Лепендин А.А., Филин Я.А. Использование глубоких нейронных сетей с графовым вниманием для эффективного выявления спуфинга речи AIP Conference proceedings, Vol 2948, pp. 020039-1–020039-9 (год публикации - 2023)
10.1063/5.0165516

4. Насретдинов Р.С., Ильяшенко И.Д., Филин Я.А., Лепендин А.А. Hierarchical Encoder-Decoder Neural Network with Self-Attention for Single-Channel Speech Denoising Communications in Computer and Information Science, vol 1733, pp. 3–14 (год публикации - 2023)
10.1007/978-3-031-23744-7_1

5. Лепендин А.А.,Насретдинов Р.С., Ильяшенко И.Д. Метод улучшения качества речи с использованием модифицированного кодирующего-декодирующего пирамидального трансформера Труды Института системного программирования РАН (Труды ИСП РАН), Т. 34, № 4, С. 135-152 (год публикации - 2022)
10.15514/ISPRAS-2022-34(4)-10

6. Карев В.В., Лепендин А.А. Метод извлечения векторов идентичности дикторов с использованием tdnn-сети с триплетной функцией потерь Труды молодых ученых Алтайского государственного университета, Труды молодых ученых Алтайского государственного университета. Вып. 19. — Барнаул : Изд-во Алт. ун-та, 2022. С. 219-222. (год публикации - 2022)

Публикации

1. Лепендин А.А.,Карев В.В.,Насретдинов Р.С.,Ильяшенко И.Д. Speech Enhancement based on Two-Stage Neural Network with Structured State Space for Sequence Transformation Communications in Computer and Information Science (год публикации - 2024)

2. Лепендин А.А.,Ладыгин П.С., Карев В.В., Мансуров А.В. Fourier Chromagrams for Fingerprinting, Verification and Authentication of Digital Audio Recordings Communications in Computer and Information Science (год публикации - 2024)

3. Ладыгин П.С., Лепендин А.А., Мансуров А.В. Определение подлинности музыкальных аудиозаписей с помощью цифровых отпечатков на основе STFT- и CQT-хроматограмм Высокопроизводительные вычислительные системы и технологии, Т. 7, № 1, С. 46-52 (год публикации - 2023)

4. Насретдинов Р.С., Лепендин А.А., Ильяшенко И.Д. Speech enhancement augmentation for robust speech recognition in noisy environments ITM Web of Conferences (год публикации - 2024)

5. Ладыгин П.С., Лепендин А.А. Методика снижения влияния малоинформативных участков аудиофайлов на получаемый цифровой отпечаток Проблемы правовой и технической защиты информации (год публикации - 2023)

6. Белослюдов А.С., Лепендин А.А., Филин Я.А. Обнаружение физических атак повторного воспроизведения речи с помощью легкой сверточной сети с графовым вниманием Проблемы правовой и технической защиты информации (год публикации - 2023)