Автоматическое многоязычное распознавание речи с переключением кодов (на примере русского и карельского языков)

КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер проекта 24-21-00276

НазваниеАвтоматическое многоязычное распознавание речи с переключением кодов (на примере русского и карельского языков)

Руководитель Кипяткова Ирина Сергеевна, Кандидат технических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки "Санкт-Петербургский Федеральный исследовательский центр Российской академии наук" , г Санкт-Петербург

Конкурс №89 - Конкурс 2023 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами»

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-726 - Системы и технологии интеллектуального анализа данных и распознавания образов

Ключевые слова автоматическое распознавание речи, акустическое моделирование, языковое моделирование, малоресурсные языки, карельский язык, переключение кодов, многоязычное распознавание

Код ГРНТИ20.53.19

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Целью данного проекта является разработка прототипа системы автоматического многоязычного распознавания речи с поддержкой переключения кодов (на примере карельского и русского языков). В мире существует множество сообществ, в которых в повседневной коммуникации используются два или более языка (полиязычие). Одним из ярких примеров полиязычия является Индия (свыше 400 живых языков, и абсолютное большинство граждан Индии владеет как минимум двумя языками). В России существует свыше 150 языков, что привело к возникновению развитого полиязычия в ряде регионов (Республика Татарстан, Республика Тыва, Республика Дагестан и др.). Одним из характерных для полиязычных сообществ феноменом является переключение кодов (или мена кода; англ. code switching). Переключение кодов – это спонтанный переход говорящего с одного языка или диалекта на другой. Переключение кодов может происходить как между высказываниями, так и внутри предложения. Разработка системы автоматического распознавания речи с поддержкой переключения кодов является существенно более сложной задачей, чем создание простой многоязычной системы. Основной трудностью оказывается недостаток обучающих данных. Особенно это актуально для текстовых данных, поскольку письменные тексты зачастую подвергаются стилистической обработке, исключающей переключение кодов. Решение этой проблемы подразумевает большую работу по сбору и аннотации специфического языкового материала, а также разработку методов аугментации обучающих данных. Само по себе акустическое и языковое моделирование речи с переключением кодов является нетривиальной задачей, и в целом системы автоматического распознавания такого типа демонстрируют худшие результаты, чем системы распознавания, не поддерживающие переключение кодов. Разработка системы распознавания речи для языковой пары «карельский-русский» дополнительно осложняется тем, что карельский язык принадлежит к малоресурсным языкам – языкам с незначительным информационным обеспечением (отсутствие или незначительное количество интернет-ресурсов, оцифрованных баз данных, программного обеспечения для обработки языка). Создание заявленной системы актуально по двум причинам: во-первых, примененные подходы и решения будут иметь значимость для разработок систем распознавания речи с переключением кодов и для других языков; во-вторых, появление подобной системы способствует исследованиям карельского языка, что особенно важно в связи с тем, что карельский язык находится под угрозой исчезновения. На первом этапе проекта планируется выполнить аналитический обзор по тематике исследования. Также планируется запись речевых данных с переключением кодов и их аннотация. Другой задачей этого этапа является составление общего для русского и карельского языков фонемного алфавита и разработка программных средств для формирования словаря фонематических транскрипций. На втором этапе будет создан текстовый корпус карельско-русской речи, включающий в себя тексты, полученные путем аугментации; будет проведено обучение акустических и языковых моделей, выполнено их внедрение в прототип системы распознавания карельско-русской речи с последующим количественным оцениванием разработанного прототипа. По результатам проекта будет подготовлен цикл публикаций (не менее 4), включая статьи в журналах и изданиях, индексируемых в Scopus/ Web of Science Core Collection и RSCI (например, «Applied Sciences» (Scopus), «Информатика и автоматизация» (RSCI, Scopus), «Информационно-управляющие системы» (Scopus), Lecture Notes in Computer Science (Scopus)), также запланирована экспедиция в Республику Карелия для записи речевых данных. Практическая ценность исследований состоит в том, что создание заявленной системы способствует исследованиям малоресурсного карельского языка, и результаты проекта могут найти применение в работе полевых лингвистов, занимающихся языковыми контактами и современным карельским языком.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Аннотация результатов, полученных в 2024 году
На первом этапе проекта в 2024 г. коллективом исполнителей были выполнены работы, включающие в себя проведение аналитического обзора по тематике исследования, запись, расшифровку и сегментацию на отдельные фразы речевых данных на карельском языке, содержащих переключение кода карельский-русский, формирование фонемного алфавита, объединяющего фонемы карельского и русского языков, и разработку фонематического словаря для карельско-русской системы распознавания речи. Аналитический обзор включает в себя более 50 источников. В обзоре рассматриваются основные методы и подходы к построению систем распознавания речи с переключением кода. Также рассматриваются основные методы, применяемые для обучения системы при недостаточном объеме обучающих данных. Делается вывод, что одним из наиболее эффективных методов обучения подобных систем является использование предварительно обученных многоязычных моделей с последующим их дообучением на данных целевых языков. Кроме того, могут применяться различные методы аугментации речевых и текстовых данных, в том числе синтез речи, частичный автоматический перевод текста, модификация текста. Выполнена запись спонтанной речи на ливвиковском наречии карельского языка. В записи приняли участие 37 носителей карельского языка (16 мужчин и 21 женщина). Объем речевого корпуса после удаления неподходящих для использования фрагментов составил 3 часа. Встраиваемый русский код в записях составляет 27%. Записи хранятся в wav-файлах с частотой дискретизации 16 кГц, 16 бит на отсчет, моно. Была выполнена расшифровка аудиозаписей и сегментация на отдельные фразы. На основе собранного речевого материала и его расшифровок был сформирован речевой корпус, названный «Речевая база данных с переключением кодов карельский-русский (KarRusCoS – Speech Database with Karelian-Russian Code-Switching)». KarRusCoS содержит аудиозаписи карельской речи, а также аннотацию, включающую идентификационный номер диктора, пол диктора, расшифровки высказываний, длительность каждой фразы, количество слов на карельском, количество слов на русском, количество слов с внутрисловной меной кода и общее количество слов во фразе. Получено свидетельство о регистрации базы данных в ФИПС. Сформирован фонемный алфавит путем слияния фонемных наборов для карельского и русского языков. Общее число фонем - 68. Создан фонематический словарь, объединяющий словоформы для карельского и русского языков, кроме того, для учета внутрисловного переключения кода в словарь были добавлены русские основы слов и карельские окончания. Для всех слов, вошедших в словарь, были автоматически созданы фонематические транскрипции. Результаты проведенных в 2024 году исследований были представлены на Международной конференции «Speech and Computer (SPECOM 2024)» (Белград, Сербия), V Международной научной конференции по инженерной и прикладной лингвистике “Пиотровские чтения 2024” (г. Санкт-Петербург), XX научной конференции “Бубриховские чтения: традиции и новации в исследовании финно-угорских языков и культур” (г. Петрозаводск) и опубликованы в издании Lecture Notes in Computer Science. Все выполненные работы и полученные научные результаты полностью соответствуют цели и задачам проекта. Для освещения основных результатов проекта создана веб-страница на интернет-сайте Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН: https://hci.nw.ru/ru/projects/26.

Публикации

1. Кипяткова И.С., Кагиров И.А., Долгушин М.Д, Родионова А.П. Towards a Livvi-Karelian End-to-End ASR System Lecture Notes in Computer Science, LNCS, vol 15299, pp. 57–68 (год публикации - 2024)
10.1007/978-3-031-77961-9_4

2. Кагиров И.А., Киселева К.О., Кипяткова И.С. Анализ переключения кодов в речи носителей карельского языка Terra Linguistica, 2025. Т. 16. № 2. С. 22–40 (год публикации - 2025)
10.18721/JHSS.16202

3. Кипяткова И.С., Киселева К.О., Долгушин М.Д., Кагиров И.А. Modeling Intra-Word Code-Switching for Karelian ASR Lecture Notes in Computer Science, SPECOM 2025, LNAI 16188, pp. 104–117, 2026 (год публикации - 2025)
10.1007/978-3-032-07959-6_8

4. Кипяткова И.С., Кагиров И.А., Долгушин М.Д. Применение предварительно обученных многоязычных моделей для распознавания карельской речи Информатика и автоматизация, Информатика и автоматизация. 2025. Т. 24. № 2. С. 604-630 (год публикации - 2025)
10.15622/ia.24.2.9

Аннотация результатов, полученных в 2025 году
На втором этапе проекта в 2025 г. коллективом исполнителей были выполнены работы, включающие в себя подготовку текстового корпуса, содержащего переключение кодов карельский-русский, обучение акустических и языковых моделей для карельского языка, учитывающих возможное переключение кода на русский, внедрение разработанных моделей в прототип системы автоматического распознавания карельской речи с переключением на русский язык, а также тестирование и количественное оценивание разработанного прототипа на тестовой речевой базе данных. Для акустического моделирования использовались скрытые марковские модели (СММ), гибридные СММ/ИНС модели, объединяющие СММ и искусственные нейронные сети, и предварительно обученные интегральные многоязычные модели на базе Wav2Vec 2.0. Обучение осуществлялось на речевом корпусе, собранном в ходе первого этапа проекта (БД KarRusCoS), содержащем переключения между карельским и русским языком, а также моноязычном корпусе карельской речи БД AnKaS, собранном в ходе предыдущего проекта. Для обучения модели языка был подготовлен текстовый корпус на карельском языке, содержащий переключение кодов карельский-русский. Текстовый корпус включал в себя расшифровки обучающий части речевого корпуса и тексты на карельском языке, аугментированные путем частичного перевода на русский язык, а также текст, полученный путем аугментации по методике EDA. Были созданы модели языка трех типов: статистические на основе триграмм слов, на основе предобученных многоязычных нейросетевых моделей с архитектурами BERT и T5, а также модели, полученные путем линейной интерполяция карельской и русской ЯМ. Неройсетевые модели применялись на этапе постобработки для переоценки списка лучших гипотез распознавания (англ. N-best list) и выбора наилучшей гипотезы распознавания. Созданные модели оценивались по показателю коэффициент неопределенности (perplexity; PPL) и числу внесловарных слов (out-of-vocabulary; OOV), вычисленному на расшифровках отладочной и тестовой части речевого корпуса. Разработанные акустические и языковые модели были внедрены в прототип системы автоматического распознавания карельской речи с переключением кода. Веб-приложение прототипа доступно по ссылке: https://huggingface.co/spaces/Mihaj/SMIL-Livvi-Krl-ASR. Проведены экспериментальные исследования созданного прототипа и количественное оценивание результатов его работы по показателю количество неправильно распознанных слов (word error rate; WER) на отладочной и тестовой частях корпуса карельской речи с переключением кодов. Наилучшие результаты были достигнуты при использовании акустической модели на базе Wav2Vec2.0-BERT и триграммной модели языка (полученной путем линейной интерполяции карельской модели, обученной на расшифровках обучающей части речевого корпуса, текстовых данных, аугментированных путем автоматического перевода случайно выбранных слов, выполненного за 5 итераций, а также текстовых данных, аугментированных по методике EDA), и русской модели с коэффициентом интерполяции 0,7. При этом на отладочном корпусе значение WER составило 25,82%, на тестовом - 29,00%). Полученные результаты находятся на уровне мировых результатов для других малоресурсных языков с переключением кода. В ходе текущего этапа проекта опубликовано три статьи, в том числе статья в журнале «Terra Linguistica», входящем в квартиль Q1 по Scopus, в журнале «Информатика и автоматизация» (Scopus), издании «Lecture Notes in Computer Science» (Scopus). Сделаны доклады на 27й международной конференции «Speech and Computer (SPECOM 2025)» (г. Сегед, Венгрия, 13-14 октября 2025 г.) и одиннадцатом междисциплинарном семинаре «Анализ разговорной русской речи» (АР3-2025) (Санкт-Петербург, 30 июня – 1 июля). Все выполненные работы и полученные научные результаты полностью соответствуют цели и задачам проекта. Для освещения основных результатов проекта создана веб-страница на интернет-сайте Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН: https://hci.nw.ru/ru/projects/26.

Публикации

Возможность практического использования результатов
Разработанная система может использоваться для автоматического стенографирования речи на русском и карельском языках. Возможность автоматического преобразования устных нарративов на карельском языке в текстовую форму, несомненно, будет способствовать сохранению карельского языка и упростит создание лингвистических корпусов для дальнейшего исследования этого языка. Результаты настоящего исследования могут быть использованы для разработки интеллектуальных ассистивных систем, систем машинного перевода, анализа медиаконтента, а также в сфере образования, в частности, на уроках карельского языка.