КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер проекта 24-21-00276
НазваниеАвтоматическое многоязычное распознавание речи с переключением кодов (на примере русского и карельского языков)
Руководитель Кипяткова Ирина Сергеевна, Кандидат технических наук
Организация финансирования, регион Федеральное государственное бюджетное учреждение науки "Санкт-Петербургский Федеральный исследовательский центр Российской академии наук" , г Санкт-Петербург
Конкурс №89 - Конкурс 2023 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами»
Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-726 - Системы и технологии интеллектуального анализа данных и распознавания образов
Ключевые слова автоматическое распознавание речи, акустическое моделирование, языковое моделирование, малоресурсные языки, карельский язык, переключение кодов, многоязычное распознавание
Код ГРНТИ20.53.19
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Целью данного проекта является разработка прототипа системы автоматического многоязычного распознавания речи с поддержкой переключения кодов (на примере карельского и русского языков).
В мире существует множество сообществ, в которых в повседневной коммуникации используются два или более языка (полиязычие). Одним из ярких примеров полиязычия является Индия (свыше 400 живых языков, и абсолютное большинство граждан Индии владеет как минимум двумя языками). В России существует свыше 150 языков, что привело к возникновению развитого полиязычия в ряде регионов (Республика Татарстан, Республика Тыва, Республика Дагестан и др.).
Одним из характерных для полиязычных сообществ феноменом является переключение кодов (или мена кода; англ. code switching). Переключение кодов – это спонтанный переход говорящего с одного языка или диалекта на другой. Переключение кодов может происходить как между высказываниями, так и внутри предложения.
Разработка системы автоматического распознавания речи с поддержкой переключения кодов является существенно более сложной задачей, чем создание простой многоязычной системы. Основной трудностью оказывается недостаток обучающих данных. Особенно это актуально для текстовых данных, поскольку письменные тексты зачастую подвергаются стилистической обработке, исключающей переключение кодов. Решение этой проблемы подразумевает большую работу по сбору и аннотации специфического языкового материала, а также разработку методов аугментации обучающих данных. Само по себе акустическое и языковое моделирование речи с переключением кодов является нетривиальной задачей, и в целом системы автоматического распознавания такого типа демонстрируют худшие результаты, чем системы распознавания, не поддерживающие переключение кодов. Разработка системы распознавания речи для языковой пары «карельский-русский» дополнительно осложняется тем, что карельский язык принадлежит к малоресурсным языкам – языкам с незначительным информационным обеспечением (отсутствие или незначительное количество интернет-ресурсов, оцифрованных баз данных, программного обеспечения для обработки языка).
Создание заявленной системы актуально по двум причинам: во-первых, примененные подходы и решения будут иметь значимость для разработок систем распознавания речи с переключением кодов и для других языков; во-вторых, появление подобной системы способствует исследованиям карельского языка, что особенно важно в связи с тем, что карельский язык находится под угрозой исчезновения.
На первом этапе проекта планируется выполнить аналитический обзор по тематике исследования. Также планируется запись речевых данных с переключением кодов и их аннотация. Другой задачей этого этапа является составление общего для русского и карельского языков фонемного алфавита и разработка программных средств для формирования словаря фонематических транскрипций. На втором этапе будет создан текстовый корпус карельско-русской речи, включающий в себя тексты, полученные путем аугментации; будет проведено обучение акустических и языковых моделей, выполнено их внедрение в прототип системы распознавания карельско-русской речи с последующим количественным оцениванием разработанного прототипа. По результатам проекта будет подготовлен цикл публикаций (не менее 4), включая статьи в журналах и изданиях, индексируемых в Scopus/ Web of Science Core Collection и RSCI (например, «Applied Sciences» (Scopus), «Информатика и автоматизация» (RSCI, Scopus), «Информационно-управляющие системы» (Scopus), Lecture Notes in Computer Science (Scopus)), также запланирована экспедиция в Республику Карелия для записи речевых данных.
Практическая ценность исследований состоит в том, что создание заявленной системы способствует исследованиям малоресурсного карельского языка, и результаты проекта могут найти применение в работе полевых лингвистов, занимающихся языковыми контактами и современным карельским языком.
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Аннотация результатов, полученных в 2024 году
На первом этапе проекта в 2024 г. коллективом исполнителей были выполнены работы, включающие в себя проведение аналитического обзора по тематике исследования, запись, расшифровку и сегментацию на отдельные фразы речевых данных на карельском языке, содержащих переключение кода карельский-русский, формирование фонемного алфавита, объединяющего фонемы карельского и русского языков, и разработку фонематического словаря для карельско-русской системы распознавания речи.
Аналитический обзор включает в себя более 50 источников. В обзоре рассматриваются основные методы и подходы к построению систем распознавания речи с переключением кода. Также рассматриваются основные методы, применяемые для обучения системы при недостаточном объеме обучающих данных. Делается вывод, что одним из наиболее эффективных методов обучения подобных систем является использование предварительно обученных многоязычных моделей с последующим их дообучением на данных целевых языков. Кроме того, могут применяться различные методы аугментации речевых и текстовых данных, в том числе синтез речи, частичный автоматический перевод текста, модификация текста.
Выполнена запись спонтанной речи на ливвиковском наречии карельского языка. В записи приняли участие 37 носителей карельского языка (16 мужчин и 21 женщина). Объем речевого корпуса после удаления неподходящих для использования фрагментов составил 3 часа. Встраиваемый русский код в записях составляет 27%. Записи хранятся в wav-файлах с частотой дискретизации 16 кГц, 16 бит на отсчет, моно.
Была выполнена расшифровка аудиозаписей и сегментация на отдельные фразы. На основе собранного речевого материала и его расшифровок был сформирован речевой корпус, названный «Речевая база данных с переключением кодов карельский-русский (KarRusCoS – Speech Database with Karelian-Russian Code-Switching)». KarRusCoS содержит аудиозаписи карельской речи, а также аннотацию, включающую идентификационный номер диктора, пол диктора, расшифровки высказываний, длительность каждой фразы, количество слов на карельском, количество слов на русском, количество слов с внутрисловной меной кода и общее количество слов во фразе. Получено свидетельство о регистрации базы данных в ФИПС.
Сформирован фонемный алфавит путем слияния фонемных наборов для карельского и русского языков. Общее число фонем - 68.
Создан фонематический словарь, объединяющий словоформы для карельского и русского языков, кроме того, для учета внутрисловного переключения кода в словарь были добавлены русские основы слов и карельские окончания. Для всех слов, вошедших в словарь, были автоматически созданы фонематические транскрипции.
Результаты проведенных в 2024 году исследований были представлены на Международной конференции «Speech and Computer (SPECOM 2024)» (Белград, Сербия), V Международной научной конференции по инженерной и прикладной лингвистике “Пиотровские чтения 2024” (г. Санкт-Петербург), XX научной конференции “Бубриховские чтения: традиции и новации в исследовании финно-угорских языков и культур” (г. Петрозаводск) и опубликованы в издании Lecture Notes in Computer Science.
Все выполненные работы и полученные научные результаты полностью соответствуют цели и задачам проекта. Для освещения основных результатов проекта создана веб-страница на интернет-сайте Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН: https://hci.nw.ru/ru/projects/26.
Публикации
1.
Кипяткова И.С., Кагиров И.А., Долгушин М.Д, Родионова А.П.
Towards a Livvi-Karelian End-to-End ASR System
Lecture Notes in Computer Science, LNCS, vol 15299, pp. 57–68 (год публикации - 2024)
10.1007/978-3-031-77961-9_4