Возможности искусственного интеллекта для сравнительно-исторического изучения малоресурсных языков народов РФ

КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер проекта 25-78-20002

НазваниеВозможности искусственного интеллекта для сравнительно-исторического изучения малоресурсных языков народов РФ

Руководитель Норманская Юлия Викторовна, Доктор филологических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки Институт системного программирования им. В.П. Иванникова Российской академии наук , г Москва

Конкурс №108 - Конкурс 2025 года на получение грантов РНФ по мероприятию «Проведение исследований на базе существующей научной инфраструктуры мирового уровня» Президентской программы исследовательских проектов

Область знания, основной код классификатора 08 - Гуманитарные и социальные науки; 08-453 - Языкознание

Ключевые слова Искусственный интеллект, языки народов РФ, сравнительно-историческое языкознание, классификация диалектов, фонетика, морфология, глоттохронология

Код ГРНТИ16.41.25

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Сегодня технологии ИИ (искусственного интеллекта) решают важные общественные проблемы и превращаются в огромную индустрию. Президент анонсировал новый этап развития искусственного интеллекта. Его задача в горизонте текущего десятилетия — «обеспечить массовое внедрение технологии ИИ». В Институте системного программирования РАН им. В.П.Иванникова в этой области уже получены реальные результаты: создана нейросеть, которая по данным электрокардиограмм выявляет фибрилляцию предсердий. В настоящее время эта технология уже активно используется на практике. В лингвистике тоже накоплен богатый материал для применения технологий ИИ. Но в рамках сравнительно-исторического языкознания в России нейросети ранее не были использованы. В других странах уже есть подобный опыт: начиная с 2007 года такого рода разработки появляются для разных групп индоевропейских языков в Англии, Германии, Франции, Италии, Болгарии, Австралии и Индии. Начиная с 2016 года нейросети, ищущие когнаты, появляются для неиндоевропейских языков: китайского, арабского, австронезийских. Точность нейросетей, ищущих когнаты, например, для романских языков достигает 95%, см. [L.Dinu and Co. 2023]. Но большинство нейросетей, которые работают не только для близкородственных языков, обучены на материале баз данных, собранных либо добровольцами в Интернете, либо путем автоматического подбора, например, по расстоянию Левенштейна, см. [Rama 2016], поэтому зачастую низкое качество результата подбора связано с исходным материалом. В настоящее время на платформе ЛингвоДок (lingvodoc.ispras.ru) в рамках работы по грантам РНФ 20-18-00403 (рук. Ю.В. Норманская), РНФ 15-18-00044 (рук. В.М. Алпатов), РНФ 18-18-00501 (рук. А.В. Дыбо) собраны словари по более чем 2 тысячам диалектам языков народов РФ. Эти словари были соединены вручную этимологическими связями частично с помощью программ ЛингвоДока, основанных на учете фонетических и семантических регулярных соответствий. В настоящее время на ЛингвоДоке более 1,5 миллионов слов связаны этимологическими связями. Это достаточный материал для обучения нейросети, которая далее будет искать родственные слова. Соответственно, первая задача, которую планируется решить в рамках проекта, – это создание нейросети, основанной на сиамской модели, где две входные последовательности проходят через идентичные слои с общими весами, для поиска новых этимологий. Код нейросети, веса́ и весь материал этимологий, на котором она была создана, будет размещен в открытом доступе онлайн. Вторая задача — это загрузка новых материалов на ЛингвоДок: это и изданные современные большие словари, новые экспедиционные словари, архивные словари и конкордансы. На третьем этапе работы планируется обработать полученные лексические и морфологические словари с помощью следующих специальных программ ЛингвоДока: «Анализ когнатов в разных языках и диалектах», «Глоттохронологический анализ языков и диалектов», «Степень морфологической близости между языками и диалектами», «Суммарная степень различий между языками и диалектами». Таким образом, в результате работы над проектом мы планируем получить доступные онлайн: не менее 220 больших словарей диалектов и языков народов РФ, связанных между собой этимологиями; первые глоссированные тексты на этих языках и диалектах; созданные из них конкордансы и морфологические словари, связанные этимологиями с современными словарями; уточненную классификацию диалектов и языков по трем параметрам: фонетическим соответствиям, родственным словоизменительным аффиксам и глоттохронологии; а также суммарную матрицу и 3D-график новой классификации. Результаты будут отражены в 40 статьях, индексируемых в ВоС, Скопус, RSCI и зарубежных БД, и двух итоговых монографиях. В Москве будут организованы 3 международные конференции.

Ожидаемые результаты
1) Нейросеть, основанная на на сиамской модели, где две входные последовательности проходят через идентичные слои с общими весами, которая подбирает этимологии с точностью не менее 87% по сравнению с существующими наиболее авторитетными этимологическими словарями. Ее код и возможность проверки будут в открытом доступе, сама нейросеть будет установлена на ЛингвоДок, и с ее помощью можно будет обрабатывать любые размещенные там словари. 2) На ЛингвоДок будут добавлены уже изданные большие словари языков (в том числе тех, носители которых проживают не на территории РФ, а также исчезнувших к настоящему времени языков) с целью получения полной классификации уральских, тунгусских и монгольских языков: - финского языка (не менее 25 тыс. слов), - эстонского языка (не менее 25 тыс. слов), - ижорского языка (не менее 5 тыс. слов), - венгерского (не менее 25 тыс. слов), - камасинского (не менее 2,5 тыс. слов), - маторского (не менее 1 тыс. слов), - эвенкийского языка (не менее 25 тыс. слов), - нанайского языка (не менее 8 тыс. слов), - эвенского языка (не менее 10 тыс. слов), - маньчжурского языка (не менее 10 тыс. слов), - монгольского языка (не менее 25 тыс. слов), - бурятского языка (не менее 25 тыс. слов), - дагурского языка (не менее 5 тыс. слов). 3) Для сбора аудиословарей с полными парадигмами будут проведены экспедиции к носителям исчезающих языков: сето, хантам, саамам, эрзянам, северо-западным марийцам, бурятам, ойратам, эвенкам. Собранные аудиоматериалы будут сегментированы на отдельные слова и предложения, из них будут созданы онлайн-аудиословари с транскрипцией МФА. 4) На платформе ЛингвоДок в открытом доступе будут размещены архивные словари Г.Ф. Миллера, П.С. Палласа и другие найденные нами словари и книги по языкам народов РФ, созданные в XVIII–XIX вв. Общий объем – не менее 15 тыс. слов. 5) С помощью нейросети и последующей ручной проверки будут проэтимологизированы словари языков и диалектов народов РФ: • Азербайджанский – 1 словарь, • Алтайский – 10 словарей, • Башкирский – 10 словарей, • Бурятский – 5 словарей, • Вепсский – 8 словарей, • Водский – 2 словаря, • Горномарийский – 5 словарей, • Долганский – 1 словарь, • Ижорский – 2 словаря, • Казахский – 10 словарей, • Калмыцкий – 10 словарей, • Камасинский – 3 словаря, • Карельский – 10 словарей, • Коми – 10 словарей, • Крымско-татарский – 5 словарей, • Кумыкский – 1 словарь, • Луговой марийский – 5 словарей, • Мансийский – 10 словарей, • Маторский – 2 словаря, • Мокшанский – 10 словарей, • Нанайский – 5 словарей, • Нганасанский – 5 словарей, • Негидальский – 1 словарь, • Ногайский – 3 словаря, • Орокский – 1 словарь, • Саамские – 3 словаря, • Селькупский – 10 словарей, • Сето – 4 словаря, • Сибирско-татарский – 3 словаря, • Татарский – 10 словарей, • Тофаларский – 1 словарь, • Тувинский – 1 словарь, • Удмуртский – 10 словарей, • Удэгейский – 1 словарь, • Ульчский – 1 словарь, • Хакасский – 1 словарь, • Хантыйский – 10 словарей, • Чувашский – 1 словарь, • Чулымский – 1 словарь, • Шорский – 1 словарь, • Эвенкийский – 5 словарей, • Эвенский – 1 словарь, • Энецкий – 2 словаря, • Эрзянский – 10 словарей, • Эстонский (Ставропольская область) – 1 словарь, • Якутский – 10 словарей. 6) Морфологические словари по языкам народов РФ, доступные онлайн и соединенные этимологиями с другими морфологическими словарями (будет подготовлено не менее 60 словарей). 7) Уточненные классификации языков и диалектов народов РФ по глоттохронологии, фонетическим и морфологическим соответствиям, доступные онлайн с полным материалом, на котором базируются расчеты. 8) Результаты этой работы будут отражены в 40 статьях, индексируемых в ВоС, Скопус, RSCI и зарубежных БД, и двух итоговых монографиях, посвященных описаниям особенностям первых ранее неизученных текстов и уточненной классификации языков. В Москве будут организованы 3 международные конференции.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Аннотация результатов, полученных в 2025 году
В течение 2025 года на ЛингвоДоке https://lingvodoc.ispras.ru были размещены и проэтимологизированы словарь ижорского языка (5 465 слов), камасинского (2 951 слово), маторского (1100 слов) и нанайского языка (11 579 слов). Помимо этих запланированных словарей, нами также были созданы на ЛингвоДоке также словари финского языка (17 212 слов), эстонского языка (70 882 слов), эвенкийского языка (18 698 слов). Были также созданы аудиословари на основе рукописных материалов, найденных нами в архивах Санкт-Петербурга и Казани и из экспедиционных записей печорского и обиницкого языка сето и юго-восточного диалекта Кочкуровского района Мордовии. Была проведена экспедиция к носителям лесного наречия горномарийского языка в Яранский, Шарангский, Тужинский, Кикнурский районы в Кировской области и Медведковский, Килемарский районы Республики Марий Эл. От последних носителей языка (возраст старше 60 лет, более молодые уже не владеют лесным марийским языком) были записаны списки базисной лексики, парадигмы спряжения и склонения, в которых было выявлено разноместное ударение. Создана и инсталлирована на платформу ЛингвоДок нейросеть по поиску новых этимологий. предложен двухэтапный подход к задаче автоматического выявления когнатов в корпусах уральских языков. На первом этапе была реализована сиамская нейронная сеть, учитывающая графическую (орфографическую) информацию из исходных примеров. Оценка качества на валидационной выборке продемонстрировала среднюю точность (accuracy) порядка 78 %. На втором этапе архитектура модели была расширена за счёт дополнительного пути обработки переводов слов и ряда эвристических приёмов (булев признак «exact_match» с фиксированной поправкой, обучаемые весовые коэффициенты α/β, порог τ=0.9), что позволило повысить точность классификации до 96 %. В результате применения к словарям на ЛингвоДоке было установлено, что нейросеть, созданная О.В.Гончаровой, достаточно эффективна для поиска новых этимологий даже в столь хорошо изученных языках как финский и эрзянский. В результате работы нейросети были проанализированы 146 474 120 возможных сопоставлений, в качестве выдачи было показано 16 055 этимологических предложений. Мы оценили все предложения нейросети и поставити галочки только на тех, которые имели между собой регулярные фонетические соответствия. В результате нашей оценки из 16 055 этимологических предложений корректными были признаны 805, которые можно посмотреть в словарях в столбце когнаты. Большинство этих предложений повторяют уже существующие этимологии, отраженные в этимологических словарях прауральского и финского языков. Но более 100 этимологий, предложенных нейросетью оказались новыми. Для маторского словаря после обработки его с помощью нейросети был проведен анализ классификационной принадлежности, поскольку этот вопрос является наиболее сложным для самодийских языков. На платформе ЛингвоДок словарь маторского языка был связан этимологиями с 16 лексическими словарями других самодийских языков и диалектов. На основе монографии Е.Helimski Matorische Sprache, Szeged, 1997 был также создан морфологический словарь, который на следующем этапе был связан с морфологическими словарям камасинского и тундрового ненецкого языка. Эти словари были обработаны с помощью авторских программ ЛингвоДока, оценивающих близость языков с точки зрения глоттохронологии, фонетических и морфологических соответствий. В результате с точки зрения глоттохронологии подтверждается традиционная классификация: самый высокий процент совпадений в базисной лексике наблюдается между маторским и камасинским языком — 76 %. С тундровым ненецким языком процент несколько ниже: 58–67 % в зависимости от словаря. С точки зрения фонетических соответствий не было выявлено надежных свидетельств длительного существования маторско-камасинской общности. Почти все выявленные фонетические изоглоссы являются характерными процессами и для тюркских языков Сибири. С точки зрения морфологии в большинстве случаев аффиксы общие в маторском с тундровым ненецким и камасинским являются архаичными. Таким образом, можно предположить, что общие фонетические и лексические инновации маторского и камасинского возникли к результате языковых контактов. Генетически маторский язык не имеет значимых фонетических или морфологических инноваций с другими самодийскими языками. С точки зрения классификационной принадлежности были также проанализированы словари мансийских «диалектов» (как считалось ранее), которые являются одними из самых загадочных среди уральских языков с точки зрения времени их разделения. Это связано с тем, что в списках базисной лексики, собранных от последних носителей северного и восточного диалектов мансийского — 87 % общих слов, что указывало на достаточно позднее время распада. Однако привлечение данных по морфологии, и рядам фонетических соответствий противоречат этим выводам. Было выявлено, что наибольшая степень морфологических различий наблюдается между восточными и западными диалектами — они имеют лишь 60 % общих аффиксов, что сравнимо с различиями между коми и удмуртскими языками. Фонетические регулярные соответствия в словарях XIX в. четырех диалектов разных групп также демонстрируют значительное количество независимых инноваций. С точки зрения статистики фонетическая разница между этими мансийскими «диалектами» сравнима с различиями между луговым и горным марийским языками. Все это указывает на время распада, сравнимое с отделением, например, якутского от других тюркских языков в первой половине I тыс. н. э. Обращение к данным археологии и истории подтверждает эту гипотезу, т. к. первые миграции манси на запад с Урала имели место начиная с V в. н. э., под воздействием тюркских племен. Видимо, тот факт, что современные полевые записи базисной лексики проводились только от носителей этих диалектов, привел к более поздним датировкам распада прамансийского языка, чем это было на самом деле. В течение 2025 года опубликованы или приняты в печать 12 статей ВоС, Скопус, RSCI, из них 5 статей в журналах Q1 и отечественных Q2.

Публикации

1. Баженова О.Н. Material Culture Lexicon in M.A.Castrén’s Dictionary (1844) and an Audio Dictionary of the Ižma Dialect (2012): Comparative Analysis on LingvoDoc Труды ИСП РАН, vol. 37, issue 6, part 1, 2025, pp. 203-218 (год публикации - 2025)
10.15514/ISPRAS-2025-37(6)-13

2. Ковылин С.В. Показатели множественного числа существительных в селькупских диалектах Труды ИСП РАН, том 37, вып. 6, часть 1, 2025 г., стр. 181–192 (год публикации - 2025)
10.15514/ISPRAS-2025-37(6)-11

3. Баженова О.Н. The Position of the Komi-Yaz'va Idiom in the Komi Languages Based on Phonetic, Lexical, and Morphological Features: Evidence from the LingvoDoc Platform Труды ИСП РАН, vol. 37, issue 2, 205, pp. 255-262 (год публикации - 2025)
10.15514/ISPRAS-2025-37(2)-19

4. Воробьева В.В., Новицкая И.В. What Status of the Vasyugan Khanty Vernacular Do Calculations on the LingvoDoc Platform Support from the Point of View of Systemic Morphological Characteristics? Труды ИСП РАН, vol. 37, issue 2, 2025, pp. 237-246 (год публикации - 2025)
10.15514/ISPRAS-2025-37(2)-17

5. Кошелюк Н.А. Цифровые ресурсы по уральским языкам Сибири: обзор, оценка и применение Урало-алтайские исследования, 2025. № 1 (56), c. 60-93 (год публикации - 2025)
10.37892/2500-2902-2025-56-1-60-93

6. Норманская Ю.В. Glottochronology classification of the modern and the earliest Samoyed dictionaries using LingvoDoc programs ИСП РАН, vol. 37, issue 3, 2025, pp. 195-210 (год публикации - 2025)
10.15514/ISPRAS-2025-37(3)-14

7. Баженова О.Н. К вопросу о степени морфологической близости коми-язьвинского идиома коми- зырянскому и коми-пермяцкому языкам Вестник угроведения, Т. 15. № 1 (60). С. 7–18 (год публикации - 2025)
10.30624/2220-4156-2025-15-1-7-18

8. Норманская Ю.В. Маторский язык ближе к ненецкому или к камасинскому? Oriental Studies, 2025. Т. 18. № 2. С. 464–482 (год публикации - 2025)
10.22162/2619-0990-2025-78-2-464-482

9. Баженова О.Н., Норманская Ю.В. Как менялся ижемский диалект коми-зырянского языка: сопоставление словаря М.А.Кастрена Финно-угорский мир, в печати (год публикации - 2025)

10. Нуриева Ф.Ш., Галиуллина Г.Р., Юсупов А.Ф. Словари Г. Ф. Миллера как источник для изучения истории диалектов татарского языка (на материале платформы LingvoDoc) Oriental Studies, 2025. Т. 18. № 1. С. 191–211 (год публикации - 2025)
10.22162/2619-0990-2025-77-1-191-211

11. Норманская Ю.В., Кошелюк Н.А. Как и когда появились мансийские диалекты? Урало-алтайские исследования, 2025. № 2 (57), c. 36-59 (год публикации - 2025)
10.37892/2500-2902-2025-57-2-36-59

12. Норманская Ю.В., Гончарова О.В. Clarifying knowledge about early contacts of native speakers of the Proto-Finno-Volgaic language using neural networks Труды ИСП РАН, vol. 37, issue 6, part 3, 2025, pp. 149-162 (год публикации - 2025)
10.15514/ISPRAS-2025-37(6)-42

13. Норманская Ю.В., Чушкаева З.И. Степень близости между дунсянским, баоаньским и шира-югурским языками с точки зрения глоттохронологии и системы регулярных соответствий Монголоведение / Mongolian studies, 2025, 4 (год публикации - 2025)