КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер проекта 20-18-00403

НазваниеЦифровое описание диалектов уральских языков на основании анализа больших данных

Руководитель Норманская Юлия Викторовна, Доктор филологических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки Институт системного программирования им. В.П. Иванникова Российской академии наук , г Москва

Конкурс №45 - Конкурс 2020 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами»

Область знания, основной код классификатора 08 - Гуманитарные и социальные науки; 08-453 - Языкознание

Ключевые слова уральские языки, большие данные, платформенные исследования, цифровизация, этимология, экспериментальная фонетика, сравнительно-историческое языкознание

Код ГРНТИ16.41.25


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
В настоящее время многие уральские диалекты не имеют описаний фонетики и грамматики и словарей, существующие очерки сделаны по разным стандартам и труднодоступны. Сами языки и архивы, в которых содержатся материалы по ним, находятся под угрозой исчезновения. Энтузиасты из регионов часто пытаются самостоятельно выработать графическую систему для записи текстов на своем диалекте для создания словарей, букварей и учебников. В большинстве случаев она различается у разных носителей, и способы фиксации диалектов в XXI веке фактически оказываются на уровне менее стандартизированном, чем у создателей первых славянских книг в начале XI-XIII вв. Это в ряде случаев провоцирует конфликты в регионах. Как указано в Стратегии научно-технологического развития Российской Федерации, первым приоритетом на ближайшие 10–15 лет является «переход к передовым цифровым, интеллектуальным производственным технологиям, роботизированным системам, новым материалам и способам конструирования, созданию систем обработки больших объемов данных, машинного обучения и искусственного интеллекта». Он-лайн платформу “LingvoDoc” («ЛингвоДок», lingvodoc.ispras.ru, главный редактор – Норманская Ю. В.), которая бы позволила осуществить этот переход для описания языков народов России, мы создали в рамках проекта РНФ № 15-18-00044 «Информационная система для описания малочисленных языков народов мира. Создание описаний алтайских и уральских языков России, находящихся на грани исчезновения» (2015–2019 гг.). На платформе “LingvoDoc” было выполнено описание словарей исчезающих языков России, собранных в полевых условиях (в экспедициях) в рамках проекта и найденных в архивах за XVIII–XIX вв. Эта работа позволила нам выработать механизмы перевода языковых данных в цифровой формат и проведения их анализа с помощью специальных программ, созданных нами в рамках проекта. Анализ позволяет на первом этапе выявить ошибки в обработке материала, проведенной вручную: 1) в транскрипциях новых диалектных данных путем автоматического анализа формант гласных по размеченным на отдельные звуки спектрограммам; 2) в морфологическом анализе (глоссировании) с помощью автоматического анализатора обозначения тех или иных показателей по любому количеству диалектов; 3) в этимологических сравнениях с помощью программы ступенчатого автоматического построения рядов соответствий для реконструкций любого уровня; 4) в определении диалектных изоглосс путем автоматического нанесения на карты данных следующих типов: фонетических, морфологических, семантических, лексических, этимологических и их сочетаний; 5) в построении классификации языков и диалектов путем обсчета различий в рядах соответствий для любого набора языков и диалектов. Все перечисленные вида анализа проводятся путем обсчета большого количества данных. По уральским исчезающим языкам собрано от 3000 до 30000 лексем с контекстами и парадигмами. Обсчет такого количества данных невозможен вручную. При этом становится ясно, что при увеличении количества материала и обработке его с помощью специальных программ точность анализа возрастает по экспоненте. Также ключевым моментом является тот факт, что только корректное представление входящих данных дает возможность строить правильное описание на других уровнях. Например, в основе реконструкции должна лежать корректная транскрипция. Представление всего материала на единой платформе дает возможность для каждого идиома с помощью специальных программ выявить, где именно заложены ошибки, и, устранив их, создать непротиворечивое комплексное описание диалекта. Насколько нам известно, в мире не существует других платформ, в которых был бы организован анализ, построенный на обработке больших данных для описания языков мира. Созданная система является уникальной, что было отмечено на международной конференции «Fenno-Ugric Computational Linguistics» в Финляндии на базе Хельсинкского университета в 2016 году. Директора институтов и заведующие лабораториями по изучению финно-угорских и тюркских языков: проф. Б. Вагнер-Надь (Гамбург), проф. Й. Гипперт (Франкфурт-на-Майне), проф. Э. Винклер (Гёттинген), проф. И. Я. Селютина (Новосибирск), С. В. Онина (Ханты-Мансийск), Ф. Ш. Нуриева (Казань), Ф. Г. Хисамитдинова (Уфа), Н. В. Кондратьева (Ижевск), Л. С. Селендили (Севастополь), Н. Г. Шаймердинова (Астана) – выразили пожелание передать свои материалы на платформу “LingvoDoc” с целью их обсчета с помощью программ анализа больших данных и анализа в сравнении с данными, собранными нами в рамках проекта РНФ, поскольку было выявлено, что совместный анализ большого количества материалов по одному языку позволяет значительно уточнить его описание. В рамках проекта РНФ № 15-18-00044 на платформе “LingvoDoc” мы выполнили цифровое описание языков России, которые входят в категорию ЮНЕСКО «язык находится в критическом состоянии» (для этих языков осталось не более 10 носителей). В новом проекте представляется важным и актуальным, следуя выработанной схеме анализа на платформе “LingvoDoc”, продолжить описание всех диалектных групп уральских языков России, поскольку большинство из них являются исчезающими по классификации ЮНЕСКО: «в серьезной опасности и под угрозой исчезновения» (карельский, марийский, мокшанский, удмуртский, коми-пермяцкий, коми-язьвинский, хантыйский, тундровый ненецкий, северноселькупский языки). Также при обращении к отдельным диалектам видно, что ситуация серьезная практически со всеми уральскими языками. Полевые экспедиции, проведенные нами, показали, что часто в деревне лишь несколько пожилых людей разговаривают на том или ином диалекте марийского, удмуртского или хантыйского языков. При этом важным является тот факт, что цифровое описание языков строится в первую очередь на анализе звуков и обсчете формант. Без большого количества реальных звуковых данных невозможно верифицировать правильность транскрипции, которая лежит в основе морфологии, лексикологии, этимологии, лингвогеографии. Только обработка современных аудиозаписей (записи, сделанные не на цифровые носители и хранящиеся в архивах, в большинстве случаев не могут быть обработаны с помощью современных фонетических программ из-за их низкого качества) позволит нам установить, какие записи, сделанные учеными XVIII–XX вв., выполнены на высоком научном уровне и также могут быть привлечены к анализу. Заранее предсказать результаты такой проверки невозможно: например, оказалось, что по исчезающим языка мы можем доверять данным словарей П. С. Палласа (XVIII в.), К. Словцова (XX в.), А. Каннисто (XX в.) и Е. И. Ромбандеевой (XX в.) и не можем принимать к рассмотрению записи Ю. Клапрота (XIX в.) и Б. Мункачи (XX в.). После записи аудиоматериалов по всем диалектным группам уральских языков и анализе их в “LingvoDoc” мы планируем оценить существующие наиболее авторитетные словари и коллекции текстов с точки зрения их надежности и корректные источники также ввести в базу “LingvoDoc”, что, по нашим прогнозам, должно увеличить коллекции данных по каждому уральскому языку России минимум до 100 000 словоформ. На основании анализа этих данных с помощью специальных программ в конце проекта будет подготовлена к изданию монография, посвященная комплексному цифровому описанию уральских диалектов, с разделами, посвященными экспериментально-фонетическому, морфологическому, лексическому и сравнительно-историческому анализу. Также будет подготовлено не менее 12 статей в журналах, рецензируемых Scopus, WoS, и оформлено не менее 19 РИД по аудиословарям и корпусам текстов.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


 

Публикации

1. Норманская Ю.В. КАК МЕНЯЛАСЬ ДИАЛЕКТНАЯ ПРИНАДЛЕЖНОСТЬ СЕЛЬКУПСКОГО ГОВОРА С. ИВАНКИНО КОЛПАШЕВСКОГО РАЙОНА В XX в Вестник Томского государственного университета. Филология., № 66. C. 144–157 (год публикации - 2020)
10.17223/19986645/66/8

2. Норманская Ю.В. Названия одежды у прасамодийцев Вестник Томского государственного университета. Филология, 68 (год публикации - 2020)
10.17223/19986645/68/3

3. Норманская Ю.В. Неопубликованный мансийский словарь П.С. Палласа — ранее неизвестный мансийский диалект? Урало-алтайские исследования, № 1 (36). С. 92—100 (год публикации - 2020)
10.37892/2500-2902-2020-36-1-92-100

4. Норманская Ю.В. Словари пермских манси «аборигенов Сибири», собранные П. С. Палласом в XVIII веке Урало-алтайские исследования, № 3(38), с. 71-80 (год публикации - 2020)
10.37892/2500-2902-2020-38-3-71-80

5. Норманская Ю.В. Дискуссионная заметка к статье Н. В. Сайнаковой и С. В. Ковылина "Материалы по топонимике кетского Приобья" Урало-алтайские исследования, 3 (38), с. 152-156 (год публикации - 2020)
10.37892/2500-2902-2020-38-3-152-156

6. Норманская Ю.В. Коми-язьвинский – диалект коми-пермяцкого или отдельный язык Ежегодник финно-угорских исследований, том 14, № 4, с. 628-641 (год публикации - 2020)
10.35634/2224-9443-2020-14-4-628-641

7. Норманская Ю.В. THE SYSTEM OF VARIABLE STRESS IN NORTHERN MANSI DIALECTS AND ITS EXTERNAL CORRESPONDENCES Linguistica Uralica, № 2, p. 133-146 (год публикации - 2020)
10.3176/lu.2020.2.05

8. Ковылин С.В. Беседы об истинном Боге и истинной вере на наречии обских остяков” св. Макария (Невского), 1900. Глагольная морфология Linguistica Uralica, № 3, p. 181-219 (год публикации - 2020)
10.3176/lu.2020.3.03

9. Ковылин С.В. Особенности синтаксиса памятника селькупской письменности “Беседы об истинном Боге и истинной вере на наречии обских остяков” св. Макария (Невского), 1900 Томский журнал лингвистических и антропологических исследований, 3 (29), c. 113-123 (год публикации - 2020)

10. Безенова М.П. К особенностям перевода “Закона Божия” (1912 г.) на удмуртский язык: именная морфология Урало-алтайские исследования, № 1 (36). С. 53—70 (год публикации - 2020)
10.37892/2500-2902-2020-36-1-53-70

11. Безенова М.П. К особенностям перевода “Закона Божия” (1912 г.) на удмуртский язык: глагольная морфология Урало-алтайские исследования, № 3 (38), с. 19-32 (год публикации - 2020)
10.37892/2500-2902-2020-38-3-19-32

12. Кошелюк Н.А. Мансийский язык: история научного освоения Oriental Studies (год публикации - 2020)

13. Сайнакова Н. В., Ковылин С. В. Материалы по топонимике Кетского Приобья как основа для выявления границ расселения диалектно-локальной группы šöšqum/šöšqup и подтверждения промежуточного статуса среднеобского (шёшкумского / шёшкупского) диалекта селькупского языка Урало-алтайские исследования, № 3 (38), с. 130-151 (год публикации - 2020)
10.37892/2500-2902-2020-38-3-130-151

14. Гайдамашко Р.В. Из наблюдений над русской диалектной лексикой в «Первоначальном учебнике русского языка для чердынских пермяков» 1906 г. Современная русская лексикология, лексикография и лингвогеография. (год публикации - 2020)

15. Амелина М.К. Система именного склонения западных диалектов тундрового ненецкого языка в «Грамматике самоедского языка» (I пол. XIX в.) архимандрита Вениамина (Смирнова) в сопоставлении с современными полевыми данными Вторая школа-конференция по уралистике. Сборник тезисов. (год публикации - 2020)


 

Публикации

1. Кошелюк Н.А. LingvoDoc: extralinguistic information and maps EasyChair, EasyChair Preprint no. 6766 (год публикации - 2021)

2. Кошелюк Н.А. LingvoDoc: Working with Text Corpora EasyChair, EasyChair Preprint no. 6242 (год публикации - 2021)

3. Дубровская Н.В., Норманская Ю.В. «ЖЕЛТО-ЗЕЛЕНО-СИНИЕ» ЯЗЫКИ В ЕВРАЗИИ: КАК ОНИ ПОЯВЛЯЮТСЯ И ИСЧЕЗАЮТ? Linguistica Uralica, LVII 2021 2, p. 113-135 (год публикации - 2021)
10.3176/LU.2021.2.03

4. Безенова М.П. Морфологические особенности «Жития Св. Феодора» (1913) на удмуртском языке Урало-алтайские исследования, 2021. № 3 (42), 19-32 (год публикации - 2021)
10.37892/2500-2902-2021-42-3-19-32

5. Гайдамашко Р. В., Л. Г. Пономарева, Р Названия ягод в коми-пермяцком языке конца XVIII в. (на материале рукописей Антония Попова) Ежегодник финно-угорских исследований, 2 (15), 2021, c. 228-249 (год публикации - 2021)
10.35634/2224-9443-2021-15-2-228-249

6. Ковылин С.В. «Материалы для ознакомления с наречием остяков Нарымского края» за 1887 свт. Макария (Невского): именная и местоименная морфология Урало-алтайские исследования, 2 (41) 2021, с. 51-73 (год публикации - 2021)
10.37892/2500-2902-2021-41-2-51-72

7. Норманская Ю.В. Сколько языков коми? Словесная культура Сибири, http://wiki.lib.tsu.ru/shorturl/1tl (год публикации - 2021)

8. Норманская Ю.В. Хантыйские диалекты или языки? Словесная культура Сибири, http://wiki.lib.tsu.ru/shorturl/1tw (год публикации - 2021)

9. Норманская Ю.В. Мансийские диалекты или языки? Словесная культура Сибири, http://wiki.lib.tsu.ru/shorturl/1tr (год публикации - 2021)

10. Кошелюк Н.А. LingvoDoc: New Opportunities for Graphic and Phonetic Analysis of Endangered Language EasyChair, EasyChair Preprint no. 5387 (год публикации - 2021)

11. Кошелюк Н.А. Общие инновационные процессы в мансийских диалектах: именная морфология Вестник угроведения, 11, № 2. 2021, с.278-292 (год публикации - 2021)
10.30624/2220-4156-2021-11-2-278-291

12. Новак И.П. Применение методики кластеризации в решении проблем диалектного членения карельского языка (на примере дистрибуции переднеязычных щелевых согласных) Урало-алтайские исследования, 2 (41), 2021, с. 103-132 (год публикации - 2021)
10.37892/2500-2902-2021-41-2-103-132

13. Норманская Ю.В. Первый черемисский словарь — архаический текст или конкорданс слов из нескольких марийских диалектов? Урало-алтайские исследования, 2 (42) 2021, c. 90-99 (год публикации - 2021)
10.37892/2500-2902-2021-42-3-90-83

14. Норманская Ю.В. Стояла ли фонетическая реальность за ударением в обдорском словнике Г. Ф. Миллера? Урало-алтайские исследования, 2 (41) 2021, с. 155-158 (год публикации - 2021)
10.37892/2500-2902-2021-41-2-155-158

15. Иткин И. Б., Переверзева С. И. Некоторые уточнения к интерпретации данных обдорского ненецкого словаря Урало-алтайские исследования, 2 (41) 2021, с. 47-60 (год публикации - 2021)
10.37892/2500-2902-2021-41-2-145-154

16. Норманская Ю.В. История названий одежды в праобско-угорском языке (сравнение лингвистических, археологических и этнографических данных) Словесная культура Сибири, http://wiki.lib.tsu.ru/shorturl/1kp (год публикации - 2021)

17. Ковылин С.В. Материалы для ознакомления с наречием остяков Нарымского края» за 1887 год св. Макария (Невского): словоизменительная морфология глагола Сибирский филологический журнал, № 3, 2021, с. 211-230 (год публикации - 2021)
10.17223/18137083/75/16

18. Норманская Ю.В. Как изменялась оленеводческая терминология у хантов (на материале сравнения первых книг XVIII-XIX вв. и современных диалектов) Словесная культура Сибири, http://wiki.lib.tsu.ru/shorturl/1kr (год публикации - 2021)

19. Молданова И.М. Лексико-семантические и словообразовательные особенности глаголов в материалах книги «Песни реки Казым в собрании Окружного Дома народного творчества» Вестник угроведения, 1 (11) 2021, с. 63-72 (год публикации - 2021)
10.30624/2220-4156-2021-11-1-63-72

20. Федотова И.В. Диалектное членение мансийского языка в диахронии по данным базисной лексики Вестник угроведения, 2 (11) 2021, 338-346 (год публикации - 2021)
10.30624/2220-4156-2021-11-2-338-346

21. Амелина М.К. Система именного склонения западных диалектов тундрового ненецкого языка в исторической перспективе: архивные материалы XIX века и современные полевые данные Родной язык, 2, 2021 (год публикации - 2021)

22. Безенова М.П. Фонетические особенности «Жития Св. Феодора» (1913) на удмуртском языке Урало-алтайские исследования, 2 (41) 2021, с. 22-50 (год публикации - 2021)
10.37892/2500-2902-2021-41-2-21-50


 

Публикации

1. Норманская Ю.В. Ударение в камасинском языке и его ареальные параллели Studia Uralo-Altaica, № 56, p. 229-242 (год публикации - 2022)

2. Кошелюк Н.А. On the Dialect Belonging of Archpriest Simeon Cherkalov’S Archival Mansi Dictionary Easy Chair, № 8823 (год публикации - 2022)

3. Ю. В. Норманская, О. Д. Борисенко, И. Б. Белобородов, А. И. Аветисян The software system LingvoDoc and the possibilities it offers for documentation and analysis of ob-ugric languages Doklady Mathematics, Volume 504, 2022, pages 60–82 (Mi danma266) (год публикации - 2022)
10.1134/s106456242203005x

4. Норманская Ю.В. Графико-фонетические различия в хантыйских диалектах по данным источников XVIII в Вестник угроведения, Т. 12. № 1. 2022. С. 84–93 (год публикации - 2022)
10.30624/2220-4156-2022-12-1-84-93

5. Норманская Ю.В. Как менялась классификация мансийских диалектов (исследование на материале первых кириллических книг и словарей XVIII–XIX веков) Сибирский филологический журнал, № 1. 2022. С. 126–143 (год публикации - 2022)
10.17223/18137083/78/10

6. Норманская Ю.В., Кошелюк Н.А. Accuracy Analysis of Mansi Transcription in Various Sources of the Beginning of the 20th Century Easy Chair, т.09 (год публикации - 2022)

7. Норманская Ю.В. Textbook of the Vasyugan Khanty Language, Created by St. Makariy (Nevsky) in 1887, as a Source of Information About the Proto Khanty System of Vowel Phonemes Easy Chair, № 8830 (год публикации - 2022)

8. Норманская Ю.В., Федотова И.В. Phonetic and lexical innovations in Ob-Ugric dialects in the 18th—21st centuries: new archival and field data Урало-алтайские исследования, т. 46, №3, с. 63-74 (год публикации - 2022)
10.37892/2500-2902-2022-46-3-63-74

9. Ковылин С.В., Норманская Ю.В. Памятники селькупской письменности, созданные св. Макарием Невским. 2 том серия Кириллические памятники на уральских и алтайских языках, т. 2, 302 стр. (год публикации - 2022)

10. Безенова М.П. Памятники письменности на пяти диалектах удмуртского языка конца XIX — начала XX в. 3 том серия Первые кириллические книги на уральских и алтайских языках, 3 том, 365 стр. (год публикации - 2022)

11. Пономарева Л. Г. , Гайдамашко Р. В. Названия ягод в коми-пермяцком языке конца XVIII в. (на материале рукописей Антония Попова) Ежегодник финно-угорских исследований, т. 15, № 2, стр. 228-249 (год публикации - 2022)
10.35634/2224-9443-2021-15-2-228-249

12. Федотова И.В. Shared Semantic Patterns in the Basic Vocabulary of the Uralic Languages in Siberia Easy Chair, № 8989 (год публикации - 2022)

13. Новак И.П. Распределение переднеязычных щелевых согласных в говорах карельского языка Средней Карелии (на основе применения алгоритма «анализ когнатов» лингвистической платформы ЛингвоДок) Урало-алтайские языки, № 2, т. 45, с. 79-105 (год публикации - 2022)
10.37892/2500-2902-2022-45-2-79-105

14. Федотова И.В. Semantic Shifts in the Samoyedic Basic Vocabulary and Their Parallels. 2. Nature Easy Chair, № 9313 (год публикации - 2022)

15. Безенова М.П. «Букварь для вотяцких детей Сарапульского уезда»: графико-орфографические и фонетические особенности Урало-алтайские исследования, № 2, т. 45, с. 7-33 (год публикации - 2022)
10.37892/2500-2902-2022-45-2-7-33

16. Амелина М.К. Система именного склонения западных диалектов тундрового ненецкого языка в «Грамматике самоедского языка» (I пол. XIX в.) архимандрита Вениамина (Смирнова) в сопоставлении с современными данными Урало-алтайские исследования, № 1, т. 44, с. 7-115 (год публикации - 2022)
10.37892/2500-2902-2022-44-1-7-115

17. Кошелюк Н.А. Common Innovative Processes in the Mansi Dialects: Noun Declension Easy Chair, № 8892 (год публикации - 2022)

18. Кошелюк Н.А. LingvoDoc: Working with Cognate Analysis Easy Chair, № 7446 (год публикации - 2022)

19. Кошелюк Н.А. ”LingvoDoc” as a Solution to the Problems of Conservation of Endangered Languages (Using Example of the Mansi Language) Easy Chair, № 8383 (год публикации - 2022)

20. Кошелюк Н.А. LingvoDoc: Working with Verb Valency Easy Chair, № 8613 (год публикации - 2022)

21. Кошелюк Н.А. Common Innovative Processes in the Mansi Dialects: Number Indicators of Nominal Paradigm Easy Chair, № 8890 (год публикации - 2022)

22. Норманская Ю.В., Федотова И.В. Фонетические и лексические инновации в обско-угорских диалектах XVIII-XXI в. по данным архивных и полевых материалов Hämeenmaalta Jamalille : kirja Tapani Salmiselle 07.04.2022, Helsingin yliopiston kirjasto, Хельсинки, т. 1, с. 267-279 (год публикации - 2022)
10.31885/9789515180858

23. Норманская Ю.В. (отв. редактор) Графико-фонетические особенности книг XIX века. 1 том серия Кириллические памятники на уральских и алтайских языках. изд-во Альма-матер, Москва, 1 том, 566 стр. (год публикации - 2022)

24. Новак И.П. Именная морфология памятника тверской карельской письменности – перевода «Евангелия от Марка» Вестник НГУ. Серия: История, филология., № 9, т. 21, с. 9-21 (год публикации - 2022)
10.25205/1818-7919-2022-21-9-9-20