КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 19-18-00466

НазваниеРазработка и реализация информационной системы многоуровнего исследования стихотворных текстов

РуководительБарахнин Владимир Борисович, Доктор технических наук

Организация финансирования, регион Федеральное государственное бюджетное научное учреждение "Федеральный исследовательский центр информационных и вычислительных технологий", Новосибирская обл

Период выполнения при поддержке РНФ 2019 г. - 2021 г. 

Конкурс№35 - Конкурс 2019 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами».

Область знания, основной код классификатора 08 - Гуманитарные и социальные науки, 08-451 - Филология

Ключевые словакомпьютерный анализ поэтических текстов, фонометрические характеристики, лексико-тематические характеристики, искусственный интеллект

Код ГРНТИ17.07.00


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Уровни структуры стиха представляют собой определенную иерархию: метр, ритм, фонетика, лексика, грамматика, речевой жанр (композиционно-речевое целое), мотивика, что хорошо коррелируется со многоуровневой моделью информации, изложенной, например, в работе германского исследователя В. Гитта. При этом процесс анализа стиха предусматривает первоначальное рассмотрение каждого уровня как самостоятельной смысловой единицы с последующим связыванием этих наблюдений с другими элементами структуры. Таким образом, исследование взаимозависимости фоно-метрического и лексико-тематического уровней стихотворных текстов с целью выявления и количественного анализа связей смысловых ассоциаций, описываемых на основе семантических полей, со стихотворными размерами (так называемыми фактурами, учитывающими строфику и метроритмику) является весьма актуальной проблемой русской филологии. Одной из основных трудностей при ее решении является необходимость анализа корпусов поэтических текстов большого объема. Задача эта чрезвычайно трудоемкая, поэтому зачастую в поле зрения исследователя попадает лишь сравнительно небольшой круг стихов поэтов-классиков, что, без сомнения, значительно снижает полноту анализируемого материала и, следовательно, достоверность полученных результатов. Таким образом, возникает необходимость автоматизации анализа различных уровней структуры стиха, что позволит освободить исследователей от рутинной работы и при этом резко расширить круг анализируемых авторов. Для решения этой задачи весьма важно составление метрических справочников к корпусу стихов того или иного поэта, содержащих сведения о системах стихосложения, размерах, каталектике (ритмических окончаниях стихов), строфике, метрической композиции стихотворений а также словарей рифм, конкордансов (алфавитных перечней всех словоформ с указанием контекстов их употребления) и статистических словарей (включая словари не только отдельных слов, но и словосочетаний, а также выявленных на их основе коллокаций) как отдельных поэтов, так и определенных литературных направлений с выходом к созданию словарей концептов, позволяющих реконструировать концептосферу писателя (поэта) или литературного направления. В рамках проекта планируется разработать и реализовать информационную систему многоуровнего исследования русских поэтических текстов, в основу которой будет положена технология автоматизированного составления метрических справочников, конкордансов и статистических словарей, а также алгоритмы исследования взаимозависимости фоно-метрического и лексико-тематического уровней стихотворных текстов с целью выявления и количественного анализа связей смысловых ассоциаций, описываемых на основе семантических полей, со стихотворными размерами (фактурами) и их возможную динамику. Новизна поставленной в проекте задачи заключается в комплексном подходе к автоматизации процесса анализа русских поэтических текстов. Впервые будут предложены алгоритмы автоматизированного создания метрических и строфических справочников, которые в совокупности с усовершенствованными алгоритмами автоматизированного создания конкордансов позволят в автоматизированном режиме получать полное описание количественных характеристик творчества русских поэтов, что позволит освободить исследователей от рутинной работы и при этом резко расширить круг анализируемых авторов. Однако автоматизация решения перечисленных выше задач стиховедения, хотя и важных самих по себе, является в рамках данного проекта лишь вспомогательным результатом, предназначенным для достижения фундаментальной цели проекта: исследования взаимозависимости фонометрического и лексико-тематического уровней стихотворных текстов для выявления и количественного анализа связей смысловых ассоциаций, описываемых на основе семантических полей, и прагматических характеристик со стихотворными размерами (фактурами) в русской классической поэзии XIX - начала XX века.

Ожидаемые результаты
В рамках проекта будет разработана и реализована информационная система автоматизации многоуровнего исследования русских поэтических текстов, предназначенная для выявления и количественного анализа связей смысловых ассоциаций, описываемых на основе семантических полей, со стихотворными размерами (фактурами) в русской классической поэзии XIX - начала XX века, включающую в качестве отдельных компонентов приложения для автоматизированного составления метрических справочников, конкордансов и статистических словарей. При составлении метрических и строфических справочников в автоматизированном режиме будут извлекаться следующие 12 характеристик стихов: количество строк, метрика стихотворения, стопность, рифмовка строфики, количество мужских окончаний последних слов в стихотворных строках, количество женских окончаний последних слов в стихотворных строках, количество дактилических и др. окончаний последних слов в стихотворных строках, количество нерифмованных мужских окончаний, количество нерифмованных женских окончаний, количество нерифмованных дактилических и других окончаний, количество строк без конечных слов, тип строфической формы. При автоматизированном составлении конкордансов словарные единицы в них будут сгруппированы, как этого требует современное состояние филологических исследований, в гнезда лексем с указанием грамматической формы каждого словоупотребления (в конкордансах, разработанных еще в конце XX века, словарные единицы суть графемы, т.е. в одно гнездо попадали и совпадающие словоформы одной лексемы, и даже омонимы и омографы, при этом, естественно, объединение словоформ по гнездам лексем не проводилось). Компьютерные алгоритмы составления статистических словарей будут нацелены не только на создание словарей отдельных лексем, но и словосочетаний, а также на выявление коллокаций, характерных для стиля того или иного поэта. Наконец, разрабатываемые аналитические алгоритмы будут выявлять и осуществлять количественный анализ связей смысловых ассоциаций, описываемых на основе семантических полей, со стихотворными размерами (фактурами). Эти алгоритмы будут применены для исследования творчества русских поэтов XIX – начала XX вв.: А.К.Толстого и И.Ф.Анненского. Реализация проекта приведет к радикальному увеличению объема корпуса русских поэтических текстов, сопровождаемых количественными характеристиками стихов, что позволит вывести на качественно новую ступень исследования анализа связей смысловых ассоциаций, описываемых на основе семантических полей, со стихотворными размерами (фактурами). Отметим, что комплексные исследования отечественных или зарубежных авторов в рассматриваемой области применительно к русской поэзии нам неизвестны.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2019 году
I. Наиболее сложной проблемой, возникающей при анализе нижних уровней поэтического текста, является довольно часто возникающая невозможность однозначно поставить ударение с помощью базы данных акцентуации словоформ русского языка, созданной на основе словаря А.А.Зализняка (омографы, собственные имена, «авторские» неологизмы и т.д)., а также пропуск схемных ударений (пиррихии), наложение сверсхемных ударений (спондеи), переносы ударений на предлоги (проклитики) и др. Для разрешения неоднозначной акцентуации был разработан алгоритм расстановки ударений методом «по аналогии». Суть метода заключается в следующем: строки и строфы с неоднозначной расстановкой ударения сравниваются со строками и строфами, в словах которых ударения расставляются однозначно, и производится выбор ударения, обеспечивающего единство метрической характеристики для всего стихотворения. Для улучшения точности работы алгоритмов автоматической расстановки ударений в поэтических текстах для случаев, когда словарь А.А.Зализняка не содержит акцентуируемого слова или содержит графему с различными вариантами ударений, когда использована устаревшая или «авторская» акцентуация и т.п., был разработан и программно реализован алгоритм акцентуации на основе рекуррентной нейронной сети типа GRU (gated recurrent unit), обученной на выборке размером более 800 тысяч слов и затем дообученной на словах из «Конкорданса к стихам А. С. Пушкина» Дж.Т.Шоу. В результате экспериментов было показано, что вариант алгоритма на основе рекуррентных нейронных сетей типа GRU, инициализируемых состоянием на основе векторного представления морфохарактеристик слова, обеспечивает 5,6% ошибок в расстановке ударений на тестовой подвыборке 300 слов из «Конкорданса к стихам А. С. Пушкина». Для автоматического определения метроритмических характеристик поэтических текстов был модифицирован и программно реализован алгоритм из статьи [Бойков В. Н., Каряева М. С., Соколов В. А., Пильщиков А. И. Об автоматической спецификации стиха в информационно-аналитической системе // CEUR Workshop Proceedings. 2015. V. 1536. P. 144-151]. Суть данного алгоритма заключается в сопоставлении ритмических вариантов стиха изучаемого поэтического текста с набором ритмических шаблонов из определенного репертуара метроритмических вариантов стиха. Основной сложностью при практической реализации этого алгоритма является то, что он предполагает «идеальную» акцентуацию слов и совершенно не учитывает реальные проблемы автоматизированной акцентуации, изложенные выше. Были разработаны две модифицирующие поправки к алгоритму из статьи алгоритма из статьи. Модифицированный алгоритм определяет метр и стопность на корпусе стихотворений Пушкина с точностью в 83 % и 79 %, при этом основной процент погрешности дают стихотворения с отточиями: неоконченные, с обсценной лексикой и т.п. Был разработан и программно реализован алгоритм автоматического определения стопности. Автоматическое определение характеристик, связанных со стопностью, требует нахождения рифмующихся строк. Алгоритм поиска рифм основан на элементарных соображениях возможности их образования: строки рифмуются, если у последних слов в строке одинаковая позиция ударного слога и фонетически совпадают окончания. В ходе тестирования первой версии алгоритма было выявлено, что часть ошибок в определении типа строфики связана с неполнотой множества фонетически рифмующихся окончаний, поэтому алгоритма претерпел некоторые модификации для повышение точности. Разработанный алгоритм определяет рифму на корпусе стихотворений А.С.Пушкина с точностью 95 %. На основании перечисленных алгоритмов была разработана и реализована в виде веб-приложения программа по определению метроритмических характеристик. Выходные данные веб-приложения могут заполнять таблицы, аналогичные основным таблицам I, II, VII, X, XIII, XIV, XV в классическом метрическом справочнике [Лапшина Н. В., Романович И. К., Ярхо Б. И. Метрический справочник к стихотворениям А.С. Пушкина. М.; Л.: Academia, 1934], а также приведенные в нем индексы: алфавитный, строф и размеров. Для работы по созданию, корректировке и пополнению метрических справочников предполагается две роли пользователей, возможности которых определяются прохождением пользователем авторизации в веб-приложении. Неавторизованный пользователь может составлять справочник, но не может вносить в него изменения: предусмотрена только демонстрация базовой функциональности веб-приложения. Авторизованный в системе пользователь имеет возможность как загружать корпус текстов, так и работать с ним: вносить изменения и сохранять их в системе для дальнейшего использования. Отметим, что если система не может корректно определить метроритмические характеристики поэтического текста, то она относит его к дисметрическим, после чего такие стихотворения поступают на анализ к эксперту. II. Разработан и реализован в виде веб-приложения алгоритм автоматизированного построения конкордансов. Основной трудностью автоматизации построения конкордансов является разрешение неоднозначных графем, то есть определение их лексических и грамматических характеристик. Для решения этой задачи была составлена классификация различных случаев неоднозначности, обусловленная комбинацией проблем филологии и компьютерной лингвистики и необходимая при реализации системы автоматизированного анализа текстов, в том числе при составлении словарей поэтического языка и конкордансов. На данном этапе реализован алгоритм автоматического построения конкордансов с фиксацией неоднозначности и снятием неоднозначности акцентуирования. Затем зафиксированная неоднозначность может быть устранена экспертом-пользователем. Алгоритм построения конкордансов реализован в виде веб-приложения. Для работы по созданию, корректировке и пополнению конкордансов предполагается две роли пользователей, возможности которых определяются прохождением пользователем авторизации в веб-приложении. Неавторизованный пользователь может составлять конкорданс, но не может вносить в него изменения: предусмотрена только демонстрация базовой функциональности веб-приложения. Авторизованный в системе пользователь имеет возможность как загружать корпус текстов, так и работать с ним: вносить изменения и сохранять их в системе для дальнейшего использования. III. Был проведен эмпирический анализ возможностей применения теории риторической структуры (ТРС) к поэтическим текстам. Эта теория задает метаязык представления структуры текста, обусловленной выявленными при понимании этого текста реляционными пропозициями. Структура строится в виде дерева. Был сделан вывод о возможности применения ТРС для анализа поэтических текстов. Далее были выработаны принципы сегментации и установления отношений между сегментами при построении риторической структуры поэтического текста. С использованием разработанных теоретических положений проанализированы стихотворные произведения двух авторов: А.К. Толстого и И.Ф. Анненского. Для каждого стихотворения построена риторическая структура. Для представления структур поэтических текстов было использовано 26 отношений, из них 22 стандартных отношения ТРС, кроме них, введены 4 дополнительных отношения, обусловленных спецификой проанализированных текстов. Определена частотность всех использованных отношений в рассмотренных текстах. Проведён сравнительный анализ структур текстов, построенных по произведениям А. К. Толстого и И. Ф. Анненского. Выявлен ряд сходств и различий, касающихся используемых отношений. IV. Для разработки и программной реализации разработки алгоритмов перевода поэтических текстов из дореформенной орфографии в современную были изучены и протестированы основные алгоритмы морфологического анализа слов. При оценке результатов тестирования выявлены закономерности в ошибках, допускаемых при работе морфологического анализатора pymorphy2 с дореволюционной орфографией. Полученные закономерности использованы при адаптации данного анализатора к работе с дореформенной орфографией. На основе выявленных зависимостей между правилами дореформенного и современного правописания описаны формальные правила перевода. Таким образом, на базе вышеперечисленных результатов разработан и программно реализован алгоритм, осуществляющий перевод текстов на русском языке из дореформенной орфографии в современную с учетом морфологии слов. V. Для получения возможности адекватного использования программных средств семантического и лексического анализа текстов нами был разработан и программно реализован алгоритм так называемого «выпрямления» порядка слов в предложениях (т.е. приближения порядка слов к грамматическому), призванный адаптировать порядок слов в поэтических текстах с целью использования для их анализа популярной концепции word2vec, а также методов машинного обучения на текстовых корпусах большого объема, таких как СинТагРус. Таким образом, план работы на 2019 полностью выполнен. Опубликованы 4 статьи (2 - в издания, индексируемых Scopus, 2 - РИНЦ), приняты в печать 3 статьи (1 - в издании, индексируемом Scopus, 2 - РИНЦ), что превосходит планируемые показатели.

 

Публикации

1. Барахнин В.Б., Кожемякина О.Ю., Кузнецова И.В. Development and Implementation of the Algorithm for Automatic Analysis of Metrorhythmic Characteristics of Russian Poetic Texts Data Analytics and Management in Data Intensive Domains: ХХI International Conference DAМDID/RCDL'2019 (October 15–18, 2019, Kazan, Russia): Conference Proceedings., С.363-371 (год публикации - 2019)

2. Барахнин В.Б., Кожемякина О.Ю., Кузнецова И.В. Development and Implementation of the Algorithm for Automatic Analysis of Metrorhythmic Characteristics of Russian Poetic Texts CEUR Workshop Proceedings, - (год публикации - 2019)

3. Барахнин В.Б., Кожемякина О.Ю., Тагирова Е.П. Алгоритм перевода текстов из дореформенной орфографии в современную с учетом морфологии слов Восьмая Международная конференция «Системный анализ и информационные технологии» САИТ – 2019: Труды конференции., С.199-206 (год публикации - 2019)

4. Барахнин В.Б., Кожемякина О.Ю.,Тагирова Е.П., Кузнецова И.В., Борзилова Ю.С. Разработка и практическая реализация алгоритмов создания электронных метроритмических справочников и конкордансов Cloud of Science, - (год публикации - 2020)

5. Барахнин В.Б., Пастушков И.С. Word reordering algorithm for poetry analysis Journal of Physics: Conf. Series., V. 1405, 6 p. (год публикации - 2019) https://doi.org/10.1088/1742-6596/1405/1/012009

6. Кожемякина О.Ю., Тагирова Е.П. The translation algorithm from pre-reform spelling into modern spelling, taking into account the morphology of words Journal of Physics: Conf. Series., V. 1405, 8 p. (год публикации - 2019) https://doi.org/10.1088/1742-6596/1405/1/012010

7. Тимофеева М.К. Опыт использования теории риторической структуры для представления логико-когнитивной организации поэтического текста Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация, - (год публикации - 2020)


Аннотация результатов, полученных в 2020 году
I. С целью выявления и количественного анализа связей смысловых ассоциаций, описываемых на основе семантических полей, со стихотворными размерами (фактурами, учитывающими строфику и метроритмику) дано строгое формальное определение фактуры. В “минимальном” определении фактуры мы будем учитывать только метрические и строфические характеристики, однако, более тонкий анализ поэтических текстов предполагает, что в рассмотрение должны приниматься также ритмические характеристики, учитывающие, в дополнение к “идеальной” метрике, еще и пиррихии, спондеи и т. п., а также тонкие фонетические характеристики в рифме, точность, открытость, звуковые характеристики, исследуемые фоносемантикой и т.д. Фактурой мы будем называть совокупность метроритмических и строфических характеристик поэтического текста, таких как: 1. Стихотворный размер: ˗ Стопность ˗ Вид размера (метр) 2. Схема строфы (строфика): ˗ Длина строфы (количество стихов) ˗ Тип рифмы (сплошная, перекрестная, охватывающая, смешанная, белый стих) ˗ Клаузулы (мужские, женские, дактилические) На основании данных Метрического справочника [Лапшина Н. В., Романович И. К., Ярхо Б. И. Метрический справочник к стихотворениям А. С. Пушкина. М.; Л.: Academia, 1934. 144 с.] составлена полная таблица примеров фактур (от одного до трёх примеров на каждую фактуру), используемых Пушкиным в равностофических монометрических поэтических текстах. Таблица состоит из следующих столбцов: - уникальный индекс фактуры; - метр; - стопность; - строфика; - пример строфы с такой фактурой; - номер примера в издании «Красной Нивы» [Полное собрание сочинений А.С. Пушкина в 6 т. (Приложение к журналу «Красная нива»). Гослитиздат, 1930-1931] – именно это Собрание сочинений Пушкина использовалось авторами «Метроритмического справочника»); - год написания стихотворения с соответствующей фактурой. Всего найдено 82 типа фактур, что позволило, в частности, вывить некоторые неточности в Метрическом справочнике к стихотворениям А. С. Пушкина. II. В отчетном году в программное приложение, определяющее метроритмические и сторфические характеристики поэтических текстов, был добавлен модуль выявления строк с отточиями разного вида (незавершенные строки, строки с исключенной обсценной лексикой и т.п.). В основе модуля лежит использование регулярных выражений, основанных на типичной записи незавершенных строк (множественные отточия) и обсценной лексики (дефисы в острых скобках). Была предложена модификация алгоритма определения метроритмических характеристик поэтического текста, позволяющая более точно выявлять дисметрические стихотворения: при выявлении признаков таковых происходит проверка условия изосиллаботоники. В целом, в системе есть возможность выявлять дисметрические стихотворения и отдавать их с на анализ эксперту. С учетом сказанного выше, был проведен эксперимент по определению метра и стопности на корпусе 458 произведений А. С. Пушкина. Выборка содержала стихотворения, написанные только в силлабо-тоническом стихосложении. В данном эксперименте было корректно классифицировано по метру и стопности 95.6 % стихотворений, что на 1% выше, чем показал алгоритм, работающий без уточнения. Был разработан и реализован алгоритм поиска строфики стихотворения по шаблонам строфик, выявленным при описании фактур. Шаблоны строфик из справочника переводятся в множества рифмующихся строк. Фиксируется информация, какие из строк имеют мужские/женские окончания. Строки в множествах рифмующихся строк, выбранных согласно шаблону, проверяются на рифму попарно по правилам ее образования на основании созвучия окончаний, установленного В.М.Жирмунским. Для каждого шаблона строфики ищется процент совпадений. В качестве строфики выбирается шаблон с максимальным процентом совпадений. Было проведено тестирование разработанного алгоритма и его сравнение с применявшимся ранее алгоритмом генерации строфики. Для алгоритма генерации строфики на выборке стихотворений А.С.Пушкина выявилось 9 % ошибок, для алгоритма поиска рифмы по шаблонам ошибок не было. III. Задача автоматизированного определения характеристик поэтических текстов, относящихся к верхнему уровню, прежде всего, жанра и стиля, наиболее эффективно может быть решена методами машинного обучения. Существует много подходов, называемых ансамблевыми методами, обеспечивающих взаимодействие различных моделей машинного обучения.. Однако каждый из них обладает существенным недостатком: для того, чтобы получить предсказание, нужно дождаться, пока отработают все модели. Также немаловажным является тот факт, что параллельные модели в ансамбле работают как одна последовательная модель, которая в каждый момент времени обрабатывает один запрос. Нами был предложен прием, позволяющий значительно ускорить работу набора моделей. Основная идея предлагаемого подхода - это получение предсказаний с максимально возможной за фиксированное время точностью. Были рассмотрены три модели аукционов: голландский (уменьшение ставки), английский (повышение ставки) и аукцион Викри (побеждает участник, предложивший максимальную ставку, но покупка осуществляется по второй максимальной ставке). Во всех случаях в качестве ставки использовалась уверенность в предсказании (качество ответа каждой модели), а также устанавливался временной параметр, по истечению которого предсказание признаётся окончательным. Для сравнения были взяты две простые эвристики: стандартная очередь и алгоритм распределения нагрузки по круговому циклу. Тестирование, проведенное как на корпусе новостных сообщений, так и на выборке лицейской лирики А.С.Пушкина показало, что модели аукциона Викри и голландского аукциона при сравнении с базисным методом дают выигрыш по времени с аналогичным качеством, а английский аукцион имеет преимущество по времени перед циклическим алгоритмом со сравнимым качеством, выигрывая у стандартной очереди в качестве при сравнимом времени. Полученные результаты и их сравнение с методами ансамблирования и балансировки позволяют сделать вывод, что предложенный подход может быть полезен при построении многомодельных систем классификации русских поэтических текстов по признакам, относящимся к верхнему уровню, прежде всего, по жанру и стилю. IV. Во многих областях анализа текста, например, при составлении конкордансов и словарей языка поэта, требуется разрешение проблемы омографии. Отметим, что решение именно этой задачи может быть частично автоматизировано, в отличие от задачи снятия омонимии Ранее нами был описан алгоритм расстановки ударений методом «по аналогии». Суть метода заключается в следующем: строки и строфы с неоднозначной расстановкой ударения сравниваются со строками и строфами, в словах которых ударения расставляются однозначно, и производится выбор ударения, обеспечивающего единство метрической характеристики для всего стихотворения. Однако определенные проблемы вызывает само выявление слов, в которых ударения расставляются однозначно. Дело в том, что стандартные алгоритмы акцентуации проставляют ударения на основе современных норм русского языка, в то время как ритмический рисунок и рифма в стихотворениях многих авторов выявляются только при той орфоэпической норме, которая была принята в соответствующий временной период развития русского языка, когда они создавали свои произведения. Таким образом, возникла необходимость разработки алгоритмов для автоматической расстановки ударений, которые проводят акцентуацию с учетом норм, использованных автором при написании своего произведения. Нами были предложены два алгоритма, решающие эту задачу, имитируя нормы, которые использовал А. С. Пушкин. Первый из этих алгоритмов основан на методе случайных полей второй – на использовании рекуррентной нейронной сети. Для обучения алгоритмов был создан специальный корпус, основанный на первых четырёх томах собрания сочинений А. С. Пушкина в десяти томах. Для одного из алгоритмов расстановки ударений на вход подается цепочка символов слова, а также его морфологическая характеристика, что позволяет автоматически разрешать неоднозначность в омографах. При обучении второго алгоритма использовался метод переноса обучения, поэтому для первичного обучения также был использован корпус прозаических текстов, в которых были расставлены ударения. Количество уникальных слов в обучающей выборке составило более 800 тысяч. В результате экспериментов было показано, что вариант алгоритма на основе рекуррентных нейронных сетей, инициализируемых состоянием на основе векторного представления морфологических характеристик слова, показывает 5,6% ошибок в расстановке ударений. Базовый алгоритм, основанный на условных случайных полях с использованием признаков символов, дает 15% ошибок на тестовом множестве. Алгоритм, основанный на рекуррентных нейронных сетях, показывает лучшее качество по сравнению с условными случайными полями в связи со своей способностью улавливать более тонкие закономерности в подаваемых ему на вход последовательностях. Однако, если необходимо получить алгоритм автоматической акцентуации, который способен быстро обучаться, выбор будет отдан (хоть и с некоторой потерей качества) в пользу метода случайных полей. V. В отчетном году теория риторических структур (ТРС) была впервые применена для реконструкции структуры рассуждения, представленной в стихотворном тексте. Аналогичных исследований стихотворных текстов на материале русского или иных языков не найдено. Расширена эмпирическая база исследования возможностей выявления прагматических составляющих, необходимых для понимания текста (дополняющих его необходимыми пропозициями, снимающими различные виды неоднозначностей). Расширенный корпус имеет объём 5985 словоупотреблений. На его основе уточнена процедура построения структур текстов, проведён сравнительный анализ структур текстов разной временной и жанровой принадлежности. Для достижения этой цели проведен сопоставительный анализ схем, построенных на основе теории риторической структуры, с логическими формами, представляемым на языке пропозициональной логики, а также разработаны конструктивные и единообразно применяемые критерии установления структурных отношений, уточнено множество используемых отношений, проанализированы закономерности сочетаемости отношений. На основе расширенного корпуса и уточнённой процедуры построения схем текстов проведено сравнение результатов анализа стихотворений раннего (1840-1851 гг.), среднего (1856-1859) и позднего (1862-1875 гг.) периодов творчества А. К. Толстого, произведено сравнение структуры собственных произведений А. К.Толстого и его переводов других авторов (Г. Гейне, А. Шенье). В дополнение к этому проанализированы фрагменты прозы А. К. Толстого: предисловие и эпилог романа «Князь Серебряный», письма В. М. Лазаревскому (1857-1865 гг.). Проведён сравнительный анализ структур поэтических и прозаических текстов А. К. Толстого.

 

Публикации

1. Барахнин В.Б., Кожемякина О.Ю., Борзилова Ю.С. Оптимизация SQL-запросов на примере работы поискового модуля системы комплексного анализа художественных текстов Cloud of Science, С.749-763 (год публикации - 2020)

2. Барахнин В.Б., Кожемякина О.Ю., Пастушков И.С. The effective interaction of the models of classification with the usage of auction heuristics Journal of Physics: Conference Series., Vol.1727 (год публикации - 2020)

3. Барахнин В.Б., Кожемякина О.Ю., Пастушков И.С., Кузнецова И.В., Борзилова Ю.С. Усовершенствования алгоритма автоматизированного определения рифмы ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ И НАНОТЕХНОЛОГИИ (ИТНТ-2020) Сборник трудов по материалам VI Международной конференции и молодежной школы. В 4-х томах., С.344-350 (год публикации - 2020)

4. Барахнин В.Б., Кожемякина О.Ю., Пастушков И.С., Кузнецова И.В., Борзилова Ю.С. Improvement of the algorithm of automated definition of rhyme CEUR Workshop Proceedings, С.36-41 (год публикации - 2020)

5. Мосолова А.В. The algorithm of automatic accentuation with respect to the speaking norm of a given author CEUR Workshop Proceedings, - (год публикации - 2020)

6. Тимофеева М.К. Теория риторической структуры как инструмент анализа стихотворных текстов Вестник ТГУ. Филология, - (год публикации - 2020) https://doi.org/10.17223/19986645/68/6

7. Тимофеева М.К. Опыт использования теории риторической структуры для представления логико-когнитивной организации поэтического текста Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация, Том 18. Выпуск 2. С.28–45 (год публикации - 2020) https://doi.org/10.25205/1818-7935-2020-18-2-28-45

8. Тимофеева М.К. Когнитивная структура поэтического текста Когнитивные исследования языка, № 2 (41), С.760-764 (год публикации - 2020)

9. Барахнин В.Б., Кожемякина О.Ю., Борзилова Ю.С. Русские поэтические тексты и их комплексные стиховедческие метаданные -, № 2020621889 (год публикации - )

10. Барахнин В.Б., Кожемякина О.Ю., Кузнецова И.В. Программа автоматического анализа метроритмических характеристик поэтических текстов на русском языке -, № 2020663072 (год публикации - )

11. - Сибирские ученые создали алгоритм для перевода старой орфографии в современную Наука в Сибири, 2020, 19 марта, N 10 (3221), c.6-7 (год публикации - )

12. - Алгоритмы гармонии Поиск, 2020, 20 июня, N 26 (1620), c.8-9 (год публикации - )

13. - Сибирские ученые разработали алгоритм перевода дореволюционных изданий на современную русскую орфографию Интерфакс-Образование, - (год публикации - )

14. - Сибирские ученые научились переводить старую орфографию в современную National Geographic Россия, - (год публикации - )


Аннотация результатов, полученных в 2021 году
I. В процессе создания метрических и строфических справочников, конкордансов и статистических словарей, описывающих произведения А.К.Толстого и И.Ф.Анненского, выяснилось, что обработка больших корпусов поэтических текстов на действующей программной платформе, созданной еще в 2014 году с использованием языка программирования PHP, весьма затруднительна, так как PHP не создавался как язык процедурного программирования и изначально являлся скриптовым языком, встраиваемым в html-страницы, что весьма ограничивает возможность его использования для реализации сложных алгоритмов, которые в течение двух первых лет выполнения проекта были реализованы на более современном языке программирования Python 3. В связи с этим, одной из важнейших задач 3-го года выполнения проекта стало объединение модулей системы комплексного анализа поэтических текстов в единую систему. Для решения этой задачи была осуществлена миграция базового модуля управления корпусом поэтических текстов с языка программирования PHP на объектно-ориентированный язык программирования Python 3 с использованием библиотеки объектно-реляционного отображения данных и программной платформы Flask. В целях последующего объединения модулей системы комплексного анализа поэтических текстов в единую систему произведено объединение баз данных вышеописанных модуля корпусного анализа и модуля конкордансов. Проведена работа по сборке информационной системы, т.е. объединению отдельных модулей в целостную систему, работающих с одной базой данных. Был реализован новый интерфейс, позволяющий организовать удобную работу с модулями системы. Переработано 70% всех созданных ранее шаблонов для достижения однообразия интерфейсов модулей. С использованием описанного модуля конкордации и модуля определения метрических и строфических справочников были созданы метрические и строфические справочники, конкордансы и статистические словари, описывающие произведения А.К.Толстого и И.Ф.Анненского. С этой целью в базу данных было занесено 275 стихотворений А.К.Толстого и 236 стихотворений И.Ф.Анненского. Конкорданс произведений А.К.Толстого содержит 54979 слов, произведений И.Ф.Анненского - 19345 слов. Словарь поэтического языка А.К.Толстого содержит 9361 уникальных лексем, произведений И.Ф.Анненского – 4572 уникальных лексем. В автоматизированном режиме получены также основные таблицы метроритмических и строфических справочников произведений А.К.Толстого и И.Ф.Анненского, в настоящее время проводится корректировка этих справочников экспертами. II. Была проведена оценка влияния характеристик нижнего уровня стихотворений (статистического и семантического) на их характеристики высшего уровня, прежде всего, на авторский стиль. При решении этой задачи были применены современные методы машинного обучения. Для получения матрицы “объекты-признаки” использовалась модель текста TF-IDF. Для классификации применялись ансамблевые методы на основе решающих деревьев, нейросети, а также метод опорных векторов и логистическая регрессия. Эти методы требуют данных для сопоставления и выявления признаков, характеризующих авторский стиль, поэтому задача была сформулирована как задача бинарной классификации, в которой выделялись два класса: стихотворения А.С. Пушкина, и стихотворения других поэтов пушкинской эпохи: К.Н. Батюшкова, Е.А. Боратынского, П.А. Вяземского, Н.И. Гнедича, Д.В. Давыдова, А.А. Дельвига и В.А. Жуковского. В рамках исследования выделены следующие группы признаков, связанных с характеристиками нижнего уровня, которые активно влияют на такой признак высшего уровня, как авторский стиль: - распределение по частям речи и отношениям, - частоты знаков препинания, - слова и их n-граммы, - служебные слова, -буквы и другие символы, а также их n-граммы, - метроритмические признаки. Самую эффективную классификацию по рассмотренным группам признаков удалось получить по 2-, 3- и 4-граммам знаков, классификация только по буквам и пробелам проигрывает классификации по знакам по точности. На следующем месте располагается классификация по словам. Все перечисленные классификации показали величину площади под кривой ошибок (AUC ROC) больше 0.8, но при этом количество признаков классификации в них исчислялось тысячами и десятками тысяч. Следующей по качеству оказалась группа из знаков пунктуации, в которой всего 11 признаков. Необходимо отметить, что знаки пунктуации в значительной степени отражают эмоциональную окраску поэтического произведения. Этот факт подтверждается и качеством классификации по знакам пунктуации, но в большей степени тем, что знаки препинания (часто с окружающими их пробелами) стали важнейшими признаками классификации по знакам, что описано в соответствующем разделе. Самое низкое качество продемонстрировали классификации по отношениям и метроритмическим признакам. Необходимо отметить, что распределение по отношениям далеко не в полной мере характеризует особенности предложений, предпочтение автором определенных языковых конструкций и вообще не отражает изменения в порядке слов, характерные для стихотворных произведений, что безусловно важно для описания авторского стиля. Наши попытки построить признаки классификации на основе анализа деревьев разбора предложений пока не принесли интересных результатов, но тема эта чрезвычайна интересна, и работы в этом направлении будут продолжены. Лучшая из построенных классификаций включила в себя все выбранные группы признаков: 2-, 3- и 4-граммы знаков, слова, знаки пунктуации, отношения и метроритмические признаки, при этом очевидно, что существуют непустые попарные пересечения признаков в этих группах. В дальнейшем планируется аналогичное исследование стилеметрических показателей с использование фонетических признаков, а также основе контекстов слов. III. На материале построенного корпуса проведён сравнительный анализ структур рассуждений в текстах разных типов. Выявлены особенности употребительности риторических отношений, характерные для текстов А. К. Толстого, К.К. Случевского, И.Ф. Анненского. Анализ авторских особенностей трёх поэтов (А. К. Толстого, К.К. Случевского, И.Ф. Анненского) состоял в сравнении спектров частот отдельных риторических отношений в текстах данных авторов, а также частот использования определённых группировок таких отношений. Анализ спектров частот отдельных отношений показал, что стихотворения А.К. Толстого более всего характеризуются частотностью конъюнкций, тексты К.К. Случевского – частотностью отношений Contrast и Comparison, тексты И.Ф. Анненского – частотностью отношений Elaboration и Circumstance. С этими результатами коррелирует сравнение вероятностей появления каждого отношения в стихотворных текстах каждого автора. Тексты А.К. Толстого отличаются от текстов остальных двух авторов наибольшими вероятностями появления отношений Conjunction, Background, Content, Justify, тексты К.К. Случевского – наибольшими вероятностями появления отношений Evaluation, Contrast, Comparison, Appeal, Evidence, тексты И.Ф. Анненского – наибольшими вероятностями появления отношений Circumstance, Negation, Attitude. Названные отношения наиболее равномерно распределены по поэтическим текстам соответствующего автора (по сравнению с другими двумя поэтами). Использованы три типа группировки отношений: 1) по максимумам частотности: в одну группу объединены все отношения, которые достигают максимума на текстах рассматриваемого автора (отношения с частотностью менее 2% не учитывались); 2) по семантическому сходству: в одну группу объединены отношения со сходной семантикой; 3) по субъективности / объективности: к одной группе отнесены отношения, характеризуемые авторами ТРС как субъективные отношения-воздействия (presentational relations), к другой группе – отношения, характеризуемые авторами ТРС как объективные предметные отношения (subject matter relations). Группировка отношений по максимуму частотности показала, что в текстах А.К. Толстого максимума достигают отношения Conjunction, Preparation, Sequence, Non-volutional result, в текстах К.К. Случевского – Evaluation, Contrast, Non-volutional cause, Comparison, Evidence, Attitude, в текстах И.Ф. Анненского – Elaboration, Circumstance, Negation, Content. При группировке отношений по их семантическому сходству рассмотрены следующие объединения отношений: 1. Отношения-убеждения: Evidence, Concession, Justify, Antithesis; 2. Мотивирующие отношения: Appeal, Warning, Attitude, Motivation, Promise, Directive; 3. Текстовые отношения: Restatement, Summary; 4. Детализирующие отношения: Background, Elaboration, Preparation; 5. Сопоставительные отношения: Evaluation, Contrast, Comparison, Interpretation; 6. Дескриптивные отношения: Conjunction, Circumstance, Sequence, Negation, Solutionhood, Content, Joint, Disjunction, Otherwise; 7. Каузальные отношения: Volitional cause, Non-volitional cause, Volitional result, Non-volitional result, Purpose, Condition. Сравнения показали, что для разграничения стилей рассуждения в поэтических произведениях трёх авторов наиболее информативны сопоставительные отношения. Для разграничения стилей рассуждения А.К. Толстого, реализуемых в его собственных стихотворениях, в его переводах стихотворений других поэтов и в его прозе, наиболее значимыми оказались мотивирующие, дескриптивные и каузальные отношения. Сравнительный анализ двух периодов творчества А. К. Толстого и К.К. Случевского позволил выявить изменения в употребительности риторических отношений. Частотность дескриптивных отношений снижается с течением времени у обоих поэтов, а частотность сопоставительных отношений, напротив, возрастает. Для детализирующих отношений изменения различны: в стихотворениях А.К. Толстого их частотность со временем растёт, а в стихотворениях К.К. Случевского – снижается. Сравнительный анализ группировки третьего типа (по субъективности / объективности) не выявил значительных различий в употребительности данных двух типов риторических отношений в текстах трёх авторов. Для всех проанализированных типов текстов характерна меньшая употребительность объективных отношений по сравнению с субъективными (26-32% против 68-74%). При этом крайниe точки (минимум объективности и максимум субъективности) проявились в рассуждениях, реализованных в стихотворениях И.Ф. Анненского.

 

Публикации

1. Барахнин В., Кожемякина О., Ревун А., Шашок Н. Технологические особенности кросс-языкового переноса с PHP на Python программных продуктов, работающих с интенсивными данными CEUR Workshop Proceedings., V. 3036. – P. 411-421. (год публикации - 2021)

2. Барахнин В.Б., Кожемякина О.Ю., Кузнецова И.В., Карпова (Миронова) В.А. Модель фактуры русских поэтических текстов Вычислительные технологии., Т. 26. – № 3. – С. 107-117. (год публикации - 2021) https://doi.org/10.25743/ICT.2021.26.3.007

3. Тимофеева М. К. Сравнительный анализ структур рассуждений в русской классической поэзии Applied Sciences., Vol.11. – Iss. 18. – Art.31. (год публикации - 2021) https://doi.org/10.3390/app11188665

4. Тимофеева М.К. От структуры текста к структуре мысли Магия ИННО: лингвистика и лингводидактика в меняющейся системе координат: электронный сборник научных трудов., С. 55-60. (год публикации - 2021)

5. Барахнин В.Б., Кожемякина О.Ю., Карпова (Миронова) В.А., Кузнецова И.В. Программа определения фактур русских поэтических текстов -, 2021664226 (год публикации - )


Возможность практического использования результатов
Результаты проекта могут быть использованы исследователями-филологами для автоматизации процесса составления конкордансов, словарей языка, метроритмических и строфических справочников.