КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 23-28-00750

НазваниеРазработка нового метода стилометрии на основе статистики использования числительных в авторских текстах

РуководительЗенков Андрей Вячеславович, Кандидат физико-математических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Уральский федеральный университет имени первого Президента России Б.Н. Ельцина", Свердловская обл

Период выполнения при поддержке РНФ 2023 г. - 2024 г. 

Конкурс№78 - Конкурс 2022 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами».

Область знания, основной код классификатора 08 - Гуманитарные и социальные науки, 08-454 - Текстология

Ключевые словаквантитативная лингвистика, компьютерная лингвистика, текстология, стилометрия, стилеметрия, атрибуция текстов, авторство текстов, числительные в тексте, первая значащая цифра, закон Бенфорда

Код ГРНТИ16.21.21


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Проект ставит своей целью развитие новых подходов к поиску авторского инварианта -- характерных (количественных) особенностей, свойственных всем или большинству текстов данного автора и отличающих его тексты от текстов других авторов. Будет развит новый метод статистического исследования авторского стиля связных текстов, в частности, для решения задачи атрибуции текстов. Этот метод основан на анализе встречаемости содержащихся в тексте числительных, а также подсчёте частот их первых значащих цифр. Предлагаемый подход дополняет существующие методы стилометрии, выгодно отличаясь от большинства из них возможностью содержательного лингвистического истолкования результатов. Проект является новаторским по своему характеру; авторский коллектив имеет мировой приоритет в разработке предлагаемого нового подхода к задачам стилометрии, что подтверждено публикациями в авторитетной рецензируемой научной печати. В результате реализации проекта будет развита новая методика решения задач стилометрии, в частности, определения авторства текстов, которую предполагается опробовать на нерешённых задачах стилометрии на некоторых индоевропейских языках. Попутно будут исследованы и смежные вопросы стилометрии, а именно эволюция авторского использования числительных на протяжении творческого пути авторов, влияние жанра, стиля и времени создания художественного текста на статистику числительных в нём. Это откроет новые возможности применения математических (статистических) методов в лингвистике.

Ожидаемые результаты
В результате реализации проекта будет развита предложенная нами новая методика определения авторства текстов, которую предполагается опробовать на нерешённых задачах стилометрии на некоторых индоевропейских языках. Попутно будут исследованы и смежные вопросы стилометрии, а именно эволюция авторского использования числительных на протяжении творческого пути авторов, влияние жанра, стиля и времени создания художественного текста на статистику употребления числительных в нём. Это откроет новые возможности применения статистических методов в квантитативной лингвистике и обогатит практику стилометрии.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2023 году
Новый подход к решению задач стилометрии в квантитативной лингвистике, развитию и применению которого посвящён настоящий проект, базируется на анализе статистики встречаемости числительных в авторских литературных текстах. Манера использования числительных, как было показано в предшествующих работах руководителя проекта с соавторами, индивидуальна для каждого писателя, благодаря чему, в частности, удаётся решать проблему атрибуции текстов. Как и всякий новый метод, в особенности, статистический, каковым является разрабатываемый нами метод, он нуждается в расширении доказательной базы и сопоставлении с традиционными стилометрическими практиками для проверки его возможностей. На достижение этих целей, в основном, и были направлены наши усилия в отчётном периоде -- первом году работы над проектом. Работа велась в двух главных направлениях. Во-первых, подведена широкая доказательная база под основное предположение нашего метода -- об устойчивости манеры использования числительных авторами в их литературных текстах. Для анализа были привлечены 18 англоязычных произведений четырёх авторов (Ч. Диккенс, У.М. Теккерей, Г.Дж. Уэллс, В.В. Набоков), 39 франкоязычных произведений семи авторов (Э. Золя, Г. де Мопассан, А. Доде, Ж. Верн, М. Пруст, А. Жид, Ф. Мориак), 35 русскоязычных произведений десяти авторов (Ф.М. Достоевский, Л.Н. Толстой, И.А. Гончаров, А.И. Герцен, Н.С. Лесков, И.С. Тургенев, И.А. Бунин, А.И. Куприн, Ф.К. Сологуб, М.П. Арцыбашев). Из текстов с помощью разработанных нами компьютерных программ извлекались числительные (количественные и порядковые, выраженные как числами, так и словесно в разных словоформах). Наборы числительных, выделенных из каждого текста, были подвергнуты иерархическому кластерному анализу, объединяющему произведения в группы (кластеры) по принципу сходства (в данном случае -- схожего использования числительных). Во всех случаях тексты одного авторства попадали в единый или близкие кластеры. Попутно обнаружена зависимость последовательности кластеризации от жанра и стиля произведений, от хронологии их появления в творческой биографии автора, от исторической эпохи, в которую жил и творил автор (См. прилагаемый рисунок в разделе "Файл с дополнительными материалами"). Ключевым вопросом для нашего стилометрического метода является возможность сознательных манипуляций со стороны автора художественного текста, направленных на изменение свойственного автору литературного стиля, что могло бы сказаться и на манере использования числительных. Если бы это было так, объективность и разрешающая способность нашего метода были бы сомнительны. Мы выполнили объёмный сопоставительный статистический анализ произведений авторов, публиковавшихся как под своим постоянным именем, так и под псевдонимами. Исследован фактически весь корпус крупных текстов Г.Ш. Чхартишвили и Р. Гари. Русскоязычный писатель, учёный-японист, литературовед, переводчик Г.Ш. Чхартишвили публикует небеллетристические тексты под своим настоящим именем, но в художественной литературе с 1998г. более известен под псевдонимом «Борис Акунин». С 2007г. начали публиковаться произведения под псевдонимами «Анатолий Брусникин» и «Анна Борисова». Впоследствии Чхартишвили признал авторство и этих произведений. Французский писатель Ромен Гари также был склонен к литературным мистификациям. Кроме произведений, опубликованных под именем «Ромен Гари» (которое само является псевдонимом), он публиковался также под именами «Эмиль Ажар», «Фоско Синибальди» и «Шатан Бога». Наконец, его первый роман "Вино мертвецов" (Le vin des morts, опубл. 1937) вышел под его подлинным именем «Роман Кацев». Единственный писатель, дважды получивший Гонкуровскую премию (впервые как Гари и повторно как Ажар), Р. Гари, по его собственным словам, оставил в текстах произведений «Ажара» много намёков, которые позволяли установить истинного автора, но литературная критика в большинстве своём оказалась слепа и намёков не распознала. Мы проанализировали употребление числительных в художественных произведениях Чхартишвили (18 текстов) и подвергли наборы числительных, выделенных из каждого текста, иерархическому кластерному анализу. То же было выполнено для 26 текстов Р. Гари (на французском языке). Для обоих авторов статистически значимые различия в использовании числительных между текстами, опубликованными под разными литературными именами, не обнаружены. Визуально наблюдаемые на дендрограммах сходство/различие между текстами (с точки зрения встречаемости числительных) подкреплены статистическим критерием согласия Пирсона, который также не выявил значимых различий между текстами одного авторства. Итак, добавочно подтверждено основное предположение, лежащее в основе нашего стилометрического метода: манера использования числительных является авторским инвариантом, она неизменна для каждого автора, и намерение автора писать "иначе" не может на неё воздействовать. Мы связываем это постоянство с психологическими особенностями авторов, которые, независимо от сознательного выбора, влияют на результаты творчества. Вторым направлением нашей работы в отчётном периоде явилось решение конкретных задач стилометрии на основе нового стилометрического метода. Давней проблемой литературоведения США является авторская самостоятельность Харпер Ли в написании романа "Убить пересмешника" (To Kill a Mockingbird, 1960), который является её единственным крупным литературным произведением. В 2015 году была издана её книга "Пойди, поставь сторожа" (Go Set a Watchman), которая была написана ранее романа "Убить пересмешника", но не была в своё время опубликована. По мнению критиков, это не отдельный роман, а лишь первоначальная версия романа "Убить пересмешника". Х. Ли была в многолетних дружеских отношениях с Труменом Капоте (1924–1984). Его многочисленные литературные и документальные произведения считаются литературной классикой. Неоднократно высказывались подозрения, что и роман "Убить пересмешника" мог написать тоже Капоте. Мы собрали данные по использованию числительных в (оригинальных англоязычных) текстах двух романов Х. Ли, а также основных произведениях Т. Капоте "Голоса травы" (The Grass Harp), "Рождественские воспоминания" (A Christmas Memory), "Завтрак у Тиффани" (Breakfast at Tiffany’s), "Услышанные молитвы" (Answered Prayers), "Летний круиз" (Summer Crossing), "Другие голоса, другие комнаты" (Other Voices, Other Rooms). Собранные данные были обработаны с помощью иерархического кластерного анализа. Дендрограмма показывает, что первоначальный вариант романа Х. Ли близок с точки зрения использования числительных романам Капоте, и, следовательно, Капоте мог повлиять на текст Х. Ли. В окончательном варианте – романе "Убить пересмешника" – влияние Т. Капоте, если таковое и было, менее существенно. Польские исследователи Choiński, Eder, Rybicki в недавней публикации, посвящённой авторству текстов Х. Ли, применяя иные методы, пришли к аналогичному выводу относительно влияния Т. Капоте на текст романа "Убить пересмешника" Х. Ли. Таким образом, результаты стилометрического анализа на основе статистики встречаемости числительных согласуются с результатами, полученными традиционными методами квантитативной лингвистики. Начато рассмотрение проблемы авторства книг, приписываемых Фулканелли, полулегендарному алхимику ХХ века. Под этим именем опубликованы книги "Le Mystère des Cathédrales" (Тайна готических соборов, 1929) и "Les Demeures Philosophales" (Философские обители, 1930). Он также якобы подготовил к публикации рукопись "Finis Gloriae Mundi", но книга 1999 года, носящая это название, считается подделкой. Наш предварительный анализ показывает, что первые два произведения, вероятно, имеют общее авторство, но третье произведение значимо отличается от первых двух с точки зрения употребления числительных.

 

Публикации

1. Зенков А. В. Литературные мистификации и авторское использование числительных Филологические науки. Вопросы теории и практики, Том 16. Выпуск 11, С. 3696-3709 (год публикации - 2023) https://doi.org/10.30853/phil20230568

2. Зенков А. В. Under a False Flag: Literary Hoaxes and the Use of Numerals Litera, 2023, № 10, С. 86 - 109 (год публикации - 2023) https://doi.org/10.25136/2409-8698.2023.10.68743

3. Зенков А.В., Ермаков Н.Е. Числительные в текстах как характерная особенность авторского стиля Russian Linguistic Bulletin, Выпуск № 9 (45), 2023 (год публикации - 2023) https://doi.org/10.18454/RULB.2023.45.28

4. Зенков А.В., Ермаков Н.Е., Зенков М.А. Поверить алгеброй гармонию: новый статистический метод стилометрии Инновационное развитие науки: фундаментальные и прикладные проблемы. – Петрозаводск : Международный центр научного партнерства «Новая Наука», 2023, Инновационное развитие науки: фундаментальные и прикладные проблемы. – Петрозаводск : Международный центр научного партнерства «Новая Наука», 2023. – С. 465-478. (год публикации - 2023) https://doi.org/10.46916/03042023-1-978-5-00174-921-9