КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 22-68-00066

НазваниеКультурное наследие России: интеллектуальный анализ и тематическое моделирование корпуса рукописных текстов

РуководительБолтунова Екатерина Михайловна, Кандидат исторических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет "Высшая школа экономики", г Москва

Период выполнения при поддержке РНФ 2022 г. - 2025 г. 

Конкурс№75 - Конкурс 2022 года «Проведение фундаментальных научных исследований и поисковых научных исследований по поручениям (указаниям) Президента Российской Федерации» (междисциплинарные проекты).

Область знания, основной код классификатора 08 - Гуманитарные и социальные науки, 08-110 - Вспомогательные исторические дисциплины

Ключевые словаКультурное наследие России XVIII – ХХ вв., рукописные тексты, растровые изображения, интеллектуальный анализ данных, тематическое моделирование, графический анализ, автоматизация, навигация, поисковая система

Код ГРНТИ03.81.37


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Рукописные тексты представляют собой фундаментальную часть человеческой культуры. В музеях, архивах, институтах и библиотеках России находится значительный корпус не введенных в широкий научных оборот рукописных памятников. Особую актуальность это приобретает по отношению к памятникам русской культуры конца XVIII – середины ХХ вв., 80 % которых до настоящего времени не только не опубликовано, но и не расшифровано. В настоящее время подавляющее количество гуманитарных исследований рукописных документов предполагает извлечении информации из этих источников вручную, в процессе расшифровки и подготовки текста к научной публикации. Несмотря на точечную результативность, для корпуса архивных материалов подобного объема приведенная организация работ неэффективна и закономерно приводит к тиражированию и анализу одного и того же набора текстов. Создание современной методики анализа информации, потенциально содержащейся в рукописных документах, является крайне актуальной научно-исследовательской задачей. Для решения этой задачи на современном научном уровне необходимо обратиться к междисциплинарным исследованиям, применяющих методы новейших разработок в сфере искусственного интеллекта – тематическое моделирование и интеллектуальный анализ данных – к задачам таких традиционно-гуманитарных дисциплин, как источниковедение и текстология. В рамках настоящего проекта предлагается разработать систему автоматизированной навигации по рукописному тексту, предоставляющей пользователю данные о тематике, составе и структуре нерасшифрованной рукописи, а также осуществляющей моделирование корпуса рукописных текстов по запросу исследователя. В отличие от наиболее популярных подходов (распознавание всех символов текста, не реализуемое в настоящее время программным обеспечением любого класса), новая методика интеллектуального анализа данных сосредоточена на исследовании графических элементов. Графический анализ таких основных элементов поисковой системы как ключевые слова (сходство изображений-слов как растровых паттернов) в комбинации с дополнительными элементами (выделение области даты и места создания, форма, размеры и расположение обращения, подписи, заголовка, расположение пунктуационных знаков и даже строфика) позволит перейти от графики к семантике и, исходя из их сочетания, сделать выводы о составе и содержании рукописного источника. При использовании системы автоматизированной навигации поиск нужной информации в растровом массиве нераспознанного текста будет занимать не месяцы и годы гуманитарных исследований, а несколько минут. В предлагаемом исследовании ряд задач будет решен методами гуманитарных наук (графическая, синтаксическая и семантическая классификация текста), ряд – методами интеллектуального анализа данных (распознавание образов, навигация, кластеризация, анализ связей между компонентами текста). В качестве объектов изучения будет использован корпус высококачественных цифровых копий историко-литературных документов времени расцвета русской письменной культуры конца XVIII – середины XX вв., имеющих четко выраженную иерархическую и графическую организацию: письма, дневниковые записи, мемуары, записные книжки и рабочие тетради, оригиналы которых находятся в архивах России. Существенной предпосылкой для проведения корпусных исследований рукописных документов стало растущее внимание к национальному наследию России и активная цифровая реконструкция историко-документальных комплексов, обеспечивающая возможность удаленного анализа данных. Предлагаемое научное исследование в полной мере соответствует пункту Н1 Стратегии научно-технического развития Российской Федерации «Переход к передовым цифровым, интеллектуальным производственным технологиям, роботизированным системам, новым материалам и способам конструирования, создание систем обработки больших объемов данных, машинного обучения и искусственного интеллекта».

Ожидаемые результаты
Результаты проекта, достигнутые благодаря использованию междисциплинарных подходов: 1. Разработана и запатентована программа по работе с неструктурированными массивами данных, обеспечивающая при компьютерной реализации в автоматическом и полуавтоматическом режиме управление корпусом растровых изображений рукописных документов: тематический поиск, определение характеристик документа и моделирование корпуса рукописных источников по заданным параметрам. Выполнено тестирование, получены авторитетные экспертные заключения. Программа предназначена для практической работы в научно-исследовательском (формирование источниковой базы гуманитарных исследований) и архивно-музейном комплексе (составление описей и справочной информации о новых/ранее неописанных собраниях и коллекциях культурного наследия конца XVIII – середины XX вв., находящихся на государственном хранении Российской Федерации). 2. Результаты исследования, а также связанные с ними вопросы интеллектуального анализа рукописных источников будут отражены в цикле из 30 научных статей. 20 аналитических статей будут опубликованных в ведущих рецензируемых журналах мира, в том числе входящих в 1-2 квартили перечней WOS и Scopus. 3. В ведущих изданиях по популяризации науки опубликован цикл статей, посвященных социальному и инновационному значению результатов проекта (сохранению и актуализации в обществе культурного наследия России вкладу в развитие общества, расширению междисциплинарных и межрегиональных научных контактов). 3 статьи. Результаты по работам партнеров: Томск (ТГУ) Разработана методика и выполнена графическая, синтаксическая и семантическая классификация рукописных текстов конца XVIII - первой половины XIX века. На базе архивного собрания Научной библиотеки Томского государственного университета выполнена цифровая реконструкция наследия В.А. Жуковского (в первую очередь - корпус эпистолярных материалов: уникальная переписка В.А. Жуковского с цензором А.В. Никитенко). На примере цифровой реконструкции документального наследия В.А. Жуковского исследована классификация рукописных текстов конца XVIII – первой половины XIX столетия. Москва (НИУ ВШЭ, ВМК МГУ) На основе корпуса рукописного наследия А.В. Сухово-Кобылина, А.П. Чехова, Б.Л. Пастернака, М.И. Цветаевой, М.А. Зощенко, М.А. Булгакова, И.Э. Бабеля (записные книжки, рабочие тетради, эпистолярный корпус) разработана методика и выполнена графическая, синтаксическая и семантическая классификация рукописных текстов второй половины XIX – середины XХ вв. Используя цифровые корпусы материалов ГА РФ и РГВИА выполнена графическая, синтаксическая и семантическая классификация автодокументальных источников конца XVIII – середины XХ века (дневники, мемуаристика). Разработаны методы распознавания рукописного текста указанного периода на основе непрерывных морфологических моделей и машинного обучения. Разработаны методы поиска ключевых слов и форматированных фрагментов текста в цифровых изображениях рукописных архивных документов. Разработаны методы навигации в оцифрованных архивных документах при выполнении поисковых запросов.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2022 году
В результате работы по проекту 2022 г. была проведена цифровая реконструкция корпуса архивных источников личного происхождения (мемуары, дневники, переписка, а также публичные речи и выступления) и рукописных материалов ряда представителей русской литературы XIX – начала XX вв. (приоритетное значение имели материалы рукописного наследия В. А. Жуковского, а также А. В. Сухово-Кобылина, И. А. Бунина и Б. Л. Пастернака). В общей сложности исследовательская группа смогла обработать более 23 000 цифровых копий. Научный коллектив разработал исходную модель графической, синтаксической и семантической классификация рукописных текстов для работы в системах интеллектуального анализа растровых изображений. На основании проведенного анализа указанной оцифрованной базы документов было разработано несколько тестовых задачи (в частности, по материалам коллективных писем родственников В. А. Жуковского и по материалам писем политических заключенных Смоленской каторжной тюрьмы), обеспеченных несколькими сотнями цифровых изображений. Разработка тестовых заданий имела целью, с одной стороны, фиксацию конкретных целей и задач, стоящих перед группами историков и филологов, но затрудненных для реализации в рамках использования классических методов и приемов работы с текстом. С другой стороны, предложенные тестовые задачи и отобранные для их решения цифровые образы рукописных текстов имели целью предоставить возможности для работы группы математиков, задействованных в проекте. Разработка на представленном локальном уровне программных инструментов будет впоследствии использоваться для анализа более значительного материала. Широкой перспективой здесь является создание библиотеки цифровых образцов почерка XVIII–XIX вв., что позволит в режиме автоматической обработки растровых изображений выявлять рукописи, принадлежащие потенциально перу конкретных авторов и/или идентифицировать содержание текстов указанного периода на основе выявления ключевых слов. Группа математиков из состав исследовательского коллектива разработала концепцию адаптации алгоритмов построения непрерывных морфологических моделей применительно к особенностям сложных цифровых изображений рукописного текста; провела первые эксперименты с алгоритмами реконструкции траектории движения пера, штриховой сегментации и выделения графем, распознавания рукописного текста по восстановленной траектории пера, распознавания рукописного текста по кортежам графем и подготовила несколько коллекций входных изображений для вычислительных экспериментов с алгоритмами сегментации и распознавания рукописных текстов. Исследовательский коллектив подготовил 6 аналитических исследований, в том числе 4, входящих в перечни WOS/Scopus и представил результаты работы в научном сообществе и в широком публичном пространстве. Для презентации итогов работы был создан сайт проекта (в домене НИУ ВШЭ), на котором публикуются новости как о текущей работе научного коллектива, так и данные о достигнутых результатах – https://www.hse.ru/rrh/culturalheritage/

 

Публикации

1. Болтунова Е.М. Региональная история России: исследовательское поле и архивная практика (1990-е – начало 2020-х гг.) Новое литературное обозрение, - (год публикации - 2022)

2. Киселев В.С., Лебедева О.Б., Третьяков Е.О. Проблемы графической, синтаксической и семантической классификации рукописных документов рубежа XVIII – XIX веков из российских архивов: возможности машинного анализа данных (на материале коллективных писем к В.А. Жуковскому) Имагология и компаративистика, - (год публикации - 2023)

3. Пенская Е.Н., Хачатурян Л.В. Литературное наследие XIX – XX веков: классификация растровых изображений для интеллектуального анализа и тематического моделирования корпуса рукописных текстов Филологические науки. Научные доклады высшей школы, - (год публикации - 2023)

4. Пискунова Е. Isaak Babel's diaries and his-documents as an element of theatrical style Slavicum Press. Laboratory of Slavic Studies, - (год публикации - 2023)


Аннотация результатов, полученных в 2023 году
В результате работы по проекту «Культурное наследие России: интеллектуальный анализ и тематическое моделирование корпуса рукописных текстов» в 2023 г. были достигнуты следующие результаты. Во-первых, выполнена цифровая реконструкция корпуса рукописного наследия конца XVIII – середины XX вв. На основе базы данных, собранной в центральных и региональных архивохранилищах, и включающей в себя источники личного происхождения (мемуары, дневники, переписку), образцы политической риторики, рукописное наследие писателей и поэтов указанного периода, была создана рабочая модель графической, синтаксической и семантической классификации рукописных текстов для последующего машинного анализа данных. Во-вторых, разработаны математические методы и алгоритмы для решения прикладных задач анализа и распознавания рукописных текстов в интересах гуманитарных исследований архивных документов в области исторических и филологических наук, включающие в себя (1) метод штриховой сегментации для анализа структуры рукописного текста, состоящий в представлении изображения текста в виде совокупности каллиграфических элементов – штрихов; (2) два метода сравнения и классификации штрихов рукописного текста: на основе Фурье-дескриптора и на основе расстояния Фреше; (3) робастный метод построения скелетных графов для изображений рукописных документов большого формата с высоким разрешением; (4) метод решения задачи распознавания рукописного текста на основе штриховой сегментации, состоящий в реконструкции всей траектории пера по штриховому представлению с последующим распознаванием этой траектории с помощью нейросети; (5) методы распознавания разметки рукописных документов – удаления фона, выделения страниц и строк, устранения геометрических искажений; (6) нейросетевые методы черновой расшифровки рукописных текстов по изображениям страниц документов; (7) методы поиска ключевых слов (нарративов) по черновой расшифровке рукописных текстов. Методы 1–3 носят фундаментальный характер, они предназначены для использования при решении разных прикладных задач в рамках изучения текстов всех авторов. Применение метода 4 выполнено для массива писем из архива В. А. Жуковского при решении задачи идентификации корреспондентов по почерку. Метод 6 применен для массива каторжных писем смоленской тюрьмы и одного из томов дневника Ф. П. Литке. Результаты проекта были представлены на 10 российских или международных конференциях, а также на 2 воркшопах (расширенных семинарах). В процессе работы участники проекта подготовили и опубликовали 8 аналитических исследований. К числу наиболее значимых публикаций относятся: 1. Lomov N., Kropotov D., Stepochkin D., Laptev A. Handwritten Text Recognition and Browsing in Archive of Prisoners' Letters from Smolensk Convict Prison // Lecture Notes in Computer Science LNCS, 2024 (принята к печати); 2. Местецкий Л.М., Коптелов Д.А. Построение внутренней диаграммы Вороного многоугольной фигуры методом заметания // Программирование. 2024. № 4 (принята к печати); 3. Пронина Н. М., Местецкий Л. М. Классификация штрихов рукописного текста на основе расстояния Фреше // GraphiCon 2023: труды 33-й Международной конференции по компьютерной графике и машинному зрению (Москва, 19–21 сентября 2023 г.). М.: Институт прикладной математики им. М.В. Келдыша РАН, 2023. https://www.graphicon.ru/html/2023/papers/proceedings.pdf 4. Пенская Е.Н. «Дым и чад черновиков». Подходы к тематическому моделированию рукописных источников А.В. Сухово-Кобылина и родственных семейных кланов в российских архивах // Имагология и компаративистика. 2023. № 19. С. 213–233; 5. Болтунова Е.М., Лаптев А.К., Ломов Н.А. Каторга и рождение новой политической риторики: анализ корпуса писем политических заключенных начала ХХ века // Имагология и компаративистика. 2023. № 20. С. 294–314; 6. Киселев В.С. Письма неустановленных лиц к В.А. Жуковскому: возможности машинного анализа и атрибуции рукописных документов // Имагология и компаративистика. 2023. № 20. С. 232–246; Более подробная информация о результатах доступна на странице проекта - https://www.hse.ru/rrh/culturalheritage/ .

 

Публикации

1. Болтунова Е.М., Лаптев А.К., Ломов Н.А. Каторга и рождение новой политической риторики: анализ корпуса писем политических заключенных начала ХХ века Имагология и компаративистика, № 20. С. 294–314 (год публикации - 2023) https://doi.org/10.17223/24099554/20/15

2. Киселев В.С. Письма неустановленных лиц к В.А. Жуковскому: возможности машинного анализа и атрибуции рукописных документов Имагология и компаративистика, № 20. С. 232–246 (год публикации - 2023) https://doi.org/10.17223/24099554/20/12

3. Киселев В.С., Лебедева О.Б, Третьяков Е.О. Проблема машинного выявления текстов с почерком определенного автора в составе больших баз данных растровых изображений рукописных документов (на основе опыта выявления писем В.А. Жуковского в делопроизводственных конволютах РГИА) Имагология и компаративистика, № 20. С. 247–262 (год публикации - 2023) https://doi.org/10.17223/24099554/20/13

4. Ломов Н., Кропотов Д., Степочкин Д., Лаптев А. Handwritten Text Recognition and Browsing in Archive of Prisoners’ Letters from Smolensk Convict Prison Lecture Notes in Computer Science, - (год публикации - 2024)

5. Местецкий Л.М., Коптелов Д.А. Построение внутренней диаграммы Вороного многоугольной фигуры методом заметания Программирование, - (год публикации - 2024)

6. Пенская Е.Н. «Дым и чад черновиков». Подходы к тематическому моделированию рукописных источников А.В. Сухово-Кобылина и родственных семейных кланов в российских архивах Имагология и компаративистика, № 19. С. 213–233 (год публикации - 2023) https://doi.org/10.17223/24099554/19/12

7. Пенская Е.Н. «…Она постоянно создавала себе миражи…»: алгоритмы описания литературного наследия Евгении Тур по архивным источникам Филологические науки, - (год публикации - 2024)

8. Пронина Н.М., Местецкий Л.М. Классификация штрихов рукописного текста на основе расстояния Фреше GraphiCon 2023: труды 33-й Междунар. конф. по компьютерной графике и машинному зрению (Москва, 19–21 сент. 2023 г.). М.: Институт прикладной математики им. М.В. Келдыша РАН, С. 492-502. (год публикации - 2023)

9. Лаптев А.К. Трудятся роботы, а не человек. Как нейронные сети могут помочь с анализом и изучением рукописных источников? Интернет-портал "Регионы России в исторической перспективе", 04.12.2023 (год публикации - 2023)

10. Пискунова Е. Цифровые архивы преобразуют гуманитарные науки. Рецензия на книгу: Archives, Access and Artificial Intelligence. Working with Born-Digital and Digitized Archival Collections (Ed. by Lise Jaillant). Bielefeld University Press, 2022. 224 pp. Московский книжный журнал, 09.11.2023 (год публикации - 2023)