КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 19-11-00281

НазваниеМоделирование контекстно-зависимых представлений слов для векторизации текстов в задачах информационного поиска

РуководительВоронцов Константин Вячеславович, Доктор физико-математических наук

Организация финансирования, регион Федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский технологический университет "МИСИС", г Москва

Период выполнения при поддержке РНФ 2019 г. - 2021 г. 

Конкурс№35 - Конкурс 2019 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами».

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-202 - Интеллектуальный анализ данных и распознавание образов

Ключевые словаинформационный поиск, контекстно-зависимые векторные представления слов, анализ текстов на естественном языке, интеллектуальный анализ данных, тематическое моделирование, разрешение лексической многозначности

Код ГРНТИ20.53.19


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
В последние годы модели векторных представлений слов активно используются в задачах анализа текстов и информационного поиска. Это связано с развитием нейросетевых методов обработки естественного языка, появлением новых вычислительно эффективных алгоритмов векторизации текстов, появлением свободно доступных векторных представлений слов, обученных по большим корпусам текстов, а также с постоянным ростом числа приложений. Основное свойство векторных представлений текста заключается в том, что семантически близким текстам соответствуют близкие векторы. Именно это свойство и обусловливает полезность векторных представлений в различных приложениях. Большинство существующих моделей являются контекстно-независимыми. Это означает, что каждое слово наделяется единственным векторным представлением, которое построено по большому корпусу текстов и не зависит от контекста употребления данного слова. Ограниченность данного подхода заключается в том, что он не учитывает многозначности (полисемии) слов естественного языка. Первые попытки построения контекстно-зависимых векторных представлений слов появились в литературе чуть больше года назад, и пока они имеют ряд технических несовершенств. Второе ограничение связано с тем, что координаты векторов не имеют содержательной интерпретации, несмотря на то, что вектор в целом отражает семантику слова. Ещё одно ограничение заключается в невозможности использовать мета-данные текстовых документов и другую дополнительную информацию в качестве обучающих данных для повышения качества векторных представлений. Существующие модели векторизации текстов не позволяют проводить контекстно-зависимое представление предложений с использованием методов обучения с учителем или без учителя. Кроме того, вопросы построения и применения моделей контекстно-зависимых представлений слов для векторизации текстов в задачах именно информационного поиска на данный момент исследованы не достаточно. Не существует устоявшейся методологии применения контекстно-зависимых векторных представлений слов для решения задач информационного поиска. Проект нацелен на снятие перечисленных ограничений, повышение качества моделей векторизации текстов и, в конечном итоге, на расширение класса решаемых задач текстовой аналитики. В частности, решение данной проблемы позволит повысить качество информационного поиска, качество систем диалогового интеллекта (чат-ботов), работающих на принципах информационного поиска. Кроме того, решение данной проблемы обеспечит повышение качества автоматической обработки естественного языка в целом, включая категоризацию, классификацию, сегментацию и суммаризацию текстов, проведение синтаксического анализа, выделение сущностей и поиск кореференций. В настоящее в время передовыми международными научными группами разрабатываются методы для контекстно-зависимого представления текстов в векторном пространстве, основанных на глубоком обучении с учителем (supervised), такие как CoVe (Context Vectors), ELMo (Embeddings from Language Model), разработанный в Allen Institute for Artificial Intelligence и BERT (Bidirectional Encoder Representations from Transformers), разработанный Google Research. Эти подходы, согласно публикациям, показывают себя на основных задачах анализа текста (например, анализ тональности, выделение именованных сущностей) лучше, чем контекстно-независимые методы. Однако, у них есть некоторые особенности, не позволяющие быстро и эффективно применять их для решения задач информационного поиска. Все эти методы являются методами обучения с учителем, то есть для их обучения необходимы большие размеченные массивы данных. Мы планируем сосредоточиться на более сложной задаче – исследовании методов контекстно-зависимого представления слов для векторизации текстов без учителя. Исследование будет сфокусировано на графовых подходах к выявлению смыслов слов (Word Sense Induction), методах обучения без учителя для получения контекстно-зависимого представления слов и алгоритмах вероятностного тематического моделирования (Probabilistic Topic Modeling) для построения интерпретируемых векторных представлений слов и тематической сегментации документов одновременно с извлечением их ключевых контекстов. За первый год работ планируется разработать модели тематических контекстно-зависимых векторных представлений слов и исследовать возможность извлечения ключевых контекстов документа. Ссылки на научную литературу по теме: 1. Le Q., Mikolov T. Distributed representations of sentences and documents //International Conference on Machine Learning. – 2014. – С. 1188-1196. 2. Kiros R. et al. Skip-thought vectors //Advances in neural information processing systems. – 2015. – С. 3294-3302. 3. Yang Z. et al. Hierarchical attention networks for document classification //Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. – 2016. – С. 1480-1489. 4. McCann B. et al. Learned in translation: Contextualized word vectors //Advances in Neural Information Processing Systems. – 2017. – С. 6294-6305. 5. Peters M. et al. Deep Contextualized Word Representations //Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). – 2018. – Т. 1. – С. 2227-2237. 6. Cera D. et al. Universal sentence encoder //arXiv preprint arXiv:1803.11175. – 2018. 7. Howard J., Ruder S. Universal language model fine-tuning for text classification //Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). – 2018. – Т. 1. – С. 328-339. 8. Radford A. et al. Improving language understanding by generative pre-training //OpenAI technical report. – 2018. 9. Devlin, Jacob, et al. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." arXiv preprint arXiv:1810.04805 (2018).

Ожидаемые результаты
В рамках выполнения проекта будут исследована возможность разработки следующих методов: 1. Методов извлечения ключевых контекстов документа. 2. Методов моделирования слов в тексте для получения контекстно-зависимого вектора слов. 3. Методов контекстно-зависимого представления слов для векторизации текстов в задачах информационного поиска. 4. Методов контекстно-зависимого представления слов без учителя для векторизации текстов в задачах информационного поиска Эти методы, в том числе их реализация, помогут продвинуться в повышении качества систем информационного поиска, систем диалогового интеллекта (чат-ботов) и других систем, которые имеют дело с различными задачами автоматической обработки естественного языка, такими как выделение сущностей, определение тональности, выделение семантически близких терминов и словосочетаний, и других задач текстовой аналитики. Также, в рамках проведения научного исследования будут исследованы: 1. Современные методы решения задач Word Sense Induction и Word Sense Disambiguation; 2. Современные методы тематического моделирования для построения тематических пространств и гиперболических нейросетевых методов для представления графов в векторном пространстве; 3. Возможности восстановления текста из опорных векторов и сегментов, а также восстановления ключевых смыслов из сегментов. 4. Эффективность работы существующих моделей получения контекстно-зависимого вектора слов. 5. Математический аппарат модели для построения контекстно-зависимого вектора для предложений. Полученные результаты будут соответствовать мировому уровню, т.к. для задач информационного поиска пока не существует достаточно проработанных методов контекстно-зависимого представления слов, особенно без учителя. В российском научном поле данные результаты будут получены впервые применительно к большим корпусам текстов на русском языке. Практическое использование результатов будет возможно во всех областях, где применяется информационный поиск. Кроме того, любые системы, где применяется автоматическая обработка естественного языка, смогут получить прирост качества при применении реализованных методов контекстно-зависимого представления слов без учителя.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2019 году
Было проведено исследование существующих методов решения задач Word Sense Induction, Word Sense Disambiguation. Проблемы обработки естественного языка Word Sense Induction (WSI) и Word Sense Disambiguation (WSD) все еще остаются нерешенными, хотя есть очевидные подвижки в их решении, особенно в направлениях кластеризации слов и контекстов, а также графовых методах. Было определено, что подход тематического моделирования и его современные методы актуальны для выделения ключевых контекстов документов, но при этом нейросетевые seq2seq архитектуры более генерализуемы при построении контекстно-зависимого векторного представления слов в рамках решения задач WSD и WSI. Это будет учтено в исследованиях следующего года. В рамках исследований 2019 года: - был сформирован метод дискриминации-агломерации соседних элементов (функционал регулятора сегментации метода ARTM) - была обучена информационно-поисковая модель ранжирования сегментов по важности, основанная на кластеризации тематических векторов методом k-средних и выделения ключевых кластеров методом TF-IDF. - была построена и обучена агломеративно-дискриминативная модель выделения сегментов текста. Использование тематической модели с регуляризатором сегментации в связке с методом TopicTiling даёт более качественные результаты в сегментации, чем TopicTiling и чистая тематическая модель. - был сформирован алгоритм восстановления текста из векторов ключевых сегментов и алгоритм возможности восстановления ключевых смыслов из сегментов. В результате первого года исследования выделение ключевых контекстов было реализовано за счет комбинирования метода аддитивной регуляризации тематических моделей с регуляризатором сегментации с методом TopicTiling для склеивания ключевых сегментов в ключевые контексты после их ранжирования по важности. В качестве тестовой выборки использовалась выборка из 125 документов, для каждого из которых асессорами была создана ручная аннотация, состоящая в среднем из 10 предложений. В качестве тестовых метрик применялись следующие метрики: • ROUGE-1 - пересечение униграмм между автоматической и созданной человеком аннотациями (summary). • ROUGE-2 - пересечение биграмм между автоматической и созданной человеком аннотациями (summary). В результате значение метрики ROUGE-1 составило 32.4 (при запланированном 30), а значение метрики ROUGE-2 составило 12.8 (при запланированном 13). Этот результат позволяет сделать вывод о фактической возможности автоматического извлечения ключевых контекстов в заданном документе с достаточным качеством, и может применяться для решения задач части информационного поиска, таких, как: - поиск не по документам, а по ключевым контекстам внутри документов; - автоматическое реферирование (summarization) найденного документа на поисковом сниппете. В процессе исследований 2019 года были опубликованы 4 научных работы, индексируемые в Scopus, и представленные на научно-практических конференциях CEUR, RANLP и HAIS.

 

Публикации

1. Алсу Зайнутдинова, Дина Писаревская, Максим Зубов, Илья Макаров Deception Detection in Online Media CEUR Workshop Proceedings, Vol-2479, p.121-127 (год публикации - 2019)

2. Анна Ларионова, Полина Казакова, Никита Никтиниский Deep Structured Semantic Model for Recommendations in E-commerce Lecture Notes in Computer Science, Volume 11734 LNAI, 2019, Pages 85-96 (год публикации - 2019) https://doi.org/10.1007/978-3-030-29859-3_8

3. Максим Еремеев, Константин Воронцов Lexical Quantile-Based Text Complexity Measure RANLP, Proceedings of Recent Advances in Natural Language Processing, pages 270–275 (год публикации - 2019)

4. Павел Зольников, Максим Зубов, Никита Никитинский, Илья Макаров Efficient Algorithms for Constructing Multiplex Networks Embedding CEUR Workshop Proceedings, Vol-2479, p. 57-67 (год публикации - 2019)


Аннотация результатов, полученных в 2020 году
Был проведен анализ применимости полученных в 2019 году результатов в разрезе получения контекстно-зависимых представлений слов. Исследователи пришли к выводу, что, хотя результаты 2019 года уже обладают практической применимостью в решении задач информационного поиска, они ограниченно полезны для решения конечной цели исследования - моделирования контекстно-зависимых представлений слов для векторизации текстов в задачах информационного поиска. Поэтому было принято решение изменить план работ на 2020 год в сторону работы с перспективными нейросетевыми архитектурами. Был проведен поиск и подготовка наборов открытых размеченных данных для обучения модели контекстно-зависимых векторных представлений слов для использования в downstream-задачах. Было найдено, обработано и подготовлено 6 датасетов - 4 датасета с частеречной и морфологической разметкой на русском языке и 2 датасета с разметкой по сущностям, общим объемом более 72 500 предложений (1 500 000 токенов). Датасеты содержат в себе набор текстов различных типов - проза, учебники, газетные статьи, онлайн новости, блоги и социальные сети, Википедия. Было проведено исследование и применение методов адаптации и фильтрации подготовленных наборов данных для дальнейшего обучения модели контекстно-зависимых векторных представлений слов. В результате наборы данных в рамках стандартного пайплайна предобработки были переформатированы в юникод и приведены в соответствие со стандартом Universal Dependencies Было проведено исследование современных multitask-моделей и полученных с их помощью контекстно-зависимых векторных представлений слов. В качестве наиболее перспективных были выбраны модели на основе архитектур Transformer и CNN/BiLSTM. Проведенный затем анализ возможностей генерализации моделей контекстно-зависимых векторных представлений слов для задач sequence tagging (включая NER, POS tagging) показал, что полученные из любой из вышеуказанных моделей контекстно-зависимые эмбеддинги без дополнительной подготовки могут применяться для прикладных задач sequence tagging (включая NER, POS tagging). Выполнены работы по построению модели и метода обучения контекстно-зависимых векторных представлений слов. Были разработаны и описаны два метода моделирования слов в тексте для получения контекстно-зависимого вектора слов, основанных на нейросетевых архитектурах Multilingual Bidirectional Self-Attention Transformer и более классической CNN. На основе этих методов были созданы две модели представления слов в тексте для получения контекстно-зависимого вектора слов. Над полученными моделями были проведены эксперименты. Был создан экспериментальный фреймворк для проведения экспериментов с обученными моделями в целях получения оптимального результата на выбранных downstream-задачах и на этом фреймворке проведены эксперименты с обученными моделями. Эксперименты проводились на моделях, настроенных в разных режимах - например, режим, в котором все слои и эмбеддинги модели замораживаются (т.е. не делаются обновления их весов при обучении на downstream-задачах), а обучается только линейный классификатор (линейный слой + активация softmax). В результате экспериментов на двух типах моделей выяснилось, что наилучшие результаты получаются на сильных моделях на основе архитектуры типа Multilingual Bidirectional Self-Attention Transformer. В частности, на большинстве задач лучше всего себя показала модель, настроенная в режиме FinetunedTransformer+BiLSTM. В данном режиме все эмбеддинги и 3 последних слоя модели разморожены. Модель дообучается на неразмеченных предложениях из всего корпуса датасетов в режиме MLM (Masked Language Modeling). Дообучение проводится с низкой скоростью обучения (learning rate) - 1e-5 в течение 5 эпох. После этого модель замораживается и обучается классификатор BiLSTM. Непосредственно результаты экспериментов multitask-моделей и полученных с их помощью контекстно-зависимых векторов слов показывают, что: Максимально достигнутая точность (accuracy) лемматизации на русском языке составила 98,72% (планировалось не менее 95% accuracy) при использовании модели FinetunedTransformer+BiLSTM Максимально достигнутая точность (accuracy) частеречной разметки на русском языке составила 98,62% (планировалось не менее 95% accuracy) при использовании модели FinetunedTransformer+BiLSTM. Максимально достигнутое качество (F1) распознавания сущностей составило 94,05% для имен, 92,27% для адресов и 80,81% для организаций. Лучшие модели здесь - FinetunedTransformer+BiLSTM и FrozenTransformer+BiLSTM. Отличие FrozenTransformer+BiLSTM от FinetunedTransformer+BiLSTM в том, что в данном режиме все слои и эмбеддинги модели замораживаются (т.е. не делаются обновления их весов при обучении на downstream-задачах), а обучается только классификатор BiLSTM. В результате экспериментов можно сделать несколько основных выводов: - Результаты более слабых CNN-моделей часто работают лучше, чем более сильные Transformer-модели, что вероятнее всего вызывается большим количеством данных, а это снижает преимущества от сильных моделей, особенно при отсутствии дообучения на конкретных предметных областях. - Тем не менее, очевидны лучшие результаты от использования сильных моделей на основе архитектур типа Transformer, поскольку они улучшают обобщаемость итоговых моделей даже если данных сравнительно мало. Имеет смысл продолжать исследования в сторону подобных подходов. - На основе результатов экспериментов легко предположить, что дообучение моделей на целевой предметной области в общем случае помогает улучшить точность в downstream-задачах. Таким образом, имеет смысл продолжать работы в сторону создания более domain-specific моделей. - Результаты второго года проекта в целом превышают заявленные, что говорит о перспективности выбранного на второй год проекта направления исследований по работе с современными нейросетевыми архитектурами. В процессе исследований 2020 года была опубликована научная работа (Named Entity Recognition from Chernobyl Documentaries) и представлена на научно-практической конференции MACSPro'2020.

 

Публикации

1. Даниил Тихомиров, Никита Никитинский, Илья Макаров Named Entity Recognition from Chernobyl Documentaries CEUR Workshop Proceedings, - (год публикации - 2020)


Аннотация результатов, полученных в 2021 году
Результаты исследований 2021 г. позволили обнаружить значительные преимущества архитектур Transformer для улучшения обобщающей способности эмбеддингов при отсутствии большого количества данных для обучения. Участниками коллектива проверялась гипотеза о повышении качества эмбеддингов при дополнительном обучение модели на целевой предметной области. В качестве предметной области выбрана область Legal tech как одно из наиболее динамично развивающихся направлений, сохраняющих запрос на непрерывную автоматизацию бизнес-решений и интеллектуальный анализ документов. При выборе оптимальной Transformer-ориентированной языковой модели было принято решение в пользу модели BERT (реализация RoBERTa) с введением ряда существенных модификаций (в том числе, значительное увеличение размера обучающего корпуса документов (до 300 Гб), увеличения количества активных модулей (heads) на каждом слое внимания (16 вместо 12), реализация слоя субдискретизации (pooling) для формирования итоговых эмбеддингов, оптимизации триплетных потерь для уменьшения расстояния между текстом запроса и целевым текстом (и увеличения расстояния между текстом запроса и нерелевантным текстом). По результатам проведенных экспериментов с оригинальной языковой моделью удалось добиться статистически значимого прироста качества относительно референсной модели RuBERT (прирост по метрике nDCG@5 составил 11.4%, по метрике nDCG@10 составил 15.2%.) Для устранения проблемы избыточной функциональности, возникающей при резервировании ресурсов на обучение глубоких нейросетевых моделей, а также для переносимости и ускорения модель проекта была конвертирована в формат ONNX; в качестве дополнительной меры по оптимизации вычислительных ресурсов была реализована (fp32-fp16) квантизация модели с итоговым приростом ускорения в 9.2 раза по сравнению с первоначальной реализацией. Для снижения вычислительной стоимости механизма внимания в языковой модели transformer (квадратичная в зависимости от длины входной последовательности) была выбрана архитектура Performer; после переноса весов предварительно обученной языковой модели в модель Performer удалось добиться ускорения обучения языковой модели в 2.7 раза.

 

Публикации

1. Любошников Е., Макаров И. Federated Learning in Named Entity Recognition Communications in Computer and Information Science, Том 1357 CCIS (год публикации - 2021) https://doi.org/10.1007/978-3-030-71214-3_8

2. Макаров И.А, Киселев Д, Никитинский Н. С., Субели Л. Survey on graph embeddings and their applications to machine learning problems on graphs PeerJ Computer Science, Том 7, Страницы 1 - 62 (год публикации - 2021) https://doi.org/10.7717/peerj-cs.357


Возможность практического использования результатов
В рамках текущего проекта участниками коллектива была предложена языковая модель, позволяющая, с учетом выбранной предметной области (юридический домен), эффективно реализовать сценарии поиска и анализа необходимой информации. Можно утверждать, что практическое использование полученных результатов напрямую связано с повышением скорости документооборота, качеством принимаемых решений и фактическим предоставлением знаний; например, для предприятий (частных лиц) существует потребность во взаимодействии корпоративных (личных) данных и правовой информации извне, в том числе: - информации, отражающей сведения о юридических рисках; - информации о научных исследованиях, патентах и технологической базе; научно-техническая информация включает документальную библиографическую, реферативную и полнотекстовую информацию для профильных специалистов; - сведений об изменениях в текущем законодательстве для актуализации нормативных требований; - новостной повестки. Учитывая указанные корпоративные потребности, предлагаемое решение обеспечивает: - необходимость получения формального ответа на соответствующий запрос; текстовая информация может содержать необходимую пользователю информацию, однако установление смысла текста, выделение ключевых фактов и семантических связей, в связи со свойствами естественного языка, до сих пор представляет собой сложную задачу. Однако, данная задача допускает решение в контексте конкретной предметной области, где определены классы объектов, их свойства и характер взаимосвязи; - необходимость адекватного отображения картины мира в соответствии с требованиями предметной области; отсутствие возможности по автоматической обработке и обобщению смыслового содержания документов приводит к принятию решений в условиях заведомой неполноты информации; - необходимость максимальной полноты поисковой выдачи; под полнотой поисковой выдачи способность предоставлять максимальное количество ссылок, релевантных данному запросу, под релевантностью понимается объективно существующее смысловое соответствие между содержанием документа и запроса. Полнота информации обеспечивает возможность определять ценность поступивших сведений и принимать оперативные решения.