КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер проекта 19-11-00281

НазваниеМоделирование контекстно-зависимых представлений слов для векторизации текстов в задачах информационного поиска

Руководитель Воронцов Константин Вячеславович, Доктор физико-математических наук

Организация финансирования, регион Федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский технологический университет "МИСИС" , г Москва

Конкурс №35 - Конкурс 2019 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами»

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-202 - Интеллектуальный анализ данных и распознавание образов

Ключевые слова информационный поиск, контекстно-зависимые векторные представления слов, анализ текстов на естественном языке, интеллектуальный анализ данных, тематическое моделирование, разрешение лексической многозначности

Код ГРНТИ20.53.19


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
В последние годы модели векторных представлений слов активно используются в задачах анализа текстов и информационного поиска. Это связано с развитием нейросетевых методов обработки естественного языка, появлением новых вычислительно эффективных алгоритмов векторизации текстов, появлением свободно доступных векторных представлений слов, обученных по большим корпусам текстов, а также с постоянным ростом числа приложений. Основное свойство векторных представлений текста заключается в том, что семантически близким текстам соответствуют близкие векторы. Именно это свойство и обусловливает полезность векторных представлений в различных приложениях. Большинство существующих моделей являются контекстно-независимыми. Это означает, что каждое слово наделяется единственным векторным представлением, которое построено по большому корпусу текстов и не зависит от контекста употребления данного слова. Ограниченность данного подхода заключается в том, что он не учитывает многозначности (полисемии) слов естественного языка. Первые попытки построения контекстно-зависимых векторных представлений слов появились в литературе чуть больше года назад, и пока они имеют ряд технических несовершенств. Второе ограничение связано с тем, что координаты векторов не имеют содержательной интерпретации, несмотря на то, что вектор в целом отражает семантику слова. Ещё одно ограничение заключается в невозможности использовать мета-данные текстовых документов и другую дополнительную информацию в качестве обучающих данных для повышения качества векторных представлений. Существующие модели векторизации текстов не позволяют проводить контекстно-зависимое представление предложений с использованием методов обучения с учителем или без учителя. Кроме того, вопросы построения и применения моделей контекстно-зависимых представлений слов для векторизации текстов в задачах именно информационного поиска на данный момент исследованы не достаточно. Не существует устоявшейся методологии применения контекстно-зависимых векторных представлений слов для решения задач информационного поиска. Проект нацелен на снятие перечисленных ограничений, повышение качества моделей векторизации текстов и, в конечном итоге, на расширение класса решаемых задач текстовой аналитики. В частности, решение данной проблемы позволит повысить качество информационного поиска, качество систем диалогового интеллекта (чат-ботов), работающих на принципах информационного поиска. Кроме того, решение данной проблемы обеспечит повышение качества автоматической обработки естественного языка в целом, включая категоризацию, классификацию, сегментацию и суммаризацию текстов, проведение синтаксического анализа, выделение сущностей и поиск кореференций. В настоящее в время передовыми международными научными группами разрабатываются методы для контекстно-зависимого представления текстов в векторном пространстве, основанных на глубоком обучении с учителем (supervised), такие как CoVe (Context Vectors), ELMo (Embeddings from Language Model), разработанный в Allen Institute for Artificial Intelligence и BERT (Bidirectional Encoder Representations from Transformers), разработанный Google Research. Эти подходы, согласно публикациям, показывают себя на основных задачах анализа текста (например, анализ тональности, выделение именованных сущностей) лучше, чем контекстно-независимые методы. Однако, у них есть некоторые особенности, не позволяющие быстро и эффективно применять их для решения задач информационного поиска. Все эти методы являются методами обучения с учителем, то есть для их обучения необходимы большие размеченные массивы данных. Мы планируем сосредоточиться на более сложной задаче – исследовании методов контекстно-зависимого представления слов для векторизации текстов без учителя. Исследование будет сфокусировано на графовых подходах к выявлению смыслов слов (Word Sense Induction), методах обучения без учителя для получения контекстно-зависимого представления слов и алгоритмах вероятностного тематического моделирования (Probabilistic Topic Modeling) для построения интерпретируемых векторных представлений слов и тематической сегментации документов одновременно с извлечением их ключевых контекстов. За первый год работ планируется разработать модели тематических контекстно-зависимых векторных представлений слов и исследовать возможность извлечения ключевых контекстов документа. Ссылки на научную литературу по теме: 1. Le Q., Mikolov T. Distributed representations of sentences and documents //International Conference on Machine Learning. – 2014. – С. 1188-1196. 2. Kiros R. et al. Skip-thought vectors //Advances in neural information processing systems. – 2015. – С. 3294-3302. 3. Yang Z. et al. Hierarchical attention networks for document classification //Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. – 2016. – С. 1480-1489. 4. McCann B. et al. Learned in translation: Contextualized word vectors //Advances in Neural Information Processing Systems. – 2017. – С. 6294-6305. 5. Peters M. et al. Deep Contextualized Word Representations //Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). – 2018. – Т. 1. – С. 2227-2237. 6. Cera D. et al. Universal sentence encoder //arXiv preprint arXiv:1803.11175. – 2018. 7. Howard J., Ruder S. Universal language model fine-tuning for text classification //Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). – 2018. – Т. 1. – С. 328-339. 8. Radford A. et al. Improving language understanding by generative pre-training //OpenAI technical report. – 2018. 9. Devlin, Jacob, et al. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." arXiv preprint arXiv:1810.04805 (2018).


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


 

Публикации

1. Анна Ларионова, Полина Казакова, Никита Никтиниский Deep Structured Semantic Model for Recommendations in E-commerce Lecture Notes in Computer Science, Volume 11734 LNAI, 2019, Pages 85-96 (год публикации - 2019)
10.1007/978-3-030-29859-3_8

2. Алсу Зайнутдинова, Дина Писаревская, Максим Зубов, Илья Макаров Deception Detection in Online Media CEUR Workshop Proceedings, Vol-2479, p.121-127 (год публикации - 2019)

3. Павел Зольников, Максим Зубов, Никита Никитинский, Илья Макаров Efficient Algorithms for Constructing Multiplex Networks Embedding CEUR Workshop Proceedings, Vol-2479, p. 57-67 (год публикации - 2019)

4. Максим Еремеев, Константин Воронцов Lexical Quantile-Based Text Complexity Measure RANLP, Proceedings of Recent Advances in Natural Language Processing, pages 270–275 (год публикации - 2019)

5. Даниил Тихомиров, Никита Никитинский, Илья Макаров Named Entity Recognition from Chernobyl Documentaries CEUR Workshop Proceedings (год публикации - 2020)

6. Макаров И.А, Киселев Д, Никитинский Н. С., Субели Л. Survey on graph embeddings and their applications to machine learning problems on graphs PeerJ Computer Science, Том 7, Страницы 1 - 62 (год публикации - 2021)
10.7717/peerj-cs.357

7. Любошников Е., Макаров И. Federated Learning in Named Entity Recognition Communications in Computer and Information Science, Том 1357 CCIS (год публикации - 2021)
10.1007/978-3-030-71214-3_8


 

Публикации

1. Анна Ларионова, Полина Казакова, Никита Никтиниский Deep Structured Semantic Model for Recommendations in E-commerce Lecture Notes in Computer Science, Volume 11734 LNAI, 2019, Pages 85-96 (год публикации - 2019)
10.1007/978-3-030-29859-3_8

2. Алсу Зайнутдинова, Дина Писаревская, Максим Зубов, Илья Макаров Deception Detection in Online Media CEUR Workshop Proceedings, Vol-2479, p.121-127 (год публикации - 2019)

3. Павел Зольников, Максим Зубов, Никита Никитинский, Илья Макаров Efficient Algorithms for Constructing Multiplex Networks Embedding CEUR Workshop Proceedings, Vol-2479, p. 57-67 (год публикации - 2019)

4. Максим Еремеев, Константин Воронцов Lexical Quantile-Based Text Complexity Measure RANLP, Proceedings of Recent Advances in Natural Language Processing, pages 270–275 (год публикации - 2019)

5. Даниил Тихомиров, Никита Никитинский, Илья Макаров Named Entity Recognition from Chernobyl Documentaries CEUR Workshop Proceedings (год публикации - 2020)

6. Макаров И.А, Киселев Д, Никитинский Н. С., Субели Л. Survey on graph embeddings and their applications to machine learning problems on graphs PeerJ Computer Science, Том 7, Страницы 1 - 62 (год публикации - 2021)
10.7717/peerj-cs.357

7. Любошников Е., Макаров И. Federated Learning in Named Entity Recognition Communications in Computer and Information Science, Том 1357 CCIS (год публикации - 2021)
10.1007/978-3-030-71214-3_8


 

Публикации

1. Анна Ларионова, Полина Казакова, Никита Никтиниский Deep Structured Semantic Model for Recommendations in E-commerce Lecture Notes in Computer Science, Volume 11734 LNAI, 2019, Pages 85-96 (год публикации - 2019)
10.1007/978-3-030-29859-3_8

2. Алсу Зайнутдинова, Дина Писаревская, Максим Зубов, Илья Макаров Deception Detection in Online Media CEUR Workshop Proceedings, Vol-2479, p.121-127 (год публикации - 2019)

3. Павел Зольников, Максим Зубов, Никита Никитинский, Илья Макаров Efficient Algorithms for Constructing Multiplex Networks Embedding CEUR Workshop Proceedings, Vol-2479, p. 57-67 (год публикации - 2019)

4. Максим Еремеев, Константин Воронцов Lexical Quantile-Based Text Complexity Measure RANLP, Proceedings of Recent Advances in Natural Language Processing, pages 270–275 (год публикации - 2019)

5. Даниил Тихомиров, Никита Никитинский, Илья Макаров Named Entity Recognition from Chernobyl Documentaries CEUR Workshop Proceedings (год публикации - 2020)

6. Макаров И.А, Киселев Д, Никитинский Н. С., Субели Л. Survey on graph embeddings and their applications to machine learning problems on graphs PeerJ Computer Science, Том 7, Страницы 1 - 62 (год публикации - 2021)
10.7717/peerj-cs.357

7. Любошников Е., Макаров И. Federated Learning in Named Entity Recognition Communications in Computer and Information Science, Том 1357 CCIS (год публикации - 2021)
10.1007/978-3-030-71214-3_8