КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер 22-21-00885

НазваниеРазработка и исследование метода генерации текстов с аргументацией

РуководительКотельников Евгений Вячеславович, Доктор технических наук

Организация финансирования, регион Федеральное государственное бюджетное образовательное учреждение высшего образования "Вятский государственный университет", Кировская обл

Период выполнения при поддержке РНФ

2022 г. - 2023 г.

Конкурс№64 - Конкурс 2021 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами».

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-518 - Системы текстового поиска, обработки и анализа естественного языка

Ключевые словаГенерация текста, аргументация, глубокое обучение, языковые модели, BERT, GPT

Код ГРНТИ20.19.27

СтатусУспешно завершен

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Проект направлен на решение проблемы автоматической управляемой генерации текстов на естественном языке, содержащих аргументы, поддерживающие или опровергающие заданную точку зрения относительно определенного целевого объекта. Актуальность исследования обусловлена существующим несоответствием между потребностью широкого круга пользователей в программных инструментах, позволяющих оперативно находить и раскрывать аргументы по заданной точке зрения и отсутствием соответствующих систем аргументационной поддержки, а также недостаточным уровнем исследованности проблемы, особенно для русского языка. В связи с этим в проекте решается задача разработки и исследования метода автоматической управляемой генерации русскоязычного текста, содержащего доводы для желаемой точки зрения относительно целевого объекта, указанного в заданном утверждении, на основе классификации аргументов и извлечения аспектов из существующих текстов. Научная новизна проекта заключается в следующем: 1) впервые будут разработаны глубокие русскоязычные нейросетевые модели: ArgBERT – для классификации аргументов, AspBERT – для извлечения аспектов, ArgGPT-3 – для генерации аргументативных текстов; 2) разработанные глубокие нейросетевые модели впервые предлагается использовать на всех этапах генерации текста, содержащего аргументы; 3) в проекте предлагается впервые разработать метод генерации аргументативных текстов для русского языка, в отличие от существующих работ, в которых исследования проводятся только для английского языка. Разработанные модели и метод предлагается экспериментально исследовать с использованием как существующих текстовых корпусов с аргументацией, так и созданных в ходе выполнения проекта.

Ожидаемые результаты
В проекте планируется получить следующие результаты: 1. Глубокая нейросетевая модель ArgBERT, позволяющая осуществлять классификацию текстов на три класса: «аргумент за», «аргумент против» и «не является аргументом». Модель планируется предоставить в общий доступ. 2. Глубокая нейросетевая модель AspBERT, позволяющая извлекать аспекты аргументации из текстов. Модель планируется предоставить в общий доступ. 3. Глубокая нейросетевая модель ArgGPT-3, позволяющая осуществлять управляемую генерацию аргументативных предложений. Модель планируется предоставить в общий доступ. 4. Размеченный текстовый корпус аспектов аргументации. Корпус планируется предоставить в общий доступ. 5. Размеченный текстовый корпус пар <управляющая последовательность – предложение>. Корпус планируется предоставить в общий доступ. 6. Метод автоматической управляемой генерации русскоязычного текста, содержащего аргументы. Указанные результаты внесут существенный вклад как в развитие теоретических основ генерации аргументационных текстов за счёт разработки и исследования новых нейросетевых моделей; так и в практическое применение разработанного метода управляемой генерации, который может быть использован для порождения аргументационных текстов в научных исследованиях, журналистике, юриспруденции, образовании, диалоговых системах и в других сферах. Таким образом, полученные результаты внесут важный вклад в решение задачи создания передовых программных систем в области машинного обучения и искусственного интеллекта, которая является составной частью направления Н1 Стратегии НТР РФ.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Аннотация результатов, полученных в 2022 году
В ходе выполнения проекта в 2022 году были получены следующие научные результаты. 1. Обучена нейросетевая языковая модель ArgBERT, позволяющая осуществлять бинарную классификацию предложений на «аргумент» / «не аргумент», а также нейросетевая языковая модель ArgBERT-premise для классификации аргументативных предложений, извлеченных моделью ArgBERT, на два класса: «аргумент за» / «аргумент против» (https://github.com/kotelnikov-ev/RuArgumentMining). 2. Обучена нейросетевая языковая модель AspBERT, позволяющая извлекать аспекты аргументации из текстов (https://github.com/kotelnikov-ev/RuArgumentMining). 3. Обучены модели Random Forest для семи аспектов аргументации («Безопасность», «Влияние на здоровье», «Влияние на психику», «Надежность», «Отношение властей», «Уровень жизни», «Эффективность») (https://github.com/kotelnikov-ev/RuArgumentMining). 4. Создан текстовый корпус, размеченный по аргументации, содержащий 5000 предложений из русскоязычной Википедии и корпуса новостей Lenta.ru (https://github.com/kotelnikov-ev/RuArgumentMining). 5. Предложен и исследован метод генерации аргументов на основе дообучения генеративной модели ruGPT-3 с использованием корпуса экономических новостей, автоматически размеченных по аргументации. Метод показал значительное повышение качества генерации доводов по сравнению с исходной моделью. 6. Размечен корпус из 800 предложений – потенциальных аргументов, сгенерированных нейросетевыми моделями (https://github.com/kotelnikov-ev/economic_argument_generation). 7. Предложен и исследован метод автоматической управляемой генерации текстов на русском языке Collocation2Text, не требующий процедуры дообучения, основанный на взаимодействии авторегрессионной языковой модели ruGPT-3 и автокодирующей языковой модели ruRoBERTa. Эксперименты по генерации новостных статей с использованием предложенного метода показали его эффективность для автоматического создания гладких текстов, содержащих связные переходы между заданными пользователем выражениями. 8. Исследованы нейросетевые языковые модели ruT5-large, ruT5-base, mBART, ruGPT3Large и ruGPT3Small в задаче абстрактивного реферирования, которые потенциально возможно применить для генерации аргументов. Сделаны выводы об особенностях исследованных моделей. 9. Организовано и проведено совместно с исследователями из МГУ им. М.В. Ломоносова и Сколтеха открытое соревнование по анализу аргументации RuArg-2022, в котором участники решали две задачи – определение позиции автора по заданной теме и классификация доводов. Для обучения и тестирования систем был подготовлен и размечен корпус, содержащий 9550 предложений (комментариев к постам в социальных медиа) по трем тематикам, связанным с пандемией COVID-19: вакцинация, карантин и ношение масок. Корпус предоставлен в общий доступ (https://github.com/dialogue-evaluation/RuArg). 10. По результатам выполнения проекта в 2022 году сделано 4 доклада на ведущей российской конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог», которые опубликованы в 4 статьях в издании Komp'juternaja Lingvistika i Intellektual'nye Tehnologii (ISSN 2075-7182), индексируемом Scopus: - Fishcheva I., Osadchiy D., Bochenina K., Kotelnikov E. Argumentative Text Generation in Economic Domain // Komp'juternaja Lingvistika i Intellektual'nye Tehnologii: Papers from the Annual International Conference “Dialogue-2022”. Issue 21. P. 211–222. - Goloviznina V.S., Kotelnikov E.V. Automatic Summarization of Russian Texts: Comparison of Extractive and Abstractive Methods // Komp'juternaja Lingvistika i Intellektual'nye Tehnologii: Papers from the Annual International Conference “Dialogue-2022”. Issue 21. P. 223–235. - Kotelnikov E., Loukachevitch N., Nikishina I., Panchenko A. RuArg-2022: Argument Mining Evaluation // Komp'juternaja Lingvistika i Intellektual'nye Tehnologii: Papers from the Annual International Conference “Dialogue-2022”. Issue 21. P. 333–348. - Vychegzhanin S.V., Kotelnikov E.V. Collocation2Text: Controllable Text Generation from Guide Phrases in Russian // Komp'juternaja Lingvistika i Intellektual'nye Tehnologii: Papers from the Annual International Conference “Dialogue-2022”. Issue 21. P. 564–576. Таким образом, в ходе выполнения первого этапа проекта в 2022 году были решены все заявленные в плане задачи, а также частично проведены исследования, запланированные на 2023 год.

Публикации

1. Вычегжанин С.В., Котельников Е.В. Collocation2Text: Controllable Text Generation from Guide Phrases in Russian Komp'juternaja Lingvistika i Intellektual'nye Tehnologii, Issue 21. P. 564–576. (год публикации - 2022) https://doi.org/10.28995/2075-7182-2022-21-223-235

2. Головизнина В.С., Котельников Е.В. Automatic Summarization of Russian Texts: Comparison of Extractive and Abstractive Methods Komp'juternaja Lingvistika i Intellektual'nye Tehnologii, Issue 21. P. 223–235 (год публикации - 2022) https://doi.org/10.28995/2075-7182-2022-21-223-235

3. Котельников Е.В., Лукашевич Н.В., Никишина И.А., Панченко А.И. RuArg-2022: Argument Mining Evaluation Komp'juternaja Lingvistika i Intellektual'nye Tehnologii, Issue 21. P. 333–348. (год публикации - 2022) https://doi.org/10.28995/2075-7182-2022-21-333-348

4. Фищева И.Н., Осадчий Д., Боченина К.О., Котельников Е.В. Argumentative Text Generation in Economic Domain Komp'juternaja Lingvistika i Intellektual'nye Tehnologii, Issue 21. P. 211–222 (год публикации - 2022) https://doi.org/10.28995/2075-7182-2022-21-211-222

5. - Вятский государственный университет – территория науки, инноваций, изобретательства Сайт ВятГУ, 08.02.2022 (год публикации - )

6. - Вятский государственный университет – территория науки, инноваций, изобретательства СМИ Киров Град, 08.02.2022 (год публикации - )

7. - Исследователи лаборатории интеллектуальных систем ВятГУ успешно выступили на престижной научной конференции “Диалог-2022” Сайт ВятГУ, - (год публикации - )

Аннотация результатов, полученных в 2023 году
В ходе выполнения проекта в 2023 году были получены следующие результаты. 1. Разработан метод управляемой генерации аргументативных текстов с учетом аспектов на основе управляющих последовательностей. Метод обеспечивает порождение аргументативных предложений, учитывающих заданные параметры: целевой объект, позицию и аспект. 2. Обучена нейросетевая языковая модель ArgGPT-3, позволяющая осуществлять порождение аргументативных предложений на основе разработанного метода управляемой генерации аргументативных текстов с учетом аспектов. Модель предоставлена в общий доступ (https://github.com/kotelnikov-ev/RuArgumentMining/tree/main/ArgGPT-3). 3. Обновлена нейросетевая языковая модель ArgBERT, позволяющая осуществлять бинарную классификацию предложений на «аргумент» / «не аргумент». Модель предоставлена в общий доступ (https://github.com/kotelnikov-ev/RuArgumentMining/tree/main/ArgBERT). 4. Обновлена нейросетевая языковая модель ArgBERT-premise, позволяющая классифицировать аргументативные предложения, извлеченные моделью ArgBERT, на два класса: «довод за» / «довод против». Модель предоставлена в общий доступ (https://github.com/kotelnikov-ev/RuArgumentMining/tree/main/ArgBERT). 5. Обновлена нейросетевая языковая модель AspBERT, позволяющая классифицировать аргументативные предложения по аспектам. Модель предоставлена в общий доступ (https://github.com/kotelnikov-ev/RuArgumentMining/tree/main/AspBERT). 6. Дополнен корпус аспектов, содержащий разметку по наличию аргумента, по позициям («за» и «против») и по аспектам. Корпус включает 1060 различных предложений, размеченных как аргументативные. Корпус предоставлен в общий доступ (https://github.com/kotelnikov-ev/RuArgumentMining/tree/main/AspectCorpus). 7. Проведено экспериментальное исследование разработанного метода управляемой генерации аргументативных текстов с учетом аспектов. Результаты показывают, что модели, построенные на основе предложенного метода, возможно использовать для генерации доводов, содержащих аргументацию с учетом заданных аспектов. Также модели оказываются способны генерировать доводы по новым, незнакомым для них аспектам. 8. Проведено исследование точности автоматической идентификации ценностей в аргументационных текстах на основе переводной версии англоязычного текстового корпуса аргументов, размеченных на основе теории базовых индивидуальных ценностей Ш. Шварца. Сделан вывод о перспективности использования теории ценностей для оценки качества аргументации. 9. По результатам выполнения проекта в 2023 году опубликованы четыре статьи, в том числе, в журнале «Программные системы: Теория и приложения» (RSCI, ядро РИНЦ, К1 Перечня ВАК), а также сделано 3 доклада на научных конференциях, в том числе на ведущей российской конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог» (Scopus): – Фищева И.Н., Пескишева Т.А., Головизнина В.С., Котельников Е.В. Метод классификации аспектов аргументации в русскоязычных текстах // Программные системы: Теория и приложения. 2023. Т. 14. № 4(59). С. 25–45; – Goloviznina V.S., Fishcheva I.N., Peskisheva T.A., Kotelnikov E.V. Aspect-based Argument Generation in Russian // Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference “Dialogue-2023”. Issue 22. P. 117–129; – Фищева И.Н., Пескишева Т.А., Головизнина В.С., Котельников Е.В. Создание русскоязычного корпуса аспектов аргументации // XXIII Международная научно-практическая конференция им. Э. К. Алгазинова «Информатика: проблемы, методы, технологии» (IPMT-2023). 15–17 февраля 2023 года. С. 1091–1096; – Лаптев М.В., Вычегжанин С.В., Котельников Е.В. Идентификация человеческих ценностей в текстовых аргументах // Материалы XXIII Международной научно-практической конференции им. Э.К. Алгазинова «Информатика: проблемы, методы, технологии». 2023. С. 1011–1019. Таким образом, в ходе выполнения второго этапа проекта в 2023 году были решены все заявленные в плане задачи.

Публикации

1. Головизнина В.С., Фищева И.Н., Пескишева Т.А., Котельников Е.В. Aspect-based Argument Generation in Russian Komp'juternaja Lingvistika i Intellektual'nye Tehnologii, Issue 22. P. 117–129. (год публикации - 2023) https://doi.org/10.28995/2075-7182-2023-22-117-129

2. Лаптев М.В., Вычегжанин С.В., Котельников Е.В. Идентификация человеческих ценностей в текстовых аргументах Информатика: проблемы, методы, технологии. Материалы XXIII Международной научно-практической конференции им. Э.К. Алгазинова, С. 1011–1019. (год публикации - 2023)

3. Фищева И.Н., Пескишева Т.А., Головизнина В.С., Котельников Е.В. Метод классификации аспектов аргументации в русскоязычных текстах Программные системы: теория и приложения, Т. 14. № 4(59). С. 25–45. (год публикации - 2023) https://doi.org/10.25209/2079-3316-2023-14-4-25-45

4. Фищева И.Н., Пескишева Т.А., Головизнина В.С., Котельников Е.В. Создание русскоязычного корпуса аспектов аргументации Информатика: проблемы, методы, технологии. Материалы XXIII Международной научно-практической конференции им. Э.К. Алгазинова, С. 1091–1096. (год публикации - 2023)

Возможность практического использования результатов
Модели и методы, разработанные в ходе выполнения проекта, могут применяться в следующих задачах и областях: – в ходе проведения деловых совещаний для оперативной генерации аргументов; – при взаимодействии государственных структур и PR-служб с населением для подбора аргументов с целью организации обратной связи по сообщениям пользователей; – в юриспруденции для поиска и генерации аргументов по законодательным актам и прецедентам; – в образовании при анализе, генерации и оценке аргументации в студенческих работах; – в научной работе в ходе анализа аргументов по заданной области исследований; – в интернет-СМИ и блоггинге для генерации информационных сообщений с аргументацией; – в диалоговых системах для подбора аргументов с целью подкрепления точки зрения интеллектуального агента и убеждения человека-собеседника.