КАРТОЧКА ПРОЕКТА,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 22-21-00316

НазваниеМетоды интеллектуальной обработки лингвистической экспертной информации на основе применения подходов машинного обучения

РуководительКурейчик Виктор Михайлович, Доктор технических наук

Организация финансирования, регионфедеральное государственное автономное образовательное учреждение высшего образования "Южный федеральный университет", Ростовская обл

Годы выполнения при поддержке РНФ 2022 - 2023 

КонкурсКонкурс 2021 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами»

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-201 - Искусственный интеллект и принятие решений

Ключевые словаЛингвистическая экспертная информация, искусственный интеллект, машинное обучение, онтологическое моделирование, формализация и интеграция информации, информационная неопределенность

Код ГРНТИ28.23.02


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Целью заявленного проекта является повышение эффективности средств формализации и интеграции лингвистической экспертной информации, полученной из текстовых ресурсов как одной предметной области, так и на междисциплинарном уровне, для организации онтологических структур на основе применения и развития методов машинного обучения. Лингвистическая экспертная информация представлена на естественном языке, все ее текстовые сообщения разбиты на отдельно значимые единицы (токены), для которых выполнена лингвистическая обработка – проведен морфологический и лексический анализ. Решение данной проблемы является новым научным направлением исследований для коллектива. Руководитель и исполнители проекта имеют необходимый научный задел для решения поставленных в данной заявке задач. Актуальность запланированного исследования подтверждается необходимостью разработки эффективных интеллектуальных информационных систем, способных формализовывать и интегрировать большие объемы лингвистической экспертной информации в условиях информационной неопределенности и слабой структурированности исходных текстовых ресурсов. В основе сложности описанной фундаментальной научной проблемы лежит комплекс нерешенных на данный момент задач формализация текстовых данных, извлечения знаний из данных, интеграции предметных знаний, полученных из разнородных распределенных источников. Информационной моделью в данном исследовании выбрана онтологическая структура, наиболее всего пригодная для построения формализованного представления больших объемов текстовых данных, что позволит впоследствии выполнить автоматизированную интеллектуальную обработку и анализ предварительно структурированной в онтологии текстовой информации. Задачи формализации и интеграции лингвистической экспертной информации имеют высокий уровень теоретической и практической значимости и являются задачами искусственного интеллекта. Наличие необходимости поиска неявных закономерностей в связях между элементами текстовой информации требует применения методов машинного обучения для решения данных задач. Научной новизной исследования станут следующие основные результаты проекта: метод формализации лингвистической экспертной информации в виде иерархической структуры понятий; методы интеграции иерархических структур понятий нескольких коллекций текстов; метод автоматического построения дендограмм нескольких коллекций текстов. Данные результаты отличаются от аналогов применением методов машинного обучения для поиска неявных закономерностей в текстовых структурах, кластеризации понятий создаваемых онтологий и отображением иерархических связей между элементами лексической информации на основе оценки семантической близости. Ожидаемые результаты имеют высокую теоретическую и практическую значимость. Разработанные методы позволят получить преимущества по показателям точности и полноты извлечения понятий предметной области, а также выявить таксономические связи между понятиями с учетом их тематической близости на основе применения новых правил иерархической агломеративной кластеризации. Результаты исследований будут использованы для проектирования интеллектуальных систем текстового поиска, обработки и анализа естественного языка.

Ожидаемые результаты
Запланированные основные результаты проекта находятся на уровне мировых аналогичных разработок и соответствуют современному состоянию, программе и перспективам развития научно-технического комплекса страны в области цифровых и интеллектуальных технологий. Заявленный проект направлен на развитие теорий машинного обучения, системного анализа и принятия решений. Полученные в рамках выполнения работы результаты позволят вывести на новый уровень технологии интеллектуальной обработки лингвистической экспертной информации. Для оценки прикладной значимости запланировано создание программной среды реализации разработанных моделей и методов формализации и интеграции текстовой информации. Будут проведены экспериментальные исследования для подтверждения достоверности и эффективности результатов выполнения проекта. Ожидаемыми основными научными результатами проекта станут: 1. Онтологическая модель среды интеллектуальной обработки лингвистической экспертной информации, представляющая собой сложный для формализации комплекс взаимосвязанных предметных областей и позволяющая автоматизировать интеллектуальную обработку квазиструктурированной текстовой информации; 2. Метод формализации лингвистической экспертной информации в виде иерархической структуры понятий, отличающийся от известных возможностью идентификации неявных закономерностей в текстовых данных и позволяющий провести кластеризацию понятий создаваемых онтологий и отображение иерархических связей между элементами информации в виде дендрограммы с учетом тематической вероятностной близости между понятиями; 3. Метод интеграции онтологических структур понятий нескольких коллекций текстов, принадлежащих определенной предметной области, отличающийся от известных применением биоинспирированного алгоритма роя частиц для вычисления семантической близости понятий и позволяющий повысить точность и полноту проводимой интеграции; 4. Метод интеграции онтологических структур понятий нескольких коллекций текстов, принадлежащих определенной предметной области, отличающийся от известных применением биоинспирированного алгоритма бактериальной оптимизации для вычисления семантической близости понятий. Применение алгоритма бактериальной оптимизации позволит обеспечить децентрализованный последовательный поиск эффективных решений с высокой плотностью поисковых процедур в каждом из заданных кластеров; 5. Метод интеграции онтологических структур понятий нескольких коллекций текстов, принадлежащих определенной предметной области, отличающийся от известных применением биоинспирированного алгоритма кукушкиного поиска для вычисления семантической близости понятий и позволяющий обеспечить значительное количество перемещений агентов внутри локальной области при достаточном числе «перелетов» за ее пределы; 6. Гибридный биоинспирированный метод интеграции информации на основе решения задачи отображения онтологических структур, отличающийся применением улучшенного гибридного механизма поиска, объединяющего преимущества бактериальной и кукушкиной оптимизации и позволяющий обеспечить выход поисковых процедур из локальных оптимумов, что повысит качество результатов интеграции информации; 7. Метод автоматического построения иерархических структур (дендрограмм) нескольких коллекций текстов определенной предметной области, который будет реализован на основе комплекса аналитических методов, относящихся к классу методов машинного обучения с учителем. Данный метод позволит проводить интеллектуальную обработку лингвистической экспертной информации; 8. Программная среда реализации разработанных методов интеллектуальной обработки лингвистической экспертной информации для проведения нагрузочного тестирования и серии экспериментальных исследований, позволяющих сравнить полученные решения с имеющимися аналогами; 9. Теоретическая и экспериментальная оценка разработанных методов интеллектуальной обработки лингвистической экспертной информации в задачах формализации и интеграции текстовых данных большой размерности из разнородных гетерогенных источников. Подтверждение достоверности и эффективности полученных результатов.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2022 году
Поставленные в проекте задачи решены полностью. План работ по 1 этапу перевыполнен, получены дополнительные научные результаты. 1. В рамках реализации проекта, проведен анализ методов и подходов к построению онтологической модели среды интеллектуальной обработки лингвистической экспертной информации, представляющей собой сложный для формализации комплекс взаимосвязанных предметных областей. На основе проведенного анализа представлена онтологическая структура комбинаторной лингвистики. Построенная онтологическая структура позволит автоматизировать интеллектуальную обработку квазиструктурированной текстовой информации. Предложенная онтологическая структура включает, разработанный метод формализации лингвистической экспертной информации в виде иерархической структуры понятий, отличающегося от известных возможностью идентификации неявных закономерностей в текстовых данных и позволяющего провести кластеризацию понятий создаваемых онтологий и отображение иерархических связей между элементами информации в виде дендрограммы с учетом тематической вероятностной близости между понятиями. На основе разработанного метода построен алгоритма интеллектуальной обработки лингвистической экспертной информации для формализации текстовой информации нескольких коллекций текстов, принадлежащих одной предметной области. Алгоритм реализован на основе комплекса аналитических методов, относящихся к классу методов машинного обучения с учителем. Алгоритм отличается от известных тем, что позволяет создать процедуру автоматического построения иерархических структур (дендрограмм) нескольких коллекций текстов. Построенная онтологическая структура на основе разработанного алгоритма формализации лингвистической экспертной информации позволит автоматизировать интеллектуальную обработку квазиструктурированной текстовой информации. 2. Предложен аналитический метод формализации лингвистической экспертной информации в виде иерархической структуры понятий, отличающийся от известных возможностью идентификации неявных закономерностей в текстовых данных и позволяющий провести кластеризацию понятий создаваемых онтологий и отображение иерархических связей между элементами информации в виде дендрограммы с учетом тематической вероятностной близости между понятиями. Последовательность этапов разрабатываемого метода при решении задачи формализации лингвистической экспертной информации имеет следующий вид: 1) получение векторного пространства текстовых документов, разбиение на термы, вычисление числа вхождения термов в коллекцию документов и формирование матрицы терм-документ; 2) извлечение термов, тем и понятий предметной области, вычисление матрицы вероятностных распределений термов по темам и матрицы распределения тем по документам; 3) извлечение иерархических связей между понятиями, вычисление расстояний между понятиями с последующим формированием матрицы расстояний, проведение иерархического кластерного анализа, построение дендограммы – бинарное дерево, описывающее структуру вложенности с ребрами (вероятности) между кластерами понятий. В результате работы метода строится матрица иерархических связей с учетом тематической вероятностной близости между понятиями, а также дендрограмма, необходимые как для дальнейшей интеграции лингвистической экспертной информации разных коллекций текстов, так и для построения онтологии. 3. Создан программный модуль и проведена серия экспериментальных исследований, подтверждающих эффективность разработанного метода формализации лингвистической экспертной информации при решении конкретных практических задач кластеризации понятий создаваемых онтологических структур и отображение иерархических связей между элементами информации в виде дендрограммы с учетом тематической вероятностной близости между понятиями. Получены теоретическая и экспериментальная оценки эффективности разработанного метода формализации лингвистической экспертной информации. В результате комплексных экспериментальных исследований была проведена сравнительная оценка временной и вычислительной сложности предложенного метода и известных канонических. Полученные временные и вычислительные зависимости подтвердили преимущество разработанного метода. 4. Разработан метод интеграции онтологических структур понятий нескольких коллекций текстов, принадлежащих определенной предметной области, отличающийся от известных применением биоинспирированного алгоритма роя частиц для вычисления семантической близости понятий и позволяющего повысить точность и полноту проводимой интеграции. В основу аналитического метода интеграции онтологических структур понятий нескольких коллекций текстов, принадлежащих определенной предметной области положен подход вычисления комплексной меры семантической близости, элементы которой вычисляются на уровне термов, уровне понятий и структурном уровнях. Для свертки элементов комплексной меры близости применяется аддитивная функция с учетом важности каждого элемента, выраженной весовым коэффициентом. Для получения оптимальных значений весовых коэффициентов, применяется эволюционный алгоритм – метод роя частиц. 5. Разработан метод интеграции онтологических структур понятий нескольких коллекций текстов, принадлежащих определенной предметной области, отличающийся от известных применением биоинспирированного алгоритма бактериальной оптимизации для вычисления семантической близости понятий и позволяющий обеспечить децентрализованный последовательный поиск эффективных решений с высокой плотностью поисковых процедур в каждом из заданных кластеров. Повышение эффективности оценки эквивалентной семантической близости требует применения биоинспирированных методов с децентрализованным механизмом поиска решений, это позволяет обеспечить высокую параллельность вычислений, тем самым повысив скорость и качество решения задачи. Указанные биоинспирированные методы позволяют интенсифицировать поиск в различных локальных областях, одновременно проводя диверсификацию пространства поиска решений на основе реализации процедур выхода интеллектуальных агентов из локальных оптимумов. Проведены экспериментальные исследования. Полученные результаты сопоставлены с аналогами. Получены теоретическая и экспериментальная оценки разработанных моделей, методов и алгоритмов. Определена научная новизна и значимость результатов выполнения проекта. Выработаны рекомендации по эффективному использованию разработанных алгоритмов и программ, а также даны предложения по их дальнейшему развитию и совершенствованию. Достигнутые цели поддерживают фундаментальную научную проблему необходимости развития биологически правдоподобных методов машинного обучения. Принципиальным отличием полученных научных результатов от имеющихся аналогов является создание условий для возникновения прорывных и перспективных технологий разработки интеллектуальных информационных систем. 6. Обнародованы результаты 1-го этапа выполнения проекта: опубликованы статьи в высокорейтинговых зарубежных (Scopus, Web of Science) и российских (RSCI, ВАК, РИНЦ) изданиях; сделаны очные выступления с пленарными докладами на международной научной конференции. Заявленные показатели выполнения текущего этапа проекта перевыполнены. Полученные результаты проекта опубликованы в 13 научных работах, в том числе в 6-ти статьях в изданиях из перечня ВАК, в 1-ой статье в издании RSCI, в 4 статьях, проиндексированных в базах Web of Science и/или Scopus, а также в 2-х статьях в изданиях РИНЦ.

 

Публикации

1. Бова В.В., Кравченко Ю.А., Родзин С.И. Методы и алгоритмы кластеризации текстовых данных (обзор) Известия ЮФУ. Технические науки, №4(2022), стр. 122-143 (год публикации - 2022).

2. Гладков Л.А., Гладкова Н.В., Бова В.В. Метод автоматического аннотирования текстов на основе гибридных интеллектуальных технологий ИНФОРМАТИЗАЦИЯ И СВЯЗЬ, №2, стр. 54-59 (год публикации - 2022).

3. Данильченко В.И., Курейчик В.М. Development of an Algorithm for the Formalization of Linguistic Expert Information Springer, The Author(s), under exclusive license to Springer Nature Switzerland AG 2022 R. Silhavy (Ed.): CSOC 2022, LNNS 501, pp. 667–674, 2022. (год публикации - 2022).

4. Данильченко В.И., Курейчик В.М. Применение дистрибутивной семантики при выделении значимых сочетаний заголовков нескольких коллекций текстов при формализации лингвистической экспертной информации Известия ЮФУ. Технические науки., Известия ЮФУ. Технические науки. № 3 (2022). стр. 139-147. «ВАК» (год публикации - 2022).

5. Данильченко В.И., Курейчик В.М. Построение онтологической модели ЛЭИ при выделение основных сочетаний заголовков нескольких коллекций текстов Конгресс “Интеллектуальные системы и информационные технологии - 2022”, Конгресс “Интеллектуальные системы и информационные технологии - 2022” «РИНЦ» стр. 83-89. (год публикации - 2022).

6. Кулиев Э.В., Курейчик В.В., Семенова М.М., Семенов В.А. Программный модуль интеллектуальной обработки лингвистической экспертной информации на основе биоинспирированного алгоритма -, 2022660479 (год публикации - ).

7. Кулиев Э.В., Семенов В.А., Котельва А.В., Игнатьева С.В. Аналитический обзор алгоритма дерева решений в технологии интеллектуального анализа данных Известия ЮФУ. Технические науки, №2 (226),, 2022г., 165-179 (год публикации - 2022).

8. Курейчик В.В., Родзин С.И., Бова В.В. Методы глубокого обучения для обработки текстов на естественном языке Известия Южного федерального университета. Технические науки, Известия ЮФУ. Технические науки. 2022. № 2. С. 189-199 (год публикации - 2022).

9. Мансур А., Мохаммад Ж., Кравченко Ю.А. Text vectorization method based on concept mining using clustering techniques IEEE, VI International Conference on Information Technologies in Engineering Education (Inforino), 2022. – paper number 20210021 (год публикации - 2022).

10. Мансур А., Мохаммад Ж., Кравченко Ю.А., Кравченко Д.Ю. Метод автоматического извлечения ключевых слов Труды международного научно-технического конгресса «Интеллектуальные системы и информационные технологии – 2022» («ИС & ИТ-2022», «IS&IT’22») Изд-во Ступина С.А., Т.1. С. 90-97. (год публикации - 2022).

11. Мохаммад Ж.Х., Мансур А.М., Кравченко Ю.А., Бова В.В. Метод извлечения ключевых фраз на основе новой функции ранжирования ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ, Том 28, № 9, 2022, № 9, Том 28, стр.465-474 (год публикации - 2022).

12. Родзин С.И., Бова В.В., Кравченко Ю.А., Родзина Л.С. Deep Learning Techniques for Natural Language Processing Lecture Notes in Networks and Systems book series (LNNS). Springer Verlag, 2022. vol. 502. P.121-130. (год публикации - 2022).

13. Родзин С.И., Курейчик В.В., Родзина Л.С. Co-evolutionary Self-adjusting Optimization Algorithm Based on Patterns of Individual and Collective Behavior of Agents Lecture Notes in Networks and Systems book series (LNNS). Springer Verlag, 2022. vol. 503. P. 254-266 (год публикации - 2022).

14. Э.В. Кулиев , А.В. Котельва , М.М. Семенова , С.В. Игнатьева , А.П. Кухаренко Интеллектуальный анализ данных в управлении предприятием на основе алгоритма имитации отжига Известия ЮФУ, Технические науки, № 4 (2022), стр. 29-39 (год публикации - 2022).