КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер 22-21-00182

НазваниеПоиск и исследование оптимальных методов машинного обучения для наполнения и актуализации проблемно–ориентированных графов ядерных знаний с использованием семантического веб–портала

РуководительКоровин Юрий Александрович, Доктор физико-математических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский ядерный университет "МИФИ", г Москва

Период выполнения при поддержке РНФ

2022 г. - 2023 г.

Конкурс№64 - Конкурс 2021 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами».

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-509 - Извлечение знаний, базы данных и базы знаний

Ключевые словасемантический веб, базы знаний, машинное обучение, семантическое аннотирование, облачные вычисления

Код ГРНТИ20.23.25

СтатусУспешно завершен

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Проект направлен на поиск и исследование оптимальных алгоритмов классификации и семантического аннотирования текстового сетевого контента для наполнения и актуализации графов ядерных знаний на русском и английском языках. С практической точки зрения предусматривается программное воплощение эффективных алгоритмов классификации и семантического аннотирования как части масштабируемого семантического веб–портала, размещенного на облачной платформе. Актуальность проекта обусловлена тем обстоятельством, что он направлен на создание и автоматизированное наполнение семантических репозиториев (баз знаний) в области ядерной физики и атомной энергетики. Это область, в которой Россия способна достигать конкурентных преимуществ и мирового лидерства. По состоянию на 2021г. образовательные веб–порталы университетов, центры ядерных данных, системы управления ядерными знаниями МАГАТЭ и Госкорпорации «Росатом» не используют в достаточной мере возможности семантической паутины и методы машинного обучения. К 2020г. создано не менее полудюжины методов машинного обучения, потенциально пригодных для решения задач классификации и семантического аннотирования текстового сетевого контента в интересах наполнения и актуализации семантических репозиториев. Существуют десятки программных реализаций этих методов. Научная новизна проекта обусловлена в первую очередь применением принципа оптимальности по Парето для многокритериальной оценки и ранжирования исследуемых алгоритмов машинного обучения при условии, что отсутствует априорная информация о сравнительной важности этих критериев. В рамках проекта решаются следующие задачи: 1) Поиск и исследование оптимальных алгоритмов классификации и семантического аннотирования текстового сетевого контента в интересах наполнения и актуализации графов ядерных знаний на русском и английском языках, тестирование исследуемых алгоритмов методом скользящего контроля (cross–validation). 2) Создание прототипа программного обеспечения как части семантического веб–портала для практического воплощения эффективных алгоритмов классификации и семантического аннотирования текстового сетевого контента для наполнения и актуализации графов ядерных знаний. Потенциальные бенефициары информационных решений и технологий, которые обозначены как результаты заявляемого проекта (целевая аудитория): студенты, преподаватели, руководители, эксперты, исследователи и специалисты в области ядерной физики, атомной энергетики, ядерной и радиационной безопасности.

Ожидаемые результаты
Результаты, ожидаемые в конце первого года реализации проекта. 1. Результаты тестирования не менее пяти исследованных алгоритмов классификации и семантического аннотирования текстового сетевого контента с использованием семи графов ядерных знаний. Табличное представление и графическая визуализация полученных результатов. 2. Множество Парето–оптимальных алгоритмов классификации и семантического аннотирования текстового сетевого контента, которые являются наилучшим по совокупности всех проведенных вычислительных экспериментов. Табличное представление и графическая визуализация полученных результатов. Значимость ожидаемых результатов. Исследованные алгоритмы обеспечат методическую и технологическую основу для непрерывного наполнения и актуализации проблемно–ориентированных баз знаний как систем искусственного интеллекта, а также необходимые предпосылки для развития семантических технологий приобретения новых знаний во всемирной паутине без непосредственного участия человека. Результаты, ожидаемые в конце второго года реализации проекта. 1. Технический проект программного компонента семантического веб–портала http://vt.obninsk.ru/x/, который воплощает оптимальные алгоритмы классификации и семантического аннотирования текстового сетевого контента. Технический проект представляется в виде UML-диаграмм, текста и таблиц. 2. Действующий прототип программного компонента как часть семантического веб-портала http://vt.obninsk.ru/x/ на облачной платформе, который воплощает оптимальные алгоритмы классификации и семантического аннотирования текстового сетевого контента в интересах наполнения и актуализации графов ядерных знаний. Представляется в виде общедоступного веб–сервиса. Значимость ожидаемых результатов. Рабочий прототип программного обеспечения создается как доказательство практической значимости проекта в целом. Проект реализуется в соответствии со стандартами семантического веба. По этой причине не существует технологических ограничений для интеграции создаваемых баз знаний со сторонними хранилищами данных, с метапоисковыми, библиотечными, справочно–информационными и вопросно–ответными системами. Созданные программные решения находятся в открытом доступе и могут свободно тиражироваться.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Аннотация результатов, полученных в 2022 году
В ходе первого этапа реализации проекта на семи корпусах специализированных текстов по ядерной физике и атомной энергетике (на семи графах знаний http://vt.obninsk.ru/x/) исследована эффективность относительно простых, интуитивно понятных методов машинного обучения для решения задачи автоматизированного наполнения из WWW и обновления баз ядерных знаний без непосредственного участия человека. Для тестирования методов машинного обучения использовались умеренные объемы исходных данных. Каждый из семи задействованных графов знаний содержал не более одной тысячи объектов и не более одной сотни классов. Выполнены вычислительные эксперименты с целью определения эффективности следующих пяти методов классификации текстов на естественных языках (русский язык, английский язык): 1) Классификаторы softmax (модель максимальной энтропии), которые по существу эквивалентны моделям многоклассовой логистической регрессии; 2) Классификаторы на основе метода опорных векторов (support–vector machines); 3) Наивные байесовские классификаторы с фиксированным количеством признаков; 4) Классификаторы на основе терминологических деревьев решений, которые сами есть результат синтаксического анализа текста; 5) Классификаторы с использованием метода ближайших соседей. В качестве обучающих множеств были использованы следующие семь графов ядерных знаний (см. http://vt.obninsk.ru/x/): 1) Мировые центры ядерных данных; 2) События и публикации ЦЕРН; 3) Базы данных и сетевые сервисы МАГАТЭ; 4) Учебные материалы МГУ и МИФИ по ядерной физике; 5) Ядерные исследовательские центры Российской Федерации; 6) Журналы по ядерной физике и атомной энергетике; 7) Объединенный граф ядерных знаний. Для тестирования и оценки эффективности алгоритмов классификации текстов на естественных языках применялся скользящий контроль (cross–validation). Исходное обучающее множество три раза разбивалось случайным образом на три выборки примерно одинакового размера. Каждая из трех выборок поочерёдно объявлялась контрольной выборкой, остальные две выборки объединялись в обучающую выборку. Алгоритм классификации текста настраивался по обучающей выборке и затем классифицировал объекты контрольной выборки. Описанная процедура повторялась три раза для каждого алгоритма классификации текста и для каждого графа знаний. Основными показателями качества работы алгоритмов являлись общепринятые метрики машинного обучения Precision, Recall, F1–score. Метрика Precision характеризует способность алгоритма отличать классы друг от друга, а метрика Recall показывает способность алгоритма обнаруживать конкретный класс вообще. Третья метрика F1–score наиболее информативна в тех случаях, когда значения первых двух метрик значительно разнятся между собой. Для оценки качества алгоритмов классификации использовались так называемые макро–средние значения, когда значения метрик усредняются по всем классам независимо от количества объектов в этих классах. В ходе проведения вычислительных экспериментов использовалось общедоступное программное обеспечение Stanford Classifer (https://nlp.stanford.edu/software/classifier.html) и Weka (https://www.weka.io/ai-analytics/), а также оригинальный авторский программный код. Результаты тестирования представлены в табличной и в графической форме. Получив результаты тестирования пяти алгоритмов классификации на семи графах знаний на русском и английском языках, далее определяется множество Парето–оптимальных алгоритмов, которые являются наилучшим по совокупности всех проведенных вычислительных экспериментов. Оптимизационная задача формулируется следующим образом. Требуется выбрать наилучший метод классификации с учетом всех вычисленных показателей качества, не делая никаких априорных предположений о сравнительной важности этих показателей. Для этого в классе транзитивных антирефлексивных бинарных отношений рассматривается отношение Парето (https://www.newworldencyclopedia.org/entry/Vilfredo\_Pareto) в евклидовом пространстве. Данное отношение также называют отношением доминирования. Суть этого отношения состоит в следующем. Говорят, что некоторый элемент x из некоторого множества доминирует другой элемент y из этого же множества, если x не хуже y по всем аспектам (критериям) и минимум по одному аспекту превосходит y. Множество всех недоминируемых элементов называют множеством Парето. Бинарное отношение Парето обеспечивает универсальную математическую модель многокритериального контекстно–независимого выбора в евклидовом пространстве. Опираясь на отношение Парето, очевидным образом строится функция выбора, которая и генерирует множество элементов, наилучших с учетом всех вычисленных метрик, без каких–либо априорных предположений о сравнительной важности этих метрик. В условиях реального выбора множество Парето нередко содержит в себе более одного элемента. Отдельная таблица содержит результаты вычисления показателей доминирования для всех пяти исследованных методов классификации текстов на естественных языках, когда учитываются метрики Precision, Recall, F1–score в различных комбинациях. Следует иметь в виду тот факт, что метрика F1–score является производной от двух предыдущих метрик и вычисляется как их среднее гармоническое. Полученные в ходе вычислительных экспериментов результаты позволили сделать следующий вывод. Среди пяти протестированных методов классификации текстов на естественных языках лидером оказывается метод «SVM Classifier with SGD» со значениями показателей доминирования 3, 7 и 10. Он единственный входит в множество Парето–оптимальных алгоритмов. Метод «Nearest Neighbors Classifier» немногим ему уступает. Метод «Maxent Classifier (Softmax)» выглядит аутсайдером на фоне других методов. Следует отметить, что метод «SVM Classifier with SGD» является бинарным, то есть позволяет распределять элементы всего по двум классам. Это техническое ограничение преодолевается путем многократной классификации по принципу «один–против–всех» и «один–против–одного». Далее было выполнено сопоставление имеющихся результатов с данными, которые были получены иными исследователями на других корпусах текстов, в том числе с применением продвинутых методов глубокого машинного обучения. В свежем обзоре «Deep Learning Based Text Classification. A Comprehensive Review» (https://doi.org/10.1145/3439726) в Таблице 1 на стр. 27 приведены результаты тестирования ряда алгоритмов машинного обучения для решения задач классификации текста. В частности, наивный байесовский классификатор в нашем исследовании показал среднюю точность 86%, в то время как тот же классификатор на гораздо большем корпусе текстов SST-2 дал точность 81,80%. Алгоритмы глубокого машинного обучения на корпусе текстов SST-2 дают среднюю точность 91%, что всего на 5% лучше средней точности 86%, которую обеспечивает наивный байесовский классификатор на скромных наборах данных в настоящем исследовании. Из этого возможно заключить, что машина опорных векторов, метод ближайших соседей и наивный байесовский классификатор обеспечивают достаточную компетентность семантических баз ядерных знаний как систем искусственного интеллекта.

Публикации

Аннотация результатов, полученных в 2023 году
Проект представляет собой поисковое исследование, направленное на выявление оптимальных методов машинного обучения для целей наполнения и актуализации проблемно–ориентированных графов ядерных знаний. В ходе реализации второго этапа проекта осуществлено практическое воплощение научных результатов, полученных на первом этапе проекта, в форме общедоступного программного обеспечения. Создан рабочий прототип программного обеспечения семантического веб-портала [http://vt.obninsk.ru/x/]. Разработанное программное обеспечение: 1) реализует оптимальные алгоритмы классификации и семантического аннотирования текстового сетевого контента в интересах автоматизированного наполнения и актуализации графов ядерных знаний; 2) обеспечивает управление удалённым доступом к графам знаний (онтологиям) со стороны инженеров по знаниям и предоставляет инструменты для совместного редактирования онтологий. Эскизный проект созданного программного обеспечения содержит два новых программных компонента: 1) агент «Семантическая классификация»; 2) агент «Редактор онтологий WebProtege». В ходе проектирования программного обеспечения на языке UML разработаны следующие стандартные диаграммы: диаграмма требований, диаграмма прецедентов, диаграмма классов, диаграмма компонентов, диаграмма развертывания. Элементы эскизного проекта представлены в публикациях проекта [https://doi.org/10.1134/S1995080223010419, https://doi.org/10.17587/prin.14.350-357] и в файле с дополнительными материалами. Действующий рабочий прототип программного обеспечения создан как часть семантического веб-портала [http://vt.obninsk.ru/x/] включает в себя два выше названных агента и удовлетворяет следующим требованиям. Функциональные требования: 1) интерактивный поиск и селекция исходного сетевого контента в WWW; 2) интерактивный отбор графов знаний, которые используются для классификации и семантического аннотирования сетевого контента; 3) интерактивный выбор оптимальных методов машинного обучения; 4) управление опциями процесса классификации и семантического аннотирования онлайн; 5) сохранение результатов классификации и семантического аннотирования сетевого контента на клиентском компьютере; 6) совместное редактирование графов знаний (онтологий); 7) управление удалённым доступом к графам знаний (онтологиям) в группах инженеров по знаниям. Системные требования: 1) сетевой протокол HTTP; 2) среда выполнения J2EE; 3) развертывание на облачной платформе с использованием сервисных моделей DBaaS и PaaS для обеспечения масштабируемости хранилищ данных и сетевых сервисов. Требования к интерфейсам: программная совместимость по сетевым запросам GET и POST с иными компонентами семантического веб-портала [http://vt.obninsk.ru/x/]. Тестирование созданного программного обеспечения осуществлялось на корпусах текстов по ядерной физике и атомной энергетике, включая релевантные тексты МАГАТЭ, ЦЕРН, НИЯУ МИФИ, Физфак МГУ, а также тексты профильных журналов и публикации ядерных центров. Результаты тестирования представлены в файле с дополнительными материалами. Рабочие языки программирования: Java, Python, Javascript. Основные инструменты разработки и развертывания софта: Visual Paradigm for UML, IntelliJ IDEA, JetBrains PyCharm.

Публикации

1. Тельнов В.П., Коровин Ю.А. Применение методов машинного обучения для наполнения и актуализации баз ядерных знаний Журнал "Известия вузов. Ядерная энергетика", Номер: 4 Год: 2022 Страницы: 122-133 (год публикации - 2023) https://doi.org/10.26583/npe.2022.4.11

2. Тельнов В.П., Коровин Ю.А. Application of machine learning methods for filling and updating nuclear knowledge bases Журнал "Nuclear Energy and Technology", Выпуск 9, № 2, Стр.115-120, Год 2023 (год публикации - 2023) https://doi.org/10.3897/nucet.9.106759

3. Тельнов В.П., Коровин Ю.А., Одинцов К.В. On the Issue of Optimum Machine Learning Methods for Filling and Updating Nuclear Knowledge Graphs Журнал "Lobachevskii Journal of Mathematics", Lobachevskii Journal of Mathematics, 2023, Vol. 44, No. 1, pp. 227–236. Pleiades Publishing, Ltd., 2023. (год публикации - 2023) https://doi.org/10.1134/S1995080223010419

4. Тельнов В.П., Одинцов К.В. Экспериментальная интеграция университетских баз знаний на основе технологий семантического веба Журнал "Умная цифровая экономика", Том 3 №2 Стр.15-23 Год 2023 (год публикации - 2023)

5. Тельнов В.П., Одинцов К.В. Опыт интеграции университетских баз знаний на основе технологий Semantic Web Журнал "Программная инженерия", Том 14, № 7. С. 350—357 (год публикации - 2023) https://doi.org/10.17587/prin.14.350-357

6. Тельнов В.П., Одинцов К.В. Experience in Integrating Domain–Specific Knowledge Bases based on Semantic Web Standards Труды международной конференции "Data Analytics and Management in Data Intensive Domains (DAMDID/RCDL 2023)", HSE University, Moscow October 24-27, 2023, Труды международной конференции "Data Analytics and Management in Data Intensive Domains (DAMDID/RCDL 2023)" (год публикации - 2023)

Возможность практического использования результатов
Созданные базы знаний [http://vt.obninsk.ru/s/] и [http://vt.obninsk.ru/x/] ориентированы на свободное использование в высшей школе и могут дополняться учебными объектами из произвольных сетевых источников, включая образовательные ресурсы сторонних университетов. Регулярное пополнение графов знаний есть прерогатива преподавателей университетов и инженеров по знаниям. Разработанный образовательный продукт доступен из любой точки мира, где имеется интернет. Он может применяться при очном и дистанционном обучении как основной или дополнительный источник лекционного материала, литературы для изучения, практических заданий, средств контроля знаний и др. Предлагаемый программный продукт возможно тиражировать без ограничений, адаптируя силами преподавателей содержание графов знаний под новые типы образовательных программ или уровни образования. Целевая аудитория проекта - это студенты и преподаватели университетов, эксперты, исследователи, руководители и специалисты в области ядерной физики, атомной энергетики, компьютерных наук и программирования. Можно ожидать расширения профессионального кругозора студентов и повышения компетенции преподавателей благодаря появлению нового унифицированного канала доступа к учебным материалам сторонних университетов. Преподавателям университетов предлагается удобный инструмент «авторинга», способствующий созданию новых учебных курсов и модернизации существующих образовательных программ. Интеграция университетских баз знаний с использованием интеллектуального браузера RDF обеспечит студентам, преподавателям и всем заинтересованным лицам возможность «бесшовной» интерактивной навигации по базам знаний многих университетов мира.