КАРТОЧКА ПРОЕКТА,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 22-21-00182

НазваниеПоиск и исследование оптимальных методов машинного обучения для наполнения и актуализации проблемно–ориентированных графов ядерных знаний с использованием семантического веб–портала

РуководительКоровин Юрий Александрович, Доктор физико-математических наук

Организация финансирования, регионфедеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский ядерный университет "МИФИ", г Москва

Годы выполнения при поддержке РНФ 2022 - 2023 

КонкурсКонкурс 2021 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами»

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-509 - Извлечение знаний, базы данных и базы знаний

Ключевые словасемантический веб, базы знаний, машинное обучение, семантическое аннотирование, облачные вычисления

Код ГРНТИ20.23.25


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Проект направлен на поиск и исследование оптимальных алгоритмов классификации и семантического аннотирования текстового сетевого контента для наполнения и актуализации графов ядерных знаний на русском и английском языках. С практической точки зрения предусматривается программное воплощение эффективных алгоритмов классификации и семантического аннотирования как части масштабируемого семантического веб–портала, размещенного на облачной платформе. Актуальность проекта обусловлена тем обстоятельством, что он направлен на создание и автоматизированное наполнение семантических репозиториев (баз знаний) в области ядерной физики и атомной энергетики. Это область, в которой Россия способна достигать конкурентных преимуществ и мирового лидерства. По состоянию на 2021г. образовательные веб–порталы университетов, центры ядерных данных, системы управления ядерными знаниями МАГАТЭ и Госкорпорации «Росатом» не используют в достаточной мере возможности семантической паутины и методы машинного обучения. К 2020г. создано не менее полудюжины методов машинного обучения, потенциально пригодных для решения задач классификации и семантического аннотирования текстового сетевого контента в интересах наполнения и актуализации семантических репозиториев. Существуют десятки программных реализаций этих методов. Научная новизна проекта обусловлена в первую очередь применением принципа оптимальности по Парето для многокритериальной оценки и ранжирования исследуемых алгоритмов машинного обучения при условии, что отсутствует априорная информация о сравнительной важности этих критериев. В рамках проекта решаются следующие задачи: 1) Поиск и исследование оптимальных алгоритмов классификации и семантического аннотирования текстового сетевого контента в интересах наполнения и актуализации графов ядерных знаний на русском и английском языках, тестирование исследуемых алгоритмов методом скользящего контроля (cross–validation). 2) Создание прототипа программного обеспечения как части семантического веб–портала для практического воплощения эффективных алгоритмов классификации и семантического аннотирования текстового сетевого контента для наполнения и актуализации графов ядерных знаний. Потенциальные бенефициары информационных решений и технологий, которые обозначены как результаты заявляемого проекта (целевая аудитория): студенты, преподаватели, руководители, эксперты, исследователи и специалисты в области ядерной физики, атомной энергетики, ядерной и радиационной безопасности.

Ожидаемые результаты
Результаты, ожидаемые в конце первого года реализации проекта. 1. Результаты тестирования не менее пяти исследованных алгоритмов классификации и семантического аннотирования текстового сетевого контента с использованием семи графов ядерных знаний. Табличное представление и графическая визуализация полученных результатов. 2. Множество Парето–оптимальных алгоритмов классификации и семантического аннотирования текстового сетевого контента, которые являются наилучшим по совокупности всех проведенных вычислительных экспериментов. Табличное представление и графическая визуализация полученных результатов. Значимость ожидаемых результатов. Исследованные алгоритмы обеспечат методическую и технологическую основу для непрерывного наполнения и актуализации проблемно–ориентированных баз знаний как систем искусственного интеллекта, а также необходимые предпосылки для развития семантических технологий приобретения новых знаний во всемирной паутине без непосредственного участия человека. Результаты, ожидаемые в конце второго года реализации проекта. 1. Технический проект программного компонента семантического веб–портала http://vt.obninsk.ru/x/, который воплощает оптимальные алгоритмы классификации и семантического аннотирования текстового сетевого контента. Технический проект представляется в виде UML-диаграмм, текста и таблиц. 2. Действующий прототип программного компонента как часть семантического веб-портала http://vt.obninsk.ru/x/ на облачной платформе, который воплощает оптимальные алгоритмы классификации и семантического аннотирования текстового сетевого контента в интересах наполнения и актуализации графов ядерных знаний. Представляется в виде общедоступного веб–сервиса. Значимость ожидаемых результатов. Рабочий прототип программного обеспечения создается как доказательство практической значимости проекта в целом. Проект реализуется в соответствии со стандартами семантического веба. По этой причине не существует технологических ограничений для интеграции создаваемых баз знаний со сторонними хранилищами данных, с метапоисковыми, библиотечными, справочно–информационными и вопросно–ответными системами. Созданные программные решения находятся в открытом доступе и могут свободно тиражироваться.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2022 году
В ходе первого этапа реализации проекта на семи корпусах специализированных текстов по ядерной физике и атомной энергетике (на семи графах знаний http://vt.obninsk.ru/x/) исследована эффективность относительно простых, интуитивно понятных методов машинного обучения для решения задачи автоматизированного наполнения из WWW и обновления баз ядерных знаний без непосредственного участия человека. Для тестирования методов машинного обучения использовались умеренные объемы исходных данных. Каждый из семи задействованных графов знаний содержал не более одной тысячи объектов и не более одной сотни классов. Выполнены вычислительные эксперименты с целью определения эффективности следующих пяти методов классификации текстов на естественных языках (русский язык, английский язык): 1) Классификаторы softmax (модель максимальной энтропии), которые по существу эквивалентны моделям многоклассовой логистической регрессии; 2) Классификаторы на основе метода опорных векторов (support–vector machines); 3) Наивные байесовские классификаторы с фиксированным количеством признаков; 4) Классификаторы на основе терминологических деревьев решений, которые сами есть результат синтаксического анализа текста; 5) Классификаторы с использованием метода ближайших соседей. В качестве обучающих множеств были использованы следующие семь графов ядерных знаний (см. http://vt.obninsk.ru/x/): 1) Мировые центры ядерных данных; 2) События и публикации ЦЕРН; 3) Базы данных и сетевые сервисы МАГАТЭ; 4) Учебные материалы МГУ и МИФИ по ядерной физике; 5) Ядерные исследовательские центры Российской Федерации; 6) Журналы по ядерной физике и атомной энергетике; 7) Объединенный граф ядерных знаний. Для тестирования и оценки эффективности алгоритмов классификации текстов на естественных языках применялся скользящий контроль (cross–validation). Исходное обучающее множество три раза разбивалось случайным образом на три выборки примерно одинакового размера. Каждая из трех выборок поочерёдно объявлялась контрольной выборкой, остальные две выборки объединялись в обучающую выборку. Алгоритм классификации текста настраивался по обучающей выборке и затем классифицировал объекты контрольной выборки. Описанная процедура повторялась три раза для каждого алгоритма классификации текста и для каждого графа знаний. Основными показателями качества работы алгоритмов являлись общепринятые метрики машинного обучения Precision, Recall, F1–score. Метрика Precision характеризует способность алгоритма отличать классы друг от друга, а метрика Recall показывает способность алгоритма обнаруживать конкретный класс вообще. Третья метрика F1–score наиболее информативна в тех случаях, когда значения первых двух метрик значительно разнятся между собой. Для оценки качества алгоритмов классификации использовались так называемые макро–средние значения, когда значения метрик усредняются по всем классам независимо от количества объектов в этих классах. В ходе проведения вычислительных экспериментов использовалось общедоступное программное обеспечение Stanford Classifer (https://nlp.stanford.edu/software/classifier.html) и Weka (https://www.weka.io/ai-analytics/), а также оригинальный авторский программный код. Результаты тестирования представлены в табличной и в графической форме. Получив результаты тестирования пяти алгоритмов классификации на семи графах знаний на русском и английском языках, далее определяется множество Парето–оптимальных алгоритмов, которые являются наилучшим по совокупности всех проведенных вычислительных экспериментов. Оптимизационная задача формулируется следующим образом. Требуется выбрать наилучший метод классификации с учетом всех вычисленных показателей качества, не делая никаких априорных предположений о сравнительной важности этих показателей. Для этого в классе транзитивных антирефлексивных бинарных отношений рассматривается отношение Парето (https://www.newworldencyclopedia.org/entry/Vilfredo\_Pareto) в евклидовом пространстве. Данное отношение также называют отношением доминирования. Суть этого отношения состоит в следующем. Говорят, что некоторый элемент x из некоторого множества доминирует другой элемент y из этого же множества, если x не хуже y по всем аспектам (критериям) и минимум по одному аспекту превосходит y. Множество всех недоминируемых элементов называют множеством Парето. Бинарное отношение Парето обеспечивает универсальную математическую модель многокритериального контекстно–независимого выбора в евклидовом пространстве. Опираясь на отношение Парето, очевидным образом строится функция выбора, которая и генерирует множество элементов, наилучших с учетом всех вычисленных метрик, без каких–либо априорных предположений о сравнительной важности этих метрик. В условиях реального выбора множество Парето нередко содержит в себе более одного элемента. Отдельная таблица содержит результаты вычисления показателей доминирования для всех пяти исследованных методов классификации текстов на естественных языках, когда учитываются метрики Precision, Recall, F1–score в различных комбинациях. Следует иметь в виду тот факт, что метрика F1–score является производной от двух предыдущих метрик и вычисляется как их среднее гармоническое. Полученные в ходе вычислительных экспериментов результаты позволили сделать следующий вывод. Среди пяти протестированных методов классификации текстов на естественных языках лидером оказывается метод «SVM Classifier with SGD» со значениями показателей доминирования 3, 7 и 10. Он единственный входит в множество Парето–оптимальных алгоритмов. Метод «Nearest Neighbors Classifier» немногим ему уступает. Метод «Maxent Classifier (Softmax)» выглядит аутсайдером на фоне других методов. Следует отметить, что метод «SVM Classifier with SGD» является бинарным, то есть позволяет распределять элементы всего по двум классам. Это техническое ограничение преодолевается путем многократной классификации по принципу «один–против–всех» и «один–против–одного». Далее было выполнено сопоставление имеющихся результатов с данными, которые были получены иными исследователями на других корпусах текстов, в том числе с применением продвинутых методов глубокого машинного обучения. В свежем обзоре «Deep Learning Based Text Classification. A Comprehensive Review» (https://doi.org/10.1145/3439726) в Таблице 1 на стр. 27 приведены результаты тестирования ряда алгоритмов машинного обучения для решения задач классификации текста. В частности, наивный байесовский классификатор в нашем исследовании показал среднюю точность 86%, в то время как тот же классификатор на гораздо большем корпусе текстов SST-2 дал точность 81,80%. Алгоритмы глубокого машинного обучения на корпусе текстов SST-2 дают среднюю точность 91%, что всего на 5% лучше средней точности 86%, которую обеспечивает наивный байесовский классификатор на скромных наборах данных в настоящем исследовании. Из этого возможно заключить, что машина опорных векторов, метод ближайших соседей и наивный байесовский классификатор обеспечивают достаточную компетентность семантических баз ядерных знаний как систем искусственного интеллекта.

 

Публикации