КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 19-71-00150

НазваниеИнтеллектуальные методы создания интерпретируемых предсказательных моделей на данных о процессах природной среды

РуководительКалюжная Анна Владимировна, Кандидат технических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет ИТМО", г Санкт-Петербург

Период выполнения при поддержке РНФ 07.2019 - 06.2021 

Конкурс№40 - Конкурс 2019 года «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-201 - Искусственный интеллект и принятие решений

Ключевые словаискусственный интеллект, машинное обучение, компьютерное моделирование, модели динамики сплошной среды

Код ГРНТИ28.17.19


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Данный проект направлен на формирование научно-технического задела в области создания, исследования и использования интерпретируемых предсказательных моделей процессов естественной среды, структура которых может быть идентифицирована на основе данных. Основной фокус исследования лежит в направлении разработки интерпретируемых предсказательных моделей через физически обоснованные модели изменчивости непрерывной среды. В рамках проекта планируется решение следующих конкретных задач: 1. Разработка и исследование методов и алгоритмов интерпретируемого data-driven моделирования процессов в природных сплошных средах. 2. Разработка и исследование технологий создания предсказательных моделей с гибкой структурой на данных (data-driven models), обобщающих подходы к созданию интерпретируемых моделей и обеспечивающие принципиальную возможность создания модульных структур предсказательных моделей на данных. 3. Разработка и исследование подходов и методов ко-дизайна данных и моделей. 4. Исследование свойств и эффективности разработанных методов и алгоритмов при реализации вычислений на ресурсах с различной архитектурой, включая CPU и GPU кластеры. 5. Разработка экспериментальных решений, демонстрирующих работоспособность и эффективность предложенных методов, алгоритмов и технологий в рамках конкретных предметных задач, а также оценка перспективности и возможности их дальнейшего обобщения на задачи более широкого профиля или задачи из другой предметной области. Актуальность проекта обусловлена наличием нескольких предпосылок в предметных областях, использующих методы предсказательного моделирования процессов и явлений естественной среды (в первую очередь - гидрометеорологии): (1) трудоемкий и долгий процесс настройки существующих физически обоснованных моделей, (2) моделирование непрерывных сред является классической задачей высокопроизводительных вычислений на классических CPU-архитектурах суперкомпьютеров и тяжело переносится на современные архитектуры (в том числе на основе GPU), (3) существующие подходы к предсказанию на основе не интерпретируемого МО не дают возможности извлечения новых знаний в предметной области о характере и свойствах зависимостей между процессами и явлениями. Научная новизна предлагаемого проекта состоит в обосновании и разработке новых подходов к задаче создания интерпретируемых моделей для предсказания гидрометеорологических процессов, предполагающих создание моделей, позволяющих воспроизводить сложные нелинейные пространственно-временные зависимости между переменными благодаря поэтапной идентификации структуры модели на данных (начиная с описания зависимостей с помощью ДУ и заканчивая их уточнением потенциально интерпретируемыми моделями МО).

Ожидаемые результаты
Ожидаемые конкретные результаты: 1. Методы идентификации структуры физически обоснованных одномерных и многомерных моделей для гидрометеорологических процессов. 2. Методы идентификации структуры потенциально интерпретируемых моделей машинного обучения для прогнозирования пространственно-временной изменчивости гидрометеорологических процессов. 3. Методы и подходы декомпозиции данных и фрагментации решения для улучшения качества предсказания пространственно-временной изменчивости гидрометеорологических процессов и релевантности структуры модели. 4. Экспериментальные решения для data-driven прогнозирования пространственно-временной изменчивости гидрометеорологических процессов, адаптированные для вычислений на CPU и GPU кластерных системах. После получения экспериментальных решений, позволяющих создавать интерпретируемые предсказательные модели гидрометеорологических процессов, разработанные подходы могут быть обобщены на решение задач в других предметных областях (в первую очередь областях, где применяются модели сплошных сред). Также полученные результаты (подходы, методы, алгоритмы) могут дать толчок к развитию моделей нового поколения (в т.ч. адаптированных под современные вычислительные архитектуры) для прогнозирования гидрометеорологических процессов и явлений.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2019 году
1. Выполнен аналитический обзор научно-технической литературы (30 источников), а также патентные исследования по теме исследования (обнаружено 12 релевантных объектов интеллектуальной собственности). По результатам анализа прямых аналогов разрабатываемым решениям не найдено. 2. Разработан метод идентификации структуры физически обоснованных моделей, основанный на построении дифференциальных уравнений в частных производных (ДУЧП), описывающих соответствующий данным физический процесс, с учетом его возможного зашумления (относительно дифференциального уравнения). 3. Исследованы методы и подходы многомасштабной декомпозиции данных о временной изменчивости гидрометеорологических процессов, позволяющий получить более гладкие приближения для повышения точности восстановления структуры физически обоснованной модели. 4. Разработан и исследован метод фрагментации решения за счет выделения кластеров, описывающих наиболее однородные участки данных по структуре восстановленной модели. Данный метод строится на основе идентификации параметров модели линейной регрессии с L1 регуляризацией по многомерным данным наблюдений, характеризующим пространственно-временную изменчивость целевого процесса. 5. Реализован алгоритм, позволяющий выполнять идентификацию ДУЧП на реальных данных. Алгоритм основан на методе идентификации структуры физически обоснованных моделей и реализован на языке Python. 6. В рамках разработки экспериментальных решений, для задач предсказательного моделирования были представлены методы (1) на основе вычисления временной эволюции уравнений динамики, полученных на основе алгоритма идентификации ДУЧП по реальным данным; (2) метод предсказательного моделирования на основе регуляризованной регрессии с выделением погодных паттернов; (3) метод построения многомасштабного прогноза с помощью LSTM сети со сверточными слоями. 7. Представлены результаты экспериментальных расчетов, позволяющие оценить работоспособность и эффективность разработанных подходов для интерпретации физически обоснованных моделей на синтетических данных, а также на реальных данных, полученных с помощью модели океана NEMO. 8. По итогам работы коллектива исполнителей проекта было подготовлено 3 публикации, подготовленных и представленных в издания, индексируемые WoS/Scopus.

 

Публикации

1. Деева И., Никитин Н.О., Калюжная А.В. Pattern Recognition in Non-Stationary Environmental Time Series Using Sparse Regression Procedia Computer Science, Deeva I., Nikitin N. O., Kaluyzhnaya A. V. Pattern Recognition in Non-Stationary Environmental Time Series Using Sparse Regression //Procedia Computer Science. – 2019. – Т. 156. – С. 357-366. (год публикации - 2019) https://doi.org/10.1016/j.procs.2019.08.212

2. Масляев М.А., Хватов А.А., Калюжная А.В. Data-driven partial differential equations discovery approach for the noised multi-dimensional data Springer, Cham, - (год публикации - 2020)

3. Калюжная А.В., Никитин Н.О., Вычужанин П.В., Хватов А.А., Бухановский А.В. Automatic Evolutionary Learning of Composite Models WithKnowledge Enrichment Proceedings of the Genetic and Evolutionary Computation Conference Companion, - (год публикации - 2020) https://doi.org/10.1145/3377929.3398167


Аннотация результатов, полученных в 2020 году
(1) Было проведено обоснование направления дальнейшего исследования на основе анализа результатов прошлого этапа и литературных источников, содержащих описание перспективных методов и алгоритмов в области разработки интеллектуальных моделей природной среды и других прикладных областей (20 основных источников). (2) Был разработан и исследован алгоритм идентификации систем уравнений физики среды на синтетических данных, полученных в результате решения известной системы, и данных реальных процессов, полученных из натурных экспериментов или из современных гидродинамических моделей. В рамках предложенного алгоритма был реализован алгоритм автоматического дифференцирования с использованием нейронной сети, которая позволяет получить более гладкую аппроксимацию функции и снизить влияние шума в данных. Алгоритм реализован в рамках открытого фреймворка EPDE. В разработанном фреймворке EPDE, для получения каждого (в системе) дифференциального уравнения, за основу взята комбинация 3-х различных подходов: эволюционный алгоритм выполняет поиск множества слагаемых, соответствующего уравнению, LASSO-регрессия фильтрует незначительные слагаемые, и линейная регрессия подбирает действительные коэффициенты уравнения. (3) Был разработан и исследован метод идентификации структуры гибридных моделей физики среды, включающих как модели на основе уравнений, так и модели машинного обучения. Данный метод основан на эволюционном подходе к построению графа вычислений, в узлах которого могут располагаться как модели МО, так и физически обоснованные модели. Представленный метод позволяет оперировать произвольным набором целевых функций и ограничений, что позволяет строить гибридные и суррогатные модели для различных процессов. На основе представленного метода были получены реализации моделей, показывающие свою эффективность по сравнению с классическими гидродинамическими моделями (на примере модели NEMO). (4) Были исследованы методы и подходы к построению вспомогательных интерпретируемых моделей природных процессов, обеспечивающих интерпретацию основной модели. В том числе, были исследованы возможности композитных моделей МО, строящихся на моделях МО, имеющих преимущественно линейную структуру. Также, в качестве суррогатных интерпретируемых моделей были исследованы возможности гибридных моделей. Экспериментальные исследования выполнялись на данных уровня моря с использованием результатов прошлого этапа по созданию инкрементальной модели МО на основе последовательно объединенных нейронных LSTM сетей. (5) Были выполнены экспериментальные исследования параллелизации data-driven моделей пространственно-временной изменчивости гидрометеорологических процессов, адаптированные для вычислений на кластерных системах. Благодаря решению на основе архитектуры neuralODE было получено ускорение вычислений в 1,5 раза, что дает отправной результат, позволяющий применять разработанные методы идентификации с меньшими временными затратами и, в то же время, проводить дальнейшие исследования в области ускорения алгоритмов идентификации уравнений по данным. (6) Были подготовлены и опубликованы 2 статьи (1 - Q1 в журнале): 1. Масляев М., Хватов А., Калюжная А. (Mikhail Maslyaev, Alexander Hvatov, Anna Kalyuzhnaya) Discovery of the data-driven models of continuous metocean process in form of nonlinear ordinary differential equations Procedia Computer Science (2020 г.) 2. Михаил Масляев, Александр Хватов, Анна Калюжная (Mikhail Maslyaev, Alexander Hvatov, Anna V. Kalyuzhnaya) Partial differential equations discovery with EPDE framework: application for real and synthetic data Journal of Computational Science (Q1, 2021 г.)

 

Публикации

1. Масляев М., Хватов А., Калюжная А. Discovery of the data-driven models of continuous metocean process in form of nonlinear ordinary differential equations Procedia Computer Science, Volume 178, 2020, Pages 18-26 (год публикации - 2020) https://doi.org/10.1016/j.procs.2020.11.003

2. Михаил Масляев, Александр Хватов, Анна Калюжная Partial differential equations discovery with EPDE framework: application for real and synthetic data Journal of Computational Science, Maslyaev, M., Hvatov, A. and Kalyuzhnaya, A.V., 2021. Partial differential equations discovery with EPDE framework: application for real and synthetic data. Journal of Computational Science, p.101345. (год публикации - 2021) https://doi.org/10.1016/j.jocs.2021.101345

3. Хватов А.А., Масляев М.А., Калюжная А.В. Программный комплекс для управляемого данными вывода дифференциальных уравнений EPDE -, 2020660871 (год публикации - )


Возможность практического использования результатов
Выполнение проекта обеспечивает формирование научного и технологического задела в области интеллектуальных методов моделирования природной среды. Результаты проекта могут применяться во многих социально-экономических сферах, связанных с необходимостью высокоточного динамического моделирования природной среды (например, погодных явлений). Примерами таких сфер могут быть ЖКХ, судоходство, нефте и газодобыча.