КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 18-71-00156

НазваниеРазработка методов стохастического интеллектуального анализа данных с реализацией в виде гетерогенных вычислительных сервисов цифровой платформы

РуководительГоршенин Андрей Константинович, Доктор физико-математических наук

Организация финансирования, регион федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук", г Москва

Период выполнения при поддержке РНФ 07.2018 - 06.2020 

Конкурс№29 - Конкурс 2018 года по мероприятию «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-202 - Интеллектуальный анализ данных и распознавание образов

Ключевые словасервис, цифровая платформа, гетерогенные вычисления, смешанные вероятностные модели, интеллектуальный анализ данных

Код ГРНТИ27.43.51


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Проект направлен на исследование и развитие вероятностно-статистических подходов, основанных на методологии зашумления выборок, использовании сеточных EM-алгоритмов, в том числе и для обучения нейронных сетей, модификации классических подходов теории экстремальных значений и т.п., для обработки реальных данных из различных предметных областей с реализацией в виде гетерогенного вычислительного научного сервиса в рамках цифровой платформы и апробацией на высокопроизводительной аппаратной базе Центра обработки данных ФИЦ ИУ РАН как объекте современной исследовательской инфраструктуры. Математическую основу развиваемых в рамках данного проекта методов составляют смешанные вероятностные модели, хорошо зарекомендовавшие себя при решении различных задач, связанных с анализом потоков данных различной природы. Наиболее современный подход к обработке больших массивов сложноструктурированных данных основан на использовании технологий вычислений на графических процессорах (GPU), прежде всего на основе решений NVIDIA CUDA. Привлекательность применения графических процессоров для научных исследований связана с их относительно низкой стоимостью, сочетающейся со значительной производительностью и возможностью реализации достаточно точных численных методов в широком спектре задач математического моделирования реальных процессов. Наибольшую популярность приобретают гибридные решения, использующие возможности видеокарт для быстрой параллельной обработки данных совместно с традиционными вычислениями на базе центрального процессора, представляющие собой основу так называемых гетерогенных вычислений. В рамках современной исследовательской парадигмы доступ к таким ресурсам и алгоритмам можно эффективно осуществлять за счет использования цифровых платформ, представляющих собой совокупность как технических, так и научно-инновационных решений. Использование цифровых платформ соответствует задачам программы «Цифровая экономика Российской Федерации» и ведет к формированию нового подхода к проведению научных исследований, отвечающего самым современным требованиям, в частности, актуальной парадигме Data-Intensive Science, в рамках которой постулируется факт возможности получения значимых научных результатов только на основе анализа огромных массивов данных, накопленных в конкретных предметных областях. Актуальность данных исследований также обусловлена необходимостью автоматизации исследовательских процессов и создания соответствующих аналитических инструментов и методов, которые обеспечат пользователей набором алгоритмов с единой реализацией. Такой подход гарантирует воспроизводимость результатов для максимально широкой группы исследователей – и возможные различия в результатах анализа будут свидетельствовать только об особенностях в структуре данных и отличиях в настройках методов.

Ожидаемые результаты
1. Будут исследованы и развиты вероятностно-статистические подходы, основанные на методологии зашумления выборок, использовании сеточных EM-алгоритмов, в том числе и для обучения нейронных сетей, модификации классических подходов теории экстремальных значений и т.п., для анализа реальных данных из различных предметных областей. 2. Будут изучены возможности использования цифровых платформ для решения ряда задач Стратегии научно-технологического развития Российской Федерации, связанные с созданием в их рамках научных и иных сервисов. 3. Будут разработаны сервисы стохастического анализа данных на основе парадигмы гетерогенных вычислений с интеграцией в цифровую платформу и апробацией на высокопроизводительной аппаратной базе Центра обработки данных ФИЦ ИУ РАН как объекте современной исследовательской инфраструктуры.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2018 году
1. Получены оценки для математического ожидания наблюдений в предположении зашумления конечными смесями нормальных и гамма-распределений. Построены доверительные интервалы для неизвестного математического ожидания в этих случаях с использованием уточненной оценки для дисперсии. Полученные соотношения зависят только от величины математических ожиданий и дисперсий компонент параметров смеси, но не от числа компонент и весов в распределении зашумляющих наблюдений. Обсуждается подход, который может быть использован для определения неизвестного параметра, искусственно добавляемого к исходным данным шума для улучшения качества работы метода скользящего разделения смесей. Результаты опубликованы в статье «Зашумление данных конечными смесями нормальных и гамма-распределений с применением к задаче округления наблюдений» (автор – Горшенин А.К.; «Информатика и ее применения», 2018. Т. 12. Вып. 3. C. 28–34; Scopus, РИНЦ). 2. Проведен статистический анализ ансамблей физических экспериментальных данных на основе конечных нормальных смесей, а также разработан программный инструмент на языке MATLAB, с помощью которого выполнена упомянутая обработка наблюдений. Это позволило сделать ряд важных выводов о функционировании процессов в турбулентной плазме. Результаты опубликованы в статье «Evolution of statistical properties of microturbulence during transient process under electron cyclotron resonance heating of the L-2M stellarator plasma» (авторы – Batanov G.M., Borzosekov V.D., Gorshenin A.K., Kharchev N.K., Korolev V.Yu., Sarksyan K.A.; «Plasma Physics and Controlled Fusion», 2019; Q1 Web of Science, Scopus). Также получено свидетельство о государственной регистрации программы для ЭВМ № 2019615238 от 22.04.2019 «Программа анализа статистических свойств микротурбулентности в переходном процессе при электронно-циклотронном резонансном нагреве плазмы» (автор – Горшенин А.К.). 3. Определены нефинансовые барьеры для развития молодежи в сфере науки и образования в соответствии с направлениями Стратегии научно-технологического развития Российской Федерации (СНТР). Представлена концептуальная схема соответствия между направлениями СНТР и сервисами научной цифровой платформы. Предложена концепция развития научно-образовательных цифровых платформ на базе центров превосходства. Результаты опубликованы в статье «Развитие сервисов цифровых платформ для преодоления нефинансовых барьеров» (автор – Горшенин А.К.; «Информатика и ее применения», 2018. Т. 12. Вып. 4. C. 109–115; Scopus, РИНЦ).

 

Публикации

1. Батанов Г.М., Борзосеков В.Д., Горшенин А.К., Харчев Н.К., Королев В.Ю., Сарксян К.А. Evolution of statistical properties of microturbulence during transient process under electron cyclotron resonance heating of the L-2M stellarator plasma Plasma Physics and Controlled Fusion, - (год публикации - 2019)

2. Горшенин А.К. Зашумление данных конечными смесями нормальных и гамма-распределений с применением к задаче округления наблюдений Информатика и ее применения, Т. 12. Вып. 3. C. 28–34. (год публикации - 2018) https://doi.org/10.14357/19922264180304

3. Горшенин А.К. Развитие сервисов цифровых платформ для преодоления нефинансовых барьеров Информатика и ее применения, Т. 12. Вып. 4. C. 106–112. (год публикации - 2018) https://doi.org/10.14357/19922264180415

4. Горшенин А.К. Программа анализа статистических свойств микротурбулентности в переходном процессе при электронно-циклотронном резонансном нагреве плазмы -, №2019615238 от 22.04.2019 (год публикации - )


Аннотация результатов, полученных в 2019 году
1. Апробирована методология использования гибридных подходов (повышения точности решения задачи регрессии за счет использования результатов классификации) для решения задачи заполнения пропущенных значений в пространственно-временных данных на примере климатических наблюдений с помощью различных алгоритмов машинного обучения. Для тестирования были использованы данные порядка 100 метеостанций, расположенных на различных континентах. Продемонстрирована высокая эффективность использования в качестве алгоритма классификации метода опорных векторов, а в качестве алгоритма регрессии – экстремального градиентного бустинга. Также в ряде ситуаций возможно незначительное повышение точности второго этапа за счет использования случайных лесов и EM-алгоритма. Полученные результаты позволяют использовать статистические методы определения аномальности наблюдений, а также рассчитывать на сохранение эффективности применения развитых методов при анализе других данных, непосредственно не связанных с осадками и метеорологией. Результаты публикованы в статьях «On handling the missing values in precipitation records using machine learning algorithms» (авторы Gorshenin A., Lebedeva M., Lukina S., Yakovleva A.; Материалы XXII Международной научной конференции DCCN-2019. – М.: РУДН, 2019. – С. 258–265; РИНЦ), «Application of machine learning algorithms to handle missing values in precipitation data» (авторы – Gorshenin A., Lebedeva M., Lukina S., Yakovleva A.; «Lecture Notes in Computer Science», 2019. Vol. 11965. P. 563–577; Web of Science Core Collection, Q2 Scopus) и «Гибридные модели экстремального градиентного бустинга для восстановления пропущенных значений в данных об осадках» (авторы – Горшенин А.К., Мартынов О.П.; «Информатика и ее применения», 2019. Т. 13. Вып. 3. C. 34–40; Q3 Scopus, РИНЦ). 2. Разработаны процедуры статистического определения аномальных значений в данных на основе предположения о том, что наблюдения (интенсивности осадков) имеют обобщенное гамма-распределение. Решение для каждого наблюдения принимается на основе процедуры проверки статистических гипотез в режиме скользящего окна. При этом продемонстрировано, что используемая статистика при справедливости нулевой гипотезы – наблюдение не является аномальным – имеет классическое распределение Снедекора-Фишера. Необходимо отметить, что подобные модели ранее для исследования интенсивностей не применялись. Кроме того, развит подход классической теории экстремальных значений Peaks over Threshold (PoT) на основе расширения теоремы Реньи на случай обобщенного отрицательного биномиального распределения. Он относит к аномальным большее число наблюдений, однако является в достаточной степени универсальным, и может быть успешно применен для анализа произвольных наблюдений. Результаты публикованы в статье «Probability models and statistical tests for extreme precipitation based on generalized negative binomial distributions» (авторы – Korolev V.Yu., Gorshenin A.K.; «Mathematics», 2020. Vol. 8. Iss. 4. Art. No. 604 (30 p.); Q1 Web of Science Core Collection, Scopus). 3. Все разработанные алгоритмы реализованы программно и успешно протестированы на гибридном высокопроизводительном вычислительном кластере, входящем в состав ЦКП «Высокопроизводительные вычисления и большие данные» ФИЦ ИУ РАН.

 

Публикации

1. Горшенин А.К., Лебедева М.А., Лукина С.С., Яковлева А.А. Application of machine learning algorithms to handle missing values in precipitation data Lecture Notes in Computer Science, Vol. 11965. P. 563-577. (год публикации - 2019) https://doi.org/10.1007/978-3-030-36614-8_43

2. Горшенин А.К., Мартынов О.П. Гибридные модели экстремального градиентного бустинга для восстановления пропущенных значений в данных об осадках Информатика и ее применения, Т. 13. Вып. 3. C. 34–40. (год публикации - 2019) https://doi.org/10.14357/19922264190306

3. Королев В.Ю., Горшенин А.К. Probability models and statistical tests for extreme precipitation based on generalized negative binomial distributions Mathematics, Vol. 8. Iss. 4. Art. No. 604 (год публикации - 2020) https://doi.org/10.3390/math8040604

4. Горшенин А.К., Лебедева М.А., Лукина С.С., Яковлева А.А. On handling the missing values in precipitation records using machine learning algorithms Материалы XXII Международной научной конференции DCCN-2019, М.: РУДН, 2019. – С. 258–265. (год публикации - 2019)

5. - Ученые разработали новый метод анализа характеристик плазмы Indicator.Ru, - (год публикации - )


Возможность практического использования результатов
Созданные методы и алгоритмы стохастического анализа данных являются основой для прототипов научных сервисов, которые в ближайшее время будут развернуты в рамках цифровой платформы ФИЦ ИУ РАН, разрабатываемой на базе современной вычислительной инфраструктуры ЦКП «Высокопроизводительные вычисления и большие данные» ФИЦ ИУ РАН (http://www.frccsc.ru/ckp). Они могут быть использованы для обработки данных как из предметных областей, для которых осуществлялось тестирование при разработке (метеорология, физика турбулентной плазмы), так и для более широкого класса временных рядов, формируемых различными информационными системами, для которых разработанные достаточно общие модели и алгоритмы могут быть применены непосредственно или с незначительными модификациями.