КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 20-72-00106

НазваниеСоздание базы данных активных областей на Солнце на основе параметризации, построенной методами машинного обучения

РуководительИлларионов Егор Александрович, Кандидат физико-математических наук

Организация финансирования, регион Федеральное государственное бюджетное образовательное учреждение высшего образования «Московский государственный университет имени M.В.Ломоносова», г Москва

Период выполнения при поддержке РНФ 07.2020 - 06.2022 

Конкурс№49 - Конкурс 2020 года «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 02 - Физика и науки о космосе, 02-703 - Солнце и Солнечная система

Ключевые словаСолнечная активноть, активная область, нейронный сети, автоэнкодер, машинное обучение, база данных, солненая цикличность, космическая погода

Код ГРНТИ41.21.19


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Наблюдения солнечной активности играют ключевую роль как для понимания общих процессов на Солнце, так и для решения оперативных задач прогноза космической погоды. Своевременное детектирование таких событий как корональные дыры, солнечные вспышки, корональные выбросы масс и оценка их геоэффективности позволяет оценивать риски для систем связи и навигации, спутниковых аппаратов и авиации. Исходными данными для анализа выступают, в первую очередь, изображения диска Солнца в различных длинах волн. На изображениях выделяют активные области, например, магнитные активные области или корональные дыры. Далее на основе конфигурации области и ее положения принимается решение о ее активности или вероятности произвести активное событие. Однако как показывает практика и исторический анализ, реальная эффективность прогнозов оказывается достаточно далека от желаемой. Более того, скорость накопления массива ежедневных наблюдений Солнца не приводит соответствующему росту точности, а сколь-либо детальному анализу подвергается лишь незначительная часть всех данных. Ситуация, очевидно, требует системного улучшения, который не кажется невозможным на фоне значительных успехов в области обработки и извлечения полезных связей в больших объемах данных в других областях. Целью предлагаемого проекта является привлечение современных методов машинного обучения для выделения признакового описания активных областей и создания на его основе базы данных активных областей. Разработанные модели и база данных будут ориентированы как на организации, вовлеченные в Службу Солнца для нужд прогноза, так и на исследования по солнечной активности. Для новых объектов система позволить проводить поиск структурно похожих объектов из базы, что актуально для оценки вероятности различных сценариев развития области. Для объектов из базы система позволит выделять группы схожих объектов, что интересно с точки зрения уточнения системы классификации. Таким образом, результаты работы будут актуальны далеко за рамками только текущего проекта. При работе с современными наблюдательными данными одной из первых задач обычно встает необходимость значительного снижения размерности, прежде чем данные станут сколь-либо обозримы для последующих моделей. Однако традиционные пути введения количественных характеристик достаточно ограничены по своей выразительности. Так, говоря об активной области на Солнце, достаточно трудно как-то существенно разнообразить ее описание, помимо, например, подсчета площади, координат центра и, возможно, еще нескольких геометрических характеристик. Во-многом из-за ограниченности подобного описания и значительной потери информации на этом этапе последующие модели и расчеты часто оказываются достаточно далеки от реальных значений. В рамках проекта мы предлагаем новый взгляд на процесс построения характеристик областей, основанный на привлечении моделей машинного обучения. В качестве основного инструмента предлагается использовать нейронные сети типа автоэнкодеров. На практике за пределами задач физики Солнца обучение и эксперименты с нейронными сетями типа автоэнкодеров известны достаточно хорошо. Цель подобных моделей состоит в том, чтобы найти прямое и обратное отображение входных данных, например, изображения, в вектор фиксированной размерности (обычно значительно меньшей, чем размерность исходных данных), чтобы исходное и восстановленное изображение минимально различались. Для обучения модели нужен датасет с примерами входных данных. Например, хорошо известны эксперименты, в которых изображения лиц кодировались в вектор небольшой длины и с минимальной ошибкой восстанавливались обратно. Более того, анализ показывал, что часть признаков имеет вполне понятную интерпретацию. Например, модели удавалось сформировать признаки, характеризующие форму носа, разрез глаз и другие черты лица. Еще более интересен тот факт, что пространству признаков можно придавать некоторые заранее предопределенные свойства, что облегчает его последующий анализ. Для этих целей применяются вариационные и условные автоэнкодеры. В приложении к задачам солнечной физики подобные модели будут впервые исследоваться систематически. В рамках проекта мы будем использовать архив наблюдений Солнца со спутниковых и наземных телескопов и архив контуров активных областей Кисловодской горной астрономической станции ГАО РАН. Этот выбор обусловлен постоянством метода обработки наблюдений и ручным контролем качества данных, применяемым на данной обсерватории. На основе этого архиве мы проведем эксперименты с выбором архитектуры автоэнкодера, приводящей в наиболее показательным признакам. По итогам обучения модели мы получим признаковые описания для каждой активной области, которые станут основой для новой базы данных. Для интерпретации признаков будет выполнен анализ их широтно-временных распределений, циклической зависимости, корреляции с другими физическими параметрами. Этот этап, в частности, расширит наше представление о вариабельности форм и проявлений активных областей и, возможно, найдет свое объяснение или поставит новые вопросы перед теорией солнечной активности. На следующем этапе будет сформирована база данных активных областей и реализованы инструменты работы с базой на основе вспомогательных моделей машинного обучения. Идея здесь состоит в том, чтобы ввести метрику в пространстве признаков, которая будет характеризовать степень похожести объектов. Отметим, что в отличие от наивного попиксельного сравнения, который, например, неустойчив с сдвигам, в данном подходе мы соотносим объекты по их структурным характеристикам. Далее, с помощью методов кластерного анализа мы сможем выделить группы схожих между собой областей, а для новых объектов осуществлять поиск похожих объектов в базе. Именно эта база данных, выведенная в открытый доступ, станет, по нашему мнению, одним из основных результатов проекта и будет актуальна для широкого спектра дальнейших исследований. Так, например, поиск похожих событий и анализ их развития в позволит лучше предсказывать сценарии развития текущего объекта, а анализ временных вариаций признаков позволит уточнить границы солнечных циклов и характеризовать уровень активности в целом.

Ожидаемые результаты
По итогам проекта будет: 1. Построена модель, формирующая параметрическое описание для различных типов активных областей. Данная модель впервые позволит существенно обогатить возможности описания активной области, ограниченную сегодня только простейшими характеристиками. На основе расширенной параметризации станет возможным построение последующих более точных моделей, например, прогноза солнечных вспышек. 2. Изучены широтно-временное распределение новых характеристик, их связь с солнечной цикличностью. До сих пор об уровне солнечной активности судят, в основном, по индексу солнечных пятен. Однако попытки продолжить этот ряд на предсказание последующих циклов не приводят к убедительным результатом. Возможная причина здесь в том, что данные статистики слишком просты для изучаемого явления и необходим более широкий ряд признаков. Наше исследование позволит лучше прояснить этот вопрос и предложить для исследований расширенный набор показателей. 3. Составлена и опубликована в открытый доступ база данных с характеристиками активных областей. Мы рассчитываем, что собранная база данных станет актуальным инструментом для широкого спектра исследований по солнечной активности и будет использована для построения уточненных моделей прогноза космической погоды 4. Реализованы инструменты рекомендательного поиска по базе данных, в частности, ранжированная выдача похожих объектов, выделение групп объектов с близкими признаками. Эти инструменты интересны в связи с тем наблюдением, что близкие по структуре области ведут к схожим событиям (например, солнечным вспышкам). Однако методики того, как именно вводить понятие схожести, до сих пор остаются на уровне качественного описания и слабо поддаются количественному измерению. В нашем подходе этот вопрос получает естественное решение. Мы рассчитываем, что с его помощью удастся прийти к более детализированной системе классификации активных областей. 5. Разработанное программное обеспечение будет внедрено в программу синоптических наблюдених и обработки данных на Кисловодской горной астрономической станции и других заинтересованных организациях Службы Солнца.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2020 году
Первый год проекта был направлен на подготовку датасетов с примерами активных областей, разработку инструментов для работы с данными, создание базовой и усложненных моделеи автоэнкодера и анализ влияния архитектуры и схемы обучения на качество модели. В первую очередь, был разработан универсальный инструментарий (фреймворк) для работы с наблюдательными данными и ориентированный на задачи машинного обучения. Фреймворк позволяет 1) считывать и записывать данные в различных форматах, в которых представлены популярные наблюдательные данные. 2) индексировать произвольные множества файлов, проводить сортировку, фильтрацию, выбор подмножества 3) организовывать итеративные процедуры обработки данных 4) содержит набор стандартных методов обработки наблюдательных данных 5) конструировать параметрическим образом нейронные сети Код программ реализован на языке Python и выложен в открытый доступ в репозитории https://github.com/observethesun/helio. К репозиторию прилагается подробная документация и примеры использования кода. Далее, мы начали процедуру сборки датасетов. Мы планируем изучать разные по природе и способу представления данные, поэтому собираем датасет как на основе ежедневных изображений солнечного диска, так и синоптические карты. За основы датасета синоптических карты были взяты дисковые изображения SDO/AIA 193 A. Для них была разработана процедура предобработки изображения и склейки синоптических карт. К полученным синоптическим картам была применена модель, на основе нейронной сети, для сегментации корональных дыр. В результате, был составлен новый каталог карт корональных дыр за период 2010-н.в. Процедуры сборки карт и сегментации корональных дыр опубликованы в репозитории https://github.com/observethesun/synoptic_maps. Каталог непрерывно обновляется и представлен в открытом доступе. Другим примером собранного датасета является датасет активных областей (групп солнечных пятен), полученных из каталогов Кисловодской горной астрономической станции ГАО РАН. Исходные наблюдения (фотогелиограммы и карты активных областей) были предобработаны таким образом, чтобы представить каждую группу в отдельном файле, имеющей стандартное пространственное разрешение и фиксированные размеры. Датасет представлен в двух видах - бинарные маски и изображения в белом свете. За период 2010-2020 собрано порядка 7 тыс. изображений. Далее, для задач интерпретации, были получены таблицы с ММК и МВО классами активных областей, а также событиями, сопровождавшими группы (протонные события, мощные вспышки). Затем, была разработана параметрически задаваемая базовая модель автоэнкодера и его варианты - вариационный автоэнкодер и с дополнительным дискриминатором. По результатам экспериментов с различными архитектурами и схемами обучения мы пришли к выводам 1) базовая модель автоэнкодера приводит к нерегулярной структуре скрытого пространства 2) определенная часть признаков оказывается нерелевантной. Для их отсева мы дополнительно применяли модель PCA (principal component analysis) 3) излишне глубокие сети негативно сказываются на восстановлении объектов малой площади. Оптимальной оказывается глубина 4 4) вариационный автоэнкодер формирует регулярное распределение в признаковом пространстве, близкое к нормальному 5) стандартные функции ошибки MSE, SSIM (structure similarity индекс) приводят к сильно размытым изображениям 6) использование дополнительной метрики в виде в виде MSE метрики для глубоких слоев некоторой предобученной сети позволяет избавиться от проблемы размытости. По итогам экспериментов успешным оказалось применение предобученной модели VGG11 7) полностью сверточная модель работает существенно лучше модели, использующей полносвязный слой в скрытом представлении 8) модель с нормировочными слоями обучается лучше, чем модель без нормировочных слоев 9) предварительный анализ некоторых из скрытых параметры приводит к их вполне ясной интерпретации - угол ориентации и размер области.

 

Публикации

1. Илларионов Е., Косовичев А., Тлатов А. Machine-learning Approach to Identification of Coronal Holes in Solar Disk Images and Synoptic Maps Astrophysical Journal, том 903, № 2 (год публикации - 2020) https://doi.org/10.3847/1538-4357/abb94d

2. Райс М., Муглах К., Мёстль К., Ардж Ч., Бэли Р., Делуиль В., Гартон Т., Хамада А., Хофмайстер С.,Илларионов Е., Яролим Р., Кирк М., Косовичев А., Криста Л., Ли С., Лоудер К., Макнайк П., Верониг А. The Observational Uncertainty of Coronal Hole Boundaries in Automated Detection Schemes The Astrophysical Journal, - (год публикации - 2021)

3. Соколов Д.Д., Чикина А.А., Илларионов Е.А. Mean Square Geodesic Deviation in the Zeldovich Problem on Light Propagation in a Universe with Inhomogeneities Astronomy Reports, Vol. 65, No. 5, pp. 362–369. (год публикации - 2021) https://doi.org/10.1134/S1063772921050073

4. Тлатов А.Г., Илларионов Е.А., Березин И.А., Шрамко А.Д. Прогнозирование солнечных вспышек и фоновых потоков рентгеновского излучения по данным синоптических наземных наблюдений с помощью методов машинного обучения Космические исследования, том 58, номер 6 (год публикации - 2020) https://doi.org/10.31857/S0023420620060102

5. - Ученые предложили искать корональные дыры на Солнце с помощью нейросети Интерфакс, - (год публикации - )

6. - Нейросеть научили искать корональные дыры на Солнце ТАСС, - (год публикации - )

7. - Учёные МГУ обучили нейросеть искать корональные дыры на Солнце Сайт РФФИ, - (год публикации - )

8. - Учёные МГУ обучили нейросеть искать корональные дыры на Солнце Сайт МГУ, - (год публикации - )


Аннотация результатов, полученных в 2021 году
В рамках второго года проекта была сформирована итоговая архитектура модели и изучены свойства признакового пространства, построенного с помощью модели. Был построен набор диаграмм, иллюстрирующих связь латентных признаков с простыми физическими параметрами области. Так, например, один из латентных параметров отвечает за наклон группы (тилт-угол). Сравнение широтно-временной диаграммы тилт-угла, измеренного вписыванием простой регрессии, и на основе латентного параметра показывают почти идентичные картины. Более того, обнаружилась почти линейная связь между латентным параметром и тилт-углом, воспроизводящая известный закон Джоя. Это достаточно примечательный факт. Дело в том, что определение тилт-угла является не вполне однозначной процедурой. В модели латентных признаком мы заранее не закладываем никакого определения понятию тилт-угла и даже не требуем его вводить. Тем не менее, модель обнаруживает этот признак и относит его к набору наиболее значимых. Тем самым, данный латентный параметр можно рассматривать как определение тилт-угла, выработанное на основе данных. Среди других исследованных свойств следует отметить площадь области, долготный размер, состав (одиночное пятно или несколько пятен). Кроме того, был предложен способ измерения сложности группы. Основная идея заключается в том, что более сложные структуры должны требовать больше компонент латентного вектора для точной реконструкции. Была продемонстрирована возможность использования новых признаков для решения задачи классификации групп солнечных пятен по аналогии с изветсной классификацией Макинтоша. Исходный код процедур сборки, обучения и демонстрации моделей представлениы в репозитории https://github.com/observethesun/sunspot_groups. Код снабжен документацией и необходимыми комментариями для воспроизведения результатов. В то же репозитории в разделе latent_vectors выложена база данных построенных параметров для групп солнечных пятен за период 2010-2020. Для удобства работы с базой новых параметров (латентных признаков), дополнительно представлена база стандартных характеристик активных областей (в т.ч. координаты центра области, площадь, количество пятен, количество ядер и т.д.). Работы выполнялись с привлечением суперкомпьютера Ломоносов-2 МГУ.

 

Публикации

1. В. Садыков, Е. Илларионов Как машинное обучение помогает изучать Солнце Земля и Вселенная, №4, 2021 (год публикации - 2021) https://doi.org/10.7868/S0044394821040034

2. Е.А. Илларионов, Д.Д. Соколов Finite memory time and anisotropy effects for initial magnetic energy growth in random flow of conducting media Physical Review E, том 104, № 1 (год публикации - 2021) https://doi.org/10.1103/PhysRevE.104.015214

3. Илларионов Е.А., Тлатов А.Г. Parametrization of sunspot groups based on machine learning approach Solar Physics, Sol Phys 297, 19 (2022) (год публикации - 2022) https://doi.org/10.1007/s11207-022-01955-0

4. В. Садыков, И. Китиашвили, А.С. Дальда, В. Ориа, А. Косовичев, Е. Илларионов Compression of Solar Spectroscopic Observations: a Case Study of Mg II k Spectral Line Profiles Observed by NASA's IRIS Satellite 2021 International Conference on Content-Based Multimedia Indexing (CBMI), c.1-6 (год публикации - 2021) https://doi.org/10.1109/CBMI50038.2021.9461879


Возможность практического использования результатов
Результаты исследования представляют интерес для развития отечественной программы обработки наблюдений Солнца и моделей прогноза космической погоды.