КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 18-41-06003

НазваниеКарлсруэ-Российская инициатива по работе с астрофизическими данными на протяжении их жизненного цикла.

РуководительКрюков Александр Павлович, Кандидат физико-математических наук

Организация финансирования, регион Федеральное государственное бюджетное образовательное учреждение высшего образования «Московский государственный университет имени M.В.Ломоносова», г Москва

Период выполнения при поддержке РНФ 2018 г. - 2020 г. 

Конкурс№20 - Конкурс 2017 года «Проведение фундаментальных научных исследований и поисковых научных исследований международными научными коллективами» (Helmholtz).

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-410 - Высокопроизводительные компьютерные системы и распределенная обработка данных

Ключевые словараспределенные системы, системы хранения, интеллектуальный анализ данных, большие данные, проблемно-ориентированные системы, астрофизика частиц.

Код ГРНТИ50.41.25


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Проект направлен на решение актуальной проблемы организации работы с научными данными, получаемыми с современных экспериментальных установок. Настоящее время характеризуется лавинообразным ростом объема экспериментальных данных. Так если еще 10-15 лет назад объем данных астрофизических экспериментов составлял единицы и, в крайнем случае, десятки терабайт данных в год, то современные установки ежегодно производят сотни и тысячи терабайт данных. В качестве примера приведем рост передаваемых данных со спутников. Так, если в 2002 году с установки Integral [http://sci.esa.int/integral/] передавалось 1.2 ГБ данных в день, то эксперимент Gaia (2013) передает около 50 ГБ данных в день. Другой пример – наземный эксперимент LSST [https://www.lsst.org/], один снимок которого имеет размер 3 ГБ, а темп снятия информации составляет 15 секунд. В год LSST будет производить десятки петабайт информации! Указанная тенденция ставит перед научным сообществом ряд принципиально новых вопросов по работе с этим огромным потоком данных. Причем, поддержка работы с данными астрофизических экспериментов должна быть на всех этапах жизненного цикла данных (data life cycle, см., например, [https://pubs.usgs.gov/of/2013/1265/pdf/of2013-1265.pdf] от сбора и хранения данных через обработку и анализ к формулированию уточненных физических моделей, подготовке публикаций и повторной обработки с учетом полученных уточнений. Важным направлением развития современной науки в целом и астрофизики частиц в частности является модель открытого доступа к данным – open science (см., например, Paul A. David, Industrial and Corporate Change, Volume 13, Number 4, pp. 571–589; http://ec.europa.eu/research/openscience/index.cfm), когда данные становятся доступными не только для членов коллабораций, но и для всех заинтересованных лиц от любителей до профессионалов. Особенно важно развивать такой подход в эпоху больших данных, когда полный анализ полученных результатов экспериментов часто бывает не под силу одному коллективу. Настоящий проект направлен на создание системы, которая позволит разработать методику сбора, обработки и анализа данных с астрофизических экспериментов на примере данных экспериментов TAIGA [http://taiga-experiment.info/] и KASCADE [https://web.ikp.kit.edu/KASCADE/] в модели открытого доступа – open science. Новизна предлагаемого подхода состоит в разработке комплексного решения, одновременно включающего: * разработку и адаптацию методов и алгоритмов распределенного хранения данных с организацией общего метакаталога, что обеспечит единое информационное пространство распределенного хранилища; * разработку и адаптацию алгоритмов обмена данными, а также передачу данных пользователям одновременно из разных хранилищ, что существенно сократит время загрузки данных; * разработку новых методов распознавания типа частиц и их характеристик на основе современных методов машинного обучения, которые будут доступны пользователям on-line; * адаптация и развертывание прототипа системы анализа больших данных на основе системы KCDC и наполнение ее данными экспериментов KASCADE и TAIGA для отработки технологии поддержки работы с данными на всем протяжении их жизненного цикла. Мы также предполагаем развернуть на базе платформы HubZero [www.hubzero.org] площадку для образовательных целей для подготовки студентов и аспирантов в области астрофизики частиц. Предложенный подход является инновационным и впервые будет использован для научных исследований в области астрофизики частиц. В дальнейшем предполагается расширить число экспериментов путем включения в систему данных других установок, что позволит значительно ускорить исследования фундаментальных свойств материи и вселенной. Стоит заметить, что предложенный подход может быть использован не только в указанной области науки, а также адаптирован к другим естественнонаучным направлениям.

Ожидаемые результаты
В ходе выполнения проекта будут получены следующие основные результаты:         • Будет создана распределенная система сбора и обработки больших астрофизических данных на базе существующей системы KCDC. Предлагаемая идея для достижения поставленной цели есть концепция так называемой «лаборатории жизненного цикла данных».         • Будет разработано и внедрено программное обеспечение для интеллектуального анализа больших данных в астрофизике частиц.         • Будет разработана методика проверки надежности научных результатов, основанная на совокупном анализе данных многих типов и из многих источников.         • Будет обеспечен открытый доступ к данным для научной общественности. Созданный в результате распределенный центр обработки и анализа данных, а также опыт, накопленный в рамках этого проекта, будут иметь большую общественную значимость. Центр обработки больших данных открывает двери для новых методов интеллектуального анализа данных, а также путь для новой стратегии открытой науки. Кроме того, центр развивает концепцию открытого доступа к данным будущих крупномасштабных экспериментов по астрофизике частиц, в частности, в части агрегирования больших данных различных экспериментов. Результаты, запланированные в данном проекте, соответствуют мировому уровню и ведущим мировым тенденциям как в области ИТ, так и в фундаментальных исследованиях.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2018 году
Модель открытых данных (open data) достаточно широко используется в научном мире. Ее распространению послужило то, что с одной стороны получение данных часто бывает очень затратным, а с другой стороны, как и любая экспериментальная информация она может многократно использоваться для повторного анализа. Современный рост объема получаемых данных еще острее поставил вопрос о переходе к указанной модели функционирования науки. Одним из примеров такой коллаборации в области физики высоких энергий может служить проект по открытым данным CERN (http://opendata.cern.ch/docs/about). В настоящее время, только коллаборация ATLAS предоставляет открытый доступ к 100 триллионам протонных столкновений при энергии 8 ТэВ. В рамках проекта было разработано ПО, позволяющее проводить анализ данных всем заинтересованным пользователям. Анализ современного состояния работ в области построения распределенных систем хранения, обработки и анализа данных на протяжении всего жизненного цикла показывает, что в настоящее время проблема, поставленная разработчиками проекта, не имеет комплексного решения для астрофизики частиц и, безусловно, является актуальной и требует своего решения. Одна из основных задач проекта — это разработка распределенного хранилища экспериментальных данных для астрофизики частиц. Для такой системы были выработаны критерии функционирования с учетом специфики стоящих задач. Эти критерии определяют параметры системы с точки зрения администратора системы, пользователя системы, менеджера системы. В качестве пилотных экспериментов рассматриваются эксперимент KASCADE и TAIGA. При проектировании архитектуры распределенного хранилища для астрофизических экспериментов мы придерживались нескольких базовых принципов. 1 Сохранение исторически сложившихся в экспериментальных группах методов хранения и политик доступа. 2. Предоставление данных пользователям системы прозрачным способом. 3. Обеспечение возможности выборки данных как на уровне отдельных файлов, так и на уровне отдельных событий в соответствии с критериями, заданными пользователями. Выполнение первого пункта достигается двумя методами. Во-первых, это использование программ-адаптеров, которые обеспечивают с одной стороны доступ к данным, а с другой стороны реализуют унифицированный для всех компонентов системы API. В качестве основы для адаптеров предполагается использовать кеширующую файловую систему CERNVM-FS. Использование кеширующей файловой системы, позволяет предоставлять пользователю данные прозрачным способом. А именно, пользователь может смонтировать необходимые файлы на своем локальном компьютере и работать с ними как с локальной файловой системой. Ограничением этого подходя является то, что CERNVM-FS — это файловая система только для чтения. Однако, так как цель системы предоставлять доступ к (первичным) экспериментальным данным, то это ограничение не является существенным. Последнее требование — выборка данных на уровне отдельных событий, требует формирования на лету (on-line) таких выборок. Так как изначально поставлена цель не вмешиваться в исторически сложившиеся методы работы экспериментальных групп, было принято решение реализовать данную функциональность на специально выделенном сервере агрегации данных, который одновременно является и единой точкой входа пользователей в систему. Для реализации обработки запросов пользователей на выборку данных будет разработана информационная система, центральная часть которой является сервер базы метаданных (MDB), в которой будет накапливаться как метаданные, относящиеся к файлам в целом (дата создания, место хранения, размер и т. д.), так и метаданные по отдельным событиям, например энергия ШАЛ, направление, расстояние до центра установки, при ее наличии. Одной из важных задач является задача управления жизненным циклом астрофизических данных, которая включает архивирование и публикацию необработанных двоичных (бинарных) данных для обеспечения воспроизводимости результатов астрофизических экспериментов и их повторного использования в будущем. Установки экспериментов KASCADE и TAIGA генерируют «сырые» бинарные данные в 5 уникальных файловых форматах, которые были слабо-документированными и закрытыми для научного сообщества. Для того чтобы обеспечить с одной стороны открытость бинарных данных экспериментов KASCADE и TAIGA для научного сообщества, а с другой исключить риск утраты неопубликованных алгоритмов их разбора, были разработаны формальные спецификации файловых форматов, используемых установками этих экспериментов с использованием инструментария KAITAI STRUCT. По подготовленным спецификациям бинарных файлов был сгенерирован исходный код программных библиотек разбора (синтаксического анализа) двоичных данных экспериментов на основных языках программирования, включая C ++, JAVA и PYTHON. Также на языке PYTHON с использованием сгенерированных библиотек были разработаны программы верификации данных всех установок экспериментов KASCADE и TAIGA. Тестирование разработанных программ верификации на реальных данных экспериментов показали корректность и высокую производительность созданных библиотек. Разработанное программное обеспечение разбора и верификации необработанных данных форматов TUNKA-133, GRANDE и TUNKA-REX было протестировано примерно на 89 тысячах файлов за сезон 2016 года. В ходе верификации данных было обнаружено, что 1,2% файлов этих форматов содержали ошибки. Программное обеспечение, разработанное для обработки данных TAIGA-IACT и TUNKA-HISCORE, было протестировано примерно на 120 тысячах файлов. В 0,6% файлах также были обнаружены ошибки. Данные программы также были использованы при разработке алгоритмов агрегации необработанных данных экспериментов KASCADE и TAIGA с разделением на 3 уровня: физический, логический и семантический. Для хранения результатов агрегации данных разработан контейнерный формат файлов, который включает в себя заголовок и спецификации первичных форматов данных экспериментов. Также реализована программная утилита агрегации первичных данных, обеспечивающая поддержку единого представления данных с учётом их семантических свойств в рамках предметной области. Результаты обработки первичных данных сохраняются в соответствии со спецификацией формата хранения агрегированных данных. Значительная часть работы была направлена на интеллектуальный анализ больших данных с помощью методов глубокого обучения. В астрофизике частиц это не только способствует повышению точности решения физических задач и делает более удобной работу с большими массивами данных в автоматическом режиме, но он также обеспечивает возможность проведения совместного унифицированного анализа данных различных экспериментов. В качестве пилотной решалась задача идентификация типа первичных частиц, регистрируемых экспериментальными астрофизическими установками. В рамках нашего проекта была выбрана разновидность метода глубокого обучения, предназначенная для работы с двумерными изображениями - сверточные нейронные сети (CNN). Для обучения нейронных сетей были использованы банки данных Монте-Карло симуляции черенковского телескопа TAIGA. Построение сверточных нейросетей осуществлялось независимо друг от друга на двух различных платформах программного обеспечения: TensorFlow и PyTorch с целью сравнения их удобства и эффективности. Были определены оптимальные разновидности нейросетей (число слоев, используемые опции и другие параметры) и оптимальные условия обучения, а также исследовано влияние предварительной обработки изображений (image cleaning, очистка изображений), являющейся стандартом в традиционном анализе данных черенковских телескопов. Получены оценки качества идентификации и построены кривые зависимости качества от выходного параметра нейросетей. Сравнение качества идентификации методом глубокого обучения и традиционной методикой последовательных сечений эмпирических параметров (параметров Хилласа) продемонстрировало убедительное преимущество новой методики. Для тестирования разрабатываемого программного обеспечения, проверки корректности заложенных моделей хранения, обработки и анализа данных, а также исследовании эффективности работы и соответствия системы запланированным характеристикам на базе Научно-исследовательского института ядерной физики МГУ имени Д.В. Скобельцына (НИИЯФ МГУ) был развернут испытательный стенд в составе: 1) два сервера хранения данных по 2ТБ каждый; 2) сервер агрегации; 3) сервер обработки запросов пользователей на основе метаданных; 4) сервер анализа данных (application server). Испытательный стенд имеет соединения по локальной сети в 1Gbps и выход в Интернет на скорости 1 Gbps. Для развертывания системы в составе, указанном выше, а также для выполнения большого объема вычислений, связанных с разработкой методов анализа данных в области астрофизики частиц, основанных на машинном обучении, был приобретен специализированный сервер с мощным GPU Tesla P100 фирмы NVIDIA. Задача распространения научно-образовательных и научно-популярных знаний в области астрофизики частиц в рамках модели открытой науки (Open Science), которая является одной из задач проекта, выполняется с использованием платформы HUBzero (https://hubzero.org/), на которая была развернута образовательная платформа astroparticle.online (http://astroparticle.online). HUBzero представляет собой платформу научного взаимодействия для создания мощных веб-сайтов, которая поддерживает научные открытия, обучение и сотрудничество. Программное обеспечение HUBzero позволяет пользователям получать доступ к инструментам моделирования и обмениваться информацией. HUBzero основан на программном обеспечении с открытым исходным кодом. В процессе работы было создано порядка 10 новых страниц и статей,  содержащих информацию об основных видах астрофизических взаимодействий, а также глобальных астрофизических проектах, которые осуществляются на данный момент. Образовательная платформа использовалась в ряде учебных мероприятий. Первый опыт применения учебного ресурса astroparticle.online был получен при использовании astroparticle.online на международной байкальской летней школе по физике элементарных частиц и астрофизике, созданной совместно Иркутским Государственным Университетом и Объединенным Институтом Ядерных Исследований (Дубна) в рамках договора о сотрудничестве. На данный момент доступны все лекции, которые проводились в рамках научной школы. Учебный ресурс astroparticle.online постоянно пополняем, находится в открытом доступе. Проект позиционируется как платформа онлайн-обучения для студентов младших курсов по направлению обучения Астрофизика высоких. В настоящее время разработано 4 методических материала (Cosmic Rays, Gamma Rays, Neutrino Astronomy, Gravitational Waves), приведено описание ведущих российских экспериментов в разделе Projects, в разделе Schools/ISAPP-BaikalSchool/Collections представлен курс «Многокомпонентное изучение Вселенной» По результатам работ в 2018 году было сделано 8 докладов на российский и международных конференциях. Результаты работ опубликованы или приняты в печать в 6 статьях в изданиях, индексируемых в системах WoS или Scopus.

 

Публикации

1. Бычков И.В., Демичев А.П., Дубенская Ю.Ю., Федоров О.Л., Хмельнев А.Е., Казарина Ю.А., Коростелева Е.Е., Костюнин Д.Г., Крюков А.П., Михайлов А.А., Нгуен М.Д., Поляков С.П., Постников Е.Б., Шигаров А.О., Шипилов Д.А., Журов Д.П. Using Binary File Format Description Languages for Documenting, Parsing, and Verifying Raw Data in TAIGA Experiment CEUR Workshop Proceedings (CEUR-WS.org), - (год публикации - 2018)

2. Бычков И.В., Демичев А.П., Дубенская Ю.Ю., Федоров О.Л., Хонгс Андреас, Хайсс Андреас, Канг Донья, Казарина Ю.А., Коростелева Е.Е., Костюнин Д.Г., Крюков А.П. и др. Russian–German Astroparticle Data Life Cycle Initiative Data, Data 2018, volume 3, issue 4, 56 (год публикации - 2018) https://doi.org/10.3390/data3040056

3. Казарина Ю.А., Бычков И.В., Крюков А.П., Дубенская Ю.Ю., Коростелева Е.Е., Нгуен М.Д., Поляков С.П., Постников Е.Б., Михайлов А.А., Шигаров А.О., Федоров О.Л., Шипилов Д.А., Журов Д.П. Application of HUBzero platform for the educational process in astroparticle physics CEUR Workshop Proceedings (CEUR-WS.org), - (год публикации - 2018)

4. Крюков А.П., Демичев А.П. Architecture of Distributed Data Storage for Astroparticle Physics Lobachevskii Journal of Mathematics, Vol. 39, No. 9, pp. 1199–1206 (год публикации - 2018) https://doi.org/10.1134/S1995080218090123

5. Постников Е.Б., Бычков И.В., Дубенская Ю.Ю., Федоров О.Л., Казарина Ю.А., Коростелева Е.Е., Крюков А.П., Михайлов А.А., Нгуен М.Д., Поляков С.П., Шигаров А.О., Шипилов Д.А., Журов Д.П. PARTICLE IDENTIFICATION IN GROUND-BASED GAMMA-RAY ASTRONOMY USING CONVOLUTIONAL NEURAL NETWORKS CEUR Workshop Proceedings (CEUR-WS.org), - (год публикации - 2018)

6. Крюков А.П., Демичев А.П. Decentralized Data Storages: Technologies of Construction Programming and Computer Software, Volume 44, Issue 5, pp 303–315 (год публикации - 2018) https://doi.org/10.1134/S0361768818050067


Аннотация результатов, полученных в 2019 году
На втором году проекта, в соответствии с планом работ на 2019 год, основное внимание было уделено программной реализации распределенного хранилища экспериментальных данных на основе модели такого хранилища, разработанной на первом году проекта. Основные особенности разработанного хранилища следующие: (https://theory.sinp.msu.ru/dokuwiki/doku.php/appds/arch): * доступ к данным на локальных хранилищах осуществляется в режиме только чтение через специальные модули-адаптеры, обеспечивающие унифицированный API; * поиск затребованных данных производится по метаданным на специальном сервере — каталоге метаданных, доступ к которому реализован по REST протоколу; * допускается формирование запросов к данным как на уровне целых файлов, так и на уровне отдельных записей (событий) с сохранением структуры директорий и названий файлов в результирующем наборе данных, передаваемом пользователю; * передача файлов на компьютер пользователя производится только при фактическом обращении к данным; * обеспечена возможность скачивания данных на компьютер пользователя для работы в режиме офлайн (без подключения к интернету). Эти особенности позволяют удовлетворить следующим требованиям, указанным в качестве базовых для разрабатываемой системы хранения: * минимальные дополнительные требования к локальным хранилищам, подключаемым к системе; * отсутствие существенных изменений при запуске прикладных программ анализа данных на компьютере пользователя с использованием распределенного хранилища, по сравнению с запуском таких программ с прямым доступом к локальному хранилищу; * формирование по запросам пользователей набора данных для анализа не только целыми файлами, но и на уровне отдельных событий; * обеспечение возможности проведения анализа данных по совокупности данных с различных экспериментальных установок (multi messenger analysis). Целевой прикладной областью, на которой апробируется предложенная система распределенного хранения данных, является астрофизика космических лучей. На первом этапе в рамках этой системы в распределенное хранилище интегрируются данные экспериментов TAIGA/TUNKA (http://taiga-experiment.info//) и KASCADE (http://www.ikp.kit.edu/kascade/english/index.php). В процессе работы за отчетный период были реализованы следующие программные модули: адаптеры к локальным хранилищам, экстракторы метаданнных, каталог метаданных, сервис агрегации, а также пользовательский веб-интерфейс. Программный комплекс, получивший название AstroDS, был развернут на стенде в НИИЯФ МГУ и будет использоваться в следующем году для проведения исследования характеристик системы в целях подтверждения эффективности заложенных при ее разработке идей. Еще одним направлением исследований в рамках проекта является использование метода сверточных нейронных сетей (convolutional neural networks - CNN) для задач классификации первичных частиц космических лучей по изображениям, полученным с атмосферных черенковских телескопов. В качестве входных данных для обучения тестовой CNN использовались изображения, полученные с помощью специализированного Монте-Карло генератора CORSIKA (https://www.ikp.kit.edu/corsika/). Полученные результаты показали, что использование CNN позволяет классифицировать изображения со значением параметра качества распознавания равным Q=2.7-3.0, что гораздо выше значений этого параметра при использовании традиционных методов классификации, основанных на анализе параметров Хилласа (для использованных условий моделирования без жесткого предварительного отбора событий Q~1.7). Предварительные результаты по определению энергии первичной частицы, породившей атмосферный ливень, при помощи CNN также показали их высокий потенциал. Оказалось, что в отличие от традиционных методов использование CNN позволяет определить значения энергий первичных частиц, породивших ливни, оси которых далеко отстоят от черенковского телескопа. Традиционные методы определения энергии для таких событий не применимы, поэтому эти события приходилось отбрасывать. Корректная работа CNN с такими событиями особенно важна для телескопа эксперимента TAIGA, который имеет широкую апертуру. Заметный вклад в успех применения методики CNN к анализу событий внесло использование мощных видео процессоров компании NVIDIA P100 Tesla, которые были приобретены за счет средств гранта. Применение GPU позволило не только увеличить масштаб используемых CNN, но и на порядок ускорить обучение — наиболее сложный и длительный этап работы с нейронными сетями. Важным элементом работ по проекту является внедрение в практику реального эксперимента тех достижений, которые были получены в ходе выполнения проекта. В 2019 году с помощью участников проекта была проведена модификация части программного обеспечения эксперимента TAIGA/TUNKA. В обновленном ПО для работы с бинарными файлами данных стали использоваться подготовленные в рамках проекта спецификации бинарных файлов в формате Kaitai Struct и библиотеки на языке C/C++. Такая унификация и систематизация не только упростили работу с данными, но и позволили провести их формальную верификацию. Следующим этапом работ предусмотрено внедрение метода машинного обучения для классификации первичных частиц по изображениям с черенковских телескопов. Также одной из задач проекта является распространение знаний в области астрофизики космических лучей, предоставление данных (в том числе необработанных) в открытом доступе всем, интересующимся данной областью науки. Такой подход, называемый «Открытая наука» (Open Science), является одним из наиболее современных и актуальных трендов, ставшим особенно важным в последние годы, когда объем получаемых экспериментальных данных стал настолько высок, что члены одной научной коллаборации не в состоянии их полностью проанализировать. В рамках этого направления на базе программной платформы (framework) WordPress разрабатывается интернет-портал (http://astroparticle.online), который в будущем должен стать такой открытой площадкой для доступа к данным, анализа и обмена информацией в области астрофизики космических лучей. В настоящее время в процессе работы с порталом решаются задачи отбора тех инструментов, которые будут использованы для реализации поставленной задачи, демонстрация их возможностей. На данном этапе целевая аудитория портала — это студенты младших курсов, которые выбирают будущую специализацию. В настоящее время кроме традиционных инструментов, таких как новостная лента, видео лекции, на портале апробируются ряд интерактивным методов работы с пользователем. Например, после просмотра видео лекции пользователям предлагается решить несколько задач, чтобы убедиться в усвоении материала. Заканчивается работа по созданию задачи для практикума, где сверточные нейронные сети используются для классификации первичных частиц. В дальнейшем, пользователям будет предложена возможность загрузить собственный набор изображений и провести их классификацию. Таким образом, будет сделан шаг по превращению данного инструмента из образовательного в полноценный инструмент научного исследования. Все перечисленные работы выполнялись в тесном контакте с нашими коллегами из Технологического института г. Карлсруэ. В частности, в процессе обсуждения с ними была выработана концепция распределенного хранилища, в том числе вопросы интеграции в систему локальных хранилищ, которые хранят данные не в файлах, а в виде записи событий в реляционных базах данных. Примером такого хранилища является система KASCADE Cosmic Ray Data Centre (KCDC). Другим примером плодотворного сотрудничества является развитие упомянутого выше портала astroparticle.online, который является совместной разработкой. Это нашло отражение в совместных работах (см., например, https://pos.sissa.it/358/284)

 

Публикации

1. Безъязыков П.А., Буднев Н.М., Федоров О., Гресс О., Гришин О., Хонгс А., Хуге Т., Казарина Ю.А. и др. Advanced Signal Reconstruction in Tunka-Rex with Matched Filtering and Deep Learning CEUR Workshop Proceedings, том 2406, с.7-16 (год публикации - 2019)

2. Безъязыков П.А., Буднев Н.М., Федоров О., Гресс О., Гришин О., Хонгс А., Хуге Т., Казарина Ю.А. и др. Towards the Tunka-Rex Virtual Observatory CEUR Workshop Proceedings, том 2406, с.17-25 (год публикации - 2019)

3. Безъязыков П.А., Бычков И.В., Буднев Н.М., Черных Д., Казарина Ю.А., Костюнин Д.Г., Крюков А.П., Монхоев Р., Шигаров А.О., Шипилов Д.А. Towards the Baikal open laboratory in astroparticle physics CEUR Workshop Proceedings, том 2406, с.1-6 (год публикации - 2019)

4. Бычков И.В., Дубенская Ю.Ю., Коростелева Е.Е., Крюков А.П., Михайлов А.А., Нгуен М.Д., Шигаров А.О. Metadata extraction from raw astroparticle data of TAIGA experiment CEUR Workshop Proceedings, том 2406, с.26-34 (год публикации - 2019)

5. Крюков А.П., Нгуен М.Д. A Distributed Storage for Astroparticle Physics EPJ Web of Conferences, v.207, 08003 (год публикации - 2019) https://doi.org/10.1051/epjconf/201920708003

6. Крюков А.П., Нгуен М.Д., Бычков И.В., Михайлов А.А., Шигаров А.О., Дубенская Ю.Ю. Distributed data storage for modern astroparticle physics experiments CEUR Workshop Proceedings, том 2406, с.78-83 (год публикации - 2019)

7. Нгуен М.Д., Крюков А.П., Дубенская Ю.Ю., Коростелева Е.Е.,Бычков И.В.,Михайлов А.А., Шигаров А.О. Data aggregation in the astroparticle physics distributed data storage CEUR Workshop Proceedings, том 2406,с.84-89 (год публикации - 2019)

8. Постников Е.Б., Крюков А.П., Поляков С.П., Журов Д.О. Deep learning for energy estimation and particle identification in gamma-ray astronomy CEUR Workshop Proceedings, том 2406, с.90-99 (год публикации - 2019)

9. Постников Е.Б., Крюков А.П., Поляков С.П., Шипилов Д.А., Журов Д.П. Gamma/Hadron Separation in Imaging Air Cherenkov Telescopes Using Deep Learning Libraries TensorFlow and PyTorch Journal of Physics: Conference Series, Volume 1181, Issue 1, Номер статьи 012048 (год публикации - 2019) https://doi.org/10.1088/1742-6596/1181/1/012048

10. Хонг А., Бычков И.В., Дубенская Ю.Ю., Федоров О.Л., Хайсс А., Канг Д., Казарина Ю.Ю. et al. German-Russian Astroparticle Data Life CycleInitiative PoS (Proceedings of Science), v.358, p.284 (год публикации - 2019)

11. Шипилов Д.А., Безъязыков П.А., Буднев М.Н., Черных Д., Федоров О.Л., Гресс О.А., Хонгс А., Хиллер Р., Хуге Т., Казарина Ю.Ю. и др. Signal recognition and background suppression by matched filters and neural networks for Tunka-Rex EPJ Web of Conferences, том 216, 02003 (год публикации - 2019) https://doi.org/10.1051/epjconf/201921602003

12. Михайлов Андрей Анатольевич, Шигаров Алексей Олегович, Крюков Александр Павлович, Коростелева Елена Евгеньевна, Нгуен Минь Дык, Бычков Игорь Вячеславович Программа извлечения метаданных из файлов формата TAIGA-IACT: MDE IACT -, № 2019664787 от 13.11.2019 (год публикации - )

13. Михайлов Андрей Анатольевич, Шигаров Алексей Олегович, Крюков Александр Павлович, Коростелева Елена Евгеньевна, Нгуен Минь Дык, Бычков Игорь Вячеславович. Программа чтения бинарного формата данных TAIGA-IACT: IACT Reader -, № 2019664196 от 01.11.2019 (год публикации - )


Аннотация результатов, полученных в 2020 году
В ходе выполнения работ, предусмотренных в 2020 году, были проведены комплексные исследования поведения распределенной системы хранения экспериментальных данных, выполнены измерения ее эксплуатационных характеристик. Исследования проводились на испытательном стенде, развернутом на ресурсах НИИЯФ МГУ, Технологического института Карлсруэ (Гремания) - немецкого партнера по совместному проекту. Доступ к системе осуществляется с помощью браузера с рабочего места пользователя. В процессе проведения исследования системы изучалось ее поведение в различных условиях эксплуатации. Исследования показали, что система AstroDS удовлетворяет требованиям, которые были изначально заложены в проект как в части функциональных возможностей, так и в части производительности. Система обеспечивает значительное ускорение выборки данных по сравнению с традиционно используемым методам, обеспечивает быстрый и унифицированный способ подключения новых источников данных. Проведенный ряд оптимизаций, выполненных по результатам проведенных исследований, позволил увеличить скорость обработки некоторых типов запросов в 2-3 раза. В целом, на типичной смеси запросов ускорение составило 35-40%. Проведенные исследования функционирования системы AstroDS подтвердили, что принципы и заложенные при ее реализации методы позволили создать высокоэффективную облачную систему хранения данных для малых и средних экспериментов в области астрофизики частиц. Другим важным направлением исследований в плане 2020 года было дальнейшее совершенствование метода определения параметров широких атмосферных ливней (ШАЛ), порожденных космическими лучами, методом глубокого машинного обучения. Проведенные исследования, показали, что полученный результат лучше на 25-30% точности определения энергии ШАЛ традиционными методами, которая составляет примерно 50%. Данная методика была обобщена на случай одновременного использования данных с нескольких черенковских телескопов — стерео режим. Это позволило поднять точность определение энергии ШАЛ до 13-15%, что является существенным улучшением в технике обработки экспериментальных данных в гамма-астрономии.. В ходе выполнения проекта в 2020 году была разработана методика применения глубокого машинного обучения для моделирования изображений с черенковских телескопов в качестве замены традиционного метода, основанного на методе Монте-Карло. В качестве нейронной сети была выбрана GAN-сеть. В рамках экспериментальной проверки предложенной методики и архитектуры сетей при выборке около 25000 событий каждого типа обучение каждой из двух сетей на GPU Tesla P100 заняло приблизительно 6 часов. После обучения генерация 4000 событий (любого из типов) занимает около 10 секунд, что более чем в 1000 раз быстрее генерации с помощью программы CORSIKA. Изображения, выдаваемых генератором, который был натренирован в соответствии с разработанной методикой, с помощью сторонних программных средств была произведена оценка сгенерированных изображений на предмет их похожести на гамма-события. Результаты сравнения следующие: 85.7% сгенерированных гамма-событий были признаны гамма-событиями, при этом 4.4% сгенерированных протонных событий были признаны гамма-событиями. Одним из направлений работ в текущем году являлось дальнейшее развитие научно-популярного портала в области астрофизики частиц. Кроме текущей поддержки портала, обновления и расширения материалов, представленных на нем, основное внимание было уделено по интеграции интерактивного приложения (микросервиса) для идентификации типа первичных частиц методом машинного обучения. Микросервис Astroparticle CNN Client реализован в виде интерактивного сервиса, который предоставляет доступ к онлайн-анализу для выделения гамма-событий на фоне адронных событий с использованием разработанных в рамках данного проекта сверточных нейронных сетей. События, моделированные методом Монте-Карло для телескопов TAIGA-IACT используются как входные данные для этого микросервиса. Также предоставляется возможность проверить свои навыки разделения заряженных частиц и гамма-квантов по изображению телескопа. Полученные результаты были доложены на IV международном совещании «Data life cycle in Physics», прошедшего в июне этого года, а также на международной конференции «Computer Simulation in Physics and beyond». Также результаты было опубликовано 4 статьи в изданиях, индексируемых международными системами WoS и Scopus, получено 1 свидетельство о государственной регистрации программы.

 

Публикации

1. Казарина Ю.А., Христюк В.В., Крюков А.П., Постников Е.Б., Самолига В., Шигаров А.О., Токарева В., Журов Д.П. Educational and Outreach Resource for Astroparticle Physics CEUR Workshop Proceedings, v.2679, pp.85-90 (год публикации - 2020)

2. Крюков А.П., Бычков И.В., Коростелева Е.Е., Михайлов А.А., Нгуен М.-Д. Cloud storage capable to select events upon user request for medium-sized astrophysical experiments Journal of Physics: Conference Series, - (год публикации - 2021)

3. Крюков А.П., Вычков И.В., Коростелева Е.Е., Михайлов А.А., Нгуен Мин-Дык AstroDS - A Distributed Storage for Astrophysics of Cosmic Rays. Current Status CEUR Workshop Proceedings, v.2679, pp.32-42 (год публикации - 2020)

4. Нгуен Мин-Дык, Крюков А.П., Михайлов А.А. The Current Design and Implementation of the AstroDS Data Aggregation Service CEUR Workshop Proceedings, v.2679, pp.106-110 (год публикации - 2020)

5. Журов Дмитрий Павлович, Крюков Александр Павлович, Постников Евгений Борисович, Сидоров Денис Николаевич. Программа идентификации первичных частиц космических лучей по изображениям с атмосферных черенковских телескопов методом машинного обучения -, 2019666634 (год публикации - )


Возможность практического использования результатов
Результаты, полученные в ходе выполнения проекта, могут найти применение в качестве технологических заделов во многих отраслях экономики. Так наработки, полученные в ходе проектирования облачного хранилища экспериментальных данных, могут быть с успехом применены для аналогичных систем, которые должны обеспечить сведение в единый центр гетерогенную информацию из различных производственных подразделений, центров сбора спутниковой информации, везде, где требуется не только формальное сведение потоков данных, но и возможность выбора необходимых данных для последующего их анализа. Другое направление исследований, связанное с использованием методов интеллектуального анализа данных, является перспективным направление в областях, в которых требуется восстановление исходной информации о природном или искусственном явлении по результату сложных процессов, которые регистрируются. Примером таких явлений может быть, например, вопросы диагностики сложных заболеваний по рентгеновским снимкам, неразрушающему контролю изделий и другие.