КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 17-72-10021

НазваниеРеализация системы машинного обучения для глубинной классификации данных на примере выделения процессов слияния и рассеяния векторных бозонов в физике высоких энергий

РуководительСолдатов Евгений Юрьевич, Кандидат физико-математических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский ядерный университет "МИФИ", г Москва

Период выполнения при поддержке РНФ 07.2017 - 06.2019 

Конкурс№23 - Конкурс 2017 года по мероприятию «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 02 - Физика и науки о космосе, 02-101 - Физика элементарных частиц

Ключевые слованейронные сети, data mining, электрослабое рождение, бозон Хиггса, Стандартная Модель, дискриминация, дерево решений, физика высоких энергий, векторные бозоны, анализ данных, классификатор событий

Код ГРНТИ29.05.00


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
При достигнутых энергиях и интенсивностях столкновений внутри Большого Адронного Коллайдера для экспериментальных поисков становятся доступными новые редкие процессы. Проверка параметров таких процессов является наиболее чувствительным тестом Стандартной модели (СМ) физики элементарных частиц. На этом направлении прежде всего ожидаются отклонения, которые должны привести к обнаружению и описанию так называемой "новой" физики за рамками СМ. Ожидается, что эта "новая" физика будет включать в себя гравитацию, объяснять состав тёмной материи и устранять другие пробелы описания физики высоких энергий Стандарной моделью. К описываемым редким процессам относятся процессы электрослабого сектора СМ, протекающие посредством слияния и рассеяния векторных бозонов. В результате этих процессов могут образовываться как двухбозонные, так и однобозонные состояния, включая бозон Хиггса. Каждое событие их образования в обязательном порядке будет сопровождаться двумя адронными струями (в силу специфики подобных взаимодействий). Изучение таких процессов впервые было опубликовано в 2013 году коллаборацией CMS (рождение Z-бозона слиянием двух W-бозонов [1]). К настоящему моменту измерений в каналах рождения pp->jj+H/ZZ/HH/HZ/HW ещё не проводилось, а в каналах рождения pp->jj+Z/W/WW/WZ/Z(ll)gamma/Wgamma были сделаны лишь первые попытки. В силу того факта, что описываемые процессы обладают крайне малыми вероятностями, загрязнения фоновыми процессами, имеющими сходную сигнатуру, становятся особенно критичными. Наиболее значительными при этом являются фоны от других каналов образования идентичных состояний (отдельных бозонов/дибозонов), поскольку они будут иметь то же самое конечное состояние (в точности те же частицы). Такие фоны невозможно подавить путём улучшения параметров детктора. Единственное различие, которое можно использовать для дискриминации, состоит в том, что адронные струи в случае искомых событий должны быть кинематически связаны с рождаемыми бозонами (в силу их рождения в рамках одного процесса). А для фона рассматриваемые адронные струи возникают от других процессов случайным образом. Это приводит к слабым отличиям в вероятностных распределениях конечных объектов. Таким образом, на данном этапе становится необходимым иметь эффективный метод дискриминации, который будет основан на неявных корреляциях кинематических переменных (data mining). В проекте предполагается разработать систему машинного обучения (нейросеть) для дискриминации похожих событий от разных процессов на базе дерева решений (boosted decision tree). Как показывает предыдущий опыт работы руководителя [2], даже упрощённая модель классификатора событий с разными конечными состояниями по сравнению с традиционными методами демонстрирует большую эффективность при гораздо меньших затратах времени. В работе предлагается разработать дерево решений на основе инструментария [3], созданного в CERN для анализа экспериментальных данных физики высоких энергий. В качестве процессов, на которых будет апробирован метод, выбраны следующие: а) рождение бозона Хиггса посредством слияния векторных бозонов (с последующим распадом в 4 лептона) - как единственный статистически доступный для анализа процесс с участием бозона Хиггса; б) рождение Z-бозона с фотоном посредством рассеяния векторных бозонов (распад Z-бозона в нейтрино) - как процесс, имеющий наибольшее сечение из всех дибозонных конечных состояний в области высоких энергий, где в первую ожидаются отклонения от СМ. Сечения данных процессов будут измерены впервые в мире. Таким образом, первое же применение разработанной системы сможет не только показать её работоспособность, но и дать важные результаты для физики высоких энергий. Литература: [1] CMS Collaboration, JHEP 10 (2013) 101 [2] ATLAS Collaboration, Eur. Phys. J. C 76 (2016) 666 [3] A. Hoecker et al., arXiv:physics/0703039

Ожидаемые результаты
В результате реализации проекта планируется получить готовую систему машинного обучения, оптимизированную для поиска неявных корреляций в данных, описывающих идентичные исходы с разницей лишь в причинах их возникновения. Применение данной системы возможно во многих отраслях народного хозяйства, в том числе, в экономике: например, для глубокого анализа биржевых трендов, позволяющего дискриминировать одинаковые результаты, получающиеся в силу разных факторов. И наоборот, применение системы позволит проводить анализ глубинных причин ситуаций на финансовых рынках и и других субъектах экономики. В рамках разработки и апробации системы посредством данных из области физики высоких энергий (эксперимент ATLAS на БАК) будут проведены передовые экспериментальные исследования по поиску процессов электрослабого рождения Z-бозона с фотоном (с последующим распадом Z-бозона в нейтрино), а также электрослабого рождения бозона Хиггса в канале слияния векторных бозонов и вычислению их сечений. Система машинного обучения будет создана и применена для выделения искомых процессов среди идентичных конечных состояний, где слабое отличие присутствует лишь в кинематических распределениях адронных струй. Сечения данных процессов будут измерены впервые в мире. На основе сечений также будут проведены поиски аномальных вершин взаимодействий, которые являются непосредственными проявлениями "новой" физики, поиск которой в настоящее время является главнейшей задачей всех экспериментов по физике частиц.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2017 году
В ходе выполнения работ по проекту было достигнуто несколько принципиально важных результатов. Во-первых, было проведено предметное изучение процессов рождения бозона Хиггса посредством двух различных механизмов – так называемых механизмов глюонного слияния (ggF) и слияния векторных бозонов (VBF). Было рассмотрено большое количество различных кинематических переменных, потенциально чувствительных к механизму рождения бозона Хиггса, а также определён оптимальный набор таких переменных, который позволяет наиболее эффективным образом разделять события рождения бозона Хиггса посредством каналов ggF и VBF. Во-вторых, было также проведено детальное изучение процессов ассоциированного рождения Z-бозона и фотона посредством двух различных механизмов – кварк-антикваркового рождения Z-бозона с излучением фотона одним из начальных кварков и так называемого механизма рассеяния векторных бозонов (VBS). Было сконструировано и рассмотрено множество различных кинематических переменных, потенциально чувствительных к механизму ассоциированного рождения Z-бозона с фотоном, а также определён оптимальный набор таких переменных, который позволяет наиболее эффективным образом разделять события рождения Z-бозона с фотоном посредством разных рассматриваемых каналов. В-третьих, был разработан специальный программный пакет FSClassifier, позволяющий проводить классификацию событий на основе заранее отобранных кинематических переменных и предоставленных наборов данных. Результатом работы программного пакета классификации являются распределение по специальной комбинированной переменной и так называемые кривые ошибок, которые позволяют сделать вывод о степени эффективности работы алгоритма в зависимости от рассматриваемых кинематических переменных. Непосредственно классификация событий происходит по значению комбинированной переменной, в зависимости от значения которой событие относится к тому или иному типу. В-четвёртых, необходимо также отметить, что разработанный программный пакет классификатора с минимальными изменениями может быть использован и для других целей, предоставляя эффективный и элегантный способ решения задач классификации событий в различных сферах научной, производственной и экономической деятельности.

 

Публикации

1. Беляев Н, Коноплич Р, Прокофьев К Study of kinematic observables sentitive to the Higgs boson production channel in pp -> Hjj process Journal of Physics: Conference Series, 934, 1, 012030 (2017) (год публикации - 2018) https://doi.org/10.1088/1742-6596/934/1/012030

2. Петухов А.М., Солдатов Е.Ю. Usage of machine learning for the separation of electroweak and strong Zgamma production at the LHC experiments Journal of Physics: Conference Series, 934, 1, 012028 (2017) (год публикации - 2017) https://doi.org/10.1088/1742-6596/934/1/012028

3. Беляев Н.Л. Measurement of cross sections and couplings of the Higgs Boson in bosonic decay channels with the ATLAS detector European Physical Journal: Web of Conferences, - (год публикации - 2018)


Аннотация результатов, полученных в 2018 году
В ходе выполнения работ по проекту было достигнуто несколько принципиально важных результатов: 1. В рамках разработанного программного пакета FSClassifier реализована автоматизация процесса создания и первичного отбора разделяющих переменных, потенциально чувствительных к различным каналам рождения калибровочных бозонов. Отбор, построенный на метриках статистических критериев согласия и коэффициенте линейной корреляции, эффективно отбрасывает малочувствительные и коррелирующие переменные. Таким образом была увеличена эффективность работы классификатора. 2. Реализованы методы контроля переобучения классификатора FSClassifier на основе кросс-валидации. 3. Проведена апробация разработанного классификатора на примере электрослабого рождения Z-бозонов с фотонами, а также на примере электрослабого рождения бозона Хиггса. 3а. На основе улучшенной во время второго года работ по проекту версии классификатора была разработана эффективная методика отбора событий электрослабого рождения Z-бозонов с фотонами. Наравне с переменными, отобранными в течение первого года проекта, были сконструированы и опробованы новые переменные для классификации, улучшившие результат разделения процессов. Алгоритм был проверен на наборах Монте-Карло и экспериментальных данных. Сравнение распределений по отклику алгоритма говорит о хорошем согласии результатов моделирования с результатами эксперимента. Были получены предварительные результаты по сечению процесса электрослабого рождения Z-бозонов с фотонами. 3б. Были измерены дифференциальные сечения электрослабого рождения бозона Хиггса как функции кинематических переменных, изученных в ходе первого года работ по проекту, с использованием классификатора, основанного на деревьях решений. Также были рассмотрены некоторые из переменных, используемые для разделения каналов VBF и ggF рождения бозона Хиггса на БАК. 4. С целью более интенсивного распространения разработанного программного пакета FSClassifier в научном сообществе было подготовлено и выпущено два релиза программного пакета классификатора на платформе HEPForge. В настоящий момент классификатор является общедоступным и размещается по адресу: https://FSClassifier.HEPForge.org/ В последующем планируется обновлять версию классификатора по указанному адресу по мере разработки новых функций и улучшений. Необходимо также отметить, что разработанный программный пакет классификатора с минимальными изменениями может быть использован и для других целей, предоставляя эффективный, элегантный и гибкий способ решения задач классификации событий в различных сферах научной, производственной и экономической деятельности. Уже начаты работы по использованию классификатора в задачах реконструкции и идентификации частиц в больших экспериментах физики высоких энергий.

 

Публикации

1. Беляев Н.Л., Петухов А.М., Солдатов Е.Ю. The automation of choosing of the optimal kinematic variables for discrimination of the electroweak Zgamma production Journal of Physics: Conference Series, - (год публикации - 2019)


Возможность практического использования результатов
Алгоритм классификатора универсален и может быть использован для классификации данных любой природы. Автоматическое создание переменных классификации сделала его ещё более независимым от природы классифицируемых данных. Необходима лишь небольшая перенастройка создания словаря. Это будет делаться при поступлении новых задач. Сейчас в работе находится проект по реконструкции и идентификации частиц в мегасаенс экспериментах. Природа данных этой задачи уже сильно отличается от тех данных, для классификации которых этот проект был начат. Классификатор с минимальными перенастройками создания словаря уже даёт хорошие результаты в данной задаче.