КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 19-71-30008

НазваниеРазвитие технологий и платформ для решения задач цифровой экономики и научных проектов класса мегасайенс на основе синтеза технологий Больших данных, суперкомпьютерных технологий, озер данных и машинного обучения

РуководительКореньков Владимир Васильевич, Доктор технических наук

Организация финансирования, регион федеральное государственное бюджетное образовательное учреждение высшего образования "Российский экономический университет имени Г.В. Плеханова", г Москва

Период выполнения при поддержке РНФ 2019 г. - 2022 г. 

Конкурс№33 - Конкурс 2019 года по мероприятию «Проведение исследований научными лабораториями мирового уровня в рамках реализации приоритетов научно-технологического развития Российской Федерации» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-410 - Высокопроизводительные компьютерные системы и распределенная обработка данных

Ключевые словаЦифровая экономика, социально-экономические исследования, проекты “мегасайенс”, НИКА, БАК, Большие данные, грид-технологии, высокопроизводительные вычислительные системы, суперкомпьютеры, озера данных, машинное обучение

Код ГРНТИ20.51.23


СтатусЗакрыт досрочно


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Цифровая экономика — это система экономических, социальных и культурных отношений, основанных на использовании цифровых технологий. Появление данного термина вызвано радикальными изменениям вследствие развития цифровых вычислительных и коммуникационных технологий во второй половине XX века. Сквозными технологиями цифровой экономики являются методы и технологии Больших данных, технологии нейронных сетей, искусственного интеллекта, системы распределенного реестра (блокчейн), квантовые технологии, новые производственные технологии, промышленный интернет, робототехника, сенсорика, беспроводная связь, виртуальная и дополненная реальности. Планом мероприятий по реализации Стратегии научно-технологического развития Российской Федерации предусмотрена разработка программы создания и развития сети уникальных научных установок класса «мегасайенс» на территории Российской Федерации и участия Российской Федерации в зарубежных проектах класса «мегасайенс». Под уникальными научными установками этого класса понимаются не имеющие аналогов в мире научные и вычислительные инфраструктуры, ориентированные на получение уникальных научных результатов. Настоящий проект направлен на исследования и создание технологических решений по двум основным направлениям: I) разработка новых методов, алгоритмов и архитектурных решений при работе с данными эксабайтного диапазона на установках класса мегасайенс; II) цифровизация широкого спектра экономических приложений. С точки зрения информационных технологий, оба направления проекта объединяются общим стеком технологий, а также алгоритмами, методами, архитектурами и платформами для хранения, поиска и обработки информации (преимущественно в распределенном режиме). Среди них — методы и технологии Больших данных, машинного обучения, технологии извлечения знаний, распознавания образов и интеллектуального анализа данных, технологии распределенных вычислений, суперкомпьютерные технологии, новые методы хранения и доступа к данным (например, “озёра научных данных”). Работу с молодыми учеными, а также студентами и аспирантами российских университетов мы рассматриваем как важное отдельное, третье (III), направление проекта. Направление I. Создание новых технологических подходов к анализу сложных социальных и экономических систем на основе синтеза высокопроизводительных вычислительных систем, методов и технологий Больших данных. В настоящее время социальные и экономические системы становятся настолько сложными, что происходит лавинообразный рост многообразия форм представления, их структурной сложности и объема информации, связанной с происходящими в них процессами. Это обстоятельство качественно меняет требования как к подходам анализа подобных масштабных систем, так и к созданию средств принятия решений по эффективному влиянию на протекающие в них процессы. В качестве примеров подобных систем можно привести частично регулируемые государством социальные институты (рынок труда, система высшего и среднего профессионального образования), банковский сектор, а также транспортную, коммунальную и социальную среду мегаполисов. Целью данного направления является создание и развитие новых технологий, программных комплексов и технических решений для анализа сложных социальных и экономических систем, а также создание средств принятия решений по управлению и планированию развития систем данного класса. Центральной задачей исследования является выработка общих подходов к углубленному изучению социально-экономических систем с применением методологии обработки сверхбольших объемов данных и их интеллектуального анализа для решения целого ряда прикладных задач, возникающих при переходе к цифровой экономике. Направление II. Разработка методов, архитектурных и программных решений, разработка вычислительной инфраструктуры для работы с научными данными эксабайтного диапазона. Создание Российского “озера научных данных”. По различным оценкам, в ближайшие 5-10 лет ожидаемые объемы данных научных исследований достигнут эксабайтного диапазона. К таким исследованиям в первую очередь относятся эксперименты в области физики высоких энергий и ядерной физики: установки на Большом адронном коллайдере (БАК, ЦЕРН, Швейцария), эксперименты на коллайдере НИКА (Дубна, Россия) и комплексе FAIR (Германия), исследования в радиоастрономии: телескоп-радиоинтерферометр SKA (Square Kilometre Array), исследования в молекулярной биологии и биоинформатике (геномное секвенирование), исследования в вычислительной нейробиологии (например проект по созданию цифровой модели мозга BlueBrain). Это может стать новой эпохой в науке - эпохой эксаскейл. Данные темы являются пионерскими, в настоящий момент не существует их решения. В рамках международных проектов (WLCG, ЦЕРН), национальных проектов (IRIS-HEP, США; INDIGO, Италия/Германия) , коммерческими компаниями (Google, Amazon) начаты и планируются НИР по схожей тематике. Следует отметить, что в настоящее время работы участников заявки занимают одно из лидирующих положений в мире по разработкам в данной области знаний. В 2014/18 годах в рамках работ, поддержанных грантами РНФ и РФФИ, были проведены НИР и созданы рабочие прототипы, предварительные результаты исследований были представлены на Российских и международных конференциях и апробированы для реальных данных действующих научных экспериментов. Апробация была проведена для мультипетабайтных объемов данных. Поддержка данной заявки позволит укрепить лидирующее положение Российских научных разработок по созданию методов и решений для работы с большими данными в эпоху экcаскейл. Направление III. Работа со студентами и аспирантами российских университетов. В предыдущие годы были созданы (и читаются) курсы по методам и технологиям обработки больших данных в РЭУ им. Г.В.Плеханова, Томском политехническом университете (ТПУ), НИЯУ МИФИ, Университете “Дубна”. В 2014/18 годах были проведены четыре школы для студентов, аспирантов и молодых ученых (для более чем 200 участников), планируется продолжать и расширять программы, связанные с подготовкой специалистов и научных кадров по обработке и аналитике больших данных. С использованием опыта и наработок, полученных в ходе реализации проекта, будет создан учебный курс по фундаментальным основам и прикладным аспектам современных технологий машинного обучения и анализа Больших данных. В процессе осуществления проекта будет подготовлена группа молодых специалистов мирового уровня по интеллектуальному анализу Больших данных. Планируется привлечение к работе в лаборатории студентов (подготовка магистерских дипломных работ) и аспирантов (подготовка кандидатских диссертаций) РЭУ им. Г.В. Плеханова, ТПУ, НИЯУ МИФИ и других ведущих российских вузов. Команда проекта включает ученых в области физики высоких энергий, информационных технологий, цифровой экономики. Команда совместно участвовала в разработке программного обеспечения для экспериментов в ОИЯИ (Дубна, Россия) и ЦЕРН (Женева, Швейцария) на Большом адронном коллайдере (БАК) в 2003-2018 гг, в проведении исследований для Министерства труда и социальной защиты РФ, а также в ряде проектов, поддержанных грантами РНФ и РФФИ. С 2015 года руководитель проекта возглавляет Лабораторию облачных технологий и аналитики Больших данных РЭУ им. Г.В. Плеханова, ориентированную на использование передовых ИТ технологий для экономики.

Ожидаемые результаты
В ходе реализации поставленных в проекте задач будут получены следующие результаты: 1) На основе технологий машинного обучения и обработки Больших данных развиты существующие и разработаны новые методы анализа социально-экономических систем. 2) Создана платформа для интеллектуального анализа данных широкого круга прикладных задач, построенная на основе современных математических методов, алгоритмов и технологических решений. Данная платформа будет расширяемой и масштабируемой, что позволит проводить анализ и принимать решения относительно систем муниципального, регионального и федерального масштаба. Предполагается использование преимуществ создаваемой платформы для эффективного решения прикладных задач, выполняемых в рамках проекта, а также для решения актуальных задач, поставленных внешними заказчиками. 3) Разработана система для мониторинга и классификации информации, размещаемой в социальных сетях и открытых источниках информации. Данная система позволит решать широкий круг задач, в том числе мониторирование течения социальных процессов, а также своевременно выявлять активность с признаками противоправного и экстремистского характера в различных источниках информации. 4) Создана система анализа потребностей и процессов на рынке труда и их взаимосвязи с макроэкономическими факторами, системой профессионального образования. Данная система позволит проводить анализ на федеральном, региональном и муниципальном уровнях и может быть использована для выработки рекомендаций по профилям и содержанию образовательных программ, финансированию обучения по необходимым специальностям, а также для обнаружения скрытых зависимостей и потребностей рынка, прогнозирования ожиданий. 5) Созданы методы и средства для автоматизированного анализа деятельности компаний-нерезидентов РФ, выявление цепочки контрагентов и конечных бенефициаров на основе информации из открытых источников. Данное решение позволит упростить получение и анализ информации, сократить риски банков по обслуживанию неблагонадежных компаний. Также глубокий интеллектуальный анализ финансовой деятельности зарубежных компаний, связей между компаниями, бенефициаров и т.д. может быть использован такими органами, как Банк России, Росфинмониторинг, правоохранительные ведомства для решения задач, связанных с предотвращением экономических угроз. 6) Разработаны средства интеграции данных, анализа и принятия решений в рамках концепции «Умный город» для планирования и управления пассажиропотоками в городской транспортной среде, а также мониторинга и прогнозирования состояния и технических параметров зданий, инженерных объектов и коммунальной инфраструктуры. Созданные средства анализа и принятия решений позволят оптимизировать городскую инфраструктуру, снизить издержки на ее эксплуатацию. 7) Создана научная школа по изучению актуальных социально-экономических проблем при помощи современных подходов, в том числе с использованием машинного обучения, интеллектуального анализа данных и технологий сбора, передачи, обработки и хранения сверхбольших объемов данных. Планируется вовлечение молодых исследователей в решение фундаментальных и прикладных задач, а также подготовка специалистов мирового уровня. 8) Разработан и создан действующий прототип «озера научных данных» для распределенного хранения и доступа к информации экспериментов на БАК и НИКА. Прототип будет объединять Российские научные центры и Университеты (НИЦ КИ, ОИЯИ, СПбГУ, МИФИ, РЭУ) и международные центры (ЦЕРН, DESY, GSI). В настоящий момент не существует мирового аналога “озера научных данных”. 9) Разработана и создана система управления загрузкой в неоднородной компьютерной среде для обработки и анализа данных, работающая с данными эксабайтного диапазона, выполняющая до 3 миллиона вычислительных заданий в день в гетерогенной компьютерной среде. В настоящий момент не существует мирового аналога такой системы. 10) С использованием методов машинного обучения будут разработаны и внедрены алгоритмы для определения популярности данных и автоматического распределения данных между носителями информации (высокоскоростные твердотельные диски - SSD, менее дорогие шпиндельные дисковые носители, системы ленточного архивирования). 11) Создано новое поколение системы мониторирования и контроля (на основе систем принятия решений), а также визуального анализа функционирования распределенной вычислительной инфраструктуры с использованием классических методов визуальной аналитики и машинного обучения. Реализация проекта позволит создать первое в России и одно из первых в мире “озеро научных данных”. При подключении к федерации с центрами управления в иностранных научных центрах, участникам из России, вероятнее всего, будет отведена роль разрозненных файловых хранилищ без возможности контроля над получаемыми в рамках федерации данными. Поэтому существенной мотивацией к реализации данного проекта является необходимость создания собственных российских управляющих центров, контролирующих политику распределения данных и информации внутри “озера данных”.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2019 году
В рамках работ по созданию новых технологических подходов к анализу сложных социальных и экономических систем были рассмотрены различные аспекты создания аналитических платформ, использующих технологии Больших данных, и применимых как для выполнения на новом уровне социально-экономических исследований, так и для целей анализа данных в научных мегапроектах. Должен поддерживаться полный цикл обработки данных, начиная от их сбора до анализа, предоставления и доступа к результатам (включая вопросы безопасности). Одно из основных требований к платформе - универсальность относительно свойств входных данных (структурированность, скорость поступления и объём, достоверность, и т.д.). Также создаваемая система должна поддерживать интеграцию с распределенными вычислительными системами – это единственный способ эффективно решать масштабные задачи, ставящиеся в научных мегапроектах. При разработке концепции вычислительной платформы решались следующие задачи: • Анализ существующих решений для предметной области исследования; • Выбор двух пилотных задач из социально-экономической и технической областей, анализ их характеристик (прежде всего таких как объёмы, потоки и структуры данных, вычислительная сложность); • Определение требований к системе для эффективного решения этих задач (аппаратное и программное обеспечение); • Реализация прототипа аналитической платформы; • Создание и апробация методов решения выбранных задач на прототипе платформы. В ходе создания прототипа платформы в 2019 году выполнены работы по следующим направлениям: • Создание программно-аппаратной среды на основе высокопроизводительной гибридной системы и облачных технологий; • Разработка концепции универсальной системы многоступенчатой, конвейерной обработки данных для мегапроектов, поддерживающей интеграцию с существующими глобальными распределенными вычислительными средами; • Применение технологий интеллектуальных многоагентных систем для полного цикла обработки информации на примере анализа научной информации; • Разработка алгоритмов обработки Больших данных в социально-экономических приложениях, в частности, для поиска одинаковых или похожих записей в данных большого объёма; • Создание методов и технологий для обеспечения безопасности и контроля доступа к платформе. С помощью созданного прототипа платформы решены следующие пилотные задачи: • Анализ и экономическое моделирование рынка труда в масштабе страны (пакетная многоступенчатая обработка информации); • Создание системы анализа потоковой информации на примере мониторинга сетевого трафика в сети класс B (проверка и отладка анализа и принятия решений в реальном времени). “Озеро научных данных” - федерированная модель управления вычислительными ресурсами, которая позволит обеспечить прозрачный доступ к распределенным и ресурсам, неизменную производительность и перераспределение рабочих нагрузок без прерывания работы приложений, ускорит окупаемость оборудования и позволит оптимизировать процесс его модернизации. Работа по созданию такого «озера» актуальна для всех стран, имеющих крупные научные установки и участвующих в проектах на международных установках. Строительство коллайдера НИКА в России (ОИЯИ, Дубна) и активное участие Российских исследовательских центров в программах на Большом адронном коллайдере (ЦЕРН, Женева) и комплексе FAIR (Дармштадт, Германия) являются существенной мотивацией к реализации данного проекта в России в том числе для контроля политики распределения данных внутри “озера”. Работы по направлению “создание “озера научных данных” на первом этапе проекта велись в рамках следующих рабочих пакетов: (1) создание первого прототипа “озера научных данных”, (2) разработка методов оценки популярности данных, (3) разработка единой системы мониторинга. В работе над пакетом (1) наряду с РЭУ имени Плеханова участвовали сотрудники Российских научных центров (Петербургский Институт Ядерной Физики (ПИЯФ НИЦ КИ), ИСП РАН, НИВЦ МГУ), Университетов (СПбГУ, НИЯУ МИФИ), международных центров (ЦЕРН, ОИЯИ) и Европейских научных центров (Лаборатория Физики частиц (LAPP), Анси, Франция). Работа по созданию прототипа обсуждалась на рабочих совещаниях в ЦЕРН и ОИЯИ. Регулярно проводились совещания и тематические семинары между сотрудниками ОИЯИ, МИФИ, ПИЯФ, СПбГУ и РЭУ для обсуждения результатов проводимых работ. Регулярные обсуждения с сотрудниками ЦЕРН и LAPP проводились в рамках исследовательского проекта DOMA (Data Organization Management and Access) и докладывались на рабочих совещаниях в ЦЕРН. Основные результаты по (1) рабочему пакету: Сформулированы основные требования к созданию “озера научных данных”, на основе которых будет создаваться прототип. Исследованы существующие системы хранения данных в центрах консорциума WLCG (CERN, DESY, FAIR, FermiLab, и эксперименты на БАК, суперКЕКБ, RHIC), для дальнейших работ были выбраны системы EOS, dCache, XCache. Был создан функциональный прототип “озера научных данных” с настройкой основных центральных сервисов с участием трех исследовательских центров и университетов, расположенных в различных географических точках: центральный сервер хранения dCache с вычислительной фермой с менеджером задач Cream-CE, расположенные в ОИЯИ, Дубна; вычислительный элемент Cream-CE и кэширующий сервер XCache, расположенные в ПИЯФ, Гатчина; вычислительный элемент ARC-CE и кэширующий сервер XCache, расположенные в МИФИ, Москва. Также была разработана методика тестирования прототипа “озера научных данных” с использованием как синтетических, так и реальных тестов с вычислительными задачами, и проведено первичное тестирование программно-аппаратной инфраструктуры прототипа “озера научных данных” с использованием системы HammerCloud, которая используется в коллаборациях ATLAS, CMS и LHCb (ЦЕРН) для автоматического тестирования вычислительных элементов Грид. Результаты тестов позволили определить оптимальные настройки очередей вычислительных задач. В частности, было показано, что использование XCache при обработке одинаковых файлов обеспечивает существенный рост производительности. Были исследованы возможные сценарии хранения данных с использованием гетерогенных хранилищ. Доступ к данным был реализован с использованием сервиса FTS и протокола gridFTP. Был разработан и протестирован сценарий обработки данных физического эксперимента ATLAS с участием более 10 центров уровня Т0 и Т1 (по классификации WLCG) в ЦЕРН, Европе, США и России. Результаты данного исследования были представлены на международных конференциях и опубликованы (и/или приняты к публикации) в реферируемых журналах. Основные результаты по (2) рабочему пакету: Проведенный анализ распределения данных между проектами и форматами в эксперименте ATLAS показал, что значительные объемы данных не подлежат постоянному хранению и архивированию, а могут быть удалены уже в течение времени жизни физического эксперимента. Исследование этапов обработки данных в рамках эксперимента ATLAS позволило представить процесс формирования научных данных в виде ориентированного (направленного) графа, который предположительно будет являться частью структуры разрабатываемой аналитической системы по выявлению востребованных и условно-популярных данных. Определено понятие популярности данных и основные метрики ее оценки. Под популярностью данных в данном исследовании подразумевается в первую очередь интерес пользователей в определенных наборах/группах данных, а не статистическая оценка запросов к данным. Пользовательский интерес можно представить с использованием [условно-]локальной популярности и сопряженной метрикой - коэффициент интереса пользователя в сравнении с другими пользователями исследуемых данных. Основные результаты по (3) рабочему пакету: Анализ существующих в экспериментах ATLAS и COMPASS систем мониторинга позволил определить методологию их создания, основные требования к структурным компонентам: наличие контура прозрачного доступа к различным хранилищам метаинформации, гибкие механизмы извлечения, фильтрации и агрегации данных из различных источников, интеграция данных, интеллектуальные методы анализа и обработки информации, и наличие развитых средств интерактивной визуализации для эффективного наблюдения за состоянием вычислительной инфраструктуры и отслеживания происходящих в ней процессов. Исследованы существующие методы анализа сетевого взаимодействия между различными вычислительными узлами, которые предполагается включить в общую систему мониторинга “озера научных данных”. Развернута инфраструктура на базе стека технологий ELK для мониторинга программных компонент “озера научных данных”. Также была начата работа над добавлением программных компонент для мониторинга в ELK-стек. И, в частности, были разработаны механизмы мониторинга одного из компонент - xrootd на основе генерируемых метаданных в журналах событий. Пленарные доклады по результатам работ были представлены на пяти международных конференциях, приняты к печати 3 статьи. Проведен специальный семинар по теме исследований в рамках открытой конференции ИСП РАН им В.П. Иванникова.

 

Публикации

1. А.М. Алюшин Document protection technology in the digital economics using cognitive biometric methods Procedia Computer Science, - (год публикации - 2019)

2. Алексеев А.А., Кампана С., Эспиналь Х., Езекель С., Кирьянов А.К., Климентов А.А., Мицын В.В., Зароченцев А.К. Towards Russian National Data Lake Prototype CEUR Workshop Proceedings, - (год публикации - 2019)

3. Барберис Д., Аймар А., Алексеев А.А., Родригес Де Соуза Андраде П.М., Беерман Т.А., Гарднер Р.В., Гарридо Беар Б., Корчуганова Т.А., Маньони Л., Подольский С., Шанет Е., Цветков Н., Вукотич И., Венаус Т. Monitoring and Accounting for the Distributed Computing System of the ATLAS Experiment CEUR Workshop Proceedings, - (год публикации - 2019)

4. Белов С.Д., Кадочников И.С., Кореньков В.В., Матвеев М.А., Подгайный Д.В., Пряхина Д.И., Семенов Р.Н., Стрельцова О.И., Зрелов П.В. High-performance computing platforms for organizing the educational process on the basis of the International school “Data Science” CEUR Workshop Proceedings, - (год публикации - 2019)

5. Гавриленко Ю.Е., Шарма М., Литмаа М., Тихомирова Т.М. Dynamic Apache Spark cluster for economic modeling CEUR Workshop Proceedings, - (год публикации - 2019)

6. Кадочников И.С., Папоян В.В. Blocking strategies to accelerate record matching for Big Data integration CEUR Workshop Proceedings, - (год публикации - 2019)

7. Климентов А.А., Бенджамин Д., Ди Жироламо А., Де К., Элмшеусер Й., Филипчич А., Кирьянов А.К., Олейник Д.А., Уэлш Д.Ч., Зароченцев А.К., Жао С. Enabling Data Intensive Science on Supercomputers for High Energy Physics R&D Projects in HL-LHC Era European Physical Journal Web of Conferences, - (год публикации - 2019)


Аннотация результатов, полученных в 2020 году
Для поддержки физических экспериментов класса мегасайнс разработан прототип автоматизированной системы обработки данных в распределенной гетерогенной вычислительной среде, реализующей концепцию высокопоточной обработки данных. Развернуты и итегрированны базовые системы и сервисы: сервис управления нагрузкой PanDA, информационная система CRIC, сервис передачи данных FTS, система управления данными в распределенной среде Rucio. Системы и сервисы интегрированы между собой общими протоколами аутентификации и авторизации, с использованием единой системы аутентификации и авторизации ОИЯИ. Выбрана программная платформа и разработан прототип высокоуровневой системы управления процессом обработки данных в распределений вычислительной среде, произведена интеграция разработанного прототип c сервисом аутентификации и авторизации ОИЯИ, системой управления нагрузкой PanDA и информационной системой CRIC. В рамках исследования современного рынка труда и разработки количественной оценки его взаимосвязи с социально-экономическими факторами в регионах страны был проведен анализ отечественных и зарубежных источников по исследуемой проблеме, сформирована система показателей, оказывающих влияние на занятость и безработицу в РФ, затем были построены следующие модели: множественная регрессионная модель, определяющая зависимость уровня занятости в регионах РФ от основных макроэкономических показателей, регрессионная модель на главных компонентах, модели бинарного выбора – логит-модель. Было получено пространственное и структурное распределение регионов РФ: проведен иерархический и итерационный кластерный анализ на факторных и объектных данных. Далее был применен бикластерный подход к анализу занятости по видам экономической деятельности, рассмотрены три основных метода: xMotifs, BiMax, OPSM и их результативность для изучения закономерностей на рынке труда. Проведено исследование по формированию критериев выбора современных систем бизнес-аналитики, позволяющих решать социально-экономические задачи в стыковке с системами аналитики Больших данных. Разработаны методы обработки больших объемов данных в задачах распознавания аудиосигналов и речи применительно к технологии речевой подписи. Предложен подход, позволяющий использовать унифицированные методические и программные средства для одновременного решения задач распознавания графических и акустических образов, речевой подписи. Предложенный подход основывается на преобразовании акустической информации в графическую за счет использования 2D-изображений динамических сонограмм и использования технологии Виолы-Джонса. “Озера научных данных” - это концепция построения распределенных систем хранения на основе ресурсов научных групп и институтов участников. На данный момент организация унифицированных, крупных распределенных систем хранения приобретает всё больший интерес для научных сообществ. В данном подходе все ресурсы хранения консолидируется при помощи той или иной технологии и представляются как единая интеллектуальная система хранения, предоставляющая достаточный объем и скоростные характеристики для всех необходимых данных посредством их оптимального расположение на физических носителях для дальнейшей обработки и долговременного хранения. Технологические особенности реализации при этом скрыты от пользователей наличием общих протоколов и сервисов доступа к данным. Таким образом, сегмент распределенной вычислительной инфраструктуры может быть описан как набор вычислительных компонент (сайтов) подключенных к общей системе хранения. Работы по тематике создание прототипа “озера научных данных” проходили в рамках следующих направлений: - Развитие системы управления потоками данных для обработки и анализа информации в эксабайтном диапазоне; - Развитие методов и средств для проведения автоматизированного тестирования систем управления потоками данных; - Разработка и апробация сценария подключения к «озеру данных» вычислительного центра в зависимости от характеристик его ресурсов и особенностей каналов связи; - Разработка методик для определения популярности (востребованности) научных данных и методов управления данными; Наиболее значимые результаты по создание прототипа “озера научных данных”: - Расширение и развитие инфраструктуры прототипа озера данных, в том числе включение в инфраструктуру серверов вычислительного центра РЭУ имени Г.В.Плеханова. Исследование различных сценариев кэширования и буферизации данных данных. - Разработка методологии автоматизации тестирования технологических решений применяемых при построении “озера данных" и создание специализированных систем контроля компонент инфраструктуры (мониторинг системы). Был разработан и внедрен пакет синтетических тестов и тестов, использующих реальные программы, применяемые в области физики элементарных частиц. - Разработка модели “карусели данных”. “Карусель данных” предполагает автоматическую миграцию данных между различными типами носителей, в зависимости от востребованности данных. Реализация данной модели потребовали разработки новых подходов для систем обработки и управления данными. “Карусель данных” была продемонстрирована для эксперимента АTLAS на БАК для обработки более 20 петабайт данных, храящихся на магнитных лентах, при этом размер дискового кэша данных составил 3 петабайта. Данная модель была рекомендована к применению всеми экспериментами на БАК для этапа работы коллайдера в режиме “высокой светимости” (2027/2036 гг). • Исследование популярности и жизненного цикла научных данных физического эксперимента. Определение наиболее популярных данных среди ученых и увеличение эффективности физического анализа за счет гранулярного подхода к информации. Это тема была признана настолько актуальной, что в сентябре 2020 года была создана рабочая группа, в которую вошли участники проекта и сотрудники ЦЕРН для совместного исследования популярности научных данных. Исследования проводились в сотрудничестве с российскими научными центрами (ПИЯФ НИЦ КИ, НИВЦ МГУ), Университетами (МГУ, СПбГУ, НИЯУ МИФИ), международными научными центрами (ЦЕРН, ОИЯИ, Лаборатория физики частиц (LAPP, Франция)).

 

Публикации

1. Алексеев А.А., Кампана С., Эспиналь К., Джезекель С., Кирьянов А.К., Климентов А.А., Корчуганова Т.А., Мицын В.В., Олейник Д.А., Смирнов С., Зароченцев А.К. On the road to a scientific data lake for the High Luminosity LHC era International Journal of Modern Physics A, Vol. 35, No. 33 (2020) 2030022 (год публикации - 2020) https://doi.org/10.1142/S0217751X20300227

2. Алексеев А.А., Кирьянов А.К., Климентов А.А., Корчуганова Т.А., Мицын В.В., Олейник Д.А., Смирнов С., Зароченцев А.К. Scientific Data Lake for High Luminosity LHC project and other data-intensive particle and astro-particle physics experiments International Journal of Modern Physics A, - (год публикации - 2020)

3. Алексеев А.А.,Джезекель С., Кирьянов А.К., Климентов А.А., Корчуганова Т.А., Мицын В.В., Олейник Д.А., Смирнов С., Зароченцев А.К. Evaluation of the Impact of Various Local Data Caching Configurations on Tier2/Tier3 WLCG Sites CEUR Workshop Proceedings, Vol. 2679, pp. 1-10 (год публикации - 2020)

4. Алюшин А.М. Document protection technology in the digital economics using cognitive biometric methods Procedia Computer Science, Vol. 169, pp. 887-891 (год публикации - 2020) https://doi.org/10.1016/j.procs.2020.02.147

5. Алюшин А.М., Леонова Н.М., Модяев А.Д. Intelligent Processing of Speech Information in the Tasks of Noise Reduction for Communication Tools at the Objects of the Digital Economy Proceedings of 2020 23rd International Conference on Soft Computing and Measurements, Номер статьи 9198803, pp. 230-233 (год публикации - 2020) https://doi.org/10.1109/SCM50615.2020.9198803

6. Багинян А.С., Баландин А.И., Белов С.Д., Долбилов А.Г., Кадочников И.С., Кореньков В.В., Зрелов П.В. JINR Network Infrastructure for Megascience Projects 2020 International Scientific and Technical Conference Modern Computer Network Technologies (MoNeTeC), pp. 1-5 (год публикации - 2020) https://doi.org/10.1109/MoNeTeC49726.2020.9258004

7. Белов С.Д., Кадочников И.С., Кореньков В.В., Пелеванюк И.С., Семенов Р.Н., Зрелов П.В. Integration of the parallel resources to the distributed cloud infrastructures for large scale projects CEUR Workshop Proceedings, - (год публикации - 2020)

8. Белов С.Д., Кадочников И.С., Кореньков В.В., Семенов Р.Н., Зрелов П.В. Batch and stream Big Data processing platform: case of network traffic analysis CEUR Workshop Proceedings, - (год публикации - 2020)

9. Климентов А.А. Методы обработки сверхбольших объемов данных в распределенной гетерогенной компьютерной среде для приложений в области физики высоких энергий и ядерной физики Физика Элементарных Частиц и Атомного Ядра, т. 51, вып. 6, стр 1175 - 1303 (год публикации - 2020)

10. Оныкий Б.Н., Антонов Е.В., Артамонов А.А., Третьяков Е.С. Information Analysis Support for Decision-Making in Scientific and Technological Development International Journal of Technology, Vol 11, No 6 (2020), pp. 1125-1135 (год публикации - 2020) https://doi.org/10.14716/ijtech.v11i6.4465

11. Улизко М.С., Антонов Е.В., Артамонов А.А., Тукумбетова Р.Р. Visualization of Graph-based representations for analyzing related multidimensional objects Scientific Visualization, Volume 12 (4), number 4, pp. 133-142 (год публикации - 2020) https://doi.org/10.26583/sv.12.4.12

12. Черкасская М.В., Артамонов А.А., Черкасский А.И. Review of methods for building agent systems and decision support systems COMPUSOFT: An International Journal of Advanced Computer Technology, VOL. 9 NO. 10 (2020) (год публикации - 2020)


Аннотация результатов, полученных в 2021 году
Введен в опытную эксплуатацию прототип автоматизированной системы обработки данных в распределенной гетерогенной вычислительной среде, реализующей концепцию высокопоточной обработки данных. В систему подключены несколько, географически распределённых, ресурсных центров. Посредством информационной системы NICA CRIC определена топология распределенной системы обработки данных, включая организацию систем хранения, реализующую концепцию "озера данных". Получили свое развитие и другие компоненты, необходимые для реализации распределенной системы обработки: система управления нагрузкой PanDA, пилотное приложение PanDA Pilot адаптированы для выполнения задач эксперимента BM@N; система управления процессом обработки данных обеспечивает цепочки обработки данных для эксперимента BM@N. Проведены исследования по возможности интеграции систем аутентификации институтов участников NICA. В ходе проведенного исследования была изучена текущая ситуация на мировом рынке труда на основе официальной статистической информации, публикуемой Международным валютным фондом. На основании оперативных данных о вакансиях на были построены гистограммы распределения исследуемого показателя, выявлены основные тенденции поведения рынка труда в период пандемии и идентифицированы виды экономической деятельности, подверженные риску от введения антиковидных мер секторам экономики. Были получены следующие модели: модели дискретного выбора и случайного леса для анализа риска превышения уровней безработицы в регионах РФ среднероссийского значения. Было получено пространственное и структурное распределение регионов РФ: проведен иерархический, итерационный и нечеткий кластерный анализ. Далее по итогам сравнения бикластерного и итерационного кластерного методов анализа был сделан вывод о предпочтительности традиционных методов кластеризации для экономических данных. Была получена устойчивая кластеризация объектного пространства. В рамках исследования современной ситуации на рынке труда разрабатывается Автоматизированная информационная система мониторинга, анализа и прогноза развития рынка труда в РФ. За текущий отчетный период реализованы информационные сервисы для просмотра информации о зарплатах и вакансиях в текстовом и графическом виде с учетом временного интервала и региона. Такая система позволит обеспечить более удобный режим доступа заинтересованных лиц к информации, повысить достоверность информации о рынке труда, обеспечить эффективное прогнозирование потребностей в кадрах рынка труда. Разработана и внедрена система безопасности для платформы анализа больших данных. Создано два кластера Apache Spark с использованием Kubernetes для менеджмента ресурсов и поддержкой GPU: в облаке ЛОТАБД РЭУ и на физических вычислительных ресурсах ЛИТ ОИЯИ. Развертывание автоматизировано благодаря системе управления конфигурацией Ansible и контейнеризации сервисов. Обеспечен прозрачный доступ к веб-интерфейсам сервисов в Kubernetes, в том числе необходимых для запуска и мониторинга задач Apache Spark. В качестве теста системы проведена обработка, анализ и извлечение признаков сетевых узлов из потока сетевых пакетов. Разработан алгоритм представления монотонной спектрограммы в бинарном виде, в частности разработан программный комплекс, позволяющий реализовывать данное преобразование в прямом и обратном видах (из монотонной спектрограммы получать бинарную, из бинарной получать монотонную). Разработан метод восстановления гармонической структуры человеческой речи по следам оставшихся гармоник в низкочастотных областях речевого сигнала. Разработаны методы шумоподавления для сигналов, позволяющие очищать акустические (речевые) сигналы от помех различного вида в спектральной области. Методы шумоподавления основываются на выделении оставшихся частот полезного речевого сигнала в зашумленном сигнале и последующим восстановлением гармонической структуры речи. Разработана мультиагентная система по сбору и анализу данных научно-технической информации по тематике «Big Data». Апробированы методы спроектированной мультиагентной системы по сбору и анализу данных по выбранной тематике на примере десяти научных журналов, выбранных экспертами. Составлен набор ключевых слов по стадиям жизненного цикла разработки программного продукта для реализации интеллектуальных механизмов реферирования неструктурированной информации. Доработан процесс обработки собранных данных (унификация данных и получение геопозиций найденных организаций) для реализации автоматизированного выявления ключевых информационных объектов. Проведено исследование и выбраны инструменты для реализации выявления скрытых связей между информационными объектами. Доработан графический и программные интерфейсы системы, добавлена интерактивная карта и набор визуализаций для анализа данных. http://sci-lake.rea.ru/ Графический интерфейс мультиагентной системы сбора и анализа научно-технической информации по тематике «Big Data». "Озера научных данных” - концепция построения распределенных систем хранения на основе федерации ресурсов научных групп и институтов участников. В 2021 году работы по данному направлению проходили как в увеличении количества центров, предоставляющих свои ресурсы для “озера данных”, так и в разработке ПО для оптимизации доступа и хранения данных. Большое внимание было уделено сетевой инфраструктуре центров и изучены возможные “узкие места” при передаче данных и доступа к ним. В частности, сайт НИЯУ МИФИ был подключен к глобальной вычислительной сети LHCONE. В результате работ было выбрано программное обеспечение и архитектура прототипа “озера научных данных”, а также создан сам прототип. Была показана масштабируемость выбранных аппаратных и программных решений на примере подключения ресурсов РЭУ им. Г.В. Плеханова к созданному “озеру научных данных”. Создана функционально готовая для использования система буферизацией на базе технологии EOS, но требующая доработки до достаточной эффективности на следующем релизе EOS. “Озеро данных” было подключено к системе обработки данных для экспериментов на коллайдере NICA. Для эффективного использования хранилищ на магнитных лентах в системе управления потоками данных был разработан и введен в эксплуатацию новый процесс - карусель данных (Data carousel). Под Data carousel понимается комплекс механизмов взаимодействия между различными системами (система управления потоками данных, система управления распределенными данными DDM/Rucio, службы, предоставляющие доступ к хранилищам на магнитной ленте), обеспечивающих возможность использования информации с магнитных лент как входных данных для вычислительных задач. Была продемонстрирована масштабируемость подхода “карусель данных”: проведена обработка данных мультипетабайтного диапазона (18.5 ПБ) в режиме “карусель данных”, также показана универсальность подхода “карусель данных”: в режиме “карусель данных” выполняются различные потоки обработки анализа и моделирования данных для миллионов заданий в месяц. Реализована система мониторинга обработки данных в режиме Data Carousel и проведена “тонкая настройка” для центров архивирования данных консорциума WLCG (центры уровня Т0 и Т1, более 12 центров, в том числе Российские центры ОИЯИ и НИЦ КИ) профиля доступа к данным для работы в режиме “карусель данных”. Были исследована популярность данных физического эксперимента, на примере наборов Analysis Object Data (логический объем составляет около 28 ПБ, физический объем составляет 55 ПБ). На основе проведенного исследования разработана и внедрена методика автоматического управления количеством копий на дисках и автоматической миграции не востребованных данных (непопулярных данных) на ленты в режиме “карусель данных”. Детально исследованы операции по доступу к данным эксперимента ATLAS за временной интервал в 3 месяца. Полученные результаты показали, что к подавляющему большинству наборов данных обращаются всего несколько раз в течение исследуемого временного интервала, большая часть обращений происходит через короткие промежутки времени и значительная часть данных занимает дисковое пространство в течение долгого времени без активного использования. Эти результаты указывают на то, что использование кэшей, более агрессивных политик удаления данных потенциально могут оптимизировать общую стоимость хранения данных. Однако, прежде чем приступить к практическому использованию полученных результатов, требуется проделать большую работу. В частности, необходим непрерывный мониторинг популярности данных, отслеживание других значимых показателей, которые могут быть использованы для управляющего и административного персонала вычислительных сайтов в направлении более эффективного использования ресурсов. В результате работ по данному проекту заложен методологический и программный базис для развития направления автоматизации динамического управления данными. Результаты работ были представлены в 21 докладе на международных конференциях 2021 года (в том числе 4 пленарных доклада). По результатам исследований опубликовано 14 статей в реферируемых изданиях. Проведена III Школа молодых ученых «Высокопроизводительные платформы для цифровой экономики и научных проектов класса мегасайенс».

 

Публикации

1. Алексеев А.А., Кирьянов А.К., Климентов А.А., Корчуганова Т.А., Олейник Д.А., Зароченцев А.К. Russian data lake prototype as an approach towards national federated storage for Megascience CEUR Workshop Proceedings, Vol. 3041, pp. 91-95 (год публикации - 2021)

2. Алексеев А.А., Эспиналь К., Джезекель С., Кирьянов А.К., Климентов А.А., Корчуганова Т.А., Мицын В.В., Олейник Д.А., Смирнов А.С., Смирнов С.Ю., Зароченцев А.К. Prototype of the Russian Scientific Data Lake EPJ Web of Conferences, Volume 251, 02031 (2021) (год публикации - 2021) https://doi.org/10.1051/epjconf/202125102031

3. Алюшин А.М., Дворянкин С.В. Acoustic Pattern Recognition Technology Based on the Viola-Jones Approach for VR and AR Systems Advances in Intelligent Systems and Computing, AISC 1310, pp. 1–8, 2021 (год публикации - 2021) https://doi.org/10.1007/978-3-030-65596-9_1

4. Белов С.Д., Ильина А.В., Джавадзаде Д.Н., Кадочников И.С., Кореньков В.В., Пелеванюк И.С., Семёнов Р.Н., Тарабрин В.А., Зрелов П.В. Analytical platform for socio-economic studies CEUR Workshop Proceedings, Vol. 3041, pp. 619-623 (год публикации - 2021)

5. Белов С.Д., Кадочников И.С., Кореньков В.В., Решетников А.Г., Семенов Р.Н., Зрелов П.В. Data analysis platform for stream and batch data processing on hybrid computing resources CEUR Workshop Proceedings, Vol. 3041, pp. 174-179 (год публикации - 2021)

6. Бирманн Т., Чучук О., Ди Джироламо А., Григорьева М.А., Климентов А.А., Лассниг М., Шульц М., Шаба А., Третьяков Е.С. Methods of Data Popularity Evaluation in the ATLAS Experiment at the LHC EPJ Web of Conferences, Volume 251, 02013 (2021) (год публикации - 2021) https://doi.org/10.1051/epjconf/202125102013

7. Бородин М.С., Ди Джироламо А., Каравакис Э., Климентов А.А., Корчуганова Т.А., Лассниг М., Тадаши Маено, Падольский С.В., Син Жао The ATLAS Data Carousel Project Status EPJ Web of Conferences, Volume 251, 02006 (2021) (год публикации - 2021) https://doi.org/10.1051/epjconf/202125102006

8. Гаврилов Д.И., Ячменев А.А., Матвеев И.А., Олейник Д.А., Петросян А.Ш. Usage of the JINR SSO Authentication and Authorization System with Distributed Data Processing Services CEUR Workshop Proceedings, Vol. 3041, pp. 536-540 (год публикации - 2021)

9. Григорьева М.А., Третьяков Е.С., Климентов А.А., Голубков Д.В., Корчуганова Т.А., Алексеев А.А., Артамонов А.А., Галкин Т.П. High Energy Physics Data Popularity : ATLAS Datasets Popularity Case Study 2020 Ivannikov Memorial Workshop (IVMEM), pp. 22-28 (год публикации - 2021) https://doi.org/10.1109/IVMEM51402.2020.00010

10. Петросян А.Ш. COMPASS Production System: Frontera Experience CEUR Workshop Proceedings, Vol. 3041, pp. 80-85 (год публикации - 2021)

11. Третьяков Е.С., Артамонов А.А., Григорьева М.А., Климентов А.А., МакКи Ш., Вукотич И. TRACER (TRACe route ExploRer): A tool to explore OSG/WLCG network route topologies A tool to explore OSG/WLCG network route topologies. International Journal of Modern Physics A, Vol. 36, No. 5 (2021) 2130005 (13 pages) (год публикации - 2021) https://doi.org/10.1142/S0217751X21300052

12. Филозова И.А., Гавриленко Ю.Е., Ильина А.В., Джавадзаде Д.Н., Кореньков В.В., Пряхина Д.И., Велиева Т.Р. Using data from the labor market for analysis and education CEUR Workshop Proceedings, Vol. 3041, pp. 111-116 (год публикации - 2021)

13. Черкасский А.И., Черкасская М.В., Артамонов А.А., Галин И.Ю. User group classification methods based on statistical models Studies in Computational Intelligence, - (год публикации - 2022)

14. Черкасская М. В.,Черкасский А. И., Проничева Л.В. Mechanisms for identifying the patterns of the dynamics of scientific and technical publications on the example of the thematic direction "Robotics" CEUR Workshop Proceedings, Vol. 3041, pp. 190-195 (год публикации - 2021)