КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 20-71-10127

НазваниеАнализ и оптимизация энергоэффективности и производительности суперкомпьютеров на перспективной элементной базе отечественного производства

РуководительТимофеев Алексей Владимирович, Кандидат физико-математических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки Объединенный институт высоких температур Российской академии наук, г Москва

Период выполнения при поддержке РНФ 07.2020 - 06.2023  , продлен на 07.2023 - 06.2025. Карточка проекта продления (ссылка)

Конкурс№50 - Конкурс 2020 года «Проведение исследований научными группами под руководством молодых ученых» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-505 - Системы компьютерной поддержки научных исследований

Ключевые словаВысокопроизводительные вычисления, суперкомпьютер, суперкомпьютер субэкзафлопского класса, процессор Эльбрус, Intel, AMD, вычислительная сеть Ангара, иммерсионное охлаждение, энергоэффективность

Код ГРНТИ50.33.03, 50.33.04, 50.09.33


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Данный проект направлен на решение задачи построения архитектуры суперкомпьютера субэкзафлосного класса, эффективного по производительности энергопотреблению с максимизацией содержания элементов отечественного производства. Проект основан на развитии задела, накопленного в процессе работы руководителя проекта и остальных членов научной группы с новейшими суперкомпьютерными компонентами отечественного и зарубежного производства в течение последних пяти лет, а в отдельных случаях в течение последнего десятка лет. Важной чертой проекта является ориентированность на оптимизацию архитектуры суперкомпьютера под решение часто встречающихся конкретных научных и инженерных задач. В течение многих лет в России почти не было производства элементной базы суперкомпьютеров, способного конкурировать с зарубежным по качеству, производительности и стоимости. Сейчас наблюдается кардинальное изменение ситуации, которое проявляется как в указах Президента РФ о необходимости развивать технологии, требующие высокопроизводительные вычислительные системы, так и в появлении конкурентоспособных суперкомпьютерных компонент, произведённых в России, что подчёркивает научную новизну проекта. Глобальная политическая ситуация и усиливающиеся сложности сотрудничества с зарубежными производителями передовых компонент вычислительной техники только усиливают необходимость развития отечественной элементной базы суперкомпьютеров и актуальность данного проекта. Проект разбит на несколько задач, позволяющих рассмотреть основные компоненты суперкомпьютера: 1) Исследование энергоэффективности вычислительных кластеров с учётом жидкостной погружной и воздушной систем охлаждения; 2) Исследование энергоэффективности и производительности процессоров (например, Elbrus, Байкал-ARM, AMD, Intel); 3) Исследование энергоэффективности и производительности видеокарт (например, Nvidia, AMD); 4) Исследование эффективности интерконнектов (например, Angara, OmniPath, InfiniBand). 5) Формулирование предложений по созданию эффективного по производительности, энергопотреблению и стоимости суперкомпьютера с максимизацией содержание элементов отечественного производства. Для тестирования всех компонент в данном проекте планируется опираться на следующие классы задач: а) матричные операции; б) быстрое преобразование Фурье; в) искусственный интеллект; г) молекулярная динамика. Выполнимость проекта подкрепляется заделом научной группы в виде обширных контактов с отечественными и зарубежными производителями суперкомпьютерных компонент, в виде исследований современных образцов суперкомпьютерных компоненты отечественного и зарубежного производства и в виде наличия целого ряда разных архитектур либо собранных непосредственно в научной группе, либо доступных для работы и исследования. Для выполнения проекта собран уникальный коллектив, включающий а) учёных, занимающихся кроме исследования проблем суперкомпьютеров ещё и задачами материаловедения, физики и др., что позволяет оптимизировать архитектуру под реальные и самые распространённые задачи, и б) специалистов, разрабатывающих компоненты и суперкомпьютеры, что позволяет подключить глубокое понимание особенностей элементной базы суперкомпьютеров. Практически по всем перечисленным задачам наш коллектив находится в контакте с отечественными и зарубежными фирмами-производителями. Встречаясь с их сотрудниками и ведущими учёными суперкомпьютерной области на научных конференциях, мы убеждаемся, что наши результаты соответствуют лучшему мировому уровню. Здесь и далее нумерация разделов сохраняется той же, что в аннотации проекта.

Ожидаемые результаты
Данный проект включает в себя а) проведение фундаментальных исследований, направленных на обоснование суперкомпьютера субэкзафлопсного класса на отечественной элементной базе; б) подготовку вариантов архитектуры такого суперкомпьютера с оптимизацией по энергоэффективности, стоимости и производительности. Ожидаемые результаты и их значимость изложены ниже по отдельным задачам проекта. Здесь и далее нумерация разделов сохраняется той же, что в аннотации проекта. 1)Исследование энергоэффективности вычислительных кластеров с учётом жидкостной погружной и воздушной систем охлаждения; Энергопотребление суперкомпьютеров за последние 20 лет возросло более чем в 16 раз. По оценкам, при сохранении текущих тенденций развития технологий, система экзафлопсной производительности будет потреблять порядка 50-100 мегаватт. Проблема неоптимального энергопотребления суперкомпьютерных вычислительных комплексов является очень важной и актуальной. C 2013 ведется составление списка Green500 – наиболее производительных суперкомпьютеров в расчете на один ватт потребляемой мощности. В настоящий момент не существует общепринятого подхода по измерению и оценке энергопотребления суперкомпьютеров, как и рекомендаций по оптимизации, которые были бы универсальными для любой вычислительной системы. В результате выполнения проекта будут разработаны методы сбора и анализа данных по энергоэффективности для разных архитектур. Эти методы позволят упростить и унифицировать процессы выявления неоптимального использования энергии, простоя систем, а также предоставлять конкретные решения для повышения эффективности и оптимизации. 2) Энергоэффективность и производительность процессоров С недавнего времени на рынке серверных процессоров, которые можно использовать для создания суперкомпьютеров, представлены модели, основанные на архитектурах ARM и VLIW (Эльбрус). Они создают конкуренцию широко распространенной архитектуре x86 (Intel, AMD), при этом их разработка и производство ведутся в России, что делает их привлекательными для создания отечественных высокопроизводительных машин. В связи с этим имеется необходимость в системном подходе к оценке процессорных архитектур по различным параметрам. По результатам проекта будет проведен сравнительный анализ процессоров разных архитектур и производителей, который позволит сделать выводы о том, какая из архитектур наиболее пригодна для построения экзафлопсной системы, а также выявить из них наиболее перспективную с точки зрения дальнейшей оптимизации высокопроизводительного программного обеспечения. 3) Энергоэффективность и производительность видеокарт В рамках этого пункта планируется изучить перспективы применения открытых и универсальных платформ для использования графических ускорителей (CUDA, OpenCL) в научных приложениях, а также минимизировать накладные расходы и развить методы эффективного переноса научных пакетов на открытые перспективные платформы. Разработка новых алгоритмов для расчетов моделей классической молекулярной динамики с использованием ускорителей востребована на мировом уровне, так как делает доступными для эффективного использования существенно бОльшие вычислительные мощности, при этом она сопряжена с решением сложных алгоритмических и технических задач. В рамках проекта планируется подготовка новых алгоритмов и соответствующих программных кодов для решения задач вычислительной физики с использованием гибридных суперкомпьютеров. 4) Интерконнекты В рамках направления планируется исследование производительности и энергоэффективности сети Ангара в сравнении с зарубежными сетями Intel OmniPath, Infiniband Mellanox при различной нагрузке синтетических коммуникационных и прикладных тестов, прикладных задач, при применении различных методов сетевой маршрутизации. Результаты исследования энергоэффективности сети Ангара позволят сформулировать предложения по внесению изменений в архитектуру и реализацию в СБИС сети Ангара, а также разработать проект суперкомпьютера на отечественной элементной базе. 5) Эффективный суперкомпьютер с элементами отечественного производства В качестве результата сравнительного анализа отдельных элементов архитектуры суперкомпьютера планируется предложить несколько вариантов архитектур суперкомпьютеров суб-экзафлопсного класса с акцентом на оптимизации следующих факторов: а) энергоэффективность, б) вычислительная производительность, в) стоимость, г) присутствие и максимизация содержания элементов отечественного производства.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2020 году
Разработана система для мониторинга энергопотребления вычислительных узлов на суперкомпьютерах “Десмос” и “Фишер”. Также, на “Фишере” разработана система мониторинга задач, позволяющая записывать информацию о задачах, запускаемых на суперкомпьютере, собирать краткий отчет о выполнении и автоматически создавать графики утилизации CPU, температуры CPU, тактовой частоты CPU, энергопотребления узла и использованной памяти для выбранной задачи в веб-интерфейсе Grafana. Проведены тесты процессоров AMD Epyc 7301 и AMD Epyc 7662 в бенчмарке HPL. Было исследовано, как использование различных типов охлаждения, различных интерконнектов, различного числа вычислительных узлов влияет на вычислительную производительность. Полученная производительность на процессоре AMD Epyc 7301 на вычислительном узле с воздушным охлаждением составила 524 Гфлопс с эффективностью 93%, на вычислительном узле с иммерсионным охлаждением - 536 Гфлопс с эффективностью 95%. Производительность при запусках на 16 узлах составила 7847 Гфлопс на узлах с воздушным охлаждением и 7876 Гфлопс на узлах с иммерсионным охлаждением. Эффективность составила 87,08% и 87,39% соответственно. Полученная производительность на процессоре AMD Epyc 7662 на вычислительном узле с иммерсионным охлаждением составила 3461 Гфлопс с эффективностью 84,5%, Производительность при запуске на 20 узлах составила 59465 Гфлопс с эффективностью 72,59%. Был реализован алгоритм поразрядной сортировки на графическом ускорителе с учетом четырех разрядов на итерацию. Особенностью реализации является высокая портируемость - возможность компиляции одного кода для платформ CUDA, ROCm HIP и OpenCL. Код использован в пакете молекулярно-динамического моделирования LAMMPS для обеспечения большей портируемости и обеспечения построения списков соседей на ГПУ при использовании платформы OpenCL. Производительность кода на модельной задаче в 3-7 раз ниже, чем при использовании высокооптимизованных платформозависимых библиотек, но в рассмотренном сценарии использования не оказывает значимого влияния на общую производительность МД расчета, предоставляя компактность и переносимость кода. Проведено оценочное сравнение эффективности моделей программирования CUDA, OpenACC и OpenMP на различных тестах. Проведен анализ эффективности работы с памятью GPU, производительности физических задач и различных реализаций умножения матриц на графических процессорах Nvidia Tesla V100 и MX940, а также на современных процессорах общего назначения. Кроме того, проведен анализ производительности оптимизированных библиотек BLAS. На суперкомпьютере Fisher проведено сравнительное оценочное тестирование производительности и энергоэффективности сегментов на основе сети Ангара и сети Infiniband 4x FDR от 1 до 16 узлов. Экспериментально показано, что энергопотребление приемо-передатчиков и ядра маршрутизатора Ангара не зависит от выполняемой динамической нагрузки, а приемо-передатчики вносят основной вклад в энергопотребление сетевого адаптера Ангара. В рамках работы получена оптимизированная версия библиотеки MPI для сети Ангара как способ повысить энергоэффективность суперкомпьютера при работе задач. Проведенное оценочное тестирование показало возможность увеличения энергоэффективности суперкомпьютера с сетью Ангара за счет оптимизации MPI, полученный выигрыш по электроэнергии составляет от 5% до 22%. Моделирование при помощи симулятора работы вычислительной системы с очередью задач позволило оценить экономию электроэнергии при отключении приемо-передатчиков СБИС маршрутизатора сети Ангара, расположенных по краям выделяемых множеств узлов. При рассмотрении вычислительных систем с топологией 3D-тор с количеством узлов от 32 до 512, 4D-тор с количеством узлов от 32 до 1024 и очередей задач, приближенных к реальным, оценка экономии электроэнергии составляет до 2.46 КВт/ч для системы из 512 узлов (3D-тор) и 3.9 КВт/ч для системы из 1024 узлов (4D-тор). Данная возможность реализована для суперкомпьютера Desmos, для которого с учетом потребляемой мощности узлов экономия составляет до 4.5% от потребления всего суперкомпьютера под нагрузкой. Разработан алгоритм построения таблиц маршрутов для решения задачи решения распределения трафика в высокоскоростной сети Ангара, который глубже развивает теорию анализа сетей с маршрутизацией, которая накладывает ограничения на маршрут в зависимости от уже пройденной его части. Алгоритм обладает следующими качествами: а) обеспечивает бездедлоковость получаемых таблиц маршрутов при использовании расширенных возможностей маршрутизации сети, которая допускает существование дедлоков и отказов за счет использования графа путей, б) позволяет учитывать сетевой паттерн прикладной задачи, в) поддерживает возможность использования на системах с порядка 100-200 узлов за счет адекватного времени работы алгоритма, г) обеспечивает лучшее качество распределения трафика по сравнению с генетическим алгоритмом при значительно меньшем времени работы (10-20 раз быстрее). Доказана теоретическая сложность разработанного алгоритма, которая составляет в худшем случае O(nm + n^2 log n), где n, m - количество вершин и ребер в графе путей. Впервые исследовано влияние алгоритма построения таблицы маршрутов на производительность коммуникационных паттернов и прикладных задач на реальной вычислительной системе Desmos. Выигрыш от использования разработанного алгоритма построения таблицы маршрутов составляет от 10% до 30% при использовании 32 узлов суперкомпьютера Desmos, на тестах NPB CG и FT получен выигрыш производительности до 3%. Структурирован список основных компонент, дающих заметный вклад в вычислительную производительность суперкомпьютера. Сформулирована первая итерация теоретической модели, описывающей производительность суперкомпьютера на основе данных, полученных из первых исследований доступных компонент.

 

Публикации

1. Халилов М.Р., Тимофеев А.В. Performance analysis of CUDA, OpenACC and OpenMP programming models on TESLA V100 GPU Journal of Physics: Conference Series, 1740 012056 (год публикации - 2021) https://doi.org/10.1088/1742-6596/1740/1/012056

2. Шамсутдинов А., Халилов М., Исмгилов Т., Пирюгин А., Бирюков С., Стегайлов В., Тимофеев А. Performance of supercomputers based on Angara interconnect and novel AMD CPUs/GPUs Communications in Computer and Information Science, V.1413 (год публикации - 2021)


Аннотация результатов, полученных в 2021 году
1) Исследование энергоэффективности вычислительных кластеров с учётом жидкостной погружной и воздушной систем охлаждения Для сбора таких данных, как энергопотребление, тактовая частота процессоров и температура процессоров, были разработаны дополнительные плагины. Плагины разработаны на языке программирования Python 3. Для сбора метрик по энергопотреблению вычислительных узлов, были разработано два плагина для вычислительных узлов двух типов – с воздушным охлаждением и с масляным иммерсионным охлаждением, т. к. данные для них собираются разными способами. Кроме того была доработана вся система мониторинга для интеграции новых механизмов добавления метрик. Сравнительный анализ способов охлаждения был начат с анализа работы суперкомпьютера Fisher на базе пакета high performance linpack (HPL). Для этих тестов мы использовали вычислительные узлы в разных сегментах Fisher: сегменте с воздушным охлаждением и иммерсионном сегменте с разными интерконнектами. Для узлов с одинаковыми CPU (2 x AMD Epyc 7301) было показано, что иммерсионная система охлаждения приводит к увеличения эффективности выполнения HPL чуть более, чем на 2% по сравнению с воздушной системой охлаждения. 2) Энергоэффективность и производительность процессоров Выполнено испытание применимости языка Rust для разработки суперкомпьютерных приложений. Этот компилируемый язык программирования в последнее время рассматривается как замена C/C++, так как он обеспечивает близкие возможности для разработки низкоуровневого и производительного компилируемого кода, но защищает от ряда ошибок и проблем безопасности. Для создания суперкомпьютерных программ язык должен иметь высокий базовый уровень производительности, возможность использования математических библиотек, иметь поддержку параллельного программирования на уровне потоков и массового параллелизма. Испытания показали, что язык позволяет использовать классические библиотеки C/C++ без накладных расходов. Реализация многопоточного алгоритма интегрирования на Rust с помощью библиотеки Rayon показала точно такую же производительность, как и аналогичная реализация на С++ с OpenMP. Создание массово-параллельных приложений возможно с помощью MPI библиотеки rust-mpi, которая обеспечивает также более безопасный и удобный интерфейс. MPI программа была протестирована на действующем суперкомпьютере cHARISMa без необходимости каких-либо инфраструктурных изменений. Тесты времени выполнения коллективных операций показали отсутствие значимых накладных расходов. Rust-CUDA обеспечивает возможность программирования для графических ускорителей Nvidia, причем код вычислительных ядер создается тоже на Rust и способен обеспечить при разработке дополнительные гарантии безопасности. Таким образом, в Rust есть минимальная экосистема для создания суперкомпьютерных приложений. В ряде случаев достигается меньшая производительность, но уровень остается сопоставимым и можно ожидать, что развитие оптимизирующих компиляторов сможет закрыть эту разницу. 3) Энергоэффективность и производительность видеокарт Выполнены эксперименты на системах с ускорителями NVidia и AMD с использованием множества ускорителей в одном расчете. Исследована эффективность ГПУ ускорения на реальных передовых приложениях для молекулярно-динамического моделирования при близких к предельным размерам моделируемых систем. В экспериментах использовались пакеты LAMMPS и OpenMM. Один из них очень хорошо масштабируется и часто используется для решения задач рекордной сложности, а второй является более новым, хорошо оптимизированным для использования ГПУ и показывает более высокий уровень производительности при решении небольших систем в рамках одного узла, но его существенное ограничение заключается в отсутствии поддержки MPI. Появление новых технологий по объединению множества ГПУ на одном узле позволяет очень быстро решать многие практические задачи. В исследовании было исследовано масштабирование в сильном и слабом смысле. На узле в восемью ускорителями Nvidia A100 было показано, что OpenMM не так хорошо масштабируется по количеству ускорителей, как LAMMPS, причем даже при использовании отдельных узлов связаных интерконнектом Ангара. При исследовании масштабирования в слабом смысле было показано, что двукратная разница в скорости счета между ускорителями Nvidia A30 и A100 соответствует разнице между пиковыми характеристиками ускорителям. Более низкую производительность на практике показал AMD MI50 при таких же пиковых характеристиках, как у Nvidia A30, что может объясняться более медленными атомарными операциями в этих ускорителях. Разработан стек UCX-Angara, позволяющий использовать OpenMPI на системах с сетью Ангара и ГПУ в оптимизированном режиме. Проведена адаптация стека UCX-Angara для использования с ГПУ AMD в рамках инфраструктуры ROCm и технологии GPUDirect. Задействован оптимизированный механизм копирования памяти и разработан прототип механизма регистрации памяти для реализации оптимизированной версии протокола Rendezvous. По аналогии с ведущими интерконнектами в отрасли для полноценной поддержки технологии RDMA была добавлена операция регистрации памяти (Memory Registration). 4) Интерконнекты Разработана поддержка сетевого устройства Ethernet для высокоскоростной сети Ангара. В рамках реализации разработано два протокола для отправки данных через сеть Ангара - с использованием технологии RDMA и без неё. Режим RDMA не задействует ресурсы процессора, адаптер сети Ангара перемещает данные напрямую в память удаленного узла из памяти локального узла, полностью минуя центральный процессор. Проведено исследование производительности данных режимов, которое показало преимущество в 17% достигнутой пропускной способности в режиме RDMA по сравнению с режимом без использования RDMA. Проведено исследование производительности на тесте IO500 с использованием параллельной файловой системой BeeGFS на 20 узлах суперкомпьютера Fisher, установленного в ОИВТ РАН. Общий достигнутый результат IO500 составляет 6.35 и 2.8 для использования TCP/IP через Ethernet на сети Ангара (EoA) и 1 Gbit Ethernet, соответственно. Также исследована производительность IO500 на EoA в зависимости от количества используемых узлов Fisher для хранения и от количества используемых клиентских узлов. Производительность растет с увеличением числа узлов, пока не ограничивается характеристиками дисков или пропускной способностью сети. Проведенное исследование продемонстрировало полнофункциональный прототип реализации TCP/IP для сети Ангара. Тесты распределенного хранилища на основе данной реализации не показывают явных ограничений, которые можно было бы отнести к производительности сети Ангара. 5) Эффективный суперкомпьютер с элементами отечественного производства В рамках развития теоретической модели высокопроизводительной вычислительной системы сформулированы основные вызовы стоящие при создании современной эффективной высокопроизводительной вычислительной системы экзафлопсного класса и предложены основные варианты путей решения проблем. Основные вызовы: масштабируемость (обеспечение сохранения эффективности вычислений и удобства управления при масштабировании системы), энергопотребление (уменьшение энергопотребление как базового, так и при пиковых нагрузках), перемещение данных (решение проблем узких мест по памяти и по интерконнекту), программирование (оптимизация алгоритмов для экзафлопсных систем и возможность переноса существующего кода на экзафлопсную систему), надёжность (обеспечение устойчивости работы масштабной экзафлопсной системы). Большинство предложенных решений обсуждаемых вызовов исследуется и в части случаев осуществляется на практике в рамках текущего проекта.

 

Публикации

1. А.Мукосей, А.Семёнов Simulation of Utilization and Energy Saving of the Angara Interconnect Lobachevskii Journal of Mathematics, 2022, Vol. 43, No. 4, pp. 879–887. (год публикации - 2022) https://doi.org/10.1134/S1995080222070186

2. Бычков А., Никольский В. Rust Language for Supercomputing Applications Communications in Computer and Information Science, V.1510, pp. 391-403 (год публикации - 2022) https://doi.org/10.1007/978-3-030-92864-3_30


Аннотация результатов, полученных в 2022 году
1) Исследование энергоэффективности вычислительных кластеров с учётом жидкостной погружной и воздушной систем охлаждения На примере популярного бенчмарка показана справедливость гипотеза о том, что жидкостные системы охлаждения более эффективны, чем воздушные системы охлаждения, при работе с суперкомпьютерами. Это объясняется тем, что жидкость имеет более высокую теплопроводность, чем воздух, и может быстрее удалять тепло от компонентов суперкомпьютера и тем, что жидкостные системы охлаждения позволяют более равномерно распределять тепло по всей поверхности компонентов, что уменьшает вероятность перегрева и повышает надежность работы. Выбор оптимальной системы охлаждения зависит от конкретных требований и задач, которые выполняет суперкомпьютер. 2) Энергоэффективность и производительность процессоров Выделены основные тренды в развитии процессоров. Составлен рейтинг процессоров на базе ряда ключевых параметров, таких как частота процессора, количество ядер, размер памяти, мощности, цена процессора, его производительность или энергоэффективность и других. Изучены существующие бенчмарки, с помощью которых тестируется производительность, функциональность и энергоэффективность процессоров, их недостатки. С помощью выбранных бенчмарков был протестирован ряд процессоров для выделения общих патернов. Для каждого бенчмарка были собран рейтинг процессоров. 3) Энергоэффективность и производительность видеокарт За многие годы развития атомистического моделирования было создано много программных реализаций этого метода. Пакет LAMMPS появился давно, но он обладает большой гибкостью, позволяющей проводить с его помощью вычисления для самых разных моделей, при этом он превосходно масштабируется и используется на самых крупных суперкомпьютерах мира. Для адаптации к вычислениям на графических ускорителях в нем были реализованы несколько модулей с разными подходами. Более новый пакет OpenMM был изначально спроектирован для быстрых расчетов на ГПУ. В работе проведен сравнительный анализ. Показано, что OpenMM превосходит LAMMPS в 3 и более раз на реальных расчетах относительно небольших систем, но включает алгоритм сложности O(N^2) и это ограничивает его применимость - он не масштабируется более 6 ускорителей в системе. В LAMMPS модуль KOKKOS реализует вычисления с помощью декомпозиции на переносимые по производительности вычислительные ядра алгоритма для ГПУ, в то время как модуль GPU работает в режиме offload. В работе показано, как сопоставимые уровни производительности достигаются при очень разных паттернах обменов данными в этих модулях, и это открывает новый взгляд на возможности дальнейшего развития производительности в пакете. Выделены основные тренды в развитии графических ускорителей. Проанализированы существующие рейтинги и составлен рейтинг графических ускорителей. Изучены существующие бенчмарки, с помощью которых тестируется производительность, функциональность и энергоэффективность графических ускорителей. С помощью выбранных бенчмарков был протестирован ряд графических ускорителей. 4) Интерконнекты Впервые для сети Ангара разработана реализация библиотеки MPI с поддержкой в функциях MPI указателей на память Nvidia GPU (GPU-aware MPI). Полученная реализация позволяет с использованием сети Ангара проводить обучение нейронных сетей во фреймворках TensorFlow, PyTorch, Horovod. С использованием разработанной реализации впервые для сети Ангара продемонстрирована возможность распределенного обучения нейронных сетей. Проведен сравнительный анализ производительности при распределенном обучении нейронных сетей с использованием сетей Ангара, Nvidia Infiniband EDR-56 (пропускная способность ограничена 56 Гбит/c), 1 Gbit/s Ethernet. На нейронных сетях ResNet50, ResNet152 и DenseNet201 на 2 узлах стенда с ускорителем Nvidia V100 в каждом узле производительность для сети Ангара лишь немного уступает сети Infiniband EDR-56 и значительно опережает сеть 1 Gbit/s Ethernet. 5) Эффективный суперкомпьютер с элементами отечественного производства Проведены работы по 1. Определению влияния окружения на эффективность элементов суперкомпьютера. Для этого подбирается набор тестов на разных уровнях: базовые характеристики, синтетические тесты (например, HPL, HPCG) и практические научные пакеты. 2. Составлению рейтинга компонентов суперкомпьютера с учетом их характеристик (вычислительная производительность, энергоэффективность), стоимости и других параметров. 3. Тестированию суперкомпьютеров и их компонентов на реальных приложениях для составления актуального рейтинга по эффективности для конкретных типов научных задач/приложений. 4. Составлению списка рекомендаций для создания экзафлопсного суперкомпьютера и обсуждение возникающих проблем и возможных решений. Создан сайт для внесения данных о результатах тестирования суперкомпьютеров бенчмарками по основным классам вычислительных научных задач. Данные по мере проверки размещаются на сайте рейтинга https://tophpc.jiht.ru. На этом сайте сделан следующий шаг - рейтинг суперкомпьютеров и компонент собирается по типу вычислительной задачу, разделённых согласно научным направлениям, которым требуются высокопроизводительные вычисления. На текущий момент можно выделить следующие общие рекомендации для суперкомпьютерной архитектуры: 1) Для задач, реализованных для центральных процессоров и общей памяти (например, задачи гидродинамики): актуален большой размер кэша L3 и число каналов памяти (пропускная способность). 2) Для аналогичных задач большого размера нужен быстрый интерконнект для MPI-обменов. 3) Задачи, которым достаточно ограниченной памяти GPU, могут быть эффективно рассчитаны на системах с несколькими графическими ускорителями, объединенными в рамках одного узла быстрыми каналами связи (NVLink, Infinity Fabric). 4) Для аналогичных задач большого размера нужен быстрый интерконнект для MPI-обменов, причем с поддержкой технологий типа GPUDirect RDMA.

 

Публикации

1. А.Мукосей, А.Семенов, А.Третьяков Graph based routing algorithm for torus topology and its evaluation for the Angara interconnect Journal of Parallel and Distributed Computing, 183, 104765 (год публикации - 2023) https://doi.org/10.1016/j.jpdc.2023.104765

2. Исмагилов Т.Ф., Пирюгин А.П., Семёнов А.С. Early Performance Evaluation of Distributed Learning via GPU-aware MPI over the Angara Interconnect Lobachevskii Journa l of Mathematics, - (год публикации - 2023)

3. Колотинский Д.А., Тимофеев А.В. OpenDust: A fast GPU-accelerated code for the calculation of forces acting on microparticles in a plasma flow Computer Physics Communications, Volume 288, 108746 (год публикации - 2023) https://doi.org/10.1016/j.cpc.2023.108746

4. Колотинский Д.А., Тимофеев. А.В. Performance Analysis of GPU-Based Code for Complex Plasma Simulation Lecture Notes in Computer Science, volume 13708, pp 276–289 (год публикации - 2022) https://doi.org/10.1007/978-3-031-22941-1_20

5. Никольский В., Павлов Д., Стегайлов В.В. State-of-the-Art Molecular Dynamics Packages for GPU Computations: Performance, Scalability and Limitations Lecture Notes in Computer Science, volume 13708, pp 290–302 (год публикации - 2022) https://doi.org/10.1007/978-3-031-22941-1_25

6. Павлов Д.Г., Колотинский Д.А., Стегайлов В.В. GPU-Based Molecular Dynamics of Turbulent Liquid Flows with OpenMM Parallel Processing and Applied Mathematics. PPAM 2022. Lecture Notes in Computer Science, vol 13826. Springer, Cham., С. 346-358. (год публикации - 2023) https://doi.org/10.1007/978-3-031-30442-2_26

7. Пугачев Л., Умаров И., Попов В., Андреев В., Стегайлов В.В., Тимофеев А.В. PIConGPU on Desmos Supercomputer: GPU Acceleration, Scalability and Storage Bottleneck Lecture Notes in Computer Science, volume 13708, pp 290–302 (год публикации - 2022) https://doi.org/10.1007/978-3-031-22941-1_21

8. Халилов М.Р.,Тимофеев А.В. Towards OpenUCX and GPUDirect Technology Support for the Angara Interconnect Lecture Notes in Computer Science, vol 13708 (год публикации - 2022) https://doi.org/10.1007/978-3-031-22941-1_43

9. Ю.Гончарук, Ю.Гришичкин, А.Семенов, В.Стегайлов, В.Умрихин Evaluation of the Angara Interconnect Prototype TCP/IP Software Stack: Implementation, Basic Tests and BeeGFS Benchmarks Lecture Notes in Computer Science, LNCS, volume 13708 (год публикации - 2022) https://doi.org/10.1007/978-3-031-22941-1_31

10. Халилов М.Р.,Тимофеев А.В. Implementation of OpenUCX framework and GPUDirect technology support for the Angara interconnect Параллельные вычислительные технологии – XVI международная конференция, ПаВТ'2022, г. Дубна, 29–31 марта 2022 г. Короткие статьи и описания плакатов. Челябинск: Издательский центр ЮУрГУ, c.130 (год публикации - 2022) https://doi.org/10.14529/pct2022


Возможность практического использования результатов
Разработанная поддержка сетевого устройства Ethernet для высокоскоростной сети Ангара (EoA) открывает новые возможности по использованию поверх сети Ангара любой параллельной файловой системы. Проведенное исследование функционирования параллельной файловой системой BeeGFS поверх EoA на суперкомпьютере Fisher в ОИВТ РАН продемонстрировало полнофункциональный прототип реализации TCP/IP для сети Ангара. Данный результат позволяет 1) перекладывать функционал сети хранения данных на сеть Ангара, тем самым избавляя от необходимости устанавливать в суперкомпьютере дополнительное сетевое оборудование, 2) открывает новые возможности по применению сети Ангара в областях обработки Больших Данных, где ранее сеть Ангара не применялась. Результаты анализа суперкомпьютеров и их компонент позволяют определить "узкие" места, на которые необходимо направить основные усилия для повышения эффективности существующих и создаваемых архитектур вычислительных систем. Разработанная в рамках гранта реализация библиотеки MPI с поддержкой в функциях MPI указателей на память Nvidia GPU (GPU-aware MPI) позволяет с использованием сети Ангара проводить обучение нейронных сетей во фреймворках TensorFlow, PyTorch, Horovod. Проведенное исследование продемонстрировало возможность распределенного обучения нейронных сетей с использованием сети Ангара. Данный результат расширяет возможности применения сети Ангара в экономике, причем в такой важной области, как технологии искусственного интеллекта.