КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер проекта 25-29-20177

НазваниеМоделирование потоков отказов программных средств вычислительных кластеров

Руководитель Привалов Александр Николаевич, Доктор технических наук

Организация финансирования, регион федеральное государственное бюджетное образовательное учреждение высшего образования "Тульский государственный педагогический университет им. Л.Н. Толстого" , Тульская обл

Конкурс №100 - Конкурс 2025 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами» (региональный конкурс)

Область знания, основной код классификатора 09 - Инженерные науки; 09-603 - Надежность и отказоустойчивость технических систем. Диагностика технического состояния и испытания

Ключевые слова Вычислительный кластер, распараллеливание, поток отказов, наработка до отказа, вычислительная сложность, полумарковская модель, соревнование, эффективность.

Код ГРНТИ50.03.03, 50.07.03, 50.09.47


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Ожидаемые результаты
Основными научными результатами будут являться следующие: 1) Будет разработана концепция моделирования отказов программного обеспечения кластерных вычислительных систем, основанная на трансформации моделей обработки данных, полученных с применением фундаментального математического аппарата сетей Петри-Маркова в модели надежности программного обеспечения и аппаратно-программных комплексов, формируемые в рамках того же математического аппарата. 2) Будет разработан математический аппарат, основанный на алгебре конкатенаций, ориентированный на разделение произвольной управляющей сети Петри-Маркова и наложенной на нее произвольной информационной сети Петри на линейные фрагменты, которые моделируют обработку данных, локализованных в определенной области пространства данных. 3) Будет разработан метод преобразования управляющей сети Петри-Маркова и информационной сети Петри в параллельную сеть Петри-Маркова, моделирующую обработку данных в кластерной вычислительной системе. 4) Будет разработан алгоритм оптимизации параллельного процесса, отличающийся от известных тем, что минимизируется время простоя кластеров, оцениваемое по результатам исследования «соревнований» между параллельными кластерами. 5) Будет разработан метод трансформации сети Петри-Маркова, описывающей параллельный алгоритм, реализуемый на кластерной ЭВМ, в сеть Петри-Маркова, описывающую процесс отказов программного обеспечения. Значимость результатов определяется четкой постановкой цели и задач исследования, логической последовательностью и взаимосвязанностью работ, выполняемых на разных этапах, корректным использованием фундаментального математического аппарата и опытом работ участников проекта, а также .возможностью могут быть использования разрабатываемого теоретического аппарата при моделировании других технических систем, например, эргатических, в которых человек и технический объект решают поставленные задачи, оперируя по параллельному алгоритму: человек действует по инструкции, а технический объект в соответствии со своими конструктивными особенностями.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2025 году
В 2025 году в рамках гранта РНФ № 25-29-20177 «Моделирование потоков отказов программных средств вычислительных кластеров» научным коллективом выполнены все шесть задач первого этапа проекта. Цель исследований — создание единой методологии моделирования как параллельных вычислительных процессов, так и потоков отказов программного обеспечения (ПО) вычислительных кластеров на основе аппарата сетей Петри–Маркова (СПМ). Актуальность работы обусловлена ростом доли критически важных систем, использующих распределённую обработку Big Data в рамках цифровизации промышленности и деятельности НОЦ «ТулаТех». Надёжность таких систем напрямую зависит от качества ПО, реализующего параллельные алгоритмы. Существующие методы оценки надёжности аппаратных и программных средств разрознены, что затрудняет целостный анализ аппаратно-программных комплексов. Проект направлен на устранение этого разрыва за счёт единого модельного подхода. Была сформулирована концепция СПМ как единого математического аппарата, позволяющего одновременно: — моделировать структуру и поведение последовательного и параллельного кода; — описывать генерацию и распространение отказов; — оценивать временные характеристики вычислений и простои кластеров. Алгоритм представляется в виде детерминированного графа переходов (управляющая сеть Петри), наделённого стохастическими временными метками (распределения длительностей операторов), что формирует полумарковский процесс. При переходе к параллельному исполнению модель декомпозируется на взаимодействующие СПМ-подсистемы, позволяя анализировать как корректное функционирование, так и аномалии: race conditions, блокировки, отказы. Введена строгая онтологическая связь между понятиями «ошибка», «сбой», «отказ» и состояниями СПМ, что дало основу для классификации отказов на структурные и параметрические. Разработана алгебра конкатенаций над СПМ, где носителем выступает множество сетей Петри–Маркова, а базовыми операциями — конкатенация (последовательное соединение) и объединение (параллельное соединение). Определены правила согласования временных и логических меток при композиции. Алгебра позволяет формально декомпозировать сложные модели на канонические блоки, соответствующие базовым управляющим конструкциям (последовательность, ветвление, цикл, fork/join), что критически важно для последующего анализа надёжности. Созданы модели структурных и параметрических отказов для последовательных алгоритмов. Структурные отказы (недостижимость завершающих состояний, зацикливание, нарушение инвариантов маркировки) выявляются с помощью анализа матрицы инцидентности и методов верификации моделей. Параметрические отказы возникают при нарушении временных ограничений (deadline violation) или изменении логических условий переходов. Для их оценки каждому переходу СПМ сопоставляется распределение времени срабатывания; вероятность отказа на интервале вычисляется на основе свёртки распределений последовательных и параллельных блоков. Предложены методы анализа «соревнований» (race conditions) на односвязных и многосвязных СПМ. Введено понятие «зоны соревнования» — подсети, где возможны конфликты. Разработан алгоритм построения «дерева сценариев», описывающего все исходы конфликта, и получены аналитические выражения для оценки вероятности успешного завершения, блокировки и среднего времени разрешения конфликта с использованием теории полумарковских процессов. Разработан метод построения управляющей и информационной СПМ по последовательному алгоритму. Управляющая сеть отражает поток управления (операторы, ветвления, синхронизация), информационная — зависимости по данным (чтение/запись переменных). Обе сети строятся автоматически по псевдокоду и позволяют выявлять безопасные зоны распараллеливания, ложные зависимости и предлагать трансформации кода. Этот результат заложил основу для следующего этапа — построения параллельных моделей. Все модели и алгоритмы верифицированы на вычислительном кластере HPE Apollo r2200 (ТГПУ им. Л.Н. Толстого). Реализованы прототип программного комплекса для автоматического построения СПМ и симулятор стохастических сетей с вводом отказов. Тестирование на наборе программ (матричные операции, интегрирование, обработка изображений) показало расхождение между теоретическими и эмпирическими оценками не более чем на 5% (при 95% доверительном интервале). Результаты 2025 года носят фундаментальный характер и создают теоретико-методологический фундамент для второго этапа. Подготовлены публикации: 2 статьи в журналах Scopus (включая Lecture Notes in Computer Science) и 1 — в RSCI (Известия ТулГУ). Методы имеют высокий потенциал применения в промышленности (включая сотрудничество с ООО «Стрела»), образовании и разработке инструментов статического анализа кода. Таким образом, в 2025 году полностью выполнены все запланированные задачи, разработаны оригинальные модели и алгоритмы, формирующие ядро новой методологии оценки надёжности распределённых программных систем.

 

Публикации

1. Привалов А.Н., Ларкин Е.В., Панарин В.М., Маслова А.А. Распределенная цифровая система с прерываниями для управления горнопроходческой техникой ИЗВЕСТИЯ ТУЛЬСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА. НАУКИ О ЗЕМЛЕ, Распределенная цифровая система с прерываниями для управления горнопроходческой техникой / А. Н. Привалов, Е. В. Ларкин, В. М. Панарин, А. А. Маслова // Известия Тульского государственного университета. Науки о Земле. – 2025. – № 3. – С. 187-193. (год публикации - 2025)

2. Привалов А.Н., Богомолов А.В., Ларкин Е.В., Акименко Т.А. Математическое обеспечение оценивания надёжности программных средств вычислительных кластеров ВЕСТНИК ЮЖНО-УРАЛЬСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА. СЕРИЯ: МАТЕМАТИКА. МЕХАНИКА. ФИЗИКА, Математическое обеспечение оценивания надёжности программных средств вычислительных кластеров / А. Н. Привалов, А. В. Богомолов, Е. В. Ларкин, Т. А. Акименко // Вестник Южно-Уральского государственного университета. Серия: Математика. Механика. Физика. – 2025. – Т. 17, № 4. – DOI 10.14529/mmph250404. – EDN WRWDTP. (год публикации - 2025)
10.14529/mmph250404

3. Ларкин Е. В., Богомолов А. В., Привалов А. Н. Математическое моделирование отказов программного обеспечения ВЕСТНИК ЮЖНО-УРАЛЬСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА. СЕРИЯ: МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ И ПРОГРАММИРОВАНИЕ, Ларкин, Е. В. Математическое моделирование отказов программного обеспечения / Е. В. Ларкин, А. В. Богомолов, А. Н. Привалов // Вестник Южно-Уральского государственного университета. Серия: Математическое моделирование и программирование. – 2025. – Т. 18, № 3. – С. 73-86. – DOI 10.14529/mmp250307. (год публикации - 2025)