КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 18-11-00078

НазваниеРазработка новых моделей машинного обучения на основе композиций глубоких лесов и нейронных сетей для решения задач медицинской диагностики

РуководительУткин Лев Владимирович, Доктор технических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский политехнический университет Петра Великого", г Санкт-Петербург

Период выполнения при поддержке РНФ 2018 г. - 2020 г. 

Конкурс№28 - Конкурс 2018 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами».

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-202 - Интеллектуальный анализ данных и распознавание образов

Ключевые словамашинное обучение, классификация, стратегия принятия решений, нейронные сети, глубокие леса, распознавание образов, онкология

Код ГРНТИ28.23.25


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Проект направлен на создание новых классов моделей и алгоритмов машинного обучения на основе глубоких лесов, которые можно рассматривать как альтернативу глубоким нейронным сетям и как дополнение к ним в прикладных задачах, размер обучающей выборки в которых не позволяет использовать нейронные сети. К таким задачам относятся задачи диагностики онкологических заболевания по результатам анализа рентгеновского сканирования, ультразвукового исследования, компьютерной томографии и других форм диагностического исследования пациентов. Новыми классами моделей являются управляемые глубокие леса и их композиций с нейронными сетями. Глубокие леса – это каскадная структура, каждый слой которой содержит множество случайных лесов, объединенных на основе алгоритма стекинга. Основной идеей, лежащей в основе управляемых глубоких лесов, является введение весов деревьев в качестве параметров обучения и оптимизация целевой функции потерь, соответствующей решаемой задаче машинного обучения. Идея оптимальной настройки управляемых глубоких лесов заключается в уменьшении количества и пространства весов, приписывая их не каждому дереву, а подмножествам распределений вероятностей классов деревьев решений, близких друг к другу в рамках определенной сетки, разделяющей единичный симплекс вероятностей на множество малых симплексов, размер которых может являться настраиваемым параметром. Сокращение пространства весов осуществляется на основе интервальных статистических моделей (модели засорения, модели распределений Дирихле, границ Колмогорова-Смирнова и т.д.). В проекте предлагаются модификации глубоких лесов для решения задач адаптации областей данных (domain adaptation) или передачи знаний, когда имеются области исходных (больших) данных и область целевых данных, которые необходимо классифицировать. В проекте предлагаются новые алгоритмы для реализации робастных метрических моделей расстояний (distance metric learning) на основе глубокого леса для различных вариантов обучающих выборок (с известными метками классов, при наличии только сравнительной информации). В качестве обобщения управляемого глубокого леса предлагается глубокий нейролес, в котором обработка распределений вероятностей на выходе деревьев при помощи обучаемых весов полностью заменяется на малые нейронные сети. Разработка нейролеса создает совершенно новый тип моделей машинного обучения и позволяет использовать как преимущества глубоких лесов, так и нейронных сетей. В проекте рассматриваются вопросы обнаружения аномального поведения объектов на основе глубокого леса, основная идея решения которых заключается в использовании сиамского глубокого леса вместо сиамской нейронной сети. Сочетание глубокого леса и сканирующих малых нейронных сетей является основой для реализации совершенно нового типа автокодеров, включая “шумоподавляющий” (denoising) автокодер, сжимающий (contractive) автокодер и др., которые необходимы для первично обработки различных форм диагностического исследования пациентов для удаления естественных “загрязнений”. Итогом применения разрабатываемых моделей и алгоритмов является разработка интеллектуальной системы обработки диагностической медицинской информации, которая представляет собой композицию глубоких нейронных сетей и глубокого нейролеса. Одна из идей, лежащих в основе такой композиции, заключается в замене промежуточных слоев в сети типа ResNet, основанной также на идеях стекинга, каскадами глубокого леса. Актуальность результатов проекта определяется тем, что эффективные методы машинного обучения сегодня становятся одним из основных элементов интеллектуализации таких областей как медицинская диагностика. Проект выполняется в Санкт-Петербургском политехническом университете Петра Великого совместно с Санкт-Петербургским клиническим научно-практическим центром специализированных видов медицинской помощи (онкологический).

Ожидаемые результаты
1. Разработка общего подхода управляемых модификаций глубокого лесов на основе введения дополнительных обучаемых параметров, правил или алгоритмов обучения которые позволят повысить эффективность глубоких лесов и точность классификации, а также решать специфические задачи машинного обучения. Отличительной особенностью модификаций является управление структурой векторов классов на выходе случайных лесов с использованием новых параметров, вычисление которых осуществляется решением дополнительных задач оптимизации или обучением малых (неглубоких) нейронных сетей. 2. Разработка и исследование новых моделей классификации на основе модификаций глубокого леса и сокращения пространства обучаемых весов и их количества для повышения эффективности решения задачи классификации. Первая основная идея заключается в назначении весов не деревьям решений, а подмножествам “близко” расположенных друг к другу распределений вероятностей классов на единичном симплексе путем его разбиения на определенное число малых симплексов. Число малых симплексов является настраиваемым параметром. Вторая основная идея заключается в сужении единичного симплекса весов, размерность которого равна числу деревьев или малых симплексов, с использованием интервальных статистических моделей (интервальная модель засорения, модель распределений Дирихле, интервальная модель пари, границы Колмогорова-Смирнова). Выбор оптимальной модели и ее параметров для медицинских приложений. Сужение единичного симплекса весов можно рассматривать как “тонкую” настройку модели. 3. Разработка и исследование новых моделей передачи знаний (transfer learning) на основе модификаций глубокого леса используя общее представление признаков для двух областей данных при помощи векторов классов на каждом уровне каскада лесов. Использование особенностей каскадной структуры глубокого леса для эффективной реализации самообучающих (self-labeling) моделей путем итерационного обновления меток целевых данных, благодаря нескольким уровням обработки данных. Обобщение полученных моделей на случай множества исходных данных, полученных из различных источников (multi-view source data), и на случай множества целей (multi-task classification). 4. Разработка новых алгоритмов для реализации робастных метрических моделей расстояний (distance metric learning) на основе глубокого леса для различных вариантов обучающих выборок (с известными метками классов, при наличии только сравнительной информации). Разработка эффективных альтернатив сиамских нейронных сетей и тройных нейронных сетей. 5. Разработка робастных моделей для случаев, когда размер обучающей выборки мал и распределения вероятностей классов на выходе деревьев решений не могут быть определены с достаточной точностью, что приводит к смещению векторов классов на выходе случайных лесов. Основной идеей создания робастных моделей является использование интервальных статистических моделей (интервальная модель засорения, модель распределений Дирихле, интервальная модель пари, границы Колмогорова-Смирнова), но уже не для “тонкой” настройки множества весов, а для определения множеств распределений вероятностей и использования робастной стратегии выбора оптимальных распределений в рамках случайных лесов. Это приводит к минимаксным задачам оптимизации по весам и распределениям вероятностей классов, решение которых является также одной из задач проекта. 6. Разработка “шумоподавляющего” или “помехоустойчивого” (denoising) автокодера, сжимающего (contractive) автокодера, расщепляющего (split-brain) автокодера на основе сочетания случайных лесов и сканирующих малых нейронных сетей, обеспечивающих значительное уменьшение размера обучающей выборки для обучения. Основная идея автокодеров состоит в том, что первый этап преобразования данных в кодере и последний этап обработки в декодере осуществляются при помощи случайного леса, а все остальные этапы при помощи нейронной сети. Такая комбинация значительно уменьшает количество обучаемых параметров и снижает риск переобучения при малой обучающей выборке. Первичная обработка рентгеновских снимков, видеоряда ультразвукового исследования (УЗИ) и других форм диагностического исследования пациентов для удаления естественных “загрязнений” может осуществляться с помощью автокодера. Обучение предлагаемого автокодера на основе существующих неинтеллектуальных алгоритмов обработки изображений для выделения требуемых элементов на фоне “шума”. 7. Разработка глубокого нейролеса, в котором предлагается вместо модуля обучения весов деревьев решений использовать нейронную сеть, которая имеет собственные веса, не зависящие от деревьев и являющиеся параметрами обучения. Это позволяет уйти от линейности весового среднего и использовать функцию распределений вероятностей классов на выходе каждого дерева, реализованную нейронной сетью. 8. Разработка и исследование сиамского автокодера на основе глубокого леса, сохраняющего примерную структуру данных (расстояние между ними), для обнаружения аномалий при мониторинге пациента. Отличительной особенностью автокодера является то, что при преобразовании данных расстояние между ними сохраняется, что позволяет снизить размерность данных, сохранив при этом их взаимное расположение. Целевая функция при обучении ориентирована на минимизацию разности эвклидовых расстоянии между парами объектов на выходе и входе нейронной сети. Такая структура нужна для обеспечения мониторинга пациентов в режиме реального времени с использованием расстояния Махаланобиса. 9. Разработка композиций глубоких нейронных сетей и глубокого нейролеса для повышения эффективности задач машинного обучения. Реализация последовательной обработки данных по слоям сети и уровням каскада лесов. Основная идея заключается в замене промежуточных слоев в сети типа ResNet, основанной также на идеях стекинга, каскадами глубокого леса. Поиск оптимальных структур для решения задач обработки различных форм диагностического исследования пациентов. 10. Разработка программного обеспечения, реализующего новые алгоритмы и исследование эффективности новых алгоритмов с использованием реальных медицинских данных. Определение областей оптимальных значений параметров интервальных статистических моделей, например, параметра засорения в робастных моделях, для различных алгоритмов. Сравнение предложенных алгоритмов с известными стандартными методами машинного обучения. Демонстрация эффективности и применимости новых моделей к задачам обработки различных форм диагностического исследования пациентов. 11. Разработка программного обеспечения, реализующего новые алгоритмы и исследование эффективности новых алгоритмов с использованием реальных медицинских данных. Определение областей оптимальных значений параметров интервальных статистических моделей для различных алгоритмов. Демонстрация эффективности и применимости новых моделей к задачам обработки различных форм диагностического исследования пациентов. 12. Разработка методов распараллеливания моделей глубоких лесов. Расширение библиотеки распараллеливания данных на Python для суперкомпьютерных вычислений, ориентированное на реализацию глубоких лесов. Разработка программного обеспечения для визуализации обработки изображений компьютерной томографии в формате DICOM, путем оконтуривания патологических образований в легких и подготовки изображений для решения задач сегментации и классификации. Разработка алгоритмов сегментации изображений для выделения требуемых объектов на обработанных изображениях компьютерной томографии. 13. Разработка системы искусственного интеллекта для диагностики онкологических больных с использованием новых алгоритмов глубокого обучения. Результаты охватывают значительное количество аспектов машинного обучения. Их реализация позволит создать новые эффективные подходы к решению задач глубокого обучения. С прикладной точки зрения, реализация новых подходов и моделей, а также системы искусственного интеллекта для диагностики онкологических больных позволит повысить эффективность диагностического исследования и сделать его более независимой от профессионализма врача. Представленный перечень задач достаточно обширен; скорость решения каждой из них может варьироваться. Однако решение даже части представленных задач приведет к результатам мирового уровня, которые могут быть представлены к публикации статей в журналах, индексируемых Web of Science и Scopus.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2018 году
Впервые был предложен подход для управления глубоким лесов, а также и случайным лесом, позволяющий достичь две основные цели: 1) создать механизм управления лесами с точки зрения ориентации на решаемую задачу машинного обучения, что приблизит глубокие леса к универсальности и гибкости глубоких нейронных сетей; 2) улучшить характеристики точности классификации или регрессии глубоких лесов путем введения дополнительных элементов управления процессом классификации или регрессии. Основная идея предложенного в проекте подхода заключается в построении такой функции весов, определенной на множестве выходов деревьев решений в каждом лесу, чтобы минимизировать ошибку классификации или в более общем случае минимизировать некоторую заранее заданную функцию потерь. При этом в качестве выходов деревьев решений используется распределение вероятностей классов. Веса обучаются с использованием той же обучающей выборки. В отличие от обычного глубокого леса, который решает только стандартную задачу классификации, предлагаемый подход позволяет решать различные задачи, задавая требуемую функцию потерь для выходов деревьев решений. Это приближает глубокие леса к универсальности и гибкости глубоких нейронных сетей, не приводя к проблеме переобучения при малом объеме обучающей выборки. Первый вариант функции - линейное весовое усреднение распределений вероятностей классов на выходе деревьев решений. Итоговой задачей оптимизации весов в качестве переменных является задача квадратичной оптимизации с линейными ограничениями. Для эффективного решения задачи предложена модификация алгоритма Франка-Вульфа, учитывающая, что веса ограничены единичным симплексом. Предлагаемый подход реализован для случайных лесов выживаемости, которые являются регрессионной моделью. В проекте впервые разработан взвешенный случайный лес выживаемости как модификация стандартного лес выживаемости, в соответствии с которой усреднение функций риска на выходе каждого дерева решений, которое используется для вычисления функции риска всего леса, заменяется взвешенной суммой этих функций. Вычисление весов также сведено к решению задачи квадратичной оптимизации с линейными ограничениями, максимизирующей индекс конкордации или C-индекс. Для известного датасета Primary Biliary Cirrhosis (PBC) Dataset прирост C-индекса составил почти 9%. В проекте впервые предложены новые модели классификации глубокого леса и сокращения количества весов на основе подмножеств «близко» расположенных распределений вероятностей классов на единичном симплексе. Веса назначаются не деревьям и не примерам, а подмножествам распределений вероятностей классов, получаемых на выходе каждого дерева решений для каждого примера. В качестве модели разбиения единичного симплекса была выбрана модель тотализатора (imprecise pari-mutuel model) Уолли, в соответствии с которой единичный симплекс разбивается на множество подмножеств. Веса подмножеств распределений можно рассматривать как вероятности второго порядка над подмножествами симплекса. Идея определения весов не для деревьев, не для примеров обучающей выборки, а для подмножеств распределений вероятностей классов, которые одновременно определяются и классификационной «способностью» деревьев, и тем, насколько пример типичен для своего класса, предложена впервые. В проекте разработаны новые модели классификации на основе сужения пространства значений весов. Кроме того, попытка получения эффективных новых моделей привела к неожиданному новому научному результату. Сужение множества весов есть их сглаживание и ограничение, что является основой регуляризации или использования регуляризационного слагаемого в целевой функции. Использование модификации алгоритма Франка-Вульфа дало возможность построения множества моделей глубокого леса с использованием различных ограничений на единичный симплекс весов. Использовались многие известные интервальные статистические модели, такие как интервальная модель засорения, модель распределений Дирихле, интервальная модель тотализатора, границы Колмогорова-Смирнова, модель постоянного отношения шансов. Были разработаны новые модели реализации робастных метрических моделей расстояний, которые, с одной стороны, использовали общий подход к модификации глубоких лесов с использованием обучаемых весов, а, с другой стороны, в которых были предложены совершенно новые идеи, ориентированные на реализацию общего подхода именно для решения задач в рамках метрических моделей на деревьях и лесах. Алгоритмы сиамских и тройных нейронных сетей впервые были реализованы на моделях случайных и глубоких лесов. Первая модель - сравнение пар объектов и изменение взаимного расположения объектов в пространстве признаков с учетом их принадлежности одним и тем же классам. Для обеспечения выпуклости функции потерь была впервые предложена идея комбинировать в одной функции евклидово расстояние и манхэттенское расстояние (расстояние Минковского порядка 1). Вторая модель используется при отсутствии меток классов и служит для анализа семантически близких и далеких объектов. Это – первый полный аналог сиамских нейронных сетей на случайных лесах. В проекте предложено управлять близостью объектов при помощи весов деревьев и получить новую обучающую выборку, состоящую из конкатенированных пар объектов. Третья модель - альтернатива тройных нейронных сетей. Идея обучения в данном случае аналогична. В проекте разработан и реализован новый алгоритм для оконтуривания паталогических образований в легких на основе мультипланарных реконструкции изображений компьютерной томографии в формате DICOM. Основой для реализации является идея рассматривать планарные изображения снимков компьютерной томографии как единый трехмерный объект. Задача сводится к нахождению границ объекта в трехмерном пространстве. Для сегментации легких разработан метод на основе алгоритма порогового включения. Применен новый подход для сегментации объектов в легких на снимках КТ, учитывающий различные типы расположения онкологических узлов. Был разработан алгоритм покадровой заливки, алгоритм корневого контура с применением дилатации и фильтрация плотностей для изображения легких.

 

Публикации

1. Мелдо А.А., Уткин Л.В., Моисеенко В.М. Алгоритмы диагностики XXl века. Искусственный интеллект в распознавании рака лёгкого Практическая онкология, Т.19. - №3. - С. 292 - 298 (год публикации - 2018) https://doi.org/10.31917/1903292

2. Моисеенко В.М., Мелдо А.А., Уткин Л.В., Прохоров И.Ю., Рябинин М.А., Богданов А.А. Автоматизированная система обнаружения объемных образований в легких как этап развития искусственного интеллекта в диагностике рака легкого Лучевая диагностика и терапия, №3 –С. 62-68 (год публикации - 2018) https://doi.org/10.22328/2079-5343-2018-9-3-62-68

3. Уткин Л.В., Мелдо А.А., Константинов А.В. Deep Forest as a framework for a new class of machine learning models National Science Review, - (год публикации - 2018) https://doi.org/10.1093/nsr/nwy151

4. Уткин Л.В., Рябинин М.А., Жук К.Д., Жук Ю.А. Классификация на основе композиции случайных лесов и параллельных нейронных сетей XXI Международная конференция по мягким вычислениям и измерениям (SCM-2018), Т.1, - СПб.: СПбГЭТУ «ЛЭТИ», С. 662-665. (год публикации - 2018)

5. Уткин Л.В., Рябинин М.А., Мелдо А.А. Интеллектуальная система выбора лечения на основе каскада случайных лесов в рамках анализа выживаемости Труды Международной научной конференции «IEEE Northwest Russia Conference On Mathematical Methods In Engineering And Technology: ММEТ NW 2018», СПб.: СПбГЭТУ «ЛЭТИ», C. 534-537 (год публикации - 2018)

6. Уткин Л.В., Рябинин М.А., Мелдо А.А. Случайные леса и метод хорд для интеллектуальной диагностики рака легких XXI Международная конференция по мягким вычислениям и измерениям (SCM-2018), Т.2, - СПб.: СПбГЭТУ «ЛЭТИ», С. 11-14. (год публикации - 2018)

7. Мелдо А.А., Уткин Л.В. Обзор методов машинного обучения в диагностике рака легкого Искусственный интеллект и принятие решений, №3. – С. 28-38. (год публикации - 2018) https://doi.org/10.14357/20718594180313

8. Ипатов О.С., Уткин Л.В., Мелдо А.А. Интеллектуальные системы диагностики и выбора лечения онкологических заболеваний Труды VII Международной научно-технической конференции «Информационные технологии в науке, образовании и производстве» (ИТНОП-2018), Белгород: Издательство ООО «ГиК», С. 245-247 (год публикации - 2018)

9. Мелдо А.А., Уткин Л.В. A computer-aided system for differential diagnosis of lung diseases Intelligent Data Processing: Theory and Applications. Book of abstracts of the 12th International Conference (Moscow, Russia – Gaeta, Italy, 2018), Moscow: TORUS PRESS, 2018. – p. 35 (год публикации - 2018) https://doi.org/10.30826/IDP201812

10. Мелдо А.А., Уткин Л.В., Прохоров И.Ю., Рябинин М.А., Богданов А.А., Лукашин А.А., Моисеенко В.М., Жук К.Д. Эволюция искусственного интеллекта в диагностике рака легкого Конгресс Российского общества рентгенологов и радиологов. Сборник тезисов, СПб. c. 102-103 (год публикации - 2018)

11. Прохоров И.Ю., Рябинин М.А., Мелдо А.А., Уткин Л.В. Формирование баз данных с целью машинного обучения в диагностике рака легкого Конгресс Российского общества рентгенологов и радиологов. Сборник тезисов, СПб. c. 124-125 (год публикации - 2018)

12. Уткин Л.В., Ипатов О.С., Мелдо А.А. Медицинские системы искусственного интеллекта на примере диагностики рака легкого Материалы 5-й Всероссийской научно-технической конференции "Суперкомпьютерные технологии (СКТ-2018)", Дивноморское, Геленджик, Издательство Южного федерального университета, - Т.2, - С. 127-131 (год публикации - 2018)

13. Уткин Л.В., Мелдо А.А. A weighted random survival forest for constructing controllable models Intelligent Data Processing: Theory and Applications. Book of abstracts of the 12th International Conference (Moscow, Russia – Gaeta, Italy, 2018), Moscow: TORUS PRESS, 2018. – p. 33. (год публикации - 2018) https://doi.org/10.30826/IDP201811

14. Уткин Л.В., Рябинин М.Ю., Мелдо А.А., Лукашин А.А. Интеллектуальный способ диагностики и обнаружения новообразований в легких -, 2668699 (год публикации - )


Аннотация результатов, полученных в 2019 году
Впервые были предложены новые модификации глубокого леса для реализации разделения данных с учетом их классов в пространстве признаков и решена задача реализации метрических методов обучения (distance metric learning) на глубоких лесах. Было предложено назначение весов деревьям решений во всех случайных лесах, чтобы уменьшить расстояния между парами примеров из одного класса и увеличить их между парами примеров из разных классов. Использовалась специальная сравнительная функция потерь, включающая различные метрики расстояния, для получения задачи квадратичной оптимизации. Предложены также модификации глубокого леса для реализации задачи передачи обучения (transfer learning), где для вычисления весов деревьев используются мера консенсуса, основанная на энтропии Шеннона, и среднее расстояние (mean discrepancy) между исходными и целевыми данными. Разработаны новые модели глубоких леса выживаемости для решения задачи анализа выживаемости. В рамках моделей предложено изменение процедуры усреднения, используемой для оценки функции выживания леса на основе функции выживаемости на выходе деревьев решений, применение коэффициента конкордации (C-индекс) в качестве целевого показателя для построения задачи оптимизации и замена С-индекса его приближенным представлением, которое основано на применении хорошо известной петлевой функции потерь. Впервые был предложен подход, в соответствии с которым для использования множеств распределений на следующем уровне (слое) глубокого леса деревья решений следующего уровня лесного каскада обучаются на основе расширенного обучающего набора, который добавляется новыми сгенерированными распределениями вероятностей классов из исходных множеств. Увеличенное количество обучающих примеров компенсируется обновлением гипер-параметров используемой интервальной модели, например, модели Дирихле или границ Колмогорова-Смирнова. Для работы с множествами распределений вероятностей классов на выходе деревьев решений, и для обеспечения робастности предложена мета-модель, которая определяет оптимальные веса деревьев решений. В рамках подхода введены новые функций потерь для задач классификации и регрессии, которые позволили свести минимаксные задачи оптимизации для вычисления оптимальных весов деревьев к задачам квадратичной оптимизации. Данный подход также реализован для задачи анализа выживаемости, где использовались доверительные интервалы для оценок Нельсона-Аалена. Предложен подход, использующий множества распределений, который заключается в назначении весов не деревьям, а подмножествам распределений вероятностей классов специальным образом, что делает решение более гибким и сокращает количество весов как параметров обучения. Впервые предложена новая архитектура случайного и глубокого леса, использующая множество нейронных сетей для повышения точности классификации. Фактически нейронные сети осуществляют нелинейное преобразование распределений вероятностей классов таким образом, чтобы обеспечит максимальную точность классификации на выходе случайного леса или глубокого леса. Нейронные сети являются расширением сиамских нейронных сетей, так как реализуют одинаковые функции. Идея использования такой архитектуры открывает новые возможности реализации самых различных задач машинного обучения, включая передачу обучения, обнаружение аномалий и т.д. Впервые было предложено рассмотреть задачу дифференциальной диагностики онкологических заболеваний, особенно атипичных случаев рака, как задачу обучения на одном примере (one-shot learning) или на нескольких примерах (few-shot learning), что обусловлено малым объемом обучающей выборки для атипичных случаев. Было предложено использование сиамских нейронных сетей и сиамского глубокого леса, как инструментов для реализации обучения на одном или нескольких примерах. Для повышения достоверности диагностики была разработана трехканальная архитектура системы классификации новообразований на снимках компьютерной томографии легкого для принятия решения о диагнозе пациента. Первый канал –классификатор, основанный на глубоких лесах. Два других канала – две сиамские нейронные сети (полносвязных нейронные сети и сверточные нейронные сети). Впервые предложена модификация глубокого леса, названная Адаптивный взвешенный глубокий лес. В соответствии с этой модификацией каждому примеру на очередном уровне каскада лесов присваивается вес в зависимости от того, как правильно он был классифицирован на этом уровне. Больший вес присваивается «плохим» примерам, чтобы классификаторы на следующих уровнях пытались его правильно классифицировать. Две стратегии использования весов рассматриваются: взвешенные примеры выбираются случайным образом для обучения деревьев в соответствии с их весами и используются веса при реализации процедуры расщепления при обучении деревьев решений. Предложена трехканальная система сегментации легкого, где первый канал реализован в виде процедуры традиционной обработки изображений, второй канал – процедура глубокого обучения с использованием сегментационной нейронной сети 3D U-Net, являющейся фактически дублированием первого канала, третий канал – процедура глубокого обучения с использованием сегментационной нейронной сети 2D U-Net для особых случаев сегментации, которые сложно выполнить при помощи первых двух каналов. Такая архитектура достигает основной цели - избежать случаев пропущенных новообразований. Дополнительно в процессе выполнения проекта были предложены новые модели оценки эффекта лечения (heterogeneous treatment effect) для реализации концепции персонализированной медицины на основе управляемых случайных и глубоких лесов для случаев, когда количество элементов в испытуемой группе (treatment group) мало. Был предложен эффективный мета-алгоритм, называемый, Co-learner, для оценки условного среднего эффекта воздействия (лечения), который основан на конкатенации векторов признаков из контрольной и лечебной групп и генерации дополнительных конкатенированных векторов. Большая часть результатов опубликована в журналах, включая журналы, индексированные Scopus и Web of Science. Получены свидетельства регистрации 2 программ, 1 базы данных и 2 патентов на изобретение. Результаты выполнения проекта широко освещались в прессе, где указывалось, что проект выполняется при поддержке РНФ, примерами статей, посвященных проекту, являются: https://tass.ru/obschestvo/5995816 https://minobrnauki.gov.ru/ru/press-center/card/?id_4=901 https://www.popmech.ru/science/news-458242-uchyonye-nashli-novyy-sposob-diagnostiki-opuholey/#part0 https://lenta.ru/news/2019/01/26/20_seconds/?utm_source=yxnews&utm_medium=desktop https://www.technologynetworks.com/tn/news/ai-for-lung-cancer-diagnostics-314929 https://ecmiindmath.org/2019/03/20/an-intelligent-system-for-lung-cancer-diagnostics/

 

Публикации

1. Мелдо A.A., Уткин Л.В., Рябинин М.A. Комбинированная автоматизированная система сегментации и обнаружения новообразований для диагностики рака легкого Робототехника и техническая кибернетика, 7(2), С. 145-153 (год публикации - 2019) https://doi.org/10.31776/RTCJ.7209

2. Мелдо A.A., Уткин Л.В., Трофимова T.Н., Рябинин М.A., Моисеенко В.M., Шелехова К.В. Новые подходы к разработке алгоритмов искусственного интеллекта в диагностике рака легкого Лучевая диагностика и терапия, 1 (10), с.8-18 (год публикации - 2019) https://doi.org/10.22328/2079-5343-2019-10-1-8-18

3. Мелдо А.А., Уткин Л.В. Инновационная стратегия развития отделения лучевой диагностики Медицина: целевые проекты, 34, c. 52-53. (год публикации - 2019)

4. Мелдо А.А., Уткин Л.В. Radiomics and the multidisciplinary approach in the development of CAD system in lung cancer diagnostics Extreme Robotics, 1(1), pp. 504-510. (год публикации - 2019)

5. Уткин Л.В. An Imprecise Deep Forest for Classification Expert Systems with Applications, Vol. 141, Article 112978, – Pp. 1-11 (год публикации - 2019) https://doi.org/10.1016/j.eswa.2019.112978

6. Уткин Л.В., Ковалев М.С., Мелдо А.А. A deep forest classifier with weights of class probability distribution subsets Knowledge-Based Systems, Vol. 173, Pp. 15-27 (год публикации - 2019) https://doi.org/10.1016/j.knosys.2019.02.022

7. Уткин Л.В., Ковалев М.С., Мелдо А.А., Коолен Ф. Imprecise extensions of random forests and random survival forests Proceedings of Machine Learning Research, vol. 103, pp. 404-413 (год публикации - 2019)

8. Уткин Л.В., Константинов А.В., Чуканов В.С., Коц М.В., Рябинин М.А., Мелдо А.А. A weighted random survival forest Knowledge-Based Systems, Vol. 177, Pp. 136-144 (год публикации - 2019) https://doi.org/10.1016/j.knosys.2019.04.015

9. Уткин Л.В., Мелдо А.А., Ипатов О.С., Рябинин М.А. Медицинские интеллектуальные системы на примере диагностики рака легкого Известия ЮФУ. Технические науки, 8, С. 241-249 (год публикации - 2018) https://doi.org/10.23683/2311-3103-2018-8-241-249

10. Уткин Л.В., Мелдо А.А., Крыштапович В.С., Тюльпин В.А., Касимов Э.М., Ковалев М.С. Трехканальная интеллектуальная система классификации новообразований для диагностики рака легкого Робототехника и техническая кибернетика, 7(3), С. 196-207. (год публикации - 2019) https://doi.org/10.31776/RTCJ.7304

11. Уткин Л.В., Рябинин М.А. Discriminative Metric Learning with Deep Forest Journal on Artificial Intelligence Tools, Vol. 28(2), - Pp. 1950007-1 – 1950007-19 (год публикации - 2019) https://doi.org/10.1142/S0218213019500076

12. Мелдо А.А., Уткин Л.В. Radiomics as a basis for transformation of radiologists skills and partnership IOP Conf. Series: Journal of Physics: Conference Series, 1236 (2019) 012063 (год публикации - 2019) https://doi.org/10.1088/1742-6596/1236/1/012063

13. Мелдо А.А., Уткин Л.В. A new approach to differential lung diagnosis with CT scans based on the Siamese neural network IOP Conf. Series: Journal of Physics: Conference Series, 1236 (2019) 012058 (год публикации - 2019) https://doi.org/10.1088/1742-6596/1236/1/012058

14. Мелдо А.А., Уткин Л.В., Трофимова Т.Н., Лукашин А.А., Рябинин М.А. Реализация системы искусственного интеллекта в диагностике рака легкого Международный конгресс и школа для врачей “Кардиоторакальная радиология”, СПб. c. 127-129 (год публикации - 2019)

15. Уткин Л.В., Ковалев М.С., Коолен Ф. Робастные регрессионные случайные леса при малых и зашумленных обучающих данных XXII Международная конференция по мягким вычислениям и измерениям (SCM-2019), СПб.: СПбГЭТУ «ЛЭТИ» c.200-204 (год публикации - 2019)

16. Уткин Л.В., Константинов А.В., Мелдо А.А., Рябинин М.А., Чуканов В.С. A Deep Forest Improvement by Using Weighted Schemes Proceedings of the 24th Conference of Open Innovations Association FRUCT, pp.451-456 (год публикации - 2019) https://doi.org/10.23919/FRUCT.2019.8711886

17. Рябинин М.А., Уткин Л.В., Мелдо А.В., Лукашин А.А. Программа оконтуривания патологических образований в легких на основе мультипланарных реконструкции КТ изображений -, 2018666100 (год публикации - )

18. Рябинин М.А., Уткин Л.В., Мелдо А.В., Лукашин А.А. Программа классификации новообразований в легких с использованием метода хорд -, 2018666379 (год публикации - )

19. Уткин Л.В., Мелдо А.А., Рябинин М.А., Лукашин А.А., Заборовский В.С. Способ диагностики рака легкого на основе интеллектуального анализа формы, внутренней и внешней структур новообразований -, 2694476 (год публикации - )

20. Уткин Л.В., Рябинин М.Ю., Мелдо А.А., Лукашин А.А., Прохоров И.Ю. База данных компьютерных томограмм грудной клетки с выделенными и маркированными областями патологии легких – LIRA (Lung Image Resource Annotated) -, 2019620232 (год публикации - )

21. - В петербургском Политехе научили искусственный интеллект выявлять рак легких за 20 секунд Доктор Питер, - (год публикации - )

22. - Ученые питерского Политеха создали интеллектуальную систему диагностики опухолей в легких ТАСС, - (год публикации - )

23. - Ученые питерского Политеха создали интеллектуальную систему диагностики опухолей в легких Министерство науки и высшего образования РФ, - (год публикации - )

24. - Учёные нашли новый способ диагностики опухолей Популярная Механика, - (год публикации - )

25. - Ученые Политеха создали интеллектуальную систему диагностики опухолей в легких Медиа-центром СПбПУ, - (год публикации - )

26. - В Политехническом университете разработали интеллектуальную систему для диагностики опухолей в легких Луна Инфо, - (год публикации - )

27. - Считать обнаруженным. Петербургские ученые создали систему распознавания опухоли легких Деловой Петербург, - (год публикации - )

28. - В России научились диагностировать рак легких за 20 секунд LENTA.RU, - (год публикации - )

29. - Российские ученые создали интеллектуальную программную систему для диагностики рака легких Медицина и учеба, - (год публикации - )

30. - Russian researchers create intelligent software system for lung cancer diagnostics News Medical, - (год публикации - )

31. - Researchers developed an intelligent system for lung cancer diagnostics EurekAlert, - (год публикации - )

32. - AI for Lung Cancer Diagnostics Technology Networks, - (год публикации - )

33. - Researchers developed an intelligent system for lung cancer diagnostics Hale Plus Hearty, - (год публикации - )

34. - Researchers developed an intelligent system for lung cancer diagnostics Technology.Org, - (год публикации - )

35. - New intelligent system for lung cancer diagnostics MEDICA, - (год публикации - )

36. - An intelligent system for lung cancer diagnostics European Consortium for Mathematics in Industry, - (год публикации - )

37. - Russian researchers create intelligent software system for lung cancer diagnostics EURASIA DIARY, - (год публикации - )


Аннотация результатов, полученных в 2020 году
1. Разработаны новые архитектуры подсистем сегментации и классификации, позволяющие уменьшить число ложноположительных случаев и повысить точность дифференциальной диагностики за счет реализации более сложных композиций сиамских нейронных сетей. В качестве новой архитектуры сегментации предложено использовать комбинацию 3D детектирования и сегментации внутри ограничивающего параллелепипеда, что позволяет значительно повысить точность сегментации. В качестве новой архитектуры классификации предложено использовать систему, состоящую из трех параллельных каналов классификации с последующим определением показателей информативности системы для каждого канала в отдельности и для всего алгоритма в целом. Второй канал использует ансамбль 80 триплетных нейронных сетей (triplet neural network), каждая из которых может рассматриваться как обобщение сиамкой сети. Разработана специальная процедура обучения ансамбля, позволяющая формировать триплеты в условиях существенной несбалансированности обучающих данных. 2. Впервые предложен подход к интерпретации и объяснению результатов диагностирования, основанный на использовании естественного языка. Основные идеи в основе подхода: 1) описание представляется в виде иерархии примитивов и фраз, которые описывают форму, структуру, включения, контуры и другие особенности новообразования; 2) создание и обучение простых классификаторов, которые классифицируют подозрительные объекты или их представление малой размерности на классы, соответствующие примитивам, каждый классификатор соответствует особенности новообразования; 3) реализация алгоритма в виде двух частей: первая часть - модель объяснения (LIME или SHAP) для выбора значимых признаков из объекта или его представления, вторая часть, ключевая - набор классификаторов, цель которых соединить выбранные значимые признаки, с предложениями на естественном языке. 3. Предложены две новые модификации адаптивного глубокого леса. Первая - передача обучения (transfer learning), которая направлено на решение задачи классификации. В проекте предлагается решение задачи адаптация домена без учителя, когда используется представление исходных векторов на каждом уровне каскада с помощью адаптивных весов вместо преобразования пространства признаков для достижения минимума меры близости доменов. Вторая модификация основана на «размывании» весов примеров при помощи интервальных статистических моделей, например, интервальной модели Дирихле или модели засорения, что приводит к множеству весов как части единичного симплекса и множеству лесов, из которых выбирается для тестирования один, который на обучении дал максимальную ошибку классификации. Параметр интервальной модели позволяет адаптивно управлять степенью робастности каскадов глубокого леса. 4. Разработаны новые модели оценки эффекта лечения (heterogeneous treatment effect) при малых испытуемых группах пациентов. Основная идея – использование и адаптация аналогов локальных моделей интерпретации и линеаризация модели «испытуемой группы» в локальной области текущего анализируемого пациента. Предложено использование метрики расстояния между данными, определяемой как среднее расстояние по всему лесу между листьями деревьев решений, в которые попадают эти примеры. Среднее расстояние определяется по всему случайному лесу. Локальную линеаризацию оценки функции отклика предлагается выполнять по нескольким близким наблюдениям на основе матрицы схожести, построенной по случайному лесу. Для смягчения эффекта избыточности данных используется модель LASSO. 5. Разработана концепция функционирования и трансформации отделения лучевой диагностики онкологических медицинских учреждений в условиях использования интеллектуальных систем диагностики заболеваний. Показано, что деятельность врача-рентгенолога преобразуется в циклический процесс, подразумевающий кроме анализа и интерпретации изображений контроль верификации патологии, присвоение меток класса для машинного обучения, маркировку патологии и формирование базы данных изучаемой патологии. Разработаны процедуры внедрения практики постоянного обновления базы данных при выявлении каждого нового случая заболевания, когда врач получает обработанные системой данные и сравнивает результат со своей собственной интерпретацией патологии. Большая часть результатов опубликована в журналах, включая журналы, индексированные Scopus и Web of Science, а также представлена на международных научных конференциях.

 

Публикации

1. Мелдо А.А., Уткин Л.В., Трофимова Т.Н. Искусственный интеллект в медицине: современное состояние и основные направления развития интеллектуальной диагностики Лучевая диагностика и терапия, 1(11), c. 9-17 (год публикации - 2020) https://doi.org/10.22328/2079-5343-2020-11-1-9-17

2. Уткин Л.В., Жук К.Д. Improvement of the Deep Forest Classifier by a Set of Neural Networks Informatica, 44, 1-13 (год публикации - 2020) https://doi.org/10.31449/inf.v44i1.2740

3. Уткин Л.В., Ковалев М.С., Касимов Э.М. An explanation method for black-box machine learning survival models using the Chebyshev distance Artificial Intelligence and Natural Language. AINL 2020, Communications in Computer and Information Science, Springer, Cham, vol. 1292, 2020 (год публикации - 2020) https://doi.org/10.1007/978-3-030-59082-6_5

4. Уткин Л.В., Ковалев М.С., Коолен Ф. Imprecise weighted extensions of random forests for classification and regression Applied Soft Computing Journal, vol. 92, Article 106324, 2020, pp. 1-14 (год публикации - 2020) https://doi.org/10.1016/j.asoc.2020.106324

5. Уткин Л.В., Константинов А.В., Чуканов В.С., Мелдо А.А. A new adaptive weighted deep forest and its modifications International Journal of Information Technology & Decision Making, Vol. 19, No. 04, pp. 963-986 (год публикации - 2020) https://doi.org/10.1142/S0219622020500236

6. Уткин Л.В., Коц М.В., Чуканов В.С., Константинов А.В., Мелдо А.А. Estimation of personalized heterogeneous treatment effects using concatenation and augmentation of feature vectors International Journal on Artificial Intelligence Tools, Vol. 29, No. 05, Article 2050005, pp. 1-23 (год публикации - 2020) https://doi.org/10.1142/S0218213020500050

7. Уткин Л.В., Мелдо А.А., Ковалев М.С., Касимов Э.М. A simple general algorithm for the diagnosis explanation of computer-aided diagnosis systems in terms of natural language primitives 2020 XXIII International Conference on Soft Computing and Measurements (SCM), IEEE, pp. 202-205 (год публикации - 2020) https://doi.org/10.1109/SCM50615.2020.9198764

8. Уткин Л.В., Мелдо А.А., Ковалев М.С., Касимов Э.М. Простой общий алгоритм объяснения диагноза на выходе интеллектуальной системы диагностики в терминах примитивов естественного языка XXIII Международная конференция по мягким вычислениям и измерениям (SCM-2020). Сборник докладов. СПб.: СПбГЭТУ «ЛЭТИ», с. 242-245 (год публикации - 2020)


Возможность практического использования результатов
не указано