КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 21-71-00131

НазваниеИсследование и разработка нейросетевых методов формирования семантических карт местности на основе зашумленных трехмерных облаков точек для интеллектуальных транспортных систем

РуководительЮдин Дмитрий Александрович, Кандидат технических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (национальный исследовательский университет)", г Москва

Период выполнения при поддержке РНФ 07.2021 - 06.2023 

Конкурс№60 - Конкурс 2021 года «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-202 - Интеллектуальный анализ данных и распознавание образов

Ключевые словаНейронная сеть, глубокое обучение, семантическая карта, генерация изображений, трехмерное облако точек, мобильный робот, транспортная система

Код ГРНТИ28.23.37


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
При построении современных транспортных систем, в состав которых могут входить беспилотные автомобили, роботы-курьеры и иные наземные автономные транспортные средства, необходимо наличие высокоточных семантических карт местности, которые содержат информацию о границах дорог или тротуаров, пешеходных переходах или линиях дорожной разметки, о светофорах или дорожных знаках и т.п. Такие карты позволяют безопасно планировать путь или маневры транспортного средства. В то же время они, как правило формируются вручную или с низким уровнем автоматизации на основе аэрофотоснимков и имеют проблемы с оперативным обновлением, нужным, например, при проведении дорожных работ. Надежная автоматическая генерация таких карт на основе бортовых камер или специальных измерителей расстояния (например, лидаров или радаров) представляет собой научно-технологический вызов, который позволит ускорить внедрение беспилотных технологий в реальной городской среде. Настоящий проект направлен на решение научной проблемы повышения уровня автономности беспилотных транспортных средств на основе автоматической генерации карт, содержащих информацию о семантике окружающего пространства, получаемых с применением зашумленной информации бортовых сенсоров (RGB-D или стереокамер, лидаров и др.). Среди ожидаемых основных научных результатов проекта следует выделить следующие: 1. Новый метод формирования семантической цифровой карты местности высокой размерности по зашумленным трехмерным облакам точек, полученным с помощью RGB-D камеры и лидара транспортного средства, на основе генеративных нейросетевых моделей, использующих пространства признаков с трехмерными пространственно-временными ограничениями. 2. Новая архитектура рекуррентной нейронной сети семантической сегментации последовательности трехмерных облаков точек, полученных на основе RGB-D изображений, данных лидара и одометрии, использующая объектно-контекстное представление наблюдаемой сцены и обеспечивающая работу в реальном времени на бортовых вычислительных устройствах транспортных средств. 3. Новый алгоритм состязательного обучения нейронной сети с предварительным контрастивным (contrastive) самообучением (self-supervised learning) для генерации трехмерной цифровой карты местности, учитывающий пространственно-временные ограничения формируемых признаков. 4. Формирование новых размеченных наборов данных, позволяющих оценить качество разработанных методов и алгоритмов по генерации семантических цифровых карт местности на основе информации от бортовых сенсоров транспортного средства, полученной в различных погодных и сезонных условиях, в разное время суток. 5. Экспериментальные исследования программных реализаций предложенных методов и алгоритмов на подготовленных наборах данных и в ходе натурных экспериментов.

Ожидаемые результаты
В ходе выполнения проекта планируется получить следующие научно-технические результаты: 1. Будет разработан новый метод формирования семантической цифровой карты местности высокой размерности по зашумленным трехмерным облакам точек, полученным с помощью бортовой RGB-D камеры и лидара транспортного средства, на основе генеративных нейросетевых моделей, использующих тензоры признаков с трехмерными пространственно-временными ограничениями, которые позволят избежать искажений генерируемой карты. Ожидается превосходство разработанного метода над мировыми аналогами как на открытых наборах данных, так и на созданных в ходе выполнения проекта. 2. Планируется создать и исследовать новую архитектуру рекуррентной нейронной сети семантической сегментации последовательности трехмерных облаков точек, полученных на основе RGB-D изображений, данных лидара и одометрии, использующей объектно-контекстное представление наблюдаемой сцены для увеличения качества сегментации и обеспечивающей работу в реальном времени на бортовых вычислительных устройствах как беспилотных автомобилей, так и мобильных роботов (например, роботов-курьеров или иных специализированных роботизированных платформ). Ожидается качество ее работы на уровне, превосходящем мировые аналоги, способных работать с таким же быстродействием в составе бортовых систем транспортных средств. 3. Будет разработан новый алгоритм состязательного обучения нейронной сети с предварительным контрастивным (contrastive) самообучением (self-supervised learning), учитывающий пространственно-временные ограничения формируемых признаков для повышения качества генерации трехмерной цифровой карты местности. Указанный подход соответствует современным мировым тенденциям в развитии подходов обучения генеративных нейросетевых моделей. 4. Будут созданы новые размеченные наборы данных, позволяющие оценить качество разработанных методов и алгоритмов по генерации семантических цифровых карт местности на основе информации от бортовых сенсоров транспортного средства, полученной в различных погодных и сезонных условиях, в разное время суток. Получение новых наборов данных, планируется в соответствии с общепринятыми подходами представления карт высокой размерности (HD-Maps), пригодных для планирования и управления движением беспилотных транспортных средств. 5. Планируется разработать экспериментальные программные реализации предложенных методов и алгоритмов, пригодные для проведения испытаний на реальных беспилотных транспортных средствах или системах помощи водителю.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2021 году
На первом году выполнения проекта (https://rscf.ru/project/21-71-00131/) получены следующие научные результаты: 1. Предложена архитектура подхода формирования семантической карты местности в реальном времени по зашумленным трехмерным облакам точек. В качестве входных данных могут использоваться последовательности лидарных сканов (облаков точек), цветных изображений, соответствующих им карт глубин, а также данные одометрии (последовательности положения и ориентации в пространстве транспортного средства). Важным отличием предлагаемого метода является применение нейросетевого подхода классификации и сегментации нарушений видимости и загрязнений камеры (артефактов) по ее изображению, что позволяет отфильтровать пиксели изображения, попадающие в области загрязнений и не использовать их при формировании трехмерного облака точек от камеры и снизить его зашумленность. Сегментация загрязненных областей осуществляется без учителя с помощью построения и бинаризации карт активации классов на основе модифицированного алгоритма mGrad-CAM. Кроме того, подход предполагает альтернативную оценку карты глубин, положения и ориентации транспортного средства с помощью самообучающегося нейросетевого алгоритма, использующего деформируемые свертки для расширения перцептивной области и последовательность изображений монокулярной камеры, который может применяться в случае помех или ошибок в показаниях входных данных одометрии. Лидарные сканы, изображения и карты глубин, отфильтрованные с помощью маскирования артефактов, а также данные одометрии поступают в алгоритм объединения трехмерных облаков точек. Далее с объединенным облаком точек выполняется процедура проецирования либо на сферу, либо на вид сверху (bird’s eye view) с центром в начале системы координат одного из сенсоров, например, лидара. Такой подход позволяет осуществлять сегментацию проекций трехмерного облака точек с помощью методов анализа двухмерных изображений, которые значительно превосходят по быстродействию методы анализа трехмерных сцен, использующих воксели или непосредственно точки входного облака. Полученные семантические метки, объединенное облако точек и данные одометрии используются затем для построения трехмерной семантической карты, использующей полигональную сетку (меш, mesh). 2. Созданы новые архитектуры рекуррентных нейронных сетей семантической сегментации последовательности трехмерных облаков точек, полученных на основе RGB-D изображений, данных лидара и одометрии, использующие объектно-контекстное представление наблюдаемой сцены. Разработано несколько вариантов архитектуры рекуррентной нейронной сети для сегментации последовательностей трехмерных облаков точек по их сферической проекции, способных работать в реальном времени: SalsaNextRec и DDRNetRec. Свойство рекуррентности обеспечивается добавлением двух вариантов рекуррентных блоков: сверточного варианта LSTM-блока и рекуррентного блока, применяемого в популярном подходе R2U-Net. Кроме того, в модель на основе архитектуры DDRNetRec интегрирован объектно-контекстный блок на основе механизма внимания, который позволяет эффективнее извлекать информацию о контексте объектов и отдельных пикселей. Важным отличием от существующих подходов предлагаемых моделей SalsaNextRec и DDRNetRec также является отсутствие необходимости использовать канал интенсивности отражения лазерных лучей при построении сферической проекции по лидарным сканам. Его использование только ухудшает качество сегментации, если используются облака точек от разных лидаров в процессе обучения и тестирования модели. Кроме того, такое решение добавляет универсальности подходу, поскольку теперь можно использовать проекции трехмерных облаков точек от видеокамер, которые также не имеют этого поля. 3. Исследован алгоритм состязательного обучения нейронной сети, учитывающий пространственно-временные ограничения формируемых признаков, для генерации и одновременной сегментации 2.5D карт местности. Для этого использовалась модифицированная модель Monolayout, так как она показывает одни из лучших современных показателей качества и имеет высокую скорость работы. Результаты экспериментов с вариантом модели, использующим состязательное обучение, и вариантом без генеративно-состязательной части на наборах данных KITTI и Nuscenes не позволяют судить о превосходстве того или иного подхода, отличие составляет в большую/или меньшую сторону в среднем менее 0,5%. 4. Предложен новый алгоритм состязательного обучения нейронной сети с контрастивным самообучением, учитывающий пространственно-временные ограничения формируемых признаков. Разработан новый состязательный и контрастивный алгоритм обучения модели семантической сегментации трехмерных облаков точек DDRNet, способной работать в реальном времени. Он использует попиксельную контрастивную функцию потерь в комбинации с модулем памяти для хранения сложных примеров и позволяет привести эмбеддинги пикселей к различающимся категориальным представлениям, которые в конечном итоге улучшают качество сегментации. Эту функцию потерь можно использовать как для предобучения модели, так и для обучения на заданном наборе данных в режиме с учителем. Структура алгоритма предполагает возможность использования дискриминатора и состязательной функции потерь подобно тому, как это было в исследованном подходе на основе Monolayout. Исследование, проведенное на открытых наборах данных, в том числе на Cityscapes, показало, что этот подход демонстрирует стабильное и значимое повышение качества семантической сегментации изображений. В алгоритме предусмотрена возможность состязательного обучения 5. Получены результаты сравнения работы разработанных нейросетевых подходов сегментации трехмерных облаков точек на стандартных открытых наборах данных Semantic KITTI и RELLIS-3D. В ходе проекта было осуществлено улучшение семантической разметки открытого набора данных RELLIS-3D, в котором транспортное средство передвигается по пересеченной местности. Для этого был разработан подход объединения оригинальной разметки с результатами сегментации категорий с ошибками (к таким была отнесена категория «люди»). Получены результаты оценки влияния аугментаций входных трехмерных облаков точек и их проекций на качество их сегментации базовой нейронной сетью SalsaNext на объединенном датасете SemanticKITTI и RELLIS-3D. Наибольший прирост на используемых датасетах дал набор, задействующий все предложенные аугментации (аугментация угла обзора, аугментация высоты положения лидара, аугментация отражением и поворотом лидара, аугментация добавлением людей, аугментация Dropout и аугментация зашумлением). Модификация базовой нейронной сети SalsaNextRec с помощью рекуррентных блоков продемонстрировала значимое улучшение ее качества на объединенном датасете: большинство классов (кроме наиболее простого класса дороги) стало лучше сегментироваться моделью. На самых важных классах для детекции уязвимых агентов (автомобили и люди), данная модификация показала прирост в 2% и 5.5% соответственно. Получен результат интеграции объектно-контекстного модуля из подхода OCNet в рекуррентную нейросетевую модель DDRNetRec, который продемонстрировал небольшое значимое улучшение метрики качества IoU на объединенном датасете, в частности на 1.7% для категории "люди".

 

Публикации

1. Кузнецов В.И., Юдин Д.А. Neural Networks for Classification and Unsupervised Segmentation of Visibility Artifacts on Monocular Camera Image Optical Memory and Neural Networks (Information Optics), Том 31, Номер 3, 2022 (год публикации - 2022)

2. Безуглый В., Белкин И.В. Локализация мобильного робота по трехмерной семантической карте Труды 64-й Всероссийской научной конференции МФТИ. 29 ноября – 03 декабря 2021 г. Прикладная математика и информатика, Министерство науки и высшего образования Российской Федерации, Московский физико-технический институт (национальный исследовательский университет). –– Москва–Долгопрудный-Жуковский : МФТИ, 2021. – C. 213-214 (год публикации - 2021)

3. Пак Д.У., Юдин Д.А. Генерация карт высокой размерности для беспилотного транспорта на основе нейронных сетей Труды 64-й Всероссийской научной конференции МФТИ. 29 ноября – 03 декабря 2021 г. Прикладная математика и информатика, Министерство науки и высшего образования Российской Федерации, Московский физико-технический институт (национальный исследовательский университет). –– Москва–Долгопрудный-Жуковский : МФТИ, 2021. – C. 205-206 (год публикации - 2021)

4. - Применение искусственного интеллекта на транспорте Радио «Говорит Москва», Программа "Ученый свет",18 декабря 2021 (год публикации - )


Аннотация результатов, полученных в 2022 году
На втором году выполнения проекта получены следующие научные результаты: 1. Разработан новый модульный метод формирования семантической карты местности высокой размерности в реальном времени по зашумленным трехмерным облакам точек, полученным с помощью бортовой RGB-D камеры и лидара транспортного средства, на основе генеративных нейросетевых моделей. Разработанный метод отличается наличием ряда оригинальных модулей, в том числе нейросетевой семантической сегментации объединенных 3D облаков точек, детекции динамических 3D объектов в облаках точек и на последовательности изображений, семантической сегментации изображений, а также генерации семантической 3D-карты. 1.1. Модуль семантической сегментации 3D облаков точек функционирует на основе быстрого проективного нейросетевого подхода генерации масок сегментации, разработанного в ходе выполнения проекта. Его особенностью является учет T-зоны при сегментации проекций, что позволяет повысить стабильность доменной адаптации обученных моделей при переходе с одного типа сенсора на другой. Этот подход позволяет использовать разработанные на первом этапе рекуррентные нейросетевые модели SalsaNextRec и SalsaNextRecLSTM, нейронные сети с модулями внимания SegFormer, DDRNetOC и DDRNetDA. 1.2. Для устранения из карты динамических объектов (пешеходов, велосипедистов, мотоциклистов, транспортных средств различных видов) разработаны модули, которые обеспечивают обнаружение трехмерных областей расположения таких динамических объектов как на последовательности облаков точек, так и изображений и использующих различные подходы пространственно-временной агрегации карт признаков. Модуль детекции динамических 3D объектов в облаках точек основан на разработанной на втором этапе проекта нейросетевой модели RVCDet. Она отличается от аналогов оригинальным подходом к вокселизации, а также дополнительной классификационной частью, позволяющей существенно снизить число ложных срабатываний при детекции трехмерных объектов – людей и транспортных средств. При обучении этой модели исследованы возможности агрегации входных облаков точек с учетом известных данных о положении и ориентации сенсора (лидара), которые показали значительное повышение качества детекции при использовании трех последовательных лидарных сканов по сравнению с одиночным лидарным сканом. Как часть модуля детекции динамических 3D объектов на изображениях предложена нейронная сеть Center3dAugNet с оригинальной архитектурой, которая основана на обнаружении центров трехмерных объектов на одиночных изображениях и оценке их трехмерных пространственных координат и трех углов ориентации. При этом отдельным ее отличием является исследование различных способов представления углов ориентации при формировании функции потерь в процессе обучения модели. Разработанная многозадачная модель для одновременной детекции трехмерных объектов, их сегментации и трекинга обеспечивает пространственную агрегацию карт признаков, полученных из двух последовательных изображений. Отдельным аспектом новизны подхода является функция потерь, содержащая шесть компонент: компонента 2D-детекции, компонента 3D-детекции, компонента маски сегментации, компонента классификации, компонента тепловой карты центров объектов и компонента трекинга. 1.3. Предложенный модуль генерации семантической 3D-карты использует на входе уже объединенные сгенерированные метки категорий для всего объединенного трехмерного облака точек. Одной из отличительных особенностей разработанного подхода VDB-Fusion-S является построение трехмерной полигональной сетки не для одной категории, а для нескольких семантических классов, чего не было в базовом методе VDB-Fusion. Другая из важных отличительных особенностей – разработанный и протестированный алгоритм оценки метрик качества строящейся семантической карты. 2. Созданы новые размеченные наборы данных на основе информации от бортовых сенсоров транспортных средств, полученной в различных погодных и сезонных условиях, в разное время суток. 2.1. Разработан набор данных ITLCampus-SM [ITLCampus-SM. URL: https://github.com/VitalyyBezuglyj/ITLCampus-SM], который содержит пять последовательностей c более чем 3000 фреймов, записанных в различных погодных и сезонных условиях (весной и зимой), в разное время суток (днем, вечером, ночью) на основе бортового 16-ти лучевого лидара VLP-16, RGB-D камеры RealSense D435 (задняя камера) и стереокамеры ZED (передняя камера) мобильного робота Husky UGV, находящегося в распоряжении Научно-образовательного центра когнитивного моделирования МФТИ. Для него выполнена эталонная разметка масок семантической сегментации изображений. Истинные данные о положении сенсоров робота получены с помощью лидарной локализации робота на карте в виде облака точек, которая также была построена и размещена как часть набора данных. 2.2. Разработаны наборы данных DAPS-1 и DAPS-2 для иллюстрации доменной адаптации методов сегментации трехмерных облаков точек к различным типам сенсоров (лидаров), они размещены в открытом доступе как часть подхода DAPS3D [DAPS3D: Datasets. URL: https://github.com/subake/DAPS3D/blob/main/DATASET.md]. Полусинтетический набор данных DAPS-1 был сгенерирован на основе открытого набора данных SemanticKITTI с использованием подхода Kimera-Semantic, инструментов Mesh-Lab и MakeHuman, а также робототехнического симулятора Gazebo. В общей сложности, набор DAPS-1 содержит 11 последовательностей с более чем 23 000 размеченных лидарных облаков точек. Набор данных DAPS-2 был записан во время реального выезда робота-уборщика на территорию парка ВДНХ в Москве. DAPS-2 содержит 3 последовательности данных с 109 размеченными лидарными сканами. 3. Осуществлена разработка и тестирование программных реализаций предложенных методов и алгоритмов. 3.1. Программная реализация модуля генерации 3D семантической карты позволила оценить метрики качества и быстродействия различных методов реконструкции карт местности на наборах данных SemanticKITTI и ITLCampus-SM. Программный код подсчета метрик качества доступен в открытом репозитории SAMM [Semantic Aware Map Metrics. URL: https://github.com/cds-mipt/SAMM]. 3.2. Разработанная экспериментальная программная реализация проективного подхода DAPS3D к сегментации трехмерных облаков точек, предложенного в ходе проекта, размещена в открытом доступе [DAPS3D. URL: https://github.com/subake/DAPS3D]. Эксперименты на наборах данных DAPS-1 и DAPS-2 выявили, что наиболее высокие показатели качества имеют модели SalsaNext и SalsaNextRecLSTM. 3.3. Разработана и исследована программная реализация модуля детекции динамических 3D объектов в облаках точек, основанного на оригинальной нейросетевой модели RVCDet [RVCDet. URL: https://github.com/YoushaaMurhij/RVCDet]. Указанный подход показал существенный прирост в качестве при использовании классификатора и снижение количества ложных срабатываний на открытом наборе данных Waymo. 3.4. Разработаны программные реализации нейросетевых подходов, входящих в модуль детекции динамических 3D объектов на изображениях. Экспериментальная программная реализация предложенной нейронной сети Center3dAugNet доступна в открытом репозитории [center_3d_aug_net. URL: https://github.com/cds-mipt/center_3d_aug_net]. Ее работа проверена на открытом наборе данных pku-autonomous-driving. Программная реализация многозадачной модели для одновременной детекции трехмерных объектов, их сегментации и трекинга протестирована на открытых наборах данных nuScenes и KITTI MOTS. 3.5. Программная реализация методов слабо-контролируемой сегментации артефактов на изображениях дополнена подходом контрастивного обучения на основе метода CCAM и представлена в открытом репозитории [CaUS_Visibility_Artifacts. URL: https://github.com/vd-kuznetsov/CaUS_Visibility_Artifacts]. Быстродействие основных разработанных программных реализаций обеспечивает обработку входных данных за время менее 100 мс.

 

Публикации

1. Башаров И.В., Юдин Д.А. Multitask Learning for Extensive Object Description to Improve Scene Understanding on Monocular Video Studies in Computational Intelligence, vol 1064. Springer, Cham., Advances in Neural Computation, Machine Learning, and Cognitive Research VI. NEUROINFORMATICS 2022. Studies in Computational Intelligence, vol 1064. Springer, Cham. (год публикации - 2022) https://doi.org/10.1007/978-3-031-19032-2_43

2. Безуглый В.Д., Юдин Д.А. Reconstruction of 3D Semantic Map and Its Quality Estimation Lecture Notes in Networks and Systems, vol 566. Springer, Cham., Proceedings of the Sixth International Scientific Conference “Intelligent Information Technologies for Industry” (IITI’22). IITI 2022. Lecture Notes in Networks and Systems, vol 566. Springer, Cham. (год публикации - 2022) https://doi.org/10.1007/978-3-031-19620-1_31

3. Белкин И.В., Резанов А., Юдин Д.А. Center3dAugNet: Effect of Rotation Representation on One-Stage Joint Car Detection and 6D-Pose Estimation Studies in Computational Intelligence, vol 1064. Springer, Cham., Advances in Neural Computation, Machine Learning, and Cognitive Research VI. NEUROINFORMATICS 2022. Studies in Computational Intelligence, vol 1064. Springer, Cham. (год публикации - 2022) https://doi.org/10.1007/978-3-031-19032-2_35

4. Клоков А.А., Пак Д.У., Хорин А., Юдин Д.А., Кочиев Л., Лучинский В.Д., Безуглый В.Д. DAPS3D: Domain Adaptive Projective Segmentation of 3D LiDAR Point Clouds IEEE Access, IEEE Access, Volume 11, Pp. 79341 - 79356 (год публикации - 2023) https://doi.org/10.1109/ACCESS.2023.3298706

5. Мурхиж Ю., Голодков А., Юдин Д.А. Rethinking Voxelization and Classification for 3D Object Detection Neural Information Processing. ICONIP 2022. Communications in Computer and Information Science, ICONIP 2022, CCIS 1793, pp. 470–481, 2023 (год публикации - 2023) https://doi.org/10.1007/978-981-99-1645-0_39

6. Скороходов В.С., Дроздова Д.М., Юдин Д.А. Генерация изображений с новым ракурсом съемки и масок их семантической сегментации на основе метода дифференцируемого представления сцены с хэшированием Труды 65-й Всероссийской научной конференции МФТИ, - (год публикации - 2023)


Возможность практического использования результатов
Результаты проекта могут быть использованы для построения высокоточных семантических карт местности в системах интеллектуальной навигации современных транспортных систем, в состав которых могут входить беспилотные автомобили, роботы-курьеры и иные наземные автономные транспортные средства. Такие карты позволяют бортовой навигационной системе безопасно планировать путь или маневры транспортного средства в незнакомой среде. Предлагаемая автоматическая генерация подобных карт с помощью новых нейросетевых методов машинного обучения позволит ускорить внедрение беспилотных технологий и роботизированных систем в реальной городской среде.