КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 19-41-04109

НазваниеЭффективные методы машинного обучения для статических и динамических 3D данных

РуководительБурнаев Евгений Владимирович, Доктор физико-математических наук

Организация финансирования, регион Автономная некоммерческая образовательная организация высшего образования «Сколковский институт науки и технологий», г Москва

Период выполнения при поддержке РНФ 2019 г. - 2021 г. 

Конкурс№27 - Конкурс 2018 года «Проведение фундаментальных научных исследований и поисковых научных исследований международными научными коллективами» (DFG).

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-202 - Интеллектуальный анализ данных и распознавание образов

Ключевые словамашинное обучение, глубокое обучение, 3D данные, 3D облака точек, сверточные нейронные сети, обработка геометрии, дополненная/виртуальная реальность, семантическая сегментация, восстановление форм, генеративные модели

Код ГРНТИ28.23.15, 28.23.37, 28.17.33


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Обработка 3D-данных, сканирование и реконструкция 3D сцены необходимы для широкого спектра приложений, начиная от виртуальной реальности, игр, фильмов, и заканчивая автономными роботами и самоуправляемыми автомобилями. Широкая товарная доступность RGB-D датчиков, таких как Microsoft Kinect, Intel RealSense и Google Tango делает сбор 3D данных более легким и доступным. Наряду с новым аппаратным обеспечением, исследователи разработали онлайн и оффлайн методы 3D реконструкции, которые теперь позволяют осуществлять эффективный захват и оцифровку различных реальных сред, с высокой геометрической точностью. Автономное сканирование сцены и плотная 3D реконструкция внутренних помещений мобильными роботами привлекли усиленное внимание со стороны научный сообществ, занимающихся робототехникой и компьютерной графикой. Несмотря на значительные успехи, достигнутые в последние годы, качество полученных 3D-моделей остается далеко от контента, создаваемого художником, не отвечая потребностям многих предполагаемых приложений. Стандартные проблемы (шум, чрезмерное сглаживание, пропущенные данных) остаются нерешённой задачей, и для использования в индустриальных приложениях требуется значительное количество ручной обработки. В то же время прогресс в области робототехнических технологий сбора данных облегчает поиск и реконструкцию больших и более сложных сцен, генерируя большие объемы данных, которые по экономическим соображениям не могут быть очищены вручную. Несмотря на множество систем реконструкции, пока ещё не существует комплексного решения проблемы практической онлайн 3D реконструкции в таком масштабе, который делает сканирование легко доступным для неподготовленных пользователей, или может полностью автоматизировать крупномасштабное построение геометрии. Особенно трудными остаются следующие проблемы: отсутствие данных и неполнота выборки, сохранение критических геометрических характеристик при наличии шума, эффективные подходы к преобразованию трехмерного представления данных из исходного формата в более эффективное представление, отвечающее требованиям масштабируемости приложения и алгоритма. Последнее, но не менее важное препятствие на пути разработки методов машинного обучения – отсутствие размеченных наборов данных. В этом проекте мы собираемся решить данные проблемы, разрабатывая алгоритмы машинного обучения для анализа 3D данных, которые являются практичными и удовлетворяют требованиям реальных задач, в частности, мы будем развивать: архитектуры и методы глубокого обучения, способные эффективно моделировать различные виды статических и динамических 3D-данных (RGB-D, облака точек, многоракурсные изображения и полигональные сетки); размеченные наборы 3D данных, содержащие как реальные данные сцен в помещении, так и синтетические данные с достаточной аугментацией, чтобы уменьшить разрыв в свойствах между реальными и искусственными данными; подходы к построению общего представления трехмерных данных для качественной 3D реконструкции за счет совместного использования данных с разных датчиков. В качестве применения разработанных подходов мы рассмотрим возможность распознавания данных мультимодального дистанционного зондирования. Проект соответствует стратегическим национальным инициативам России и Германии. Предлагаемый план работ состоит из девяти разделов и имеет конкретные цели, четко определенные этапы и скоординированные мероприятия. Ключевые исследователи проекта – широко известные ученые, обладающие многочисленными наградами и достижениями. За свои работы по 3D-моделированию реальных окружений по видео или изображениям с глубиной профессор Нисснер (TUM) был удостоен премии Google Research Award in Machine Perception (2017), Rudolph Mossbauer Fellow for Visual Computing at the IAS at TU Munich (2017). Например, под руководством проф. М. Ниснера была разработана программа Face2Face, которая накладывает мимику управляющего «актёра» на любое другое лицо. Это можно делать в прямом эфире и вставлять в видеотрансляцию. Данный проект получил широкое внимание с несколькими миллионами просмотров на YouTube и освещение в широком спектре СМИ, в том числе многократную демонстрацию на общественном телевидении. Профессор Бурнаев (Сколтех) внес свой вклад в развитие современных алгоритмов машинного обучения, которые, например, используются Airbus для существенного сокращения времени проектирования самолетов и значительной экономии для крупнейшей авиастроительной компании. Это свидетельствует о превосходной экспертизе как немецких, так и российских исследовательских групп. Реализация проекта позволит установить новые взаимовыгодные сотрудничества между TUM и Сколтехом: TUM получат доступ к экспертизе и инновационным алгоритмом машинного и глубокого обучения, в то время как Сколтех получит значимую экспертизу TUM в области визуальных вычислений. Исследовательские группы располагают достаточными человеческими ресурсами для достижения всех поставленных целей. Нанятые на средства проекта сотрудники будут работать исключительно над реализацией проекта. Проект описывает четкую концепцию вовлечения аспирантов в научно-исследовательскую деятельность (включая 36 месяцев стажировки). Результаты будут опубликованы в различных источниках, таких как сайты, рассылки, открытые школы, публикации и т. д. Начинающие ученые будут расширять свои знания в области визуальных вычислений, компьютерного зрения и глубокого обучения, участвуя в мероприятиях, организованных в рамках проекта. Устойчивость сотрудничества будет обеспечиваться путем лицензирования разработанной методологии для промышленности, а также путем дальнейшего предоставления заявок на частное и академическое финансирование из национальных и международных источников.

Ожидаемые результаты
В данном проекте мы собираемся разработать алгоритмы машинного обучения для анализа 3D данных, которые являются практичными и удовлетворяют требованиям реальных задач, в частности, мы будем разрабатывать: - архитектуры и методы глубокого обучения, способные эффективно моделировать различные виды статических и динамических 3D-данных (RGB-D изображения, облака точек, многоракурсные изображения, полигональные сетки); - размеченные наборы 3D данных, содержащие как реальные данные сцен в помещении, так и синтетические данные со значительной аугментацией (augmentation) для устранения значимых различий между искусственными и реальными данными; - подходы к построению общего представления трехмерных данных для качественной 3D реконструкции за счет объединения измерений различных сенсоров. В качестве применения разработанных подходов мы рассмотрим распознавание данных мультимодального дистанционного зондирования. Эти результаты заложат основу эффективной системы сканирования и реконструкции 3D/4D сцены, имеющей жизненно важное значение для широкого спектра приложений, начиная от виртуальной/дополненной реальности, игр, фильмов и заканчивая автономными роботами и автопилотируемыми автомобилями. Основные исследователи проекта от немецких и российских исследовательских групп – хорошо известны ученые, имеющие многочисленные награды и достижения. Это дает убедительные доказательства соответствия запланированных результатов мировому научному уровню.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2019 году
Методы обработки 3D-данных сканирования с итоговой целью получения детализированных и семантически аннотированных 3D-реконструкций реальных сцен (в частности, интерьеров) необходимы для широкого спектра приложений, начиная от виртуальной реальности, игр, фильмов, и заканчивая мобильными роботами и беспилотными автомобилями. С одной стороны, все более широкое распространение дешевых потребительских RGB-D датчиков (таких как Microsoft Kinect, Intel RealSense и Google Tango), и дорогих промышленных установок (например, системы кодированного света, компьютерная томография и т.д.), делает сбор 3D-данных более легким; с другой стороны, появляются методы 3D-реконструкции для создания 3D-моделей реальных сцен и сред с высокой геометрической точностью. Несмотря на успехи последних лет, точность и визуальное качество полученных 3D-моделей не отвечает потребностям многих предполагаемых приложений. Стандартные проблемы (шум, чрезмерное сглаживание, пропуск данных) остаются не полностью решенными, а ручная обработка данных при реконструкции больших и все более сложных сцен слишком трудозатратна. Несмотря на то, что ряд подходов к 3D-реконструкции был предложен в литературе, не существует такого комплексного решения проблемы 3D-реконструкции, которое бы обеспечило качество построения 3D-моделей целых протяженных сцен либо объектов с высоким разрешением для неподготовленных пользователей. Особенно трудными остаются проблемы отсутствия данных и неполноты выборки пространственных измерений, сохранения геометрических особенностей (например, линий разрыва нормалей) при наличии шума. Последнее, но не менее важное препятствие на пути разработки методов машинного обучения – отсутствие размеченных наборов данных. Таким образом, в настоящем проекте нашей целью является развитие математических методов машинного обучения, новых вычислительных нейросетевых архитектур и алгоритмов, программного обеспечения и аннотированных коллекций для целей 3D-реконструкции и семантической аннотации сцен и объектов и прогнозирования их характеристик, с соответствующими приложениями, которые позволят легко применять вновь созданные методы обработки 3D-данных в практике. Одной из центральных проблем моделирования трехмерных форм по выборкам геометрических данных в машинном обучении являются ограничения, связанные с неточностью геометрических свойств наличных данных, которые, как правило, доступны в виде полигональных 3D-моделей (сеток, meshes). Таким образом, в силу дискретизации геометрические свойства таких объектов (нормали, кривизна и т.п.) будут известны лишь приближенно. За 2019 г. удалось в сотрудничестве с учеными из ряда университетов - Германии и США - разработать качественно новую коллекцию данных ABC в виде параметрических CAD-моделей, с точно аннотированными геометрическими свойствами, такими как дифференциальные свойства поверхности, особые линии, подразделение на гладкие фрагменты и т.д. С привлечением этой коллекции уже исследован набор многомасштабных алгоритмов прогнозирования неориентированных нормалей и ведется работа по построению методов детектирования геометрических особенностей. Результаты работы в этом направлении отражены в работе [1]. Кроме того, наши исследования алгоритмов прогнозирования направленных касательных полей, исследованных в 2019 г. на основе двумерных изображений [2], планируется расширить на поля, заданные на двумерных многообразиях, вложенных в трехмерное пространство, обучающие данные для которых можно будет рассчитывать с произвольной точностью в силу природы набора данных ABC. В тесном сотрудничестве с немецким научным коллективом ведутся работы по 3D-реконструкции протяженных сцен (в частности, интерьеров) с привлечением библиотек деформируемых CAD-объектов. Развитие подхода Scan2CAD включает в себя построение высокодетализированных описаний сцен с повышенным уровнем семантической точности для приложений в графике. Повышение детализации планируется за счет рассмотрения более детального датасета PartNet. В PartNet представлены те же объекты, что и в ShapeNet, однако для каждого объекта представлено разбиение на части разных уровней детализации. В разрабатываемом проекте рассматриваются новые подходы к выравниванию, позволяющему работать на разных уровнях детализации и при наличии неполных данных, семантическому сегментированию полученных объектов на части, а также деформации объектов для более точного сопоставления между объектами на сцене. Проблемно-ориентированные исследования методов обработки вокселизованных (объемных) 3D-данных, заданных на регулярных 3D-сетках, представляют интерес как для упомянутых приложений компьютерного зрения, так и в области моделирования горных пород в геологии и в медицинских приложениях. Последние две области особенно привлекательны тем, что в них методы получения изображений (компьютерная и магнитно-резонансная томография) напрямую приводят к выборкам изображений, в которых измеренный сигнал регистрируется в каждом объеме пространства. Таким образом, мы естественно рассматриваем модели на основе сверточных нейронных сетей, определенные для 3D-решеток любого типа. Нами были рассмотрены методы генеративного моделирования 3D-данных и прогнозирования их характеристик, в частности, построена генеративная модель 3D-изображений горных пород с заданными свойствами. В рамках этой работы (см. препринт [4], поданный в редакцию) была разработана нейросетевая архитектура, основанная на состязательных генеративных нейронных сетях и автокодировщиках, которая “наращивает” породу вокруг предъявленного двумерного среза, выдавая модель уже трехмерной породы. При этом оптимизацией специального штрафа обеспечиваются заданные пористость и проницаемость трехмерного изображения, что подтверждается экспериментальным исследованием полученного метода. Кроме этого с применением указанных архитектур были получены результаты классификации 3d медицинских сканов, см. [7], а также прогнозирования распределенных (по пространству) свойств физических процессов, см. [5]. Для стабильного обучения нейросетевых моделей мы разработали общие нейробайесовские подходы машинного обучения на основе бустинговой аппроксимации, см. [6], которые в будущем мы планируем применить для эффективной аппроксимации апостериорных распределений характеристик объектов для целей оценки неопределенности прогнозов. Кроме этого, разработанные методы работы с пространственными данными позволили построить эффективное решение для восстановления частичного 3D описания сцены по моно RGB изображению, которое мы применили для оценки положения автомобиля в пространстве, см. [3]. Публикации за 2019 г., выполненные в рамках проекта РНФ № 19-41-04109: [1] Koch, S., Matveev, A., Jiang, Z., Williams, F., Artemov, A., Burnaev, E., Zorin, D., Alexa, M., & Panozzo, D. (2019). ABC: A Big CAD Model Dataset For Geometric Deep Learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 9601-9611) [SCOPUS] [2] Taktasheva, M., Matveev, A., Artemov, A., & Burnaev, E. (2019). Learning to Approximate Directional Fields Defined over 2D Planes. arXiv preprint arXiv:1907.00559. Accepted and to be published in proceedings of AIST conference, Lecture Notes of Computer Science, Springer, 2020 [WoS, SCOPUS] [5] Sudakov, O., Koroteev, D., Belozerov, B., & Burnaev, E. (2019, July). Artificial Neural Network Surrogate Modeling of Oil Reservoir: a Case Study. In International Symposium on Neural Networks (pp. 232-241). Springer, Cham. [SCOPUS] [6] Egorov, E., Neklydov, K., Kostoev, R., & Burnaev, E. (2019, July). MaxEntropy Pursuit Variational Inference. In International Symposium on Neural Networks (pp. 409-417). Springer, Cham. [SCOPUS] [7] Pominova, M., Kuzina, A., Kondrateva, E., Sushchinskaya, S., Burnaev, E., Yarkin, V., & Sharaev, M. (2019, October). Ensemble of 3D CNN regressors with data fusion for fluid intelligence prediction. In Challenge in Adolescent Brain Cognitive Development Neurocognitive Prediction (pp. 158-166). Springer, Cham. [SCOPUS] Работы за 2019 г. с благодарностью РНФ, посланные в редакции: [3] Barabanau, I., Artemov, A., Burnaev, E., & Murashkin, V. (2020). Monocular 3D Object Detection via Geometric Reasoning on Keypoints. arXiv preprint arXiv:1905.05618. To be published in proceedings of VISAPP conference, 2020 [SCOPUS] [4] Volkhonskiy, D., Muravleva, E., Sudakov, O., Orlov, D., Belozerov, B., Burnaev, E., & Koroteev, D. (2020). Reconstruction of 3D Porous Media From 2D Slices. arXiv preprint arXiv:1901.10233. Submitted to Scientific Reports journal, 2020.

 

Публикации

1. Барабанов И., Артемов А., Бурнаев Е., Мурашкин В. Monocular 3D Object Detection via Geometric Reasoning on Keypoints arXiv preprint, - (год публикации - 2019)

2. Волхонский Д., Муравлева Е., Судаков О., Орлов Д., Белозеров Б., Бурнаев Е., Коротеев Д. Reconstruction of 3D Porous Media From 2D Slices arXiv preprint, - (год публикации - 2019)

3. Егоров Е., Неклюдов К., Костоев Р., Бурнаев Е. MaxEntropy Pursuit Variational Inference Lecture Notes in Computer Science, Том 11554, стр. 409-417 (год публикации - 2019) https://doi.org/10.1007/978-3-030-22796-8_43

4. Кох С., Матвеев А., Цзян Ж., Уильямс Ф., Артемов А., Бурнаев Е., Зорин Д., Алекса М., Паноццо Д. ABC: A Big CAD Model Dataset For Geometric Deep Learning Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, - (год публикации - 2019)

5. Поминова М., Кузина А., Кондратьева Е., Сущинская С., Бурнаев Е., Яркин В., Шараев М. Ensemble of 3D CNN regressors with data fusion for fluid intelligence prediction Lecture Notes in Computer Science, Том 11791, стр.158-166 (год публикации - 2019) https://doi.org/10.1007/978-3-030-31901-4_19

6. Судаков О., Коротеев Д., Белозеров Б., Бурнаев Е. Artificial Neural Network Surrogate Modeling of Oil Reservoir: a Case Study Lecture Notes in Computer Science, Том 11555, стр. 232-241 (год публикации - 2019) https://doi.org/10.1007/978-3-030-22808-8_24

7. Такташева М., Матвеев А., Артемов А., Бурнаев Е. Learning to Approximate Directional Fields Defined over 2D Planes Lecture Notes in Computer Science, Том 11832, стр. 367-374 (год публикации - 2019) https://doi.org/10.1007/978-3-030-37334-4_33


Аннотация результатов, полученных в 2020 году
В рамках второго года выполнения проекта получены новые результаты в области разработки обучаемых методов, оперирующих напрямую на полигональных CAD-моделях, с приложениями к их оптимизации, включая сглаживание и перестроение. Кроме того, в рамках развития методов, оперирующих на дискретной геометрии поверхностей 3D-объектов, были разработаны подходы к восстановлению скалярных и векторных полей, описывающих 3D-геометрию поверхности, включая методы восстановления скалярной функции поточечного расстояния до особой кривой, оперирующие на неструктурированных дискретных геометрических данных, а также методы восстановления касательных к 2D/3D многообразиям поливекторных полей, заданных на цветных 2D изображениях, в контексте восстановления векторного представления 2D/3D объектов (http://adase.group/3ddl/projects/vectorization/). Разработаны новые методы на основе глубокого обучения, оперирующие на данных большой пространственной протяженности, включая метод получения векторизованного описания 3D сцены с помощью набора деформированных CAD-объектов (http://adase.group/3ddl/projects/cad-deform/) и метод прогнозирования полной геометрии объектов на сцене в виде наборов семантических частей объектов. Оба предложенных метода способны оперировать на 3D-реконструкциях целых протяженных 3D сцен, в частности, в качестве приложения рассмотрены интерьерные 3D-сцены (3D-реконструкции комнат и офисных помещений). Спроектирована и смонтирована в лабораторных условиях автоматизированная установка для сбора разноточных многоракурсных данных, включающая возможность получения изображений глубины. Проведено исследование эффективности современных multi-view stereo методов в контексте задачи объединения сканов глубины. Разработка большинства предложенных методов сопровождалась созданием необходимой коллекции обучающих и оценивающих данных. Так, для алгоритмов машинного обучения, оперирующих на полигональных моделях, были созданы синтетические коллекции, содержащие зашумленные аннотированные полигональные сетки; в контексте задачи векторизации были разработаны синтетические и реальные коллекции 2D/3D объектов с векторными версиями последних; для обучения глубоких моделей аппроксимации касательных полей и полей расстояний представлены новые наборы искусственных обучающих данных, аннотированные параметризацией касательных кривых либо информацией о геометрических кривых, заданных на поверхностях 3D-форм. Кроме того, в рамках работы, запланированных на 2021 г., построен новый метод генеративного моделирования 3D представлений данных, в частности, различных возможных серий кадров, образующих видеопоследовательность (http://adase.group/3ddl/projects/latent-video-transformer/). Публикации за 2020 г., выполненные в рамках проекта РНФ № 19-41-04109: [1] Egiazarian, V., Voynov, O., Artemov, A., Volkhonskiy, D., Safin, A., Taktasheva, M., Zorin, D., & Burnaev, E. (2020). Deep Vectorization of Technical Drawings. In: Vedaldi A., Bischof H., Brox T., Frahm JM. (eds) Computer Vision – ECCV 2020. ECCV 2020. Lecture Notes in Computer Science, vol 12358. Springer, Cham. https://doi.org/10.1007/978-3-030-58601-0_35. (WoS/SCOPUS, рейтинг Core A) [2] Ishimtsev, V., Bokhovkin, A., Artemov, A., Ignatyev, S., Niessner, M., Zorin, D., & Burnaev, E. (2020). CAD-Deform: Deformable Fitting of CAD Models to 3D Scans. arXiv preprint arXiv:2007.11965. Cad-deform: Deformable fitting of cad models to 3d scans. In: Vedaldi A., Bischof H., Brox T., Frahm JM. (eds) Computer Vision – ECCV 2020. ECCV 2020. Lecture Notes in Computer Science, vol 12358. Springer, Cham. https://doi.org/10.1007/978-3-030-58601-0_36 (WoS/SCOPUS, рейтинг Core A) [3] Voynov, O., Safin, A., Ignatyev, S., & Burnaev, E. (2020). How Good MVSNets Are at Depth Fusion. arXiv preprint arXiv:2011.14761. Proc. SPIE, International Conference on Machine Vision, 2020 (WoS/SCOPUS) [4] Rakhimov, R., Volkhonskiy, D., Artemov, A., Zorin, D., & Burnaev, E. (2020). Latent Video Transformer. arXiv preprint arXiv:2006.10704. In Proceedings of the International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications - VISAPP (WoS/SCOPUS, рейтинг Core B) Работы за 2020 г. с благодарностью РНФ, посланные в редакции: [5] Bokhovkin, A., Ishimtsev, V., Bogomolov, E., Zorin, D., Artemov, A., Burnaev, E., & Dai, A. (2020). Towards Part-Based Understanding of RGB-D Scans. arXiv preprint arXiv:2012.02094. [6] Matveev, A., Artemov, A., Rakhimov, R., Bobrovskikh, G., Panozzo, D., Zorin, D., & Burnaev, E. (2020). DEF: Deep Estimation of Sharp Geometric Features in 3D Shapes. arXiv preprint arXiv:2011.15081.

 

Публикации

1. Боховкин А., Ишимцев В., Богомолов Э., Зорин Д., Артемов А., Бурнаев Е., Даи А. Towards Part-Based Understanding of RGB-D Scans arXiv preprint, - (год публикации - 2020)

2. Войнов О., Сафин А., Игнатьев С., Бурнаев Е. How Good MVSNets Are at Depth Fusion International Conference on Machine Vision, - (год публикации - 2020)

3. Егиазарян В., Войнов О., Артемов А., Волхонский Д., Сафин А., Такташева М., Зорин Д., Бурнаев Е. Deep Vectorization of Technical Drawings Computer Vision -- ECCV 2020, Том 12358, стр. 582-598 (год публикации - 2020) https://doi.org/10.1007/978-3-030-58601-0_35

4. Ишимцев В., Боховкин А., Артемов А., Игнатьев С., Нисснер М., Зорин Д., Бурнаев Е. CAD-Deform: Deformable Fitting of CAD Models to 3D Scans Computer Vision -- ECCV 2020, Том 12358, стр. 599-628 (год публикации - 2020) https://doi.org/10.1007/978-3-030-58601-0_36

5. Матвеев А., Артемов А., Рахимов Р., Бобровских Г., Паноццо Д., Зорин Д., Бурнаев Е. DEF: Deep Estimation of Sharp Geometric Features in 3D Shapes arXiv preprint, - (год публикации - 2020)

6. Рахимов Р., Волхонский Д., Артемов А., Зорин Д., Бурнаев Е. Latent Video Transformer International Conference on Computer Vision Theory and Applications, - (год публикации - 2020)


Аннотация результатов, полученных в 2021 году
В рамках третьего года выполнения проекта получены новые результаты в области синтеза реалистичных взаимодействий между человеком и сценой (аффордансов) в трехмерных окружениях, в которой моделирование 3Д данных (скелета тела человека) необходимо осуществлять с помощью 2Д представления в силу отсутствия размеченных 3Д данных. Создан новый полностью дифференцируемый метод генеративно-состязательного моделирования реалистичных поз человека в 3Д-окружениях, не требующий размеченных 3Д данных; в настоящее время завершается его экспериментальное исследование и ведется подготовка материалов к публикации. Достигнуты результаты в области методов понимания 3Д-сцен на уровне составных частей объектов, составляющих сцены, и в области коллекций данных, необходимых для построения эффективных алгоритмов понимания 3Д-сцен. В частности, разработан новый метод машинного обучения семантической, иерархической и экземплярной сегментации частей 3Д-объектов в сценах на основе 3Д нейросетей с операциями на основе разреженных сверток, и выполнено исследование эффективности сегментации реальных сцен при изменении разрешения входных сканов, добавлении информации о цвете, изменении архитектуры метода и метода иерархической сегментации. Для обучения этого метода по данным разработан новый набор реальных 3D данных, размеченных на уровне частей объектов, который является первым большим набором реальных 3Д-данных, аннотированных метками частей объектов. Описанный набор данных включает более 240 тыс. соответствий между участками 1,5 тыс. реконструкций реальных сцен и 53 тыс. уникальных частей 2,4 тыс. CAD-объектов [1]. Использование аналогичного подхода к построению обучающей выборки в 2020 г. позволило опубликовать совместную с германским научным коллективом работу [2], где представлены результаты семантической сегментации объектов на уровне частей с обучаемым априорным распределением, моделирующим геометрию каждой части. В 2021 г. разработан новый многомодальный, многовидовой набор разнообразных реальных тренировочных и тестовых RGB-D данных, точно зарегистрированных и полученных с точно калиброванных сенсоров геометрической и фотометрической информации, с эталонными значениями глубины малой погрешности [3]. В наборе данных представлено 110 сцен с разнообразными по сложности объектами. Объекты представлены в 6 типах сложности поверхностей для реконструкции. Данные получены для 14 различных реалистичных видов освещения; получены снимки со 100 различных точек обзора; в общей сложности на каждую сцену приходится 15 изображений для каждой позиции камеры, для каждой настройки освещения, включая 6 RGB, 5 снимков инфракрасных снимков и 4 карты глубины. Общее количество данных – 1.4 миллиона снимков. Новый набор данных предназначен для обучения и исследования алгоритмов трехмерной реконструкции. По сравнению с другими доступными наборами данных, отличительные особенности предложенной коллекции включают большое количество датчиков различных типов и разрешений, в частности датчиков глубины, выбор сцен, представляющих трудности для многих существующих алгоритмов, и высококачественная достоверность данных для этих объектов. Также новый набор предлагает большой объем примеров с широким диапазоном окружений, которые имитируют реальные сценарии и позволяют проводить более качественные исследования ошибочного поведения методов реконструкции. Предложенный набор данных обеспечивает обучение и оценку эффективности методов для множества вариантов задач трехмерной реконструкции. Были продолжены работы по созданию методов обработки полигональных сеток с целью повышения качества представления поверхностей 3D форм, и предложен алгоритм, двумя аспектами которого является движение вершин по направлениям к кривым и последующее вращение рёбер. Предложенный метод позволяет улучшать геометрию напрямую, обрабатывая полигональные сетки. В отличие от существующих методов, работающих на объемах, алгоритм построения полигональных сеток позволяет осуществлять работу с уже существующими, несовершенными сетками; в настоящее время завершается его экспериментальное исследование и ведется подготовка материалов к публикации. Публикации за 2021 г., выполненные в рамках проекта РНФ № 19-41-04109: [1] Notchenko, A., Ishimtsev, V., Artemov, A., Selyutin, V., Bogomolov, E., & Burnaev, E. (2020). Scan2Part: Fine-grained and Hierarchical Part-level Understanding of Real-World 3D Scans. (WoS/SCOPUS, рейтинг Core B). Accepted to VISAPP 2022. (WoS/SCOPUS, рейтинг Core B) [2] Bokhovkin, Alexey, Vladislav Ishimtsev, Emil Bogomolov, Denis Zorin, Alexey Artemov, Evgeny Burnaev, and Angela Dai. "Towards Part-Based Understanding of RGB-D Scans." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 7484-7494. 2021. https://doi.org/10.1007/978-3-030-58601-0_36 (WoS/SCOPUS, рейтинг Core A*) Работы за 2021 г. с благодарностью РНФ, посланные в редакции: [3] Voynov, O., Bobrovskikh, G., Karpyshev, P., Ardelean, A., Bozhenko, A., Galochkin, S., Karmanova, E., Kopanev, P., Labutin-Rymsho, Ya., Rakhimov, R., Safin, A., Serpiva, V., Artemov, A., Burnaev, E., Tsetserukou, D., Zorin, D. Multi-sensor large-scale dataset for multi-view 3D reconstruction.

 

Публикации

1. Боховкин А., Ишимцев В., Богомолов Э., Зорин Д., Артемов А., Бурнаев Е., Дай А. Towards Part-Based Understanding of RGB-D Scans Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 7484--7494 (год публикации - 2021)

2. Нотченко А., Ишимцев В., Артемов А., Селютин В., Богомолов Э., Бурнаев Е. Scan2Part: Fine-grained and Hierarchical Part-level Understanding of Real-World 3D Scans Proceedings of 17th International Conference on Computer Vision Theory and Applications (VISAPP 2022), - (год публикации - 2021)


Возможность практического использования результатов
Собранный в рамках проекта набор данных позволит совершенствовать методы трехмерной реконструкции по набору фотографий или RGB-D кадров. Области непосредственного применения методов трехмерной реконструкции, то есть построения цифровых моделей объектов реального мира, включают в себя изучение и сохранение объектов культурного наследия, медицину, онлайн покупки, кино, компьютерные игры, симуляторы, построение сред виртуальной и дополненной реальности. Методы трехмерной реконструкции также применимы в составе сложных систем, таких как беспилотные автомобили, летательные аппараты, роботизированные производственные системы, и другие виды автономных роботов, функционирование которых основано на построении и анализе трехмерной модели их окружения.