КАРТОЧКА ПРОЕКТА,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 20-71-10116

НазваниеОбучение с подкреплением с использованием сетевых векторно-символьных представлений в задаче интеллектуальной навигации когнитивных агентов

РуководительПанов Александр Игоревич, Кандидат физико-математических наук

Организация финансирования, регионфедеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук", г Москва

Срок выполнения при поддержке РНФ 07.2020 - 06.2023 

КонкурсКонкурс 2020 года «Проведение исследований научными группами под руководством молодых ученых» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-201 - Искусственный интеллект и принятие решений

Ключевые словаОбучение с подкреплением, иерархическое обучение с подкреплением, распределенные представления, каузальная семиотическая сеть, навигация, локализация, картирование, мобильный робот, когнитивный агент

Код ГРНТИ28.23.25


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Одной из фундаментальных проблем в области искусственного интеллекта является проблема построения общих универсальных интеллектуальных систем управления поведением как программных, так и робототехнических агентов. К основным результатам в этой области можно отнести ряд когнитивных архитектур (ACT-R, Soar и др.), использующих модели когнитивной психологии при построении подсистем памяти и использования знаний; интеллектуальные динамические системы, основанные на правилах; программные пакеты по автоматизации ряда задач управления мобильными робототехническими платформами и беспилотными транспортом (ROS, Apollo и др.); архитектуры агентов, взаимодействующих с игровой средой, на основе методов обучения с подкреплением и другие; системы общего искусственного интеллекта (AGI, AIXI, OpenCog и др.), предлагающих различные варианты системной интеграции имеющихся методов представления знаний и подсистем вывода на их основе. Однако, несмотря на большое количество предложенных концепций и методов, синтез сложного поведения в широком спектре динамических сред с учетом взаимодействия с активными участниками совместной деятельности до сих пор является нерешенной задачей. К основным фундаментальным барьерам на данном пути необходимо отнести проблему интеграции субсимвольных (в том числе нейросетевых) методов приобретения и обработки первичной информации, получаемой от среды (сенсорных данных), и символьных методов представления концептуальных знаний и вывода на их основе (моделирование рассуждений и планирование поведения). В зарубежной литературе эта проблема известна как проблема привязки символов (symbol grounding problem). Настоящий проект посвящен разработке новых методов и алгоритмов, позволяющих продвинутся в решении этой фундаментальной научной проблемы в контексте синтеза и управления поведением когнитивного агента в задаче интеллектуальной навигации. Разрабатываемый подход к нейросимвольной интеграции позволит включить в общую систему управления ключевую подсистему пополнения концептуальных знаний и использование результатов рассуждений и планирования в решении таких важнейших базовых поведенческих задач в робототехнике, как картирование, локализация и передвижение в сложной человеко-ориентированной среде. Актуальность решения обозначенной проблемы заключается в том, что в конечном счете данная подсистема позволит существенно повысить степень автономности как программных, так и робототехнических агентов. При проведении научно-исследовательских и конструкторских работ на основе разрабатываемых методов и технологий возможно получение новых программных пакетов в составе робототехнических операционных систем, используемых в бытовых, промышленных роботах, беспилотных летательных аппаратах, автономном транспорте и других мобильных робототехнических системах, автономно работающих в сложных динамических условиях. В ходе выполнения проекта планируется получение следующих основных научных и практических результатов. Будут разработаны новые методы и алгоритмы, направленные на решение проблемы привязки символов в контексте задачи приобретения знаний и синтеза поведения по перемещению в человеко-ориентированной среде на основе оригинального подхода каузальных семиотических сетей. С целью применения разрабатываемых методов в реальных робототехнических системах будут созданы новые быстрые нейросетевые методы восстановления сцены и карты местности и локализации на ней с возможностью сегментации объектов и препятствий. Будут предложены новые методы рассуждения и вывода на основе пространственных знаний c использованием распределенных векторно-символьных представлений, расширяющих возможности каузальной семиотической сети. Будет разработан новый алгоритм иерархического обучения с подкреплением, использующий подсистему генерации подцелей, обеспечивающий эффективное исследование и перемещение к целевой области в сложной динамической среде. В рамках проекта планируется создать экспериментальное программное обеспечение, реализующее все основные методы и алгоритмы. Будет проведена экспериментальная проверка эффективности и работоспособности предложенных подходов для когнитивных агентов, работающих как в симуляционных средах (NVIDIA Isaak, V-REP, Habitat), так и на реальных робототехнических платформах (серии МПРМ Зарница, Clearpath Husky).

Ожидаемые результаты
В ходе выполнения проекта планируется получение следующих основных научных и практических результатов: 1. Будут разработаны новые методы и алгоритмы, направленные на решение проблемы привязки символов в контексте задачи приобретения знаний и синтеза действий по перемещению в сложной человеко-ориентированной среде. Ранее интеграция субсимвольных нейросетевых методов машинного обучения и символьных методов моделирования рассуждений и планирования применительно к задачи картирования, локализации и перемещения в сложной динамической среде не проводилась. Имеющиеся подходы для данной задачи, в том числе на основе обучения с подкреплением, не используют возможности пополнения пространственных знаний за счет рассуждений во многом в связи с тем, что имеющиеся методы нейросимвольных вычислений плохо адаптированы к робототехническми задачам. Новый подход к нейросимвольной интеграции, который предполагается развить в настоящем проекте, будет опираться на расширение разрабатываемой участниками проекта каузальной семиотической сети за счет использования высокоразмерных векторно-символьных распределенных представлений для моделирования образной компоненты знаний агента. Это позволит создать эффективный метод пополнения пространственных знаний, применимый в задаче интеллектуальной навигаци. 2. С целью применения разрабатываемых методов в реальных робототехнических системах будут созданы новые быстрые нейросетевые методы восстановления сцены и карты местности и локализации на ней с возможностью сегментации объектов и препятствий. Получаемая данным модулем компьютерного зрения информация будет использоваться для генерации распределенных представлений образной компоненты знаний агента. Будут предложены программные реализации разрабатываемых алгоритмов на энергоэффективных встраиваемых вычислительных комплексах, применяемых в робототехнике. В настоящее время методы одновременного картирования и локализации (SLAM), позволяющие с достаточной точностью поддерживают не всегда достаточную скорость работы на встраиваемых системах. В настоящем проекте предполагается повышать эффективность методов SLAM за счет использования в том числе комплексирования разных модальностей сенсорных данных на базе распределенных представлений. 3. Будут предложены новые методы рассуждения и вывода на основе пространственных знаний, представленных с помощью распределенных представлений каузальной семиотической сети. Пополнение представления о текущей карте и сцене позволит повысить эффективность методов планирования поведения агентом. Ранее пространственные рассуждения на основе распределенных представлений не развивались. 4. Будет разработан новый алгоритм иерархического обучения с подкреплением, использующий подсистему генерации подцелей, обеспечивающий эффективное исследование и перемещение к целевой области в сложной динамической среде. Возможность эффективнее исследовать ранее неизвестную среду существенно улучшит возможности агента по построению карты и локализации в ранее не наблюдаемой динамической среде. Создание данных методов с использованием машинного обучения, в том числе с подкреплением, является актуальной нерешенной задачей в области когнитивной робототехники. 5. Будет реализовано экспериментальное программное обеспечение, тестирующее все основные методы и алгоритмы, которые будут разработаны в настоящем проекте. Будет проведена экспериментальная проверка эффективности и работоспособности предложенных подходов для когнитивных агентов, работающих как в симуляционных средах (NVIDIA Isaak, V-REP, Habitat), так и на реальных робототехнических платформах (серии МПРМ Зарница, Clearpath Husky). Разрабатываемое программное обеспечение может быть использовано в качестве важной подсистемы в таких программных продуктах, как Robotic Operation System (ROS) или Apollo, которые применяются в настоящее время в качестве промышленных стандартов для построения систем управления автономными мобильными робототехническими платформами и беспилотным транспортом.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2020 году
Одной из фундаментальных проблем в области искусственного интеллекта является проблема построения общих универсальных интеллектуальных систем управления поведением как программных, так и робототехнических агентов. К основным фундаментальным барьерам на данном пути необходимо отнести проблему интеграции субсимвольных (в том числе нейросетевых) методов приобретения и обработки первичной информации, получаемой от среды (сенсорных данных), и символьных методов представления концептуальных знаний и вывода на их основе (моделирование рассуждений и планирование поведения). Настоящий проект посвящен разработке новых методов и алгоритмов, позволяющих продвинутся в решении этой фундаментальной научной проблемы в контексте синтеза и управления поведением когнитивного агента в задаче интеллектуальной навигации. Разрабатываемый подход к нейросимвольной интеграции позволит включить в общую систему управления ключевую подсистему пополнения концептуальных знаний и использование результатов рассуждений и планирования в решении таких важнейших базовых поведенческих задач в робототехнике, как картирование, локализация и передвижение в сложной человеко-ориентированной среде. В рамках работ на первом этапе данного проекта были получены следующие результаты. Было предложено оригинальное решение проблемы привязки символов с семиотической точки зрения, использующее знаковую когнитивную архитектуру (SBWM) для иерархического представления сцен и векторные символьные архитектуры (VSA) в качестве вычислительного и репрезентативного инструмента. Архитектура SBWM позволяет привязать символы, участвующие в описании сцены, к сенсорному вводу агента, а VSA позволяет работать с этими символами как с числовыми векторами. Свойства предложенного подхода, в т.ч. его корректностные и емкостные параметры, были продемонстрированы при решении задачи ответа на вопросы по изображению (VQA). Была продемонстрирована его высокая производительность на наборе данных CLEVR. В ходе проекта разработан оригинальный подход к пространственно-временной агрегации карт признаков на разных временных шагах вывода глубокой нейросетевой модели (названный потоком карт признаков, feature map flow, FMF). Исследовано несколько версий FMF: от общей конкатенации до слияния контекстной карты признаков и использования одометрии для предыдущего аффинного преобразования карты признаков. Разработанный метод FMFNet на основе обнаружения признаков для точек центра объектов показал лучшую производительность на наборе данных nuScenes как для 3D-обнаружения, так и для отслеживания. По направлению работ в области иерархического обучения с подкреплением был предложен новый подход, применимый в задаче навигации на основе датчиков RGB-D и одометрии. Предложенный метод LPPO использует иерархический подход для повышения качества нахождения объектов интереса в сценах с большим геодезическим расстоянием и выделения промежуточных целей, ключевых точек, из экспертных траекторий. Данный метод позволил использовать уже обученную модель с высокими показателями на сценах с малым геодезическим расстоянием и не обучать сложную глобальную стратегию выделения подцелей. Построенная модель работает с высокими показателями успеха на различных сценах Matterport, показывая наилучший результат среди аналогичных алгоритмов. На следующем этапе проекта будут расширены возможности создаваемых методов за счет гибридизации векторных представлений описания сцен, а разрабатываемые модули будут использоваться для построения более эффективной системы по навигации мобильных роботов в помещениях.

 

Публикации

1. Давыдов В., Люсько Т., Панов А.И. Self and Other Modelling in Cooperative Resource Gathering with Multi-Agent Reinforcement Learning Brain-Inspired Cognitive Architectures for Artificial Intelligence: BICA*AI 2020. Advances in Intelligent Systems and Computing, Vol.1310 (год публикации - 2021).

2. Скрынник А.А., Староверов А.В., Айтыгулов Э.Э., Аксенов К.А., Давыдов В.Д., Панов А.И. Forgetful experience replay in hierarchical reinforcement learning from expert demonstrations Knowledge-Based Systems, Vol. 218, 106844 (год публикации - 2021).

3. Староверов А., Юдин Д.А., Белкин И., Соломенцев Я.К., Панов А.И. Real-Time Object Navigation with Deep Neural Networks and Hierarchical Reinforcement Learning IEEE Access, Vol. 8, pp. 195608-195621 (год публикации - 2020).


Аннотация результатов, полученных в 2021 году
Настоящий проект посвящен разработке новых методов и алгоритмов, позволяющих продвинутся в решении фундаментальной научной проблемы в контексте синтеза и управления поведением когнитивного агента – в проблеме привязки символов. В рамках проекта разрабатывается новый подход к нейросимвольной интеграции, который позволяет включить в общую систему управления ключевую подсистему пополнения концептуальных знаний и использование результатов рассуждений и планирования в решении таких важнейших базовых поведенческих задач в робототехнике, как картирование, локализация и передвижение в сложной человеко-ориентированной среде. В продолжении работа на втором этапе был подготовлен новый набор данных HISNav VQA, направленный на разработку мультимодальных моделей для визуальной навигации в средах, ориентированных на человека. На данном наборе данных была продемонстрирована работа векторно-семиотической архитектуры, который показал свою эффективность на синтетических вопросах. Это дает возможность создавать вопросы, специфичные для конкретной области, с высокой вероятностью получения правильного ответа, что имеет решающее значение для прикладных задач в области интеллектуальных воплощенных ассистентов. Был разработан новый двухэтапный векторно-символьный подход (алгоритм TSVLoc) для построения семантического представления сцены на основе семантических карт и карт глубины. Эксперименты показали, что метод семантического поиска изображений TSVLoc значительно превосходит предыдущие методы, основанные на популярных моделях нейронных сетей HF-Net, NetVLAD и Patch-NetVLAD. Был разработан алгоритм построения карты мобильного робота на основе объединения данных камеры и лидара мобильных роботов, в том числе результатов обнаружения и сегментации объектов среды. Для решения задачи глобальной локализации мобильного робота был предложен новый метод единого векторного представления изображения камеры и лидарного скана, сочетающий в себе достоинства мультимодального метода MinkLoc++ и нейронной сети SeqNet, формирующей единое векторное представления последовательности изображений. В направлении развития методов обучения с подкреплением был разработан новый подход к решению задачи навигации до объекта по изображению ObjectGoal. В обновленной формулировке задаче с использованием ориентиров была предложена новая иерархическая архитектура на базе методов обучения с подкреплением. При обучении формируются так называемые навыки, которые можно комбинировать и повторно использовать в различных навигационных ситуациях без изменений. Показатель успеха предложенного метода удваивается с 20% для современных методов до 46% с предобученным модулем сегментации объектов.

 

Публикации

1. Айтыгулов Э., Панов А.И. Transfer Learning with Demonstration Forgetting for Robotic Manipulator Procedia Computer Science, Vol. 186, p. 374-380 (год публикации - 2021).

2. Боковой А., Муравьев К. Assessment of Map Construction in vSLAM 2021 International Siberian Conference on Control and Communications (SIBCON), pp. 1-6 (год публикации - 2021).

3. Жолус А., Панов А.И. Case-based Task Generalization in Model-based Reinforcement Learning Artificial General Intelligence. AGI 2021. Lecture Notes in Computer Science, Vol. 13154, p.344-354 (год публикации - 2022).

4. Ковалёв А.К., Шабан М., Осипов Е., Панов А.И. Vector Semiotic Model for Visual Question Answering Cognitive Systems Research, Vol. 71, p. 52-63 (год публикации - 2022).

5. Угадяров Л., Скрынник А., Панов А.И. Long-Term Exploration in Persistent MDPs Advances in Soft Computing. MICAI 2021. Part I. Lecture Notes in Computer Science, Vol.13067, p.108-120 (год публикации - 2021).