КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер 18-71-00143

НазваниеИерархическое обучение с подкреплением в задаче приобретения концептуальных процедурных знаний когнитивными агентами

РуководительПанов Александр Игоревич, Кандидат физико-математических наук

Организация финансирования, регион федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук", г Москва

Период выполнения при поддержке РНФ

07.2018 - 06.2020

Конкурс№29 - Конкурс 2018 года по мероприятию «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-201 - Искусственный интеллект и принятие решений

Ключевые словаиерархическое обучение с подкреплением, когнитивные агенты, проблема символизации, обучение действиям, теория деятельности

Код ГРНТИ28.23.23

СтатусУспешно завершен

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Обучение с подкреплением является одним из разделов машинного обучения, в котором в явном виде присутствует взаимодействие интеллектуального агента (робота) со средой и учитывается обратная связь, возникающая при совершении действий агентом. Принятая в обучении с подкреплением постановка задачи, объединяющая приобретение знаний, планирование и применение плана, наиболее естественна в области когнитивной робототехники, где предполагается, что робот обучается в процессе взаимодействия с внешней средой. Однако, классические методы решения задачи обучения с подкреплением малоэффективны при большой размерности пространства состояний внешней среды и при отложенной обратной связи, поступающей от среды с задержкой. В этом случае применяются две модификации классических методов: приближенные подходы, в которых в качестве универсальных аппроксиматоров могут использоваться, например, глубокие нейронные сети (так называемое глубокое обучение с подкреплением) и иерархическое обучение с подкреплением, в котором допускается образование более сложных операций, мета-действий или навыков, на основе элементарных изначально доступных операций. В настоящем проекте предлагается объединить эти подходы для разработки нового метода иерархического обучения с подкреплением, обладающего рядом ключевых особенностей: а) использование понятия внутреннего пространства состояний, действия агента в котором приводят к обновлению иерархии операций, б) чередование процедур абстрагирования действий и абстрагирования состояний внешней среды в процессе обучения, в) использование глубоких нейронных сетей и кортикоморфных алгоритмов по приближению функций оценок качества состояний и планов (стратегий). Новый метод, как ожидается, продемонстрирует большую эффективность в задачах высокой размерности и отложенным подкреплением от среды по сравнению с имеющимися мировыми аналогами, а также позволит эффективно реализовать перенос знаний на новые задачи из того же класса и увеличить мощность класса задач, для которых возможно применение переноса знаний. Разработанный метод предполагается использовать для решения так называемой проблемы символизации или привязки символов, актуальной в робототехнике. Эта проблема заключается в том, что символы, которыми оперируют классические методы искусственного интеллекта (например, при планировании), не связаны с сенсорными данными, только по которым робототехническая система может судить о текущем состоянии внешней среды. Иными словами, семантика концептуальных знаний агента не связана с получаемой извне информацией. Для решения этой проблемы будут применены методы так называемой нейросимвольной обработки информации. В качестве данных о внешней среде предполагается использовать данные с сенсоров, следящих как за внешним окружением, так и за внутренними параметрами робота (агента). Формируемые в процессе обучения с подкреплением абстрактные действия и обобщенные состояния среды будут пополнять концептуальные знания робота – расширять множество понятий, над которыми агент может совершать операции вывода как с обычными символами, например, языка исчислений первого порядка, либо проводить высокоуровневое концептуальное планирование. В качестве промежуточного способа представления знаний будет использована модель каузальных сетей, разрабатываемая руководителем проекта. Для практической проверки предлагаемых методов и подходов в процессе реализации проекта предполагается проведение как модельных экспериментов в среде моделирования Gazebo, так и натурных испытаний на подвижной робототехнической платформе с манипулятором Nexus c2-c.

Ожидаемые результаты
В результате выполнения проекта планируется разработать новый метод иерархического обучения с подкреплением для составления плана действий по решению новой задачи с большой размерностью пространства состояний и отложенными вознаграждениям от среды. Разрабатываемый алгоритм будет обладать рядом принципиальных особенностей, которые позволят улучшить существующие решения в этой области: а) использование понятия внутреннего пространства состояний, действия агента в которой приводят к обновлению иерархии операций, что позволит применить эффективное Q-обучение для автоматического построения мета-операций; б) чередование процедур абстрагирования действий и абстрагирования состояний внешней среды в процессе обучения, что позволит ускорить процесс сходимости решения и уменьшить пространство поиска; в) использование глубоких нейронных сетей и кортикоморфных алгоритмов по приближению функций оценок качества состояний и планов (стратегий). Предполагается, что построенные алгоритм будет превосходить существующие аналоги по ряду метрик, в частности скорости обучения и качеству обобщения. Разработанный алгоритм иерархического обучения с подкреплением будет интегрирован в новый метод нейросимвольной обработки для решения актуальной в робототехнике проблемы привязки концептуальных знаний робототехнической системы к данным, получаемых от сенсоров. Алгоритм обучения будет использован для формирования мета-операций, применимых для решения широкого класса задач, и новых понятий на основе абстракции состояний внешней среды. Для получения символьного представления будет проведена интеграция результатов обучения с развиваемой руководителем проекта моделью каузальных сетей. Предлагаемый подход является новым и внесет существенный вклад в области нейросимвольной обработки за счет использования более эффективных алгоритмов обучения, в том числе с подкреплением, что предпринимается впервые. Новый метод обучения с подкреплением позволит эффективно реализовать перенос знаний на новые задачи из того же класса и увеличить мощность класса задач, для которых возможно применение переноса знаний. Разрабатываемый подход к решению проблемы привязки символов позволит создать более автономные робототехнические платформы и расширить спектр их применения. Последнее, в свою очередь, позволить снизить технологические барьеры, связанные с внедрением робототехнических систем в промышленность и сферу услуг. Наиболее перспективной областью внедрения разрабатываемых методов и моделей является сфера беспилотных транспортных средств и сервисных роботов (складских роботов и роботов-уборщиков).

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Аннотация результатов, полученных в 2018 году
Обучение с подкреплением является одним из разделов машинного обучения, в котором в явном виде присутствует взаимодействие интеллектуального агента (робота) со средой и учитывается обратная связь, возникающая при совершении действий агентом. Принятая в обучении с подкреплением постановка задачи, объединяющая приобретение знаний, планирование и применение плана, наиболее естественна в области когнитивной робототехники, где предполагается, что робот обучается в процессе взаимодействия с внешней средой. Однако, классические методы решения задачи обучения с подкреплением малоэффективны при большой размерности пространства состояний внешней среды и при отложенной обратной связи, поступающей от среды с задержкой. В этом случае применяются две модификации классических методов: приближенные подходы, в которых в качестве универсальных аппроксиматоров могут использоваться, например, глубокие нейронные сети (так называемое глубокое обучение с подкреплением) и иерархическое обучение с подкреплением, в котором допускается образование более сложных операций, мета-действий или навыков, на основе элементарных изначально доступных операций. В ходе работ по первому этапу проекта был разработан новый алгоритм иерархического обучения с подкреплением, включающий процедуру абстрагирования действий и абстрагирования состояний внешней среды в процессе обучения. Особое внимание было уделено автоматическому формированию иерархии действий. В качестве основы был использован метод абстрактных автоматов, который хорошо подходит для робототехнических задач. Для автоматического формирования иерархии было введено понятие внутренней среды, действия в которой приводят к изменению иерархии. Для определения подцелей была использована концепция «узких местах», которые являются состояниями среды, обязательными для посещения. Для определения таких подцелей была предложена новая метрика. В построенном алгоритме CHAMs используется идея функциональной кластеризации, которая предполагает, что каждая подцель должна соответствовать своему классу состояний. В CHAMs происходит одновременное определение кластеров и построение общего абстрактного автомата, который объединяет вспомогательные, необходимые для решения частных подзадач. В направлении аппроксимационных подходов на приближенных к реальным робототехническим условиям средах была продемонстрирована эффективность использования аппроксиматоров на базе глубоких нейронных сетей в комбинации с иерархическим подходом. Было показано, что существует возможность дообучения, работающая за счет того, что полученные знания о мета-действиях не зависят от конкретных условий задачи и применимы для всего класса таких задач. Было продемонстрировано, что в схожих архитектурах аппроксиматоров, используемых для обучения мета-действий нижние слои моделей могут быть объединены. Реализация этой идеи привела к созданию прототипа единого нейросетевого аппроксиматора, который позволяет определять количество необходимых мета-действий динамически и проводить обучение всем стратегиям и подстратегиям в едином цикле. В ходе работ по проекту были разработаны новые модельные среды, приближенные к реальным робототехническим задачам. Данные, используемые агентом в решаемых задачах представляют собой в первую очередь набор сенсорных данных, определяющих состояние внешней среды. В первой среде манипулятор с магнитом производит действия над металлическими кубиками, а во вторая предложенная среда предназначена для имитации движение беспилотного транспортного средства на перекрестке равнозначных дорог. Были получены результаты сравнительных экспериментов разработанных методов и подходов в предложенных средах, продемонстрировавших превосходство разработанных алгоритмов по сравнению с существующими аналогами.

Публикации

1. Градсков А.А., Панов А.И. Капсульные графы вычислений в задаче обучения с подкреплением Восьмая Международная конференция "Системный анализ и информационные технологии" САИТ-2019 (8-14 июля 2019г., г. Иркутск, Россия): Труды конференции, - (год публикации - 2019)

2. Панов А.И., Кузьмин В. Hierarchical Reinforcement Learning with Options and United Neural Network Approximation Proceedings of the Third International Scientific Conference “Intelligent Information Technologies for Industry” (IITI’18), p. 453-462 (год публикации - 2018) https://doi.org/10.1007/978-3-030-01818-4_45

3. Шикунов М.А., Панов А.И. Hierarchical Reinforcement Learning Approach for the Road Intersection Task Biologically Inspired Cognitive Architectures 2019, - (год публикации - 2019)

Аннотация результатов, полученных в 2019 году
Обучение с подкреплением является одним из разделов машинного обучения, в котором в явном виде присутствует взаимодействие интеллектуального агента (робота) со средой и учитывается обратная связь, возникающая при совершении действий агентом. Классические методы решения задачи обучения с подкреплением малоэффективны при большой размерности пространства состояний внешней среды и при отложенной обратной связи, поступающей от среды с задержкой. В настоящем проекты мы предлагаем развивать новый метод, которые комбинирует два известных подхода по адаптации обучения с подкреплением для сложных сред. Это приближенные подходы, в которых в качестве универсальных аппроксиматоров могут использоваться различные архитектуры глубоких нейронные сети, в том числе и новые кортикоморфные, и иерархическое обучение с подкреплением, в котором допускается образование более сложных операций, мета-действий или навыков, на основе элементарных изначально доступных операций. На втором этапе проекта были продолжены работы по развитию этого метода. Были проведены работы по расширению существующих и разработанных на первом этапе проекта иерархических методов обучения с подкреплением путем добавления биологически правдоподобных методов обучения и кортикоморфных архитектур нейронных сетей. Были предложены две реализации таких моделей, которые могут выступать универсальными аппроксиматорами параметризованных функций полезности и стратегии агента. Первая модель использует понятие капсулы, являющейся расширением модели сверточного слоя глубоких нейронных сетей, в которой признаки объектов представляются не скалярными значениями, а векторами, содержащими характеристики выделяемых объектов из входных данных. Капсульные слои которые позволяют динамически формировать множество значимых признаков в задачах распознавания и классификации и показывают некоторое преимущество в задачах обучения с подкреплением, но предложенная нами реализация требует существенно больше вычислительных ресурсов для достижения необходимых результатов по сравнению с классическими подходами. Более перспективный с точки зрения производительности подход на базе иерархической временный памяти был нами реализован в задаче классификации изображения, где за передвижение фокуса внимания отвечает один из вариантов обучения с подкреплением. Иерархическая временная память предназначена для поиска и распознавания частых последовательностей во входных данных, а также для прогнозирования последующих значений входных сигналов. Способность такого аппроксиматора более эффективно обобщать пространственные признаки и выделять причинно-следственные связи показала свою эффективность, и предложенная нами модель обучения продемонстрировала возможность воспроизводить оптимальные паттерны движения. Была усовершенствована модель каузальных сетей с целью построения механизма добавления новых узлов, представляющих как обобщенные состояния среды, так и обобщенные мета-операции. Базовым элементов узлов каузальных сетей является каузальная матрица. Структура каузальной матрицы позволяет единым образом кодировать как статическую информацию и признаки объекта, так и динамические процессы. Встроенная возможность задания причин и эффектов позволяет кодировать базовое отношение, выделяемое по данным о внешней среде – причинно-следственное. Формирование иерархической структуры действий и мета-действий в результаты работы иерархических методов обучения с подкреплением позволяет автоматически формировать процедурные каузальные матрицы и таким образом пополнять узлы каузальной сети. Существовавшая ранее модель каузальных сетей была развита с целью построения механизма модификации сетей по результатам обучения с подкреплением и получила название акторная каузальная сеть. Алгоритм пополнения сети на базе модели аткор-критика состоит из двух базовых шагов: оценка действий и мета-действий (действий более высокого уровня иерархии) и улучшение стратегии. В настоящей реализации используются параметризованные функции аппроксимации, в роли которых могут выступать кортикоморфные модели. Было проведено экспериментального исследования алгоритмов обучения с подкреплением, способных работать с непрерывным множеством действий, с использованием одной из разработанных ранее или других симуляционных сред. Развитые в настоящем проекте иерархически идеи были применены в сложной задаче обучения поведения агента в среде Minecraft, где агенту ставится цель по сбору ресурсов и конструированию новых предметов. Данная среда считается одной из самых сложных для алгоритмов обучения с подкреплением, т.к. агенту поступает только визуальная информация, в среде много различных подцелей, а пространство действий является гибридным – в нем сочетаются как дискретные, таки непрерывные действия. Для повышения эффективности работы агента использовались экспертные демонстрации, которые могут быть неэффективными и зашумленными с точки зрения достижения определенных подцелей. В рамках проекта были предложены различные механизмы извлечения данных из экспертных демонстраций и организации иерархической памяти агента, которая соответствует иерархии подцелей в среде. Участники проекта предложили решение на базе разработанных в проекте методов и подходов, которое на международном соревновании MineRL заняло первое место при решение агентом комплексной задачи по добыче ресурсов в среде Minecraft. Проведение данных экспериментов призвано расширить область применения методов обучения с подкреплением, в том числе иерархических, в перспективе их использования на реальных робототехнических задачах.

Публикации

1. Скрынник А., Староверов А., Айтыгулов Э., Аксенов К., Давыдов В., Панов А.И. Hierarchical Deep Q-Network from Imperfect Demonstrations in Minecraft Cognitive Systems Research, vol. 65, p. 74-78 (год публикации - 2021) https://doi.org/10.1016/j.cogsys.2020.08.012

2. Скрынник А.А., Панов А.И. Hierarchical Reinforcement Learning with Clustering Abstract Machines Artificial Intelligence. RCAI 2019. Communications in Computer and Information Science, vol.1093, pp.30-43 (год публикации - 2019) https://doi.org/10.1007/978-3-030-30763-9_3

3. Юдин Д.А., Скрынник А.,Криштопик А., Белкин И., Панов А.И. Object Detection with Deep Neural Networks for Reinforcement Learning in the Task of Autonomous Vehicles Path Planning at the Intersection Optical Memory and Neural Networks, Vol. 28, No.4, Pp. 283-295 (год публикации - 2019) https://doi.org/10.3103/S1060992X19040118

4. Юнес А., Панов А.И. Toward Faster Reinforcement Learning for Robotics : Using Gaussian Processes RAAI Summer School 2019. Lecture Notes in Computer Science, vol. 11866, pp.160-174 (год публикации - 2019) https://doi.org/10.1007/978-3-030-33274-7_11

5. Скрынник А., Староверов А., Айтыгулов Э., Аксенов К., Панов А.И. Hierarchical Deep Q-Network from Imperfaect Demonstrations in Minecraft ArXiv, NeurIPS 2019 Competition Track, - (год публикации - 2019)

Возможность практического использования результатов
Разработанные в рамках настоящего проекта методы иерархического обучения с подкреплением и способы представления знаний интеллектуальным агентом могут быть использованы для повышения автономности робототехнических систем, которые используются в различных областях экономики: беспилотные автомобили, мобильные роботы-курьеры, социальные роботы – помощники. Существующие системы управления робототехническими платформами могут быть дополнены обучаемым модулем на базе разрабатываемых в данном проекте методов, что позволит им быстрее и эффективнее адаптироваться к изменяющимся условиям внешней среды.