In-Context Reinforcement Learning via Communicative World Models
2508.06659v1
cs.LG, cs.AI
2025-08-13
Авторы:
Fernando Martinez-Lopez, Tao Li, Yingdong Lu, Juntao Chen
Резюме на русском
## Контекст
В области искусственного интеллекта (ИИ), решения задач вне зависимости от наличия обширных данных или тщательной оптимизации, является ключевым заданием. Одним из важных подходов является вне-контекстное обучение (off-context learning), которое обычно используется для обучения агентов в среде с постоянным взаимодействием и заданными целями. Однако, возникает проблема, что агенты не всегда могут перейти на новые задачи или условия без перестройки их политик и представлений. Есть необходимость развития методов, которые позволяют агентам обучаться в контексте и при этом успешно применяться в новых и неизвестных задачах.
## Метод
Предлагаемый подход, названный CORAL (Communicative Representation for Adaptive RL), предлагает решение для вне-контекстного обучения (ICRL), используя технику эволюции мировых моделей (world models). На первом этапе развития CORAL, Информационный Агент (IA) обучается на разнообразных задачах и создает мировую модель, которая декодирует входные сигналы в контекстуальные сообщения. Эти сообщения генерируются с помощью конкретного принципа, основанного на коазиентности (causal influence), который определяет, как сообщение влияет на поведение агента в среде. На втором этапе, контрольный агент (CA) использует эти сообщения для решения новых задач, без необходимости повторного обучения.
## Результаты
Авторы проводили эксперименты в различных контекстах, в том числе в неизвестных и спарсных средах. Использовались различные данные, в том числе задачи с переменной структурой и сеткой задач. Результаты показали, что CORAL позволяет существенно улучшить эффективность обучения (sample efficiency) и способствует успешному выполнению задач в новых условиях. Например, агент, использующий CORAL, может справиться с задачей в неизвестной среде с нулевым дозапросом (zero-shot), используя только предобученную мировую модель.
## Значимость
Предлагаемый подход может быть применен в различных областях, в том числе в играх, в ситуациях с реальным взаимодействием с окружением, в системах с автоматизированным управлением. Он обеспечивает значительное улучшение эффективности обучения и может быть применен для решения проблем, связанных с ограниченным доступом к данным. Благодаря декомпозиции проблемы на две части — генерации контекста и его использования — CORAL упрощает процесс обучения и позволяет использовать решения для различных задач без копирования данных.
## Выводы
В итоге, CORAL демонстрирует большую эффективность в решении задач вне-контекстного обучения. Он успешно решает проблему перехода к новым задачам без полного перестроения модели. Будущие исследования будут направлены на улучшение моделей контекста и выявление в
Abstract
Reinforcement learning (RL) agents often struggle to generalize to new tasks
and contexts without updating their parameters, mainly because their learned
representations and policies are overfit to the specifics of their training
environments. To boost agents' in-context RL (ICRL) ability, this work
formulates ICRL as a two-agent emergent communication problem and introduces
CORAL (Communicative Representation for Adaptive RL), a framework that learns a
transferable communicative context by decoupling latent representation learning
from control. In CORAL, an Information Agent (IA) is pre-trained as a world
model on a diverse distribution of tasks. Its objective is not to maximize task
reward, but to build a world model and distill its understanding into concise
messages. The emergent communication protocol is shaped by a novel Causal
Influence Loss, which measures the effect that the message has on the next
action. During deployment, the previously trained IA serves as a fixed
contextualizer for a new Control Agent (CA), which learns to solve tasks by
interpreting the provided communicative context. Our experiments demonstrate
that this approach enables the CA to achieve significant gains in sample
efficiency and successfully perform zero-shot adaptation with the help of
pre-trained IA in entirely unseen sparse-reward environments, validating the
efficacy of learning a transferable communicative representation.
Ссылки и действия
Дополнительные ресурсы: