In-Context Reinforcement Learning via Communicative World Models

2508.06659v1 cs.LG, cs.AI 2025-08-13
Авторы:

Fernando Martinez-Lopez, Tao Li, Yingdong Lu, Juntao Chen

Резюме на русском

## Контекст В области искусственного интеллекта (ИИ), решения задач вне зависимости от наличия обширных данных или тщательной оптимизации, является ключевым заданием. Одним из важных подходов является вне-контекстное обучение (off-context learning), которое обычно используется для обучения агентов в среде с постоянным взаимодействием и заданными целями. Однако, возникает проблема, что агенты не всегда могут перейти на новые задачи или условия без перестройки их политик и представлений. Есть необходимость развития методов, которые позволяют агентам обучаться в контексте и при этом успешно применяться в новых и неизвестных задачах. ## Метод Предлагаемый подход, названный CORAL (Communicative Representation for Adaptive RL), предлагает решение для вне-контекстного обучения (ICRL), используя технику эволюции мировых моделей (world models). На первом этапе развития CORAL, Информационный Агент (IA) обучается на разнообразных задачах и создает мировую модель, которая декодирует входные сигналы в контекстуальные сообщения. Эти сообщения генерируются с помощью конкретного принципа, основанного на коазиентности (causal influence), который определяет, как сообщение влияет на поведение агента в среде. На втором этапе, контрольный агент (CA) использует эти сообщения для решения новых задач, без необходимости повторного обучения. ## Результаты Авторы проводили эксперименты в различных контекстах, в том числе в неизвестных и спарсных средах. Использовались различные данные, в том числе задачи с переменной структурой и сеткой задач. Результаты показали, что CORAL позволяет существенно улучшить эффективность обучения (sample efficiency) и способствует успешному выполнению задач в новых условиях. Например, агент, использующий CORAL, может справиться с задачей в неизвестной среде с нулевым дозапросом (zero-shot), используя только предобученную мировую модель. ## Значимость Предлагаемый подход может быть применен в различных областях, в том числе в играх, в ситуациях с реальным взаимодействием с окружением, в системах с автоматизированным управлением. Он обеспечивает значительное улучшение эффективности обучения и может быть применен для решения проблем, связанных с ограниченным доступом к данным. Благодаря декомпозиции проблемы на две части — генерации контекста и его использования — CORAL упрощает процесс обучения и позволяет использовать решения для различных задач без копирования данных. ## Выводы В итоге, CORAL демонстрирует большую эффективность в решении задач вне-контекстного обучения. Он успешно решает проблему перехода к новым задачам без полного перестроения модели. Будущие исследования будут направлены на улучшение моделей контекста и выявление в

Abstract

Reinforcement learning (RL) agents often struggle to generalize to new tasks and contexts without updating their parameters, mainly because their learned representations and policies are overfit to the specifics of their training environments. To boost agents' in-context RL (ICRL) ability, this work formulates ICRL as a two-agent emergent communication problem and introduces CORAL (Communicative Representation for Adaptive RL), a framework that learns a transferable communicative context by decoupling latent representation learning from control. In CORAL, an Information Agent (IA) is pre-trained as a world model on a diverse distribution of tasks. Its objective is not to maximize task reward, but to build a world model and distill its understanding into concise messages. The emergent communication protocol is shaped by a novel Causal Influence Loss, which measures the effect that the message has on the next action. During deployment, the previously trained IA serves as a fixed contextualizer for a new Control Agent (CA), which learns to solve tasks by interpreting the provided communicative context. Our experiments demonstrate that this approach enables the CA to achieve significant gains in sample efficiency and successfully perform zero-shot adaptation with the help of pre-trained IA in entirely unseen sparse-reward environments, validating the efficacy of learning a transferable communicative representation.

Ссылки и действия