Learning an Adversarial World Model for Automated Curriculum Generation in MARL
2509.03771v1
cs.LG, cs.AI, cs.MA, 68T05, 91A26, 90C40, I.2.6; I.2.11
2025-09-06
Авторы:
Brennen Hill
Резюме на русском
## Контекст
Область исследования сосредоточена на развитии эмбеддированных систем и самообучающихся агентов, которые могут эффективно решать задачи в сложных, непредсказуемых средах. Одной из сложностей в этой области является ограниченность традиционных методов построения окружающих сред, которые часто имеют жестко заданные функциональности и не могут адаптироваться к возникающим сложностям. Таким образом, возникает потребность в адаптивных методах построения окружения, которые могут эволюционировать вместе с участвующими в них агентами. Мотивация заключается в создании самостоятельных, целеустремленных механизмов, которые могут создавать сложные, но управляемые среды для повышения уровня обучения агентов.
## Метод
Ядром работы лежит концепция **adversarial co-evolution**, при которой создается конкурентное взаимодействие между двумя агентами: **Attacker** и **Defender**. **Attacker** активно строит целевые мировые модели (например, конфигурации противников), нацеленные на эксплуатацию уязвимостей **Defender**. Наоборот, **Defender** учится совместно решать задачи в условиях, сформированных **Attacker**. Этот процесс включает в себя не только адаптацию **Attacker** к усилению **Defender**, но и генерацию сценариев, нацеленных на раскрытие новых стратегических подходов. Эта система генерирует эволюционный круг, где каждый агент постоянно стимулирует другого к более высоким требованиям. Архитектура включает генеративные модели, которые могут учитывать цель и добывать целевые состояния в среде.
## Результаты
Эксперименты проводились в симуляционной среде с несколькими агентами, где **Attacker** стремился к усложнению задач для **Defender**. Результаты показали, что **Attacker** способен обучиться генерировать сложные стратегические формации, например, фланговые и щитовые, при этом **Defender** развивал сложные стратегии, такие как координированный фокусный огонь и распределение для обезвреживания угроз. Эти результаты демонстрируют то, как адаптивная среда может привести к возникновению более сложных стратегий и повышению уровня хаоса в среде. Эти эффекты были измерены с помощью метрик, оценивающих сложность и разнообразие ситуаций.
## Значимость
Результаты имеют значительное применение в области обучения машин, автоматизированной игровой генерации и науке о данных. Этот подход может быть применен в симуляционных средах для обучения агентов в сложных сценариях, например, в области систем безопасности или военных задач. Он обеспечивает не только более сложную среду, но и поддерживает устойчивость и вариативность. Одним из выгодных аспектов
Abstract
World models that infer and predict environmental dynamics are foundational
to embodied intelligence. However, their potential is often limited by the
finite complexity and implicit biases of hand-crafted training environments. To
develop truly generalizable and robust agents, we need environments that scale
in complexity alongside the agents learning within them. In this work, we
reframe the challenge of environment generation as the problem of learning a
goal-conditioned, generative world model. We propose a system where a
generative **Attacker** agent learns an implicit world model to synthesize
increasingly difficult challenges for a team of cooperative **Defender**
agents. The Attacker's objective is not passive prediction, but active,
goal-driven interaction: it models and generates world states (i.e.,
configurations of enemy units) specifically to exploit the Defenders'
weaknesses. Concurrently, the embodied Defender team learns a cooperative
policy to overcome these generated worlds. This co-evolutionary dynamic creates
a self-scaling curriculum where the world model continuously adapts to
challenge the decision-making policy of the agents, providing an effectively
infinite stream of novel and relevant training scenarios. We demonstrate that
this framework leads to the emergence of complex behaviors, such as the world
model learning to generate flanking and shielding formations, and the defenders
learning coordinated focus-fire and spreading tactics. Our findings position
adversarial co-evolution as a powerful method for learning instrumental world
models that drive agents toward greater strategic depth and robustness.