📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Learning an Adversarial World Model for Automated Curriculum Generation in MARL

2025-09-06

Авторы:

Brennen Hill

## Контекст Область исследования сосредоточена на развитии эмбеддированных систем и самообучающихся агентов, которые могут эффективно решать задачи в сложных, непредсказуемых средах. Одной из сложностей в этой области является ограниченность традиционных методов построения окружающих сред, которые часто имеют жестко заданные функциональности и не могут адаптироваться к возникающим сложностям. Таким образом, возникает потребность в адаптивных методах построения окружения, которые могут эволюционировать вместе с участвующими в них агентами. Мотивация заключается в создании самостоятельных, целеустремленных механизмов, которые могут создавать сложные, но управляемые среды для повышения уровня обучения агентов. ## Метод Ядром работы лежит концепция **adversarial co-evolution**, при которой создается конкурентное взаимодействие между двумя агентами: **Attacker** и **Defender**. **Attacker** активно строит целевые мировые модели (например, конфигурации противников), нацеленные на эксплуатацию уязвимостей **Defender**. Наоборот, **Defender** учится совместно решать задачи в условиях, сформированных **Attacker**. Этот процесс включает в себя не только адаптацию **Attacker** к усилению **Defender**, но и генерацию сценариев, нацеленных на раскрытие новых стратегических подходов. Эта система генерирует эволюционный круг, где каждый агент постоянно стимулирует другого к более высоким требованиям. Архитектура включает генеративные модели, которые могут учитывать цель и добывать целевые состояния в среде. ## Результаты Эксперименты проводились в симуляционной среде с несколькими агентами, где **Attacker** стремился к усложнению задач для **Defender**. Результаты показали, что **Attacker** способен обучиться генерировать сложные стратегические формации, например, фланговые и щитовые, при этом **Defender** развивал сложные стратегии, такие как координированный фокусный огонь и распределение для обезвреживания угроз. Эти результаты демонстрируют то, как адаптивная среда может привести к возникновению более сложных стратегий и повышению уровня хаоса в среде. Эти эффекты были измерены с помощью метрик, оценивающих сложность и разнообразие ситуаций. ## Значимость Результаты имеют значительное применение в области обучения машин, автоматизированной игровой генерации и науке о данных. Этот подход может быть применен в симуляционных средах для обучения агентов в сложных сценариях, например, в области систем безопасности или военных задач. Он обеспечивает не только более сложную среду, но и поддерживает устойчивость и вариативность. Одним из выгодных аспектов

Annotation:

World models that infer and predict environmental dynamics are foundational to embodied intelligence. However, their potential is often limited by the finite complexity and implicit biases of hand-crafted training environments. To develop truly generalizable and robust agents, we need environments that scale in complexity alongside the agents learning within them. In this work, we reframe the challenge of environment generation as the problem of learning a goal-conditioned, generative world mode...

ID: 2509.03771v1 cs.LG, cs.AI, cs.MA, 68T05, 91A26, 90C40, I.2.6; I.2.11

arXiv PDF