Unsupervised Partner Design Enables Robust Ad-hoc Teamwork

2508.06336v1 cs.LG, cs.AI, cs.HC, cs.MA 2025-08-12

Авторы:

Constantin Ruhdorfer, Matteo Bortoletto, Victor Oei, Anna Penzkofer, Andreas Bulling

Резюме на русском

## Контекст В последние годы привлекательность исследований в области мультиагентных систем поднимается в связи с ростом интереса к системам, требующим коллективного участия множества субъектов. Одним из ключевых аспектов этой области является "адекватное ад-хок-сотрудничество", где агенты необходимо адекватно реагировать на неизвестных или неожиданных партнеров во время выполнения задач. Несмотря на прогресс в зонах тренировки, оценки и оптимизации мультиагентных систем, основной проблемой является выделение партнеров, которые могут способствовать эффективному обучению в автономных условиях, без ручного вмешательства. Это сделано необходимым тем, что подготовленные предварительно партнеры часто не могут полностью отражать широкий спектр возможных стилей игры, что ставит под угрозу качество обучения и рост потенциала робота. ## Метод Мы предлагаем Unsupervised Partner Design (UPD) - рамочный подход к генерации партнеров для ад-хок-сотрудничества в автономной среде, который не требует предварительно тренированных партнеров, никаких приведенных параметров, или дополнительных знаний о статистике партнеров. UPD опирается на методы стохастического смешивания политик агента с различными случайными поведениями, которое позволяет создавать диверсные партнеры. Эти партнеры, в свою очередь, оцениваются с помощью метрики learnability, ориентированной на максимизацию многообразия в стилях игры и улучшение качества обучения агента. Этот подход включает в себя гибкие модификации индивидуальной политики агента, гарантирующие, что партнеры будут достаточно сложными для продолжительного обучения. ## Результаты Мы провели эксперименты на двух популярных средах: Overcooked-AI и решении Overcooked Generalisation Challenge. Метод UPD показал себя как более эффективен по сравнению с популяционными и популяционно-свободными методами. Мы рассмотрели вычислительные результаты в терминах значения вознаграждения, качества обучения, и подкреплено это тем, что UPD адаптируется быстрее и демонстрирует более стабильные результаты в динамических ситуациях. Особое внимание уделено тому, что UPD может успешно интегрироваться с Unsupervised Environment Design, создавая первую методику, которая полностью независима от ручных настроек и может создавать гибкие курсы обучения как в партнерских, так и в средственных аспектах. ## Значимость UPD демонстрирует потенциал для серьезного расширения возможностей в области мультиагентного обучения, особенно в условиях автономного тренирования. Он позволяет создавать более гибкие и прочные партнеры для коллективной работы, что может быть применимо в таких сферах, как

Abstract

We introduce Unsupervised Partner Design (UPD) - a population-free, multi-agent reinforcement learning framework for robust ad-hoc teamwork that adaptively generates training partners without requiring pretrained partners or manual parameter tuning. UPD constructs diverse partners by stochastically mixing an ego agent's policy with biased random behaviours and scores them using a variance-based learnability metric that prioritises partners near the ego agent's current learning frontier. We show that UPD can be integrated with unsupervised environment design, resulting in the first method enabling fully unsupervised curricula over both level and partner distributions in a cooperative setting. Through extensive evaluations on Overcooked-AI and the Overcooked Generalisation Challenge, we demonstrate that this dynamic partner curriculum is highly effective: UPD consistently outperforms both population-based and population-free baselines as well as ablations. In a user study, we further show that UPD achieves higher returns than all baselines and was perceived as significantly more adaptive, more human-like, a better collaborator, and less frustrating.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Unsupervised Partner Design Enables Robust Ad-hoc Teamwork

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Conformal Set-based Human-AI Complementarity with Multiple Experts

Навигация