MAPF-World: Action World Model for Multi-Agent Path Finding
2508.12087v1
cs.AI, cs.MA
2025-08-19
Авторы:
Zhanjiang Yang, Meng Li, Yang Shen, Yueming Li, Lijun Sun
Резюме на русском
## Контекст
Multi-agent path finding (MAPF) является задачей планирования конфликторно-свободных маршрутов для нескольких агентов, начиная с указанных начальных позиций и заканчивая целевыми положениями. Данная задача лежит в основе различных реальных приложений, включая координацию роботов, улучшение логистических процессов и социальное навигирование. Недавно развивающиеся децентрализованные, учебные средства удалось показать свою эффективность в задачах MAPF, особенно при использовании основых моделей и больших данных. Однако эти модели часто ориентируются только на реактивное взаимодействие, что приводит к ограниченной моделированию динамики окружающей среды и зависимостей между агентами. Это снижает их эффективность в сложных, многошаговых сценариях. Наша задача — разработать MAPF-World, модель, которая объединяет процесс понимания ситуации и генерации действий, обеспечивая более информированные и долгосрочные решения.
## Метод
MAPF-World представляет собой модель динамического действия (action world model), которая агрегирует пространственные характеристики и временные зависимости в одном рамеке. Модель использует авторегрессионный подход для прогнозирования будущих состояний и действий в условиях MAPF. Она моделирует не только локальные наблюдения, но и дальнейшую динамику окружающей среды и действий агентов. Это позволяет модели улучшить свою ситуационную осведомленность и принимать более обоснованные решения. Бенчмарки MAPF были расширены с помощью генератора автоматических карт, основанного на реальных сценариях, чтобы создать более практические условия тренировки и проверки MAPF-систем.
## Результаты
В ходе экспериментов MAPF-World показала себя значительно эффективнее состояний технологий в сравнении с другими learnable solvers. Она установила новые рекорды в области zero-shot generalization, демонстрируя способность решать задачи, не встречавшиеся во время обучения. Этого достигнуто благодаря её гибкости и способности осуществлять долгосрочное планирование. Особенно заметны разницы в производительности при использовании небольших моделей и ресурсов, где MAPF-World показала себя эффективнее более крупных аналогов. Это свидетельствует о том, что модель эффективно использует свои ресурсы и предлагает более устойчивый подход к задачам MAPF.
## Значимость
MAPF-World может быть применена в различных областях, включая координацию роботов, управление логистическими процессами и социальную навигацию. Она предоставляет существенное преимущество в ситуациях, требующих долговременного планирования и высокой ситуационной осведомленности. Избыточность ресурсов и м
Abstract
Multi-agent path finding (MAPF) is the problem of planning conflict-free
paths from the designated start locations to goal positions for multiple
agents. It underlies a variety of real-world tasks, including multi-robot
coordination, robot-assisted logistics, and social navigation. Recent
decentralized learnable solvers have shown great promise for large-scale MAPF,
especially when leveraging foundation models and large datasets. However, these
agents are reactive policy models and exhibit limited modeling of environmental
temporal dynamics and inter-agent dependencies, resulting in performance
degradation in complex, long-term planning scenarios. To address these
limitations, we propose MAPF-World, an autoregressive action world model for
MAPF that unifies situation understanding and action generation, guiding
decisions beyond immediate local observations. It improves situational
awareness by explicitly modeling environmental dynamics, including spatial
features and temporal dependencies, through future state and actions
prediction. By incorporating these predicted futures, MAPF-World enables more
informed, coordinated, and far-sighted decision-making, especially in complex
multi-agent settings. Furthermore, we augment MAPF benchmarks by introducing an
automatic map generator grounded in real-world scenarios, capturing practical
map layouts for training and evaluating MAPF solvers. Extensive experiments
demonstrate that MAPF-World outperforms state-of-the-art learnable solvers,
showcasing superior zero-shot generalization to out-of-distribution cases.
Notably, MAPF-World is trained with a 96.5% smaller model size and 92% reduced
data.
Ссылки и действия
Дополнительные ресурсы: