MAPF-World: Action World Model for Multi-Agent Path Finding

2508.12087v1 cs.AI, cs.MA 2025-08-19
Авторы:

Zhanjiang Yang, Meng Li, Yang Shen, Yueming Li, Lijun Sun

Резюме на русском

## Контекст Multi-agent path finding (MAPF) является задачей планирования конфликторно-свободных маршрутов для нескольких агентов, начиная с указанных начальных позиций и заканчивая целевыми положениями. Данная задача лежит в основе различных реальных приложений, включая координацию роботов, улучшение логистических процессов и социальное навигирование. Недавно развивающиеся децентрализованные, учебные средства удалось показать свою эффективность в задачах MAPF, особенно при использовании основых моделей и больших данных. Однако эти модели часто ориентируются только на реактивное взаимодействие, что приводит к ограниченной моделированию динамики окружающей среды и зависимостей между агентами. Это снижает их эффективность в сложных, многошаговых сценариях. Наша задача — разработать MAPF-World, модель, которая объединяет процесс понимания ситуации и генерации действий, обеспечивая более информированные и долгосрочные решения. ## Метод MAPF-World представляет собой модель динамического действия (action world model), которая агрегирует пространственные характеристики и временные зависимости в одном рамеке. Модель использует авторегрессионный подход для прогнозирования будущих состояний и действий в условиях MAPF. Она моделирует не только локальные наблюдения, но и дальнейшую динамику окружающей среды и действий агентов. Это позволяет модели улучшить свою ситуационную осведомленность и принимать более обоснованные решения. Бенчмарки MAPF были расширены с помощью генератора автоматических карт, основанного на реальных сценариях, чтобы создать более практические условия тренировки и проверки MAPF-систем. ## Результаты В ходе экспериментов MAPF-World показала себя значительно эффективнее состояний технологий в сравнении с другими learnable solvers. Она установила новые рекорды в области zero-shot generalization, демонстрируя способность решать задачи, не встречавшиеся во время обучения. Этого достигнуто благодаря её гибкости и способности осуществлять долгосрочное планирование. Особенно заметны разницы в производительности при использовании небольших моделей и ресурсов, где MAPF-World показала себя эффективнее более крупных аналогов. Это свидетельствует о том, что модель эффективно использует свои ресурсы и предлагает более устойчивый подход к задачам MAPF. ## Значимость MAPF-World может быть применена в различных областях, включая координацию роботов, управление логистическими процессами и социальную навигацию. Она предоставляет существенное преимущество в ситуациях, требующих долговременного планирования и высокой ситуационной осведомленности. Избыточность ресурсов и м

Abstract

Multi-agent path finding (MAPF) is the problem of planning conflict-free paths from the designated start locations to goal positions for multiple agents. It underlies a variety of real-world tasks, including multi-robot coordination, robot-assisted logistics, and social navigation. Recent decentralized learnable solvers have shown great promise for large-scale MAPF, especially when leveraging foundation models and large datasets. However, these agents are reactive policy models and exhibit limited modeling of environmental temporal dynamics and inter-agent dependencies, resulting in performance degradation in complex, long-term planning scenarios. To address these limitations, we propose MAPF-World, an autoregressive action world model for MAPF that unifies situation understanding and action generation, guiding decisions beyond immediate local observations. It improves situational awareness by explicitly modeling environmental dynamics, including spatial features and temporal dependencies, through future state and actions prediction. By incorporating these predicted futures, MAPF-World enables more informed, coordinated, and far-sighted decision-making, especially in complex multi-agent settings. Furthermore, we augment MAPF benchmarks by introducing an automatic map generator grounded in real-world scenarios, capturing practical map layouts for training and evaluating MAPF solvers. Extensive experiments demonstrate that MAPF-World outperforms state-of-the-art learnable solvers, showcasing superior zero-shot generalization to out-of-distribution cases. Notably, MAPF-World is trained with a 96.5% smaller model size and 92% reduced data.

Ссылки и действия