Sequence Pathfinder for Multi-Agent Pickup and Delivery in the Warehouse
2509.23778v2
cs.RO, cs.AI, cs.LG, cs.MA
2025-10-01
Авторы:
Zeyuan Zhao, Chaoran Li, Shao Zhang, Ying Wen
Резюме на русском
## Контекст
Multi-Agent Pickup and Delivery (MAPD) является усложненной формой Multi-Agent Path Finding (MAPF), требующей от агентов выполнять задачи с фиксированными точками подбора и доставки в последовательном порядке. Хотя learning-based методы демонстрируют улучшения в MAPD, они часто сталкиваются с проблемами в сложных средах, таких как хранилища, с узкими проходами и длинными коридорами. Эти окружения требуют сильной связности и глобального видения, но ограниченность локальных сенсоров и точечная связь в локальной модели не позволяют эффективно решить эти проблемы.
В настоящей работе мы исследуем возможности применения моделей последовательностей для MAPD и доказываем, что подходы, основанные на sequence modeling, обладают order-invariant optimality, делая их применимыми для MAPD. Этот подход позволяет существенно уменьшить вычислительную сложность и заменить точечную связь на модель связи с широким покрытием.
## Метод
Мы предлагаем Sequential Pathfinder (SePar), основанный на Transformer-парадигме, чтобы решить задачу MAPD. Модель SePar использует self-attention механизмы для implicit information exchange, обеспечивая глобальное видение и эффективное дистрибутивное распределение решений. Эта модель преобразует сложность вычислений из экспоненциальной в линейную, ускоряя решение в сложных средах.
SePar также включает imitation learning в сложных задачах, таких как warehouse-like среды, что позволяет повысить точность и скорость решения, даже при недостаточном обучении на реальных данных.
## Результаты
В экспериментах мы сравнили SePar с другими state-of-the-art методами в MAPD на разных наборах данных. Результаты показали, что SePar постоянно демонстрирует лучшие результаты в MAPD и их вариациях, превосходя другие learning-based методы в скорости и точности. Более того, SePar показал гибкость в общении с новыми, неизвестными средами и выполнении задач, которые приводят к коллизиям в стандартных подходах.
## Значимость
Предлагаемый подход может быть применен в различных сложных средах, таких как роботов-дроны, автономные автомобили и warehouse management. Он предлагает существенные преимущества, включая снижение затрат на вычисления, увеличение скорости решения и гибкость в различных окружениях. Это может привести к улучшению производительности в задачах многоагентного управления в робототехнике и логистике.
## Выводы
Мы доказали, что sequence modeling является эффективным подходом для MAPD и что SePar может быть значительным шагом в решении MAPD в warehouse-like средах. Наша модель показала лучшие результаты в сравнении с другими методами и обеспечила гибкость в работе с новыми средами. Будущие исследования будут направлены на дальнейшее улучшение модели и ее применение в задачах робототехнического управления.
Abstract
Multi-Agent Pickup and Delivery (MAPD) is a challenging extension of
Multi-Agent Path Finding (MAPF), where agents are required to sequentially
complete tasks with fixed-location pickup and delivery demands. Although
learning-based methods have made progress in MAPD, they often perform poorly in
warehouse-like environments with narrow pathways and long corridors when
relying only on local observations for distributed decision-making.
Communication learning can alleviate the lack of global information but
introduce high computational complexity due to point-to-point communication. To
address this challenge, we formulate MAPF as a sequence modeling problem and
prove that path-finding policies under sequence modeling possess
order-invariant optimality, ensuring its effectiveness in MAPD. Building on
this, we propose the Sequential Pathfinder (SePar), which leverages the
Transformer paradigm to achieve implicit information exchange, reducing
decision-making complexity from exponential to linear while maintaining
efficiency and global awareness. Experiments demonstrate that SePar
consistently outperforms existing learning-based methods across various MAPF
tasks and their variants, and generalizes well to unseen environments.
Furthermore, we highlight the necessity of integrating imitation learning in
complex maps like warehouses.