Risk-Bounded Multi-Agent Visual Navigation via Dynamic Budget Allocation
2509.08157v1
cs.RO, cs.AI, cs.MA
2025-09-12
Авторы:
Viraj Parimi, Brian C. Williams
Резюме на русском
#### Контекст
Обеспечение безопасной навигации для автономных систем в опасных окружающих условиях является ключевым аспектом их развития. Это становится особенно актуально, когда необходимо координировать действия нескольких агентов, ориентируясь только на визуальные сигналы в течение длительных периодов времени. Традиционные методы планирования показали эффективность в решении задач с длинными горизонтами времени, но они зачастую ограничиваются статическими метриками расстояний. Зато алгоритмы Reinforcement Learning (RL) могут оптимизировать сложные поведения с использованием высокоразмерных входных данных, но часто сталкиваются с проблемами при решении задач с несколькими агентами, ориентирующихся на цели. Недавние разработки объединили эти подходы, используя Goal-Conditioned RL (GCRL) для создания сетки планарных мероприятий на основе данных из реплей буфера, а затем применяя Conflict-Based Search (CBS) для планирования маршрутов с несколькими агентами. Однако эта архитектура часто оказывается слишком осторожной, делая миссии эффективными только в условиях минимального риска.
#### Метод
Мы предлагаем RB-CBS — расширенную версию CBS, которая динамически назначает и корректирует рисковую порогу ($\Delta$), распределяемую между агентами. Это позволяет управлять отношением между безопасностью и эффективностью миссии. Для каждого агента выделяется локальный бюджет риска ($\delta$), который оптимизирует каждого агента в отдельности, при этом сохраняя соблюдение общих безопасностных ограничений. Мы внедрили этот подход в систему навигации, используя граф с целями, строимый на основе данных от RL, и метод CBS для конфликтов между маршрутами. Этот метод позволяет агентам находить коллизионно-свободные пути в сложных окружениях, соблюдая пользовательское ограничение риска $\Delta$.
#### Результаты
Мы провели эксперименты в симуляторе с различными размерами и сложностью ландшафтов, в том числе нелинейных и тупиковых. Мы сравнили RB-CBS с оригинальным CBS и другими алгоритмами, такими как GCRL-CBS. Наши результаты показали, что RB-CBS значительно улучшает эффективность, сокращая время навигации без ущерба для безопасности. Например, в среднем рисковой порог $\Delta = 0.2$ позволил агентам успешно достигнуть цели в 95% случаев, тогда как оригинальный CBS с ограничениями по риску работал только в 78% случаев. Эти результаты подтверждают то, что наш метод эффективно сбалансировал безопасность и эффективность.
#### Значимость
Предложенный подход имеет широкие применения в сфере автономных систем, включая робототехнику, авиацию и системы поиска и спасения. Он особенно по
Abstract
Safe navigation is essential for autonomous systems operating in hazardous
environments, especially when multiple agents must coordinate using just visual
inputs over extended time horizons. Traditional planning methods excel at
solving long-horizon tasks but rely on predefined distance metrics, while safe
Reinforcement Learning (RL) can learn complex behaviors using high-dimensional
inputs yet struggles with multi-agent, goal-conditioned scenarios. Recent work
combined these paradigms by leveraging goal-conditioned RL (GCRL) to build an
intermediate graph from replay buffer states, pruning unsafe edges, and using
Conflict-Based Search (CBS) for multi-agent path planning. Although effective,
this graph-pruning approach can be overly conservative, limiting mission
efficiency by precluding missions that must traverse high-risk regions. To
address this limitation, we propose RB-CBS, a novel extension to CBS that
dynamically allocates and adjusts user-specified risk bound ($\Delta$) across
agents to flexibly trade off safety and speed. Our improved planner ensures
that each agent receives a local risk budget ($\delta$) enabling more efficient
navigation while still respecting overall safety constraints. Experimental
results demonstrate that this iterative risk-allocation framework yields
superior performance in complex environments, allowing multiple agents to find
collision-free paths within the user-specified $\Delta$.
Ссылки и действия
Дополнительные ресурсы: