Risk-Bounded Multi-Agent Visual Navigation via Dynamic Budget Allocation

2509.08157v1 cs.RO, cs.AI, cs.MA 2025-09-12
Авторы:

Viraj Parimi, Brian C. Williams

Резюме на русском

#### Контекст Обеспечение безопасной навигации для автономных систем в опасных окружающих условиях является ключевым аспектом их развития. Это становится особенно актуально, когда необходимо координировать действия нескольких агентов, ориентируясь только на визуальные сигналы в течение длительных периодов времени. Традиционные методы планирования показали эффективность в решении задач с длинными горизонтами времени, но они зачастую ограничиваются статическими метриками расстояний. Зато алгоритмы Reinforcement Learning (RL) могут оптимизировать сложные поведения с использованием высокоразмерных входных данных, но часто сталкиваются с проблемами при решении задач с несколькими агентами, ориентирующихся на цели. Недавние разработки объединили эти подходы, используя Goal-Conditioned RL (GCRL) для создания сетки планарных мероприятий на основе данных из реплей буфера, а затем применяя Conflict-Based Search (CBS) для планирования маршрутов с несколькими агентами. Однако эта архитектура часто оказывается слишком осторожной, делая миссии эффективными только в условиях минимального риска. #### Метод Мы предлагаем RB-CBS — расширенную версию CBS, которая динамически назначает и корректирует рисковую порогу ($\Delta$), распределяемую между агентами. Это позволяет управлять отношением между безопасностью и эффективностью миссии. Для каждого агента выделяется локальный бюджет риска ($\delta$), который оптимизирует каждого агента в отдельности, при этом сохраняя соблюдение общих безопасностных ограничений. Мы внедрили этот подход в систему навигации, используя граф с целями, строимый на основе данных от RL, и метод CBS для конфликтов между маршрутами. Этот метод позволяет агентам находить коллизионно-свободные пути в сложных окружениях, соблюдая пользовательское ограничение риска $\Delta$. #### Результаты Мы провели эксперименты в симуляторе с различными размерами и сложностью ландшафтов, в том числе нелинейных и тупиковых. Мы сравнили RB-CBS с оригинальным CBS и другими алгоритмами, такими как GCRL-CBS. Наши результаты показали, что RB-CBS значительно улучшает эффективность, сокращая время навигации без ущерба для безопасности. Например, в среднем рисковой порог $\Delta = 0.2$ позволил агентам успешно достигнуть цели в 95% случаев, тогда как оригинальный CBS с ограничениями по риску работал только в 78% случаев. Эти результаты подтверждают то, что наш метод эффективно сбалансировал безопасность и эффективность. #### Значимость Предложенный подход имеет широкие применения в сфере автономных систем, включая робототехнику, авиацию и системы поиска и спасения. Он особенно по

Abstract

Safe navigation is essential for autonomous systems operating in hazardous environments, especially when multiple agents must coordinate using just visual inputs over extended time horizons. Traditional planning methods excel at solving long-horizon tasks but rely on predefined distance metrics, while safe Reinforcement Learning (RL) can learn complex behaviors using high-dimensional inputs yet struggles with multi-agent, goal-conditioned scenarios. Recent work combined these paradigms by leveraging goal-conditioned RL (GCRL) to build an intermediate graph from replay buffer states, pruning unsafe edges, and using Conflict-Based Search (CBS) for multi-agent path planning. Although effective, this graph-pruning approach can be overly conservative, limiting mission efficiency by precluding missions that must traverse high-risk regions. To address this limitation, we propose RB-CBS, a novel extension to CBS that dynamically allocates and adjusts user-specified risk bound ($\Delta$) across agents to flexibly trade off safety and speed. Our improved planner ensures that each agent receives a local risk budget ($\delta$) enabling more efficient navigation while still respecting overall safety constraints. Experimental results demonstrate that this iterative risk-allocation framework yields superior performance in complex environments, allowing multiple agents to find collision-free paths within the user-specified $\Delta$.

Ссылки и действия