RDAR: Reward-Driven Agent Relevance Estimation for Autonomous Driving

2509.19789v1 cs.LG, cs.AI, cs.RO 2025-09-26

Авторы:

Carlo Bosio, Greg Woelki, Noureldin Hendy, Nicholas Roy, Byungsoo Kim

Резюме на русском

## Контекст Одним из ключевых аспектов автономного вождения является эффективное использование ресурсов для обработки сложных сцен, содержащих много агентов (таких как пешеходы, другие автомобили и препятствия). В отличие от человека, который сосредоточивается только на нескольких самых значимых агентах, автоматизированные системы обрабатывают все агенты в сцене, даже если они не приносят критического вклада в принятие решений. Это приводит к повышению нагрузки на вычислительные мощности и замедлению реакции. В настоящей работе мы адресуем эту проблему, предлагая метод, который научится определять и эксклюзировать ненужные агенты, облегчив работу системы. Наша мотивация заключается в сокращении вычислительных затрат, повышении реакции и улучшении безопасности автономных систем. ## Метод Мы предлагаем RDAR (Reward-Driven Agent Relevance Estimation), стратегию, основанную на марковских процессах, для вычисления меры значимости каждого агента в сцене. Ключевым элементом метода является маскирование агентов, которые не влияют на действия управляемого транспортного средства. Для этого мы используем маркерную архитектуру, где бинарный маскирующий вектор определяет, какие агенты остаются в входных данных для предварительно обученной сети. Мы используем функцию награды, которая определяет степень полезности каждого агента в успешном выполнении задачи. Для обучения используется алгоритм реинфорсмента, чтобы научиться эффективно выделять важных агентов. ## Результаты Мы проверили RDAR на сети BEVFormer, предназначенной для обработки сцен автономного вождения, используя данные от Waymo Open Dataset. Мы сравнили RDAR с существующими методами определения важности агентов. Наши результаты показали, что RDAR существенно сокращает количество обрабатываемых агентов, снижая вычислительные затраты, при этом поддерживая высокий уровень безопасности и эффективности вождения. Также мы обнаружили, что RDAR выбирает только те агенты, которые действительно влияют на решения, улучшая при этом производительность и точность. ## Значимость Предлагаемый подход имеет широкие возможности применения в автономных системах, таких как автомобили, где эффективность вычислительных ресурсов и быстрота реакции критичны. Он позволяет сократить нагрузку на процессоры, улучшить производительность и уменьшить риск ошибок при принятии решений. Это может привести к более безопасным и эффективным автономным системам, которые будут иметь более низкий энергоэффективный стоимость и более высокий уровень доверия от пользователей. ## Выводы Мы представили RDAR, метод оц

Abstract

Human drivers focus only on a handful of agents at any one time. On the other hand, autonomous driving systems process complex scenes with numerous agents, regardless of whether they are pedestrians on a crosswalk or vehicles parked on the side of the road. While attention mechanisms offer an implicit way to reduce the input to the elements that affect decisions, existing attention mechanisms for capturing agent interactions are quadratic, and generally computationally expensive. We propose RDAR, a strategy to learn per-agent relevance -- how much each agent influences the behavior of the controlled vehicle -- by identifying which agents can be excluded from the input to a pre-trained behavior model. We formulate the masking procedure as a Markov Decision Process where the action consists of a binary mask indicating agent selection. We evaluate RDAR on a large-scale driving dataset, and demonstrate its ability to learn an accurate numerical measure of relevance by achieving comparable driving performance, in terms of overall progress, safety and performance, while processing significantly fewer agents compared to a state of the art behavior model.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

RDAR: Reward-Driven Agent Relevance Estimation for Autonomous Driving

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Forecasting in Offline Reinforcement Learning for Non-stationary Environments

Leveraging LLMs for reward function design in reinforcement learning control tas...

Are LLMs The Way Forward? A Case Study on LLM-Guided Reinforcement Learning for ...

Harnessing Bounded-Support Evolution Strategies for Policy Refinement

Dynamic Sparsity: Challenging Common Sparsity Assumptions for Learning World Mod...

Навигация