Impact of Collective Behaviors of Autonomous Vehicles on Urban Traffic Dynamics: A Multi-Agent Reinforcement Learning Approach
2509.22216v1
cs.MA, cs.AI
2025-09-30
Авторы:
Ahmet Onur Akman, Anastasia Psarou, Zoltán György Varga, Grzegorz Jamróz, Rafał Kucharski
Резюме на русском
## Контекст
Проблемы транспортных систем в урбанизированных зонах характеризуются задержками, циркуляционными проблемами и неэффективным использованием дорожной сети. Эти проблемы усугубляются в условиях смешанного трафика, где тра traнспортные средства (ТС) с разными уровнями технических возможностей должны совместно использовать дорожное пространство. Автономные ТС (АТ) смогут повысить эффективность, но их влияние на общее движение зависит от поведения АТ в смешанном трафике. Этот аспект требует глубокого изучения, чтобы проанализировать взаимодействие АТ с человеческим трафиком и оптимизировать автономные системы для достижения оптимального уровня безопасности и эффективности.
## Метод
Мы разработали модель на основе многоагентного управления, связанного с Deep Q-learning, организованного в сетевой архитектуре. В качестве моделирования участников движения мы выбрали трех типов участников: человеческие водители, RL-управляемые АТ и традиционные автомобили. Алгоритм Deep Q-learning использовался для обучения АТ, чтобы они принимали решения в пределах сети города. Мы вводим разные поведения АТ, включая самостоятельное, коллективное, конкурентное, социальное, альтруистичное и злоумышленное. Эти поведения определяются через назначение наградных функций, которые влияют на решения АТ. Эксперименты проводятся в симуляционной среде, используя разработанную нами платформу PARCOUR.
## Результаты
Результаты экспериментов показали, что АТ могут сократить свои времена пути до 5%, зависящих от выбранного поведения. Например, когда АТ стремятся избегать трафика, они достигают меньшего времени пути, чем гуманные водители. Тем не менее, в случае конкурентного поведения АТ могут увеличить время пути для человеческих водителей. Мы также отметили, что значения эффективности зависят от того, каким образом АТ учитывают информацию о трафике и интерпретируют ее в своих решениях. Наши результаты демонстрируют, что многоагентное RL может обеспечить оптимальное управление трафиком в смешанной архитектуре, но результаты зависят от поведения выбранных АТ.
## Значимость
Результаты нашего исследования могут быть применены в разработке новых алгоритмов управления АТ, которые будут спроектированы для включения в урбанизированную систему транспорта. Автономные ТС, оптимизированные для социального или альтруистичного поведения, могут способствовать эффективному использованию дорожной сети и сократить время пути для всех участников. Это может привести к улучшению общей б
Abstract
This study examines the potential impact of reinforcement learning
(RL)-enabled autonomous vehicles (AV) on urban traffic flow in a mixed traffic
environment. We focus on a simplified day-to-day route choice problem in a
multi-agent setting. We consider a city network where human drivers travel
through their chosen routes to reach their destinations in minimum travel time.
Then, we convert one-third of the population into AVs, which are RL agents
employing Deep Q-learning algorithm. We define a set of optimization targets,
or as we call them behaviors, namely selfish, collaborative, competitive,
social, altruistic, and malicious. We impose a selected behavior on AVs through
their rewards. We run our simulations using our in-house developed RL framework
PARCOUR. Our simulations reveal that AVs optimize their travel times by up to
5\%, with varying impacts on human drivers' travel times depending on the AV
behavior. In all cases where AVs adopt a self-serving behavior, they achieve
shorter travel times than human drivers. Our findings highlight the complexity
differences in learning tasks of each target behavior. We demonstrate that the
multi-agent RL setting is applicable for collective routing on traffic
networks, though their impact on coexisting parties greatly varies with the
behaviors adopted.
Ссылки и действия
Дополнительные ресурсы: