Traffic-R1: Reinforced LLMs Bring Human-Like Reasoning to Traffic Signal Control Systems
2508.02344v1
cs.AI
2025-08-09
Авторы:
Xingchen Zou, Yuhao Yang, Zheng Chen, Xixuan Hao, Yiqi Chen, Chao Huang, Yuxuan Liang
Резюме на русском
Трафическое управление сигнализацией (TSC) играет ключевую роль в борьбе с наплывом трафика и поддержании здравого смысла в урбанизированных пространствах. В статье представляется Traffic-R1, основанная на reinforced large language models (LLMs), модель, которая предлагает новый подход к решению проблемы TSC. Отличительными чертами Traffic-R1 являются: 1) возможность нулевого затраты подготовки к работе на новых маршрутах и неожиданных ситуациях благодаря интерной системе политик управления трафиком и природе человеческого разума; 2) легковесная архитектура 3B параметров, позволяющая быстрым вычислениям на мобильных устройствах; 3) транспартность процесса управления и возможность синхронного общения между интересующими пересечениями. Испытания показывают, что Traffic-R1 превосходит сильные контроллеры за счет высокой гибкости и эффективности. Она уже управляет трафиком для около 55 000 водителей ежедневно, сокращая ожидание в пробках на 5% и уменьшая нагрузку на операторов вдвое.
Abstract
Traffic signal control (TSC) is vital for mitigating congestion and
sustaining urban mobility. In this paper, we introduce Traffic-R1, a foundation
model with human-like reasoning for TSC systems. Our model is developed through
self-exploration and iteration of reinforced large language models (LLMs) with
expert guidance in a simulated traffic environment. Compared to traditional
reinforcement learning (RL) and recent LLM-based methods, Traffic-R1 offers
three significant advantages. First, Traffic-R1 delivers zero-shot
generalisation, transferring unchanged to new road networks and
out-of-distribution incidents by utilizing its internal traffic control
policies and human-like reasoning. Second, its 3B-parameter architecture is
lightweight enough for real-time inference on mobile-class chips, enabling
large-scale edge deployment. Third, Traffic-R1 provides an explainable TSC
process and facilitates multi-intersection communication through its
self-iteration and a new synchronous communication network. Extensive
benchmarks demonstrate that Traffic-R1 sets a new state of the art,
outperforming strong baselines and training-intensive RL controllers. In
practice, the model now manages signals for more than 55,000 drivers daily,
shortening average queues by over 5% and halving operator workload. Our
checkpoint is available at https://huggingface.co/Season998/Traffic-R1.
Ссылки и действия
Дополнительные ресурсы: