A Hierarchical Deep Reinforcement Learning Framework for Traffic Signal Control with Predictable Cycle Planning
2509.03118v1
cs.LG, cs.AI, cs.MA
2025-09-05
Авторы:
Hankang Gu, Yuli Zhang, Chengming Wang, Ruiyuan Jiang, Ziheng Qiao, Pengfei Fan, Dongyao Jia
Резюме на русском
## Контекст
Трафическое регулирование (TSC) является ключевым аспектом управления городским трафиком, направленным на сокращение задержек, уменьшение выбросов предприятий и повышение безопасности на дорогах. Однако, традиционные методы TSC часто ограничены в способности адаптироваться к изменениям трафического потока и требованиям транспортных систем. На протяжении последних десятилетий, развитие технологий и интенсивное городское развитие привело к возрастающим требованиям к эффективности трафического регулирования. В этом контексте, глубокое учебное управление на основе разнообразных подходов, включая глубокое расширенное управление (DRL), полностью изменило традиционное подход к TSC. Однако, существуют проблемы в существующих DRL-моделях, в частности, в адаптации к различным объемам трафика и неоднородности сетей. Мотивация заключается в разработке более универсального и эффективного подхода к TSC, который может адаптироваться к различным условиям трафика и обеспечивать более стабильный и безопасный транспорт.
## Метод
Предлагаемая модель, Deep Hierarchical Cycle Planner (DHCP), является DRL-фреймворком для TSC с предсказуемым планированием цикла. Она включает в себя два уровня агентов: высокоуровневый и низкоуровневый. Высокоуровневый агент определяет распределение времени цикла между горизонтальными (NS) и вертикальными (EW) направлениями на основе общего трафика. Низкоуровневый агент далее разделяет распределенное время направлений направлений на прямые и поворотные движения, позволяя более гибкому времени для этих движений. Такой двухуровневый подход обеспечивает более гибкую и эффективную адаптацию к разным трафическим условиям. Архитектура фреймворка основана на DRL-техниках, включая простой учебный агент, чтобы уменьшить вычислительные затраты и поддержать более эффективное обучение.
## Результаты
Эксперименты проводились на обоих реальных и синтетических данных трафика. Модель DHCP была проверена на нескольких наборах данных, включая городские сети и различные трафические потоки. Результаты показали, что DHCP превосходит базовые модели по метрикам, таким как снижение задержек, увеличение прохождения транспортных средств и обеспечение безопасности. Она показала лучшие результаты в сравнении с другими DRL-подходами, в том числе в ситуациях с изменчивым трафиком и неоднородными сетями. Эти результаты демонстрируют высокую эффективность DHCP в решении проблем, связанных с традиционными подходами к TSC.
## Значимость
Модель DHCP может быть примен
Abstract
Deep reinforcement learning (DRL) has become a popular approach in traffic
signal control (TSC) due to its ability to learn adaptive policies from complex
traffic environments. Within DRL-based TSC methods, two primary control
paradigms are ``choose phase" and ``switch" strategies. Although the agent in
the choose phase paradigm selects the next active phase adaptively, this
paradigm may result in unexpected phase sequences for drivers, disrupting their
anticipation and potentially compromising safety at intersections. Meanwhile,
the switch paradigm allows the agent to decide whether to switch to the next
predefined phase or extend the current phase. While this structure maintains a
more predictable order, it can lead to unfair and inefficient phase
allocations, as certain movements may be extended disproportionately while
others are neglected. In this paper, we propose a DRL model, named Deep
Hierarchical Cycle Planner (DHCP), to allocate the traffic signal cycle
duration hierarchically. A high-level agent first determines the split of the
total cycle time between the North-South (NS) and East-West (EW) directions
based on the overall traffic state. Then, a low-level agent further divides the
allocated duration within each major direction between straight and left-turn
movements, enabling more flexible durations for the two movements. We test our
model on both real and synthetic road networks, along with multiple sets of
real and synthetic traffic flows. Empirical results show our model achieves the
best performance over all datasets against baselines.
Ссылки и действия
Дополнительные ресурсы: