A Hierarchical Deep Reinforcement Learning Framework for Traffic Signal Control with Predictable Cycle Planning

2509.03118v1 cs.LG, cs.AI, cs.MA 2025-09-05
Авторы:

Hankang Gu, Yuli Zhang, Chengming Wang, Ruiyuan Jiang, Ziheng Qiao, Pengfei Fan, Dongyao Jia

Резюме на русском

## Контекст Трафическое регулирование (TSC) является ключевым аспектом управления городским трафиком, направленным на сокращение задержек, уменьшение выбросов предприятий и повышение безопасности на дорогах. Однако, традиционные методы TSC часто ограничены в способности адаптироваться к изменениям трафического потока и требованиям транспортных систем. На протяжении последних десятилетий, развитие технологий и интенсивное городское развитие привело к возрастающим требованиям к эффективности трафического регулирования. В этом контексте, глубокое учебное управление на основе разнообразных подходов, включая глубокое расширенное управление (DRL), полностью изменило традиционное подход к TSC. Однако, существуют проблемы в существующих DRL-моделях, в частности, в адаптации к различным объемам трафика и неоднородности сетей. Мотивация заключается в разработке более универсального и эффективного подхода к TSC, который может адаптироваться к различным условиям трафика и обеспечивать более стабильный и безопасный транспорт. ## Метод Предлагаемая модель, Deep Hierarchical Cycle Planner (DHCP), является DRL-фреймворком для TSC с предсказуемым планированием цикла. Она включает в себя два уровня агентов: высокоуровневый и низкоуровневый. Высокоуровневый агент определяет распределение времени цикла между горизонтальными (NS) и вертикальными (EW) направлениями на основе общего трафика. Низкоуровневый агент далее разделяет распределенное время направлений направлений на прямые и поворотные движения, позволяя более гибкому времени для этих движений. Такой двухуровневый подход обеспечивает более гибкую и эффективную адаптацию к разным трафическим условиям. Архитектура фреймворка основана на DRL-техниках, включая простой учебный агент, чтобы уменьшить вычислительные затраты и поддержать более эффективное обучение. ## Результаты Эксперименты проводились на обоих реальных и синтетических данных трафика. Модель DHCP была проверена на нескольких наборах данных, включая городские сети и различные трафические потоки. Результаты показали, что DHCP превосходит базовые модели по метрикам, таким как снижение задержек, увеличение прохождения транспортных средств и обеспечение безопасности. Она показала лучшие результаты в сравнении с другими DRL-подходами, в том числе в ситуациях с изменчивым трафиком и неоднородными сетями. Эти результаты демонстрируют высокую эффективность DHCP в решении проблем, связанных с традиционными подходами к TSC. ## Значимость Модель DHCP может быть примен

Abstract

Deep reinforcement learning (DRL) has become a popular approach in traffic signal control (TSC) due to its ability to learn adaptive policies from complex traffic environments. Within DRL-based TSC methods, two primary control paradigms are ``choose phase" and ``switch" strategies. Although the agent in the choose phase paradigm selects the next active phase adaptively, this paradigm may result in unexpected phase sequences for drivers, disrupting their anticipation and potentially compromising safety at intersections. Meanwhile, the switch paradigm allows the agent to decide whether to switch to the next predefined phase or extend the current phase. While this structure maintains a more predictable order, it can lead to unfair and inefficient phase allocations, as certain movements may be extended disproportionately while others are neglected. In this paper, we propose a DRL model, named Deep Hierarchical Cycle Planner (DHCP), to allocate the traffic signal cycle duration hierarchically. A high-level agent first determines the split of the total cycle time between the North-South (NS) and East-West (EW) directions based on the overall traffic state. Then, a low-level agent further divides the allocated duration within each major direction between straight and left-turn movements, enabling more flexible durations for the two movements. We test our model on both real and synthetic road networks, along with multiple sets of real and synthetic traffic flows. Empirical results show our model achieves the best performance over all datasets against baselines.

Ссылки и действия