Intelligent Optimization of Wireless Access Point Deployment for Communication-Based Train Control Systems Using Deep Reinforcement Learning
2509.24819v1
eess.SP, cs.AI
2025-10-01
Авторы:
Kunyu Wu, Qiushi Zhao, Zihan Feng, Yunxi Mu, Hao Qin, Xinyu Zhang, Xingqi Zhang
Резюме на русском
#### Контекст
Углубленные туннели под городами являются критическими элементами современных городских транспортных систем. Однако их архитектура представляет значительные технические вызовы для обеспечения надежной беспроводной связи, необходимой для коммуникационно-ориентированных систем управления железнодорожным транспортом (Communication-Based Train Control, CBTC). Оптимальное размещение точек доступа (AP) в таких условиях требует учета множества факторов, включая электромагнитные характеристики туннелей, стоимость развертывания и требования к надежности. Традиционные методы, такие как параметрическая оптимизация или градиентные методы, часто оказываются неэффективными из-за необходимости многочисленных экспериментов и ограниченного понимания физических процессов. Более сложные машинное обучение (ML) и глубокое обучение (DL) подходы, в свою очередь, сталкиваются с ограничениями в эмпирической моделировании и адаптации к комплексным туннельным средам. Мотивирует эти ограничения задача разработки системы, которая объединяет точность, эффективность и универсальность для поддержки свертывания следующего поколения CBTC.
#### Метод
Предлагаемый подход основывается на комбинации трех технологий: моделирования путёвой потери по параболической электромагнитной волне (PWE), усколения моделирования с помощью условного генерирующего противоположностей сети (cGAN), и оптимизации конфигураций через глубокое управляемое обучение (DRL). PWE позволяет получить точную модель путёвой потери для некоторого начального набора позиций AP, оптимизируя вычислительные затраты. cGAN расширяет эти модели до высокого разрешения для всего комплекса позиций, сохраняя физическую точность. DRL, в свою очередь, использует состояния, описывающие расположение AP и покрытие, действия, определяющие их перемещения, и награду за улучшение сигнала и экономичность развертывания. Особенностью DRL является внедрение дублирующей сети (Dueling DQN), что ускоряет конвергенцию и повышает эффективность просмотра внешних ресурсов. Эта комбинация позволяет решать задачу оптимизации размещения AP в туннелях с высокой точностью и эффективностью.
#### Результаты
Для оценки эффективности предложенного подхода проведены сравнительные эксперименты с классическим Hooke Jeeves оптимизатором и традиционным DQN. Использовались симуляционные данные, полученные в рамках системы CBTC. Результаты показали, что подход, основанный на DRL, достиг высокой степени адаптации к сложному туннельному окружению, обеспечивая наибольшую мощность приема сигнала, лучшую надежност
Abstract
Urban railway systems increasingly rely on communication based train control
(CBTC) systems, where optimal deployment of access points (APs) in tunnels is
critical for robust wireless coverage. Traditional methods, such as empirical
model-based optimization algorithms, are hindered by excessive measurement
requirements and suboptimal solutions, while machine learning (ML) approaches
often struggle with complex tunnel environments. This paper proposes a deep
reinforcement learning (DRL) driven framework that integrates parabolic wave
equation (PWE) channel modeling, conditional generative adversarial network
(cGAN) based data augmentation, and a dueling deep Q network (Dueling DQN) for
AP placement optimization. The PWE method generates high-fidelity path loss
distributions for a subset of AP positions, which are then expanded by the cGAN
to create high resolution path loss maps for all candidate positions,
significantly reducing simulation costs while maintaining physical accuracy. In
the DRL framework, the state space captures AP positions and coverage, the
action space defines AP adjustments, and the reward function encourages signal
improvement while penalizing deployment costs. The dueling DQN enhances
convergence speed and exploration exploitation balance, increasing the
likelihood of reaching optimal configurations. Comparative experiments show
that the proposed method outperforms a conventional Hooke Jeeves optimizer and
traditional DQN, delivering AP configurations with higher average received
power, better worst-case coverage, and improved computational efficiency. This
work integrates high-fidelity electromagnetic simulation, generative modeling,
and AI-driven optimization, offering a scalable and data-efficient solution for
next-generation CBTC systems in complex tunnel environments.
Ссылки и действия
Дополнительные ресурсы: