Momentum-constrained Hybrid Heuristic Trajectory Optimization Framework with Residual-enhanced DRL for Visually Impaired Scenarios

2509.15582v1 cs.RO, cs.AI 2025-09-23
Авторы:

Yuting Zeng, Zhiwen Zheng, You Zhou, JiaLing Xiao, Yongbin Yu, Manping Fan, Bo Gong, Liyong Ren

Резюме на русском

## Контекст В последние годы выработалось много методов помощи для незрячих людей, включая системы автоматического навигации. Однако, существуют значительные проблемы в обеспечении безопасности и эффективности таких систем, особенно в условиях сложных среды и высоких рисках. Одной из основных проблем является неэффективность традиционных методов оптимизации траекторий в условиях сильных рисков и нестабильных ситуаций. Необходимо разработать усовершенствованный подход, который мог бы обеспечить безопасность, гибкость и высокую производительность в сложных сценариях. Наша мотивация заключается в разработке фреймворка, который может отвечать этим требованиям, обеспечивая эффективную оптимизацию траекторий в сценариях с визуальными ограничениями. ## Метод Мы предлагаем моментум-констрейнтный гибридный групповой метод оптимизации траекторий (MHHTOF), который сочетает генерацию траекторий, оптимизацию и оценку с помощью улучшенного метода глубокого учения с резидентным сетью (DRL). Траектории создаются в пространстве Frenet с использованием третьего порядка интерполяции, пятого порядка полиномов и ограничениями моментум-констрейнтный траекторий (MTO). В первой стадии происходит генерация кластеров траекторий (HTSC), после чего эти траектории проверяются на критерии стоимости. Во второй стадии используется улучшенный актор-критик с LSTM-основным моделированием временных признаков для адаптивной рефинировки выбора траектории в пространстве Картзия. Двойной механизм моделирования стоимости (DCMM) с передачей весов позволяет избежать конфликтов при приоритетах оптимизации. ## Результаты Мы проводили эксперименты с использованием различных сценариев, включая задачи планирования траекторий в условиях с риском и нестабильностью. Мы применяли данные, собранные с помощью моделей виртуальной среды, для тренировки модели. Наши результаты показали, что LSTM-ResB-PPO достигает стабильной политики в почти половину итераций, сравнимой с PPO-бейзлайном. Также, наша модель снижает среднюю стоимость и ее дисперсию на 30.3% и 53.3% соответственно, а также уменьшает риск для водителя и препятствий на более чем 77%. Эти результаты доказывают эффективность фреймворка в улучшении безопасности, гибкости и реального времени в сложных сценариях. ## Значимость Мы предлагаем приложение этого фреймворка в различных областях, включая помощь незрячим людям, а также в общих задачах планирования траекторий для автомобилей. Главным преимуществом является

Abstract

This paper proposes a momentum-constrained hybrid heuristic trajectory optimization framework (MHHTOF) tailored for assistive navigation in visually impaired scenarios, integrating trajectory sampling generation, optimization and evaluation with residual-enhanced deep reinforcement learning (DRL). In the first stage, heuristic trajectory sampling cluster (HTSC) is generated in the Frenet coordinate system using third-order interpolation with fifth-order polynomials and momentum-constrained trajectory optimization (MTO) constraints to ensure smoothness and feasibility. After first stage cost evaluation, the second stage leverages a residual-enhanced actor-critic network with LSTM-based temporal feature modeling to adaptively refine trajectory selection in the Cartesian coordinate system. A dual-stage cost modeling mechanism (DCMM) with weight transfer aligns semantic priorities across stages, supporting human-centered optimization. Experimental results demonstrate that the proposed LSTM-ResB-PPO achieves significantly faster convergence, attaining stable policy performance in approximately half the training iterations required by the PPO baseline, while simultaneously enhancing both reward outcomes and training stability. Compared to baseline method, the selected model reduces average cost and cost variance by 30.3% and 53.3%, and lowers ego and obstacle risks by over 77%. These findings validate the framework's effectiveness in enhancing robustness, safety, and real-time feasibility in complex assistive planning tasks.

Ссылки и действия