Momentum-constrained Hybrid Heuristic Trajectory Optimization Framework with Residual-enhanced DRL for Visually Impaired Scenarios
2509.15582v1
cs.RO, cs.AI
2025-09-23
Авторы:
Yuting Zeng, Zhiwen Zheng, You Zhou, JiaLing Xiao, Yongbin Yu, Manping Fan, Bo Gong, Liyong Ren
Резюме на русском
## Контекст
В последние годы выработалось много методов помощи для незрячих людей, включая системы автоматического навигации. Однако, существуют значительные проблемы в обеспечении безопасности и эффективности таких систем, особенно в условиях сложных среды и высоких рисках. Одной из основных проблем является неэффективность традиционных методов оптимизации траекторий в условиях сильных рисков и нестабильных ситуаций. Необходимо разработать усовершенствованный подход, который мог бы обеспечить безопасность, гибкость и высокую производительность в сложных сценариях. Наша мотивация заключается в разработке фреймворка, который может отвечать этим требованиям, обеспечивая эффективную оптимизацию траекторий в сценариях с визуальными ограничениями.
## Метод
Мы предлагаем моментум-констрейнтный гибридный групповой метод оптимизации траекторий (MHHTOF), который сочетает генерацию траекторий, оптимизацию и оценку с помощью улучшенного метода глубокого учения с резидентным сетью (DRL). Траектории создаются в пространстве Frenet с использованием третьего порядка интерполяции, пятого порядка полиномов и ограничениями моментум-констрейнтный траекторий (MTO). В первой стадии происходит генерация кластеров траекторий (HTSC), после чего эти траектории проверяются на критерии стоимости. Во второй стадии используется улучшенный актор-критик с LSTM-основным моделированием временных признаков для адаптивной рефинировки выбора траектории в пространстве Картзия. Двойной механизм моделирования стоимости (DCMM) с передачей весов позволяет избежать конфликтов при приоритетах оптимизации.
## Результаты
Мы проводили эксперименты с использованием различных сценариев, включая задачи планирования траекторий в условиях с риском и нестабильностью. Мы применяли данные, собранные с помощью моделей виртуальной среды, для тренировки модели. Наши результаты показали, что LSTM-ResB-PPO достигает стабильной политики в почти половину итераций, сравнимой с PPO-бейзлайном. Также, наша модель снижает среднюю стоимость и ее дисперсию на 30.3% и 53.3% соответственно, а также уменьшает риск для водителя и препятствий на более чем 77%. Эти результаты доказывают эффективность фреймворка в улучшении безопасности, гибкости и реального времени в сложных сценариях.
## Значимость
Мы предлагаем приложение этого фреймворка в различных областях, включая помощь незрячим людям, а также в общих задачах планирования траекторий для автомобилей. Главным преимуществом является
Abstract
This paper proposes a momentum-constrained hybrid heuristic trajectory
optimization framework (MHHTOF) tailored for assistive navigation in visually
impaired scenarios, integrating trajectory sampling generation, optimization
and evaluation with residual-enhanced deep reinforcement learning (DRL). In the
first stage, heuristic trajectory sampling cluster (HTSC) is generated in the
Frenet coordinate system using third-order interpolation with fifth-order
polynomials and momentum-constrained trajectory optimization (MTO) constraints
to ensure smoothness and feasibility. After first stage cost evaluation, the
second stage leverages a residual-enhanced actor-critic network with LSTM-based
temporal feature modeling to adaptively refine trajectory selection in the
Cartesian coordinate system. A dual-stage cost modeling mechanism (DCMM) with
weight transfer aligns semantic priorities across stages, supporting
human-centered optimization. Experimental results demonstrate that the proposed
LSTM-ResB-PPO achieves significantly faster convergence, attaining stable
policy performance in approximately half the training iterations required by
the PPO baseline, while simultaneously enhancing both reward outcomes and
training stability. Compared to baseline method, the selected model reduces
average cost and cost variance by 30.3% and 53.3%, and lowers ego and obstacle
risks by over 77%. These findings validate the framework's effectiveness in
enhancing robustness, safety, and real-time feasibility in complex assistive
planning tasks.
Ссылки и действия
Дополнительные ресурсы: