Stochastic Path Planning in Correlated Obstacle Fields
2509.19559v1
stat.ML, cs.LG, stat.CO
2025-09-26
Авторы:
Li Zhou, Elvan Ceyhan
Резюме на русском
#### Контекст
Планирование путей в помехах является ключевым проблемой в автоматизации, искусственном интеллекте и робототехнике. Особенно сложной является задача навигации в помещениях с неоднородными, скоррелированными препятствиями и нестабильными сенсорными данными. Избирательное использование сенсора для получения дополнительных сведений о труднодоступных областях помогает снизить неопределенность, но накладывает дополнительные затраты на время и ресурсы. Исследование задач планирования путей в помещениях с коррелированными препятствиями проводится для улучшения решений в условиях нестабильности и неопределенности.
#### Метод
Мы предлагаем модель **Stochastic Correlated Obstacle Scene (SCOS)**, основанную на **Gaussian Random Field (GRF)** для представления корреляции препятствий. Сенсоры собирают неточные данные о блокировках, а алгоритмы Bayesian belief update используются для уточнения блокировочных вероятностей. Для нахождения оптимального пути вводится двухэтапный фреймворк: в первой стадии происходит оптимизация политики с использованием **Optimistic Policy Iteration** и **Information Bonus** для поиска наиболее информативных регионов. Во второй стадии применяется онлайн-политика с регулярными обновлениями базовой политики на основе механизма Байеса, адаптирующегося к новым данным. Метод поддерживает распределенное обучение полными распределениями затрат, что улучшает квантование неопределенности.
#### Результаты
Наши эксперименты проводились на различных симулированных маппах с разным разрешением и плотностью препятствий. Мы сравнивали нашу модель со стандартными методами, такими как Value Iteration, Monte Carlo Tree Search и Distributional RL. Модель SCOS показала значительное сокращение потребленных ресурсов при одновременном повышении точности и скорости нахождения пути. Для оценки адаптивности использовались сценарии с адверсариальными препятствиями и случайными помехами. Результаты показали, что наш алгоритм превосходит базовые методы в области эффективности и надежности.
#### Значимость
Наша модель может быть применена в различных сферах, включая навигацию роботов в закрытых помещениях, планирование в условиях сбоев сети, а также в задачах мониторинга и очистки природных хаотических объектов. Отличительным преимуществом является возможность учета корреляции препятствий, что позволяет повысить точность и эффективность планирования. Развитие данной модели может привести к улучшению безопасности и эффективности в системах автоматического управления.
#### Выводы
Мы представили модель SCOS для планирования путей в помещениях с коррелированными препятствиями и нестабильными сенсорными данными. Наша модель использует Байесовские обновления вероятностей и двухэ
Abstract
We introduce the Stochastic Correlated Obstacle Scene (SCOS) problem, a
navigation setting with spatially correlated obstacles of uncertain blockage
status, realistically constrained sensors that provide noisy readings and
costly disambiguation. Modeling the spatial correlation with Gaussian Random
Field (GRF), we develop Bayesian belief updates that refine blockage
probabilities, and use the posteriors to reduce search space for efficiency. To
find the optimal traversal policy, we propose a novel two-stage learning
framework. An offline phase learns a robust base policy via optimistic policy
iteration augmented with information bonus to encourage exploration in
informative regions, followed by an online rollout policy with periodic base
updates via a Bayesian mechanism for information adaptation. This framework
supports both Monte Carlo point estimation and distributional reinforcement
learning (RL) to learn full cost distributions, leading to stronger uncertainty
quantification. We establish theoretical benefits of correlation-aware updating
and convergence property under posterior sampling. Comprehensive empirical
evaluations across varying obstacle densities, sensor capabilities demonstrate
consistent performance gains over baselines. This framework addresses
navigation challenges in environments with adversarial interruptions or
clustered natural hazards.