MPC-based Deep Reinforcement Learning Method for Space Robotic Control with Fuel Sloshing Mitigation
2509.21045v1
cs.RO, cs.LG
2025-09-27
Авторы:
Mahya Ramezani, M. Amin Alandihallaj, Barış Can Yalçın, Miguel Angel Olivares Mendez, Holger Voos
Резюме на русском
## Контекст
Автоматическая система контроля и дизайн спутниковых технологий становятся все более важными в области аэрокосмических исследований. Одной из самых вызовов при автоматизации спутникового управления является управление во время причаливания (др. docking) в условиях микрогравитации. Традиционный подход сталкивается с рядом проблем, в частности, динамикой топливного слабостьевания (fuel sloshing). Это процесс, при котором топливо, находящееся в движении внутри ёмкости, создает непредсказуемые вращательные моменты, что вызывает вибрации и ухудшает стабильность спутника. Разработка эффективных методов управления при причаливании становится критически важной для функционирования на-орбитных услуг, таких как ремонт и пополнение топлива. Этот работа посвящена разработке интегрированного подхода, который объединяет глубинное обучение с подкреплением (deep reinforcement learning, DRL) и моделирующий контроль (model predictive control, MPC) для решения проблемы топливного слабостьевания.
## Метод
Предлагаемый подход основывается на интеграции двух различных подходов к управлению: глубинного обучения с подкреплением (DRL) и моделирующего контроля (MPC). Глубинное обучение с подкреплением обеспечивает выполнение задачи в реальном времени и оптимизацию динамического поведения системы. Моделирующий контроль, с другой стороны, обеспечивает точное управление силовыми действиями, которые влияют на движение спутника. Метод PPO и SAC, в частности, используется для улучшения обучения DRL, в то время как MPC применяется для управления точной внедрения силы в систему. Архитектура представляет собой пространственную модель системы, включая динамику топливного слабостьевания, а также математическое описание управляющих сил, которые могут быть применены для управления движением.
## Результаты
Для симуляции проводились эксперименты как в условиях микрогравитации, так и в нормальных условиях. Для этого использовалась платформа Zero-G Lab of SnT для планарного стабилизации и высокоточных цифровых моделей для 6-DOF docking с динамикой топливного слабостьевания. Результаты показали, что интегрированный подход, который использует SAC-MPC, превосходит отдельные DRL-методы, такие как PPO и SAC, а также MPC-методы в сочетании. Наблюдалось улучшение точности причаливания, увеличение успешности действий и сокращение потребления топлива. Это свидетельствует о высокой эффективности интегрированного подхода в решении проблемы топливного слабостьевания.
## Значимость
Предлагаемый подход может быть использован в различных областях, включая на-орбитные услуги, такие как на-орбитное пополнение топлива
Abstract
This paper presents an integrated Reinforcement Learning (RL) and Model
Predictive Control (MPC) framework for autonomous satellite docking with a
partially filled fuel tank. Traditional docking control faces challenges due to
fuel sloshing in microgravity, which induces unpredictable forces affecting
stability. To address this, we integrate Proximal Policy Optimization (PPO) and
Soft Actor-Critic (SAC) RL algorithms with MPC, leveraging MPC's predictive
capabilities to accelerate RL training and improve control robustness. The
proposed approach is validated through Zero-G Lab of SnT experiments for planar
stabilization and high-fidelity numerical simulations for 6-DOF docking with
fuel sloshing dynamics. Simulation results demonstrate that SAC-MPC achieves
superior docking accuracy, higher success rates, and lower control effort,
outperforming standalone RL and PPO-MPC methods. This study advances
fuel-efficient and disturbance-resilient satellite docking, enhancing the
feasibility of on-orbit refueling and servicing missions.
Ссылки и действия
Дополнительные ресурсы: