MPC-based Deep Reinforcement Learning Method for Space Robotic Control with Fuel Sloshing Mitigation

2509.21045v1 cs.RO, cs.LG 2025-09-27
Авторы:

Mahya Ramezani, M. Amin Alandihallaj, Barış Can Yalçın, Miguel Angel Olivares Mendez, Holger Voos

Резюме на русском

## Контекст Автоматическая система контроля и дизайн спутниковых технологий становятся все более важными в области аэрокосмических исследований. Одной из самых вызовов при автоматизации спутникового управления является управление во время причаливания (др. docking) в условиях микрогравитации. Традиционный подход сталкивается с рядом проблем, в частности, динамикой топливного слабостьевания (fuel sloshing). Это процесс, при котором топливо, находящееся в движении внутри ёмкости, создает непредсказуемые вращательные моменты, что вызывает вибрации и ухудшает стабильность спутника. Разработка эффективных методов управления при причаливании становится критически важной для функционирования на-орбитных услуг, таких как ремонт и пополнение топлива. Этот работа посвящена разработке интегрированного подхода, который объединяет глубинное обучение с подкреплением (deep reinforcement learning, DRL) и моделирующий контроль (model predictive control, MPC) для решения проблемы топливного слабостьевания. ## Метод Предлагаемый подход основывается на интеграции двух различных подходов к управлению: глубинного обучения с подкреплением (DRL) и моделирующего контроля (MPC). Глубинное обучение с подкреплением обеспечивает выполнение задачи в реальном времени и оптимизацию динамического поведения системы. Моделирующий контроль, с другой стороны, обеспечивает точное управление силовыми действиями, которые влияют на движение спутника. Метод PPO и SAC, в частности, используется для улучшения обучения DRL, в то время как MPC применяется для управления точной внедрения силы в систему. Архитектура представляет собой пространственную модель системы, включая динамику топливного слабостьевания, а также математическое описание управляющих сил, которые могут быть применены для управления движением. ## Результаты Для симуляции проводились эксперименты как в условиях микрогравитации, так и в нормальных условиях. Для этого использовалась платформа Zero-G Lab of SnT для планарного стабилизации и высокоточных цифровых моделей для 6-DOF docking с динамикой топливного слабостьевания. Результаты показали, что интегрированный подход, который использует SAC-MPC, превосходит отдельные DRL-методы, такие как PPO и SAC, а также MPC-методы в сочетании. Наблюдалось улучшение точности причаливания, увеличение успешности действий и сокращение потребления топлива. Это свидетельствует о высокой эффективности интегрированного подхода в решении проблемы топливного слабостьевания. ## Значимость Предлагаемый подход может быть использован в различных областях, включая на-орбитные услуги, такие как на-орбитное пополнение топлива

Abstract

This paper presents an integrated Reinforcement Learning (RL) and Model Predictive Control (MPC) framework for autonomous satellite docking with a partially filled fuel tank. Traditional docking control faces challenges due to fuel sloshing in microgravity, which induces unpredictable forces affecting stability. To address this, we integrate Proximal Policy Optimization (PPO) and Soft Actor-Critic (SAC) RL algorithms with MPC, leveraging MPC's predictive capabilities to accelerate RL training and improve control robustness. The proposed approach is validated through Zero-G Lab of SnT experiments for planar stabilization and high-fidelity numerical simulations for 6-DOF docking with fuel sloshing dynamics. Simulation results demonstrate that SAC-MPC achieves superior docking accuracy, higher success rates, and lower control effort, outperforming standalone RL and PPO-MPC methods. This study advances fuel-efficient and disturbance-resilient satellite docking, enhancing the feasibility of on-orbit refueling and servicing missions.

Ссылки и действия