TLE-Based A2C Agent for Terrestrial Coverage Orbital Path Planning
2508.10872v1
cs.RO, cs.AI
2025-08-16
Авторы:
Anantha Narayanan, Battu Bhanu Teja, Pruthwik Mishra
Резюме на русском
#### Контекст
В последние годы становится всё более актуальной задача управления орбитальными путями спутников, в связи с быстро растущей плотностью низкого орбитального пространства (LEO). Это приводит к усилению риска столкновений с активными спутниками и дебри. Задача оптимизации орбитальных путей, удовлетворяющих требованиям миссий и обеспечивающих максимальную безопасность, становится ключевой. На сегодняшний день, большинство методов оптимизации орбитальных путей основываются на инструментах математического программирования, таких как квадратичное программирование или методы полных скрещиваний. Однако эти подходы часто требуют больших вычислительных ресурсов и не всегда эффективны для реального времени. Решением этой проблемы может стать использование алгоритмов машинного обучения, в частности, реинфорсментного обучения (RL).
#### Метод
Методология предложенного подхода основывается на использовании алгоритма Advantage Actor-Critic (A2C) в рамках технологии RL. Работа проводилась в окружении OpenAI Gym, представляющем динамику орбитального движения спутника с помощью классических элементов Кеплера. Основной задачей агента является настройка пяти орбитальных параметров: полубольшая полуось, эксцентриситет, инклюзия, правый азимут возвышающегося узла и аргумент перигея. Целью является достижение целевого покрытия земли в пределах заданных радиусов. Для моделирования окружения использовалась формализация проблемы в виде Марковского Решающего Процесса (MDP). На каждом шагу, агент получал набор наблюдаемых данных, связанных с орбитальным движением, и выбирал оптимальный набор параметров в соответствии с полученными наградами.
#### Результаты
Для проверки эффективности предложенного подхода проведено ряд экспериментов, включающих сравнение A2C с другими алгоритмами RL, такими как Proximal Policy Optimization (PPO). Результаты показали, что A2C не только достигает более высоких наград (10.0 в сравнении с 9.263025 для PPO), но и демонстрирует более быстрое сходимость к решению. Например, для достижения оптимальных параметров, A2C требовал лишь 2,000 шагов в сравнении с 63,000 шагами для PPO. Это делает A2C более эффективным для реального времени применения в условиях того, что требования к быстродействию и высокой производительности критичны.
#### Значимость
Предложенный подход обладает значительным потенциалом применения в различных областях, таких как управление орбитальными миссиями, интеллектуальное управление космическим трафиком, и оптимизация глобальных сетей сп
Abstract
The increasing congestion of Low Earth Orbit (LEO) poses persistent
challenges to the efficient deployment and safe operation of Earth observation
satellites. Mission planners must now account not only for mission-specific
requirements but also for the increasing collision risk with active satellites
and space debris. This work presents a reinforcement learning framework using
the Advantage Actor-Critic (A2C) algorithm to optimize satellite orbital
parameters for precise terrestrial coverage within predefined surface radii. By
formulating the problem as a Markov Decision Process (MDP) within a custom
OpenAI Gymnasium environment, our method simulates orbital dynamics using
classical Keplerian elements. The agent progressively learns to adjust five of
the orbital parameters - semi-major axis, eccentricity, inclination, right
ascension of ascending node, and the argument of perigee-to achieve targeted
terrestrial coverage. Comparative evaluation against Proximal Policy
Optimization (PPO) demonstrates A2C's superior performance, achieving 5.8x
higher cumulative rewards (10.0 vs 9.263025) while converging in 31.5x fewer
timesteps (2,000 vs 63,000). The A2C agent consistently meets mission
objectives across diverse target coordinates while maintaining computational
efficiency suitable for real-time mission planning applications. Key
contributions include: (1) a TLE-based orbital simulation environment
incorporating physics constraints, (2) validation of actor-critic methods'
superiority over trust region approaches in continuous orbital control, and (3)
demonstration of rapid convergence enabling adaptive satellite deployment. This
approach establishes reinforcement learning as a computationally efficient
alternative for scalable and intelligent LEO mission planning.
Ссылки и действия
Дополнительные ресурсы: