TLE-Based A2C Agent for Terrestrial Coverage Orbital Path Planning

2508.10872v1 cs.RO, cs.AI 2025-08-16

Авторы:

Anantha Narayanan, Battu Bhanu Teja, Pruthwik Mishra

Резюме на русском

#### Контекст В последние годы становится всё более актуальной задача управления орбитальными путями спутников, в связи с быстро растущей плотностью низкого орбитального пространства (LEO). Это приводит к усилению риска столкновений с активными спутниками и дебри. Задача оптимизации орбитальных путей, удовлетворяющих требованиям миссий и обеспечивающих максимальную безопасность, становится ключевой. На сегодняшний день, большинство методов оптимизации орбитальных путей основываются на инструментах математического программирования, таких как квадратичное программирование или методы полных скрещиваний. Однако эти подходы часто требуют больших вычислительных ресурсов и не всегда эффективны для реального времени. Решением этой проблемы может стать использование алгоритмов машинного обучения, в частности, реинфорсментного обучения (RL). #### Метод Методология предложенного подхода основывается на использовании алгоритма Advantage Actor-Critic (A2C) в рамках технологии RL. Работа проводилась в окружении OpenAI Gym, представляющем динамику орбитального движения спутника с помощью классических элементов Кеплера. Основной задачей агента является настройка пяти орбитальных параметров: полубольшая полуось, эксцентриситет, инклюзия, правый азимут возвышающегося узла и аргумент перигея. Целью является достижение целевого покрытия земли в пределах заданных радиусов. Для моделирования окружения использовалась формализация проблемы в виде Марковского Решающего Процесса (MDP). На каждом шагу, агент получал набор наблюдаемых данных, связанных с орбитальным движением, и выбирал оптимальный набор параметров в соответствии с полученными наградами. #### Результаты Для проверки эффективности предложенного подхода проведено ряд экспериментов, включающих сравнение A2C с другими алгоритмами RL, такими как Proximal Policy Optimization (PPO). Результаты показали, что A2C не только достигает более высоких наград (10.0 в сравнении с 9.263025 для PPO), но и демонстрирует более быстрое сходимость к решению. Например, для достижения оптимальных параметров, A2C требовал лишь 2,000 шагов в сравнении с 63,000 шагами для PPO. Это делает A2C более эффективным для реального времени применения в условиях того, что требования к быстродействию и высокой производительности критичны. #### Значимость Предложенный подход обладает значительным потенциалом применения в различных областях, таких как управление орбитальными миссиями, интеллектуальное управление космическим трафиком, и оптимизация глобальных сетей сп

Abstract

The increasing congestion of Low Earth Orbit (LEO) poses persistent challenges to the efficient deployment and safe operation of Earth observation satellites. Mission planners must now account not only for mission-specific requirements but also for the increasing collision risk with active satellites and space debris. This work presents a reinforcement learning framework using the Advantage Actor-Critic (A2C) algorithm to optimize satellite orbital parameters for precise terrestrial coverage within predefined surface radii. By formulating the problem as a Markov Decision Process (MDP) within a custom OpenAI Gymnasium environment, our method simulates orbital dynamics using classical Keplerian elements. The agent progressively learns to adjust five of the orbital parameters - semi-major axis, eccentricity, inclination, right ascension of ascending node, and the argument of perigee-to achieve targeted terrestrial coverage. Comparative evaluation against Proximal Policy Optimization (PPO) demonstrates A2C's superior performance, achieving 5.8x higher cumulative rewards (10.0 vs 9.263025) while converging in 31.5x fewer timesteps (2,000 vs 63,000). The A2C agent consistently meets mission objectives across diverse target coordinates while maintaining computational efficiency suitable for real-time mission planning applications. Key contributions include: (1) a TLE-based orbital simulation environment incorporating physics constraints, (2) validation of actor-critic methods' superiority over trust region approaches in continuous orbital control, and (3) demonstration of rapid convergence enabling adaptive satellite deployment. This approach establishes reinforcement learning as a computationally efficient alternative for scalable and intelligent LEO mission planning.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

TLE-Based A2C Agent for Terrestrial Coverage Orbital Path Planning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Open-Ended Goal Inference through Actions and Language for Human-Robot Collabora...

Using Machine Learning to Take Stay-or-Go Decisions in Data-driven Drone Mission...

CRAFT-E: A Neuro-Symbolic Framework for Embodied Affordance Grounding

World Models for Autonomous Navigation of Terrestrial Robots from LIDAR Observat...

A Learning-based Control Methodology for Transitioning VTOL UAVs

Навигация