MEMBOT: Memory-Based Robot in Intermittent POMDP

2509.11225v1 cs.RO, cs.AI 2025-09-17
Авторы:

Youzhi Liang, Eyan Noronha

Резюме на русском

#### Контекст Роботизированные системы, работающие в реальном мире, часто сталкиваются с условиями частичной и интерммттентной наблюдаемости. Такие ситуации возникают, когда сенсорные входы могут быть шумными, заслоненными или полностью недоступными из-за отказов или окружающих условий. Традиционные алгоритмы развития подходов, основанные на полной наблюдаемости, не приспособлены к таким задачам. Решая эту проблему, предлагается MEMBOT — модульная архитектура, основанная на использовании памяти, которая может устойчиво решать задачи управления в условиях частичной наблюдаемости. #### Метод MEMBOT разделяет обучение верии и политики на два этапа. В первом этапе, во время оффлайнового обучения, используется модель на основе состояния-пространства (SSM) и LSTM для реконструкции задач, независимо от конкретных задач. Эта модель сохраняет значимые представления состояния, даже когда входные данные отсутствуют. Во втором этапе происходит онлайн-обучение специфических для задачи политик с помощью поведенческого клонирования. Эта двухэтапная модель позволяет MEMBOT обеспечивать высокую эффективность и гибкость при работе в частично наблюдаемых средах. #### Результаты Выполненные эксперименты показали, что MEMBOT существенно превосходит другие методы, включая мемориллз и просто рекуррентные модели. Он поддерживает до 80% от максимального эффекта при 50% доступности входных данных. Задачи, использованные в экспериментах, были взяты из бенчмарков MetaWorld и Robomimic. Эти результаты указывают на высокую точность и постоянную устойчивость MEMBOT в условиях пониженной наблюдаемости. #### Значимость MEMBOT может быть применен в различных областях, где требуется управление в условиях частичной наблюдаемости, например, в автоматизации производств, робототехнике, робот-манипуляторов. Он обеспечивает высокую надёжность, гибкость в переключении между задачами и эффективность в процессе обучения. Его разработка может привести к значительным улучшениям в сфере роботизированных систем, увеличивая их надежность и эффективность в реальных условиях. #### Выводы В результате, MEMBOT доказал свою эффективность в сложных задачах управления в условиях частичной и интерммттентной наблюдаемости. На будущее, планируется расширить область применения MEMBOT, в том числе повысить его производительность в ситуациях с более сложными задачами и условиями. Это может привести к развитию новых подходов в области управления и автоматизации с использованием роботов.

Abstract

Robotic systems deployed in real-world environments often operate under conditions of partial and often intermittent observability, where sensor inputs may be noisy, occluded, or entirely unavailable due to failures or environmental constraints. Traditional reinforcement learning (RL) approaches that assume full state observability are ill-equipped for such challenges. In this work, we introduce MEMBOT, a modular memory-based architecture designed to address intermittent partial observability in robotic control tasks. MEMBOT decouples belief inference from policy learning through a two-phase training process: an offline multi-task learning pretraining stage that learns a robust task-agnostic latent belief encoder using a reconstruction losses, followed by fine-tuning of task-specific policies using behavior cloning. The belief encoder, implemented as a state-space model (SSM) and a LSTM, integrates temporal sequences of observations and actions to infer latent state representations that persist even when observations are dropped. We train and evaluate MEMBOT on 10 robotic manipulation benchmark tasks from MetaWorld and Robomimic under varying rates of observation dropout. Results show that MEMBOT consistently outperforms both memoryless and naively recurrent baselines, maintaining up to 80% of peak performance under 50% observation availability. These findings highlight the effectiveness of explicit belief modeling in achieving robust, transferable, and data-efficient policies for real-world partially observable robotic systems.

Ссылки и действия