DeGuV: Depth-Guided Visual Reinforcement Learning for Generalization and Interpretability in Manipulation

2509.04970v1 cs.RO, cs.AI 2025-09-09
Авторы:

Tien Pham, Xinyun Chi, Khang Nguyen, Manfred Huber, Angelo Cangelosi

Резюме на русском

#### Контекст Область исследований включает в себя развитие алгоритмов и методов для обеспечения генерализации и интерпретируемости визуальных моделей в системах программирования на основе визуальных входных данных. Особенно актуальным этот вопрос является в рамках робототехники, где системы должны решать задачи в новых средах с минимальным обучением. На сегодняшний день существуют проблемы с обеспечением общейтины и устойчивости визуальных моделей в RL (Reinforcement Learning), так как обычные методы обучения часто терпят неудачи в новых условиях, не входящих в обучающую выборку. Это приводит к необходимости разработки систем, которые способны быстро адаптироваться и обеспечивать прозрачность в своих решениях. #### Метод Предлагаемый метод, DeGuV (Depth-Guided Visual Reinforcement Learning), основывается на использовании маскирования визуальных данных с помощью learnable masker network, который использует глубинные кадры (depth) для формирования маски, контролирующей внимание модели. Эта маска выделяет важные регионы в изображении, предотвращая распыление внимания на ненужные детали. Более того, в процессе обучения внедрена контрастная оценка для Q-значений, чтобы повысить стабильность и эффективность тренировки на разных исходных данных. Эта стратегия позволяет модели быстро адаптироваться к новым условиям и повысить уровень прозрачности в своих решениях. #### Результаты Результаты экспериментов проводились на RL-ViGen бенчмарке с использованием робота Franka Emika. Агент DeGuV показал выдающиеся результаты в zero-shot sim-to-real transfer, то есть в условиях перехода из симулятора в реальный мир без дополнительного обучения. Метод показал высокую устойчивость и эффективность в обучении, существенно превосходя существующие методы по общейтине и скорости обучения. Также DeGuV улучшил интерпретируемость решений за счет выделения важных областей визуальных данных, которые влияют на модель. #### Значимость Проанализированы возможные области применения DeGuV, в том числе в робототехнике, где требуется быстрая адаптация моделей в новых средах. Особенно значимы области, где необходима высокая генерализация и интерпретируемость моделей. Наиболее заметными преимуществами являются улучшенная устойчивость к новым условиям, быстрота обучения и повышенное внимание к ключевым регионам во входных данных. Будущй потенциал исследований заключается в расширении этого подхода на другие типы задач, в том числе не только в робототехнике, но также в различных трехмерных задачах с визуальными входом. #### Выводы Метод DeGuV достиг высоких результатов в области генерализации и инт

Abstract

Reinforcement learning (RL) agents can learn to solve complex tasks from visual inputs, but generalizing these learned skills to new environments remains a major challenge in RL application, especially robotics. While data augmentation can improve generalization, it often compromises sample efficiency and training stability. This paper introduces DeGuV, an RL framework that enhances both generalization and sample efficiency. In specific, we leverage a learnable masker network that produces a mask from the depth input, preserving only critical visual information while discarding irrelevant pixels. Through this, we ensure that our RL agents focus on essential features, improving robustness under data augmentation. In addition, we incorporate contrastive learning and stabilize Q-value estimation under augmentation to further enhance sample efficiency and training stability. We evaluate our proposed method on the RL-ViGen benchmark using the Franka Emika robot and demonstrate its effectiveness in zero-shot sim-to-real transfer. Our results show that DeGuV outperforms state-of-the-art methods in both generalization and sample efficiency while also improving interpretability by highlighting the most relevant regions in the visual input

Ссылки и действия