DeGuV: Depth-Guided Visual Reinforcement Learning for Generalization and Interpretability in Manipulation
2509.04970v1
cs.RO, cs.AI
2025-09-09
Авторы:
Tien Pham, Xinyun Chi, Khang Nguyen, Manfred Huber, Angelo Cangelosi
Резюме на русском
#### Контекст
Область исследований включает в себя развитие алгоритмов и методов для обеспечения генерализации и интерпретируемости визуальных моделей в системах программирования на основе визуальных входных данных. Особенно актуальным этот вопрос является в рамках робототехники, где системы должны решать задачи в новых средах с минимальным обучением. На сегодняшний день существуют проблемы с обеспечением общейтины и устойчивости визуальных моделей в RL (Reinforcement Learning), так как обычные методы обучения часто терпят неудачи в новых условиях, не входящих в обучающую выборку. Это приводит к необходимости разработки систем, которые способны быстро адаптироваться и обеспечивать прозрачность в своих решениях.
#### Метод
Предлагаемый метод, DeGuV (Depth-Guided Visual Reinforcement Learning), основывается на использовании маскирования визуальных данных с помощью learnable masker network, который использует глубинные кадры (depth) для формирования маски, контролирующей внимание модели. Эта маска выделяет важные регионы в изображении, предотвращая распыление внимания на ненужные детали. Более того, в процессе обучения внедрена контрастная оценка для Q-значений, чтобы повысить стабильность и эффективность тренировки на разных исходных данных. Эта стратегия позволяет модели быстро адаптироваться к новым условиям и повысить уровень прозрачности в своих решениях.
#### Результаты
Результаты экспериментов проводились на RL-ViGen бенчмарке с использованием робота Franka Emika. Агент DeGuV показал выдающиеся результаты в zero-shot sim-to-real transfer, то есть в условиях перехода из симулятора в реальный мир без дополнительного обучения. Метод показал высокую устойчивость и эффективность в обучении, существенно превосходя существующие методы по общейтине и скорости обучения. Также DeGuV улучшил интерпретируемость решений за счет выделения важных областей визуальных данных, которые влияют на модель.
#### Значимость
Проанализированы возможные области применения DeGuV, в том числе в робототехнике, где требуется быстрая адаптация моделей в новых средах. Особенно значимы области, где необходима высокая генерализация и интерпретируемость моделей. Наиболее заметными преимуществами являются улучшенная устойчивость к новым условиям, быстрота обучения и повышенное внимание к ключевым регионам во входных данных. Будущй потенциал исследований заключается в расширении этого подхода на другие типы задач, в том числе не только в робототехнике, но также в различных трехмерных задачах с визуальными входом.
#### Выводы
Метод DeGuV достиг высоких результатов в области генерализации и инт
Abstract
Reinforcement learning (RL) agents can learn to solve complex tasks from
visual inputs, but generalizing these learned skills to new environments
remains a major challenge in RL application, especially robotics. While data
augmentation can improve generalization, it often compromises sample efficiency
and training stability. This paper introduces DeGuV, an RL framework that
enhances both generalization and sample efficiency. In specific, we leverage a
learnable masker network that produces a mask from the depth input, preserving
only critical visual information while discarding irrelevant pixels. Through
this, we ensure that our RL agents focus on essential features, improving
robustness under data augmentation. In addition, we incorporate contrastive
learning and stabilize Q-value estimation under augmentation to further enhance
sample efficiency and training stability. We evaluate our proposed method on
the RL-ViGen benchmark using the Franka Emika robot and demonstrate its
effectiveness in zero-shot sim-to-real transfer. Our results show that DeGuV
outperforms state-of-the-art methods in both generalization and sample
efficiency while also improving interpretability by highlighting the most
relevant regions in the visual input
Ссылки и действия
Дополнительные ресурсы: