SegDAC: Segmentation-Driven Actor-Critic for Visual Reinforcement Learning
2508.09325v1
cs.CV, cs.AI, cs.LG, cs.RO
2025-08-15
Авторы:
Alexandre Brown, Glen Berseth
Резюме на русском
## Контекст
Visual reinforcement learning (RL) представляет собой сложную задачу, требующую эффективного уровня обучения как с точки зрения восприятия, так и с точки зрения принятия решений. Проблема заключается в том, что высокоразмерные входные данные, такие как изображения, требуют сложной обработки, а ненормализованные награды создают дополнительные сложности. До сих пор, несмотря на развитие моделей в области визуального распознавания, интеграция этих моделей в RL для улучшения общей точности и эффективности выбора остается неочевидной задачей. Мотивация для создания SegDAC (Segmentation-Driven Actor-Critic) заключается в том, чтобы решить эти проблемы, обеспечив улучшенную обработку визуальных данных и усиленный подход к обучению.
## Метод
SegDAC основывается на интеграции двух моделей: Segment Anything (SAM) и YOLO-World. SAM используется для декомпозиции изображений на отдельные сегменты, которые затем становятся объектами действий в RL. YOLO-World позволяет трансформировать эти сегменты в семантически значимые элементы с помощью текстовых признаков. Для управления таким динамическим количеством сегментов SegDAC вводит новую архитектуру, основанную на трансформерной структуре. Эта архитектура адаптивна и позволяет RL-агенту динамически выбирать, какие сегменты должны быть особенно внимательно обработаны. Несмотря на это, SegDAC не требует каких-либо размеченных данных, чем упрощает процесс обучения и увеличивает применимость в реальных сценариях.
## Результаты
Опытные исследования проводились на бенчмарке ManiSkill3, который представляет собой сложный набор задач манипуляции, включая разнообразные визуальные помехи. В тяжелой версии этого бенчмарка, SegDAC демонстрирует двойной прирост эффективности в обработке визуальных данных по сравнению с предыдущими методами. Также, SegDAC показал примерно одинаковую эффективность в обучении (sample efficiency) по сравнению с другими методами по всем задачам, протестированным в этом эксперименте. Эти результаты подтверждают улучшенную обработку визуальных сигналов и эффективность SegDAC в обучении визуальных RL-систем.
## Значимость
SegDAC может быть применен в области визуальных RL для различных задач, таких как манипуляция, игровые сценарии и даже визуальное управление роботами. Основные преимущества SegDAC заключаются в улучшенной общей точности, более эффективном использовании данных и уменьшении потребности в разметке данных. Это также открывает путь к будущим исследованиям в области визуальных RL и взаимодействия роботов с визуальным миром.
## Выводы
SegDAC достигает существенных улучшений в области визуального RL, используя дина
Abstract
Visual reinforcement learning (RL) is challenging due to the need to learn
both perception and actions from high-dimensional inputs and noisy rewards.
Although large perception models exist, integrating them effectively into RL
for visual generalization and improved sample efficiency remains unclear. We
propose SegDAC, a Segmentation-Driven Actor-Critic method. SegDAC uses Segment
Anything (SAM) for object-centric decomposition and YOLO-World to ground
segments semantically via text prompts. It includes a novel transformer-based
architecture that supports a dynamic number of segments at each time step and
effectively learns which segments to focus on using online RL, without using
human labels. By evaluating SegDAC over a challenging visual generalization
benchmark using Maniskill3, which covers diverse manipulation tasks under
strong visual perturbations, we demonstrate that SegDAC achieves significantly
better visual generalization, doubling prior performance on the hardest setting
and matching or surpassing prior methods in sample efficiency across all
evaluated tasks.