RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation

2509.22356v1 cs.RO, cs.CV 2025-09-30
Авторы:

Enguang Liu, Siyuan Liang, Liming Lu, Xiyu Zeng, Xiaochun Cao, Aishan Liu, Shuchao Pang

Резюме на русском

## Контекст Обеспечение безопасности и надежности роботов с роботом-мировоззрением (embodied agents) зависит от точности и нейтральности визуального восприятия. Несмотря на развитие существующих бенчмарков, которые фокусируются на генерализации и устойчивости под воздействием помех, нет универсального подхода к систематической оценке визуального баса. Это ограничивает понимание влияния визуальных факторов на стабильность решений. Мы предлагаем **RoboView-Bias**, первый бенчмарк, специально разработанный для систематической оценки визуального баса в робототехнических задачах с применением принципа изоляции факторов. Он позволяет тщательно изучить влияние отдельных визуальных факторов и их взаимодействий. ## Метод Мы создали RoboView-Bias, используя разнообразие задач и факторов визуального восприятия. Наша методология включает в себя: 1. **Фреймворк по генерации вариантов задач**: этот подход позволяет создавать структурированные сценарии с определенными факторами, такими как цвет, видение и свет. 2. **Протокол валидации с оценкой честности восприятия**: он позволяет измерять точность и нейтральность результатов. 3. **Эксперименты с тремя важными робото-мировоззрениями**: мы представляем системы из разных парадигм и измеряем их восприятие с учетом изолированных факторов и их комбинаций. ## Результаты Используя RoboView-Bias, мы выявили следующие выводы: 1. **Все изучаемые агенты имеют существенные визуальные баги**. Мы обнаружили, что наиболее важным фактором является **угол обзора камеры** (viewpoint). 2. **Наиболее сильное влияние на успешность задач имеют сочетания ярких, высоко-сатюрационных цветов**, что указывает на влияние наследственных предпочтений визуальных систем, основанных на Vision-and-Language Models (VLMs). 3. **Asymmetric Coupling**: визуальный баг, вызванный видом, может сильно усиливать влияние цвета и других факторов. 4. **Семантическое граундинг**: мы проанализировали стратегию семантического граундинга, которая снимает баги на 54.5% в MOCA-benchmark. ## Значимость Наша работа имеет решающее значение для областей, где обеспечение надежности и безопасности роботов с роботом-мировоззрением является ключевым. **Применения**: - Оценка визуальных багов в системах роботов. - Развитие безопасных и надежных роботов-мировоззрения. - Метод позволяет улучшить понимание влияния визуальных факторов на решения роботов. ## Выводы Мы установили, что визуальные баги являются критическим фактором в стабильности роботов-мировоззрения. **Будущие исследова

Abstract

The safety and reliability of embodied agents rely on accurate and unbiased visual perception. However, existing benchmarks mainly emphasize generalization and robustness under perturbations, while systematic quantification of visual bias remains scarce. This gap limits a deeper understanding of how perception influences decision-making stability. To address this issue, we propose RoboView-Bias, the first benchmark specifically designed to systematically quantify visual bias in robotic manipulation, following a principle of factor isolation. Leveraging a structured variant-generation framework and a perceptual-fairness validation protocol, we create 2,127 task instances that enable robust measurement of biases induced by individual visual factors and their interactions. Using this benchmark, we systematically evaluate three representative embodied agents across two prevailing paradigms and report three key findings: (i) all agents exhibit significant visual biases, with camera viewpoint being the most critical factor; (ii) agents achieve their highest success rates on highly saturated colors, indicating inherited visual preferences from underlying VLMs; and (iii) visual biases show strong, asymmetric coupling, with viewpoint strongly amplifying color-related bias. Finally, we demonstrate that a mitigation strategy based on a semantic grounding layer substantially reduces visual bias by approximately 54.5\% on MOKA. Our results highlight that systematic analysis of visual bias is a prerequisite for developing safe and reliable general-purpose embodied agents.

Ссылки и действия