RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation
2509.22356v1
cs.RO, cs.CV
2025-09-30
Авторы:
Enguang Liu, Siyuan Liang, Liming Lu, Xiyu Zeng, Xiaochun Cao, Aishan Liu, Shuchao Pang
Резюме на русском
## Контекст
Обеспечение безопасности и надежности роботов с роботом-мировоззрением (embodied agents) зависит от точности и нейтральности визуального восприятия. Несмотря на развитие существующих бенчмарков, которые фокусируются на генерализации и устойчивости под воздействием помех, нет универсального подхода к систематической оценке визуального баса. Это ограничивает понимание влияния визуальных факторов на стабильность решений. Мы предлагаем **RoboView-Bias**, первый бенчмарк, специально разработанный для систематической оценки визуального баса в робототехнических задачах с применением принципа изоляции факторов. Он позволяет тщательно изучить влияние отдельных визуальных факторов и их взаимодействий.
## Метод
Мы создали RoboView-Bias, используя разнообразие задач и факторов визуального восприятия. Наша методология включает в себя:
1. **Фреймворк по генерации вариантов задач**: этот подход позволяет создавать структурированные сценарии с определенными факторами, такими как цвет, видение и свет.
2. **Протокол валидации с оценкой честности восприятия**: он позволяет измерять точность и нейтральность результатов.
3. **Эксперименты с тремя важными робото-мировоззрениями**: мы представляем системы из разных парадигм и измеряем их восприятие с учетом изолированных факторов и их комбинаций.
## Результаты
Используя RoboView-Bias, мы выявили следующие выводы:
1. **Все изучаемые агенты имеют существенные визуальные баги**. Мы обнаружили, что наиболее важным фактором является **угол обзора камеры** (viewpoint).
2. **Наиболее сильное влияние на успешность задач имеют сочетания ярких, высоко-сатюрационных цветов**, что указывает на влияние наследственных предпочтений визуальных систем, основанных на Vision-and-Language Models (VLMs).
3. **Asymmetric Coupling**: визуальный баг, вызванный видом, может сильно усиливать влияние цвета и других факторов.
4. **Семантическое граундинг**: мы проанализировали стратегию семантического граундинга, которая снимает баги на 54.5% в MOCA-benchmark.
## Значимость
Наша работа имеет решающее значение для областей, где обеспечение надежности и безопасности роботов с роботом-мировоззрением является ключевым. **Применения**:
- Оценка визуальных багов в системах роботов.
- Развитие безопасных и надежных роботов-мировоззрения.
- Метод позволяет улучшить понимание влияния визуальных факторов на решения роботов.
## Выводы
Мы установили, что визуальные баги являются критическим фактором в стабильности роботов-мировоззрения. **Будущие исследова
Abstract
The safety and reliability of embodied agents rely on accurate and unbiased
visual perception. However, existing benchmarks mainly emphasize generalization
and robustness under perturbations, while systematic quantification of visual
bias remains scarce. This gap limits a deeper understanding of how perception
influences decision-making stability. To address this issue, we propose
RoboView-Bias, the first benchmark specifically designed to systematically
quantify visual bias in robotic manipulation, following a principle of factor
isolation. Leveraging a structured variant-generation framework and a
perceptual-fairness validation protocol, we create 2,127 task instances that
enable robust measurement of biases induced by individual visual factors and
their interactions. Using this benchmark, we systematically evaluate three
representative embodied agents across two prevailing paradigms and report three
key findings: (i) all agents exhibit significant visual biases, with camera
viewpoint being the most critical factor; (ii) agents achieve their highest
success rates on highly saturated colors, indicating inherited visual
preferences from underlying VLMs; and (iii) visual biases show strong,
asymmetric coupling, with viewpoint strongly amplifying color-related bias.
Finally, we demonstrate that a mitigation strategy based on a semantic
grounding layer substantially reduces visual bias by approximately 54.5\% on
MOKA. Our results highlight that systematic analysis of visual bias is a
prerequisite for developing safe and reliable general-purpose embodied agents.
Ссылки и действия
Дополнительные ресурсы: