AR as an Evaluation Playground: Bridging Metrics and Visual Perception of Computer Vision Models
2508.04102v1
cs.CV
2025-08-09
Авторы:
Ashkan Ganj, Yiqin Zhao, Tian Guo
Резюме на русском
Хотя людское восприятие является полезным инструментом для оценки качества компьютерного зрения (CV), проведение таких исследований часто затруднено сложными и непортируемыми системами. В статье предлагается новая платформа ARCADE, основанная на использовании технологий дополненной реальности (AR), что позволяет легко организовывать и проводить исследования восприятия. ARCADE обеспечивает удобную настройку экспериментов, поддержку разных моделей и интерактивных AR-задач, что делает процесс оценки более эффективным и доступным. Исследования показали, что AR может эффективно использоваться для получения человеческих оценок качества моделей, таких как оценка глубины и освещения. Кроме того, были проверены системные возможности ARCADE в различных условиях развертывания и использования, подтвердив её гибкость и эффективность для новых подходов в людско-центрической оценке CV-моделей.
Abstract
Human perception studies can provide complementary insights to qualitative
evaluation for understanding computer vision (CV) model performance. However,
conducting human perception studies remains a non-trivial task, it often
requires complex, end-to-end system setups that are time-consuming and
difficult to scale. In this paper, we explore the unique opportunity presented
by augmented reality (AR) for helping CV researchers to conduct perceptual
studies. We design ARCADE, an evaluation platform that allows researchers to
easily leverage AR's rich context and interactivity for human-centered CV
evaluation. Specifically, ARCADE supports cross-platform AR data collection,
custom experiment protocols via pluggable model inference, and AR streaming for
user studies. We demonstrate ARCADE using two types of CV models, depth and
lighting estimation and show that AR tasks can be effectively used to elicit
human perceptual judgments of model quality. We also evaluate the systems
usability and performance across different deployment and study settings,
highlighting its flexibility and effectiveness as a human-centered evaluation
platform.
Ссылки и действия
Дополнительные ресурсы: