AR as an Evaluation Playground: Bridging Metrics and Visual Perception of Computer Vision Models

2508.04102v1 cs.CV 2025-08-09
Авторы:

Ashkan Ganj, Yiqin Zhao, Tian Guo

Резюме на русском

Хотя людское восприятие является полезным инструментом для оценки качества компьютерного зрения (CV), проведение таких исследований часто затруднено сложными и непортируемыми системами. В статье предлагается новая платформа ARCADE, основанная на использовании технологий дополненной реальности (AR), что позволяет легко организовывать и проводить исследования восприятия. ARCADE обеспечивает удобную настройку экспериментов, поддержку разных моделей и интерактивных AR-задач, что делает процесс оценки более эффективным и доступным. Исследования показали, что AR может эффективно использоваться для получения человеческих оценок качества моделей, таких как оценка глубины и освещения. Кроме того, были проверены системные возможности ARCADE в различных условиях развертывания и использования, подтвердив её гибкость и эффективность для новых подходов в людско-центрической оценке CV-моделей.

Abstract

Human perception studies can provide complementary insights to qualitative evaluation for understanding computer vision (CV) model performance. However, conducting human perception studies remains a non-trivial task, it often requires complex, end-to-end system setups that are time-consuming and difficult to scale. In this paper, we explore the unique opportunity presented by augmented reality (AR) for helping CV researchers to conduct perceptual studies. We design ARCADE, an evaluation platform that allows researchers to easily leverage AR's rich context and interactivity for human-centered CV evaluation. Specifically, ARCADE supports cross-platform AR data collection, custom experiment protocols via pluggable model inference, and AR streaming for user studies. We demonstrate ARCADE using two types of CV models, depth and lighting estimation and show that AR tasks can be effectively used to elicit human perceptual judgments of model quality. We also evaluate the systems usability and performance across different deployment and study settings, highlighting its flexibility and effectiveness as a human-centered evaluation platform.

Ссылки и действия