Towards Robust Evaluation of Visual Activity Recognition: Resolving Verb Ambiguity with Sense Clustering

2508.04945v1 cs.CL, cs.AI, cs.CV 2025-08-09
Авторы:

Louie Hong Yao, Nicholas Jarvis, Tianyu Jiang

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Визуальная распознавательная система для распознавания действий является важной областью исследований в области компьютерного зрения и языковых технологий. Однако, оценка эффективности таких систем сталкивается с некоторыми проблемами, связанными с неоднозначностью семантики глаголов и разнообразием точек зрения на изображения. Например, одно и то же действие может быть описано разными синонимичными глаголами (например, "brushing" и "grooming") или может иметь различные описания в зависимости от контекста (например, "piloting" vs. "operating"). Традиционные методы оценки, основанные на точном совпадении с единственным "золотым" ответом, не могут учитывать эту неоднозначность, что приводит к неполной и неточной оценке производительности моделей. Данная проблематика становится особенно актуальной при работе с большими наборами данных, где изображения могут быть интерпретированы по-разному в зависимости от контекста или цели. Таким образом, необходимо разработать более гибкий и точный метод оценки, который учитывал бы различные толкования действий и обеспечил бы более корректную оценку моделей распознавания действий. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают использовать визуально-языковой кластеринговый фреймворк для решения проблемы неоднозначности семантики глаголов. Этот фреймворк построен на основе создания кластеров смыслов (sense clusters) для глаголов, которые представляют различные интерпретации действий. Каждый кластер соответствует определенному перспективному виду на действие, который может быть выражен разными глаголами. Метод включает в себя анализ набора данных imSitu, где для каждого изображения определяется среднее количество кластеров, соответствующих разным интерпретациям. Например, для одного изображения может быть определено 2,8 кластера, каждый из которых представляет отдельный взгляд на действие. Авторы также проводят сравнение различных моделей распознавания действий, используя кластеризацию смыслов в качестве более точного метода оценки, по сравнению с традиционными подходами. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены ряд экспериментов на базе данных imSitu. Результаты показали, что каждое изображение может быть описано с помощью нескольких кластеров, что подтверждает наличие неоднозначности в интерпретации действий. Авторы также провели сравнение результатов различных моделей распознавания действий, используя как традиционный подход, так и кластеризацию смыслов. Результаты показали, что кластеризация смыслов лучше согласуется с человеческим суждением, что делает этот подход более точным и надежным. Кроме того, авторы провели анализ выравнивания моделей с человеческим опытом, который показал, что кластеризация смыслов лучше отражает различные точки зрения на действия, чем традиционные методы оценки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод кластеризации смыслов имеет широкое применение в области распознавания действий, особенно в ситуациях, где необходимо учитывать неоднозначность семантики. Этот подход может быть использован в различных приложениях, таких как распознавание действий в реальном времени, автоматическая аннотация изображений, а также в системах поддержки принятия решений, где точное понимание контекста играет ключевую роль. Преимуществом данного подхода является его способность учитывать различные перспективы и толкования действий, что позволяет получить более точную и контекстуальную оценку. Это может привести к улучшению качества распознавания действий и увеличению доверия к таким системам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, предложенный метод кластеризации смыслов для глаголов предлагает более гибкий и точный способ оценки моделей распознавания действий. Этот подход не только улучшает точность оценки, но также лучше согласуется с человеческим суждением. Будущие исследования могут фокусироваться на дальнейшем улучшении этого метода, включая расширение его применения на другие наборы данных и доработку алгоритмов кластеризации для еще более точного анализа. Также, можно рассмотреть возможность использования этого подхода в сочетании с другими методами оценки, такими как нейронные сети и глубокое обучение, для создания еще более надежных и точных систем распознавания действий.

Abstract

Evaluating visual activity recognition systems is challenging due to inherent ambiguities in verb semantics and image interpretation. When describing actions in images, synonymous verbs can refer to the same event (e.g., brushing vs. grooming), while different perspectives can lead to equally valid but distinct verb choices (e.g., piloting vs. operating). Standard exact-match evaluation, which relies on a single gold answer, fails to capture these ambiguities, resulting in an incomplete assessment of model performance. To address this, we propose a vision-language clustering framework that constructs verb sense clusters, providing a more robust evaluation. Our analysis of the imSitu dataset shows that each image maps to an average of 2.8 sense clusters, with each cluster representing a distinct perspective of the image. We evaluate multiple activity recognition models and compare our cluster-based evaluation with standard evaluation methods. Additionally, our human alignment analysis suggests that the cluster-based evaluation better aligns with human judgements, offering a more nuanced assessment of model performance.

Ссылки и действия