VGGSounder: Audio-Visual Evaluations for Foundation Models
2508.08237v2
cs.MM, cs.AI, cs.SD
2025-08-14
Авторы:
Daniil Zverev, Thaddäus Wiedemer, Ameya Prabhu, Matthias Bethge, Wieland Brendel, A. Sophia Koepke
Резюме на русском
## Контекст
Аудио-визуальные фундаментальные модели, использующие звуковые и зрительные сигналы, приобретают все большую значимость в области машинного обучения. Одной из ключевых задач в этой области является правильное оценивание понимания таких моделей. Для этого часто используется датасет VGGSound, который представляет собой значительный ресурс для оценки классификации аудио-визуальных сигналов. Однако наш анализ выявил несколько проблем, включая неполную меткацию, пересекающиеся классы и неоднородность между модальностями. Эти ошибки влияют на точность оценки моделей и потенциально приводят к неверным выводам. Чтобы устранить эти недостатки, мы предлагаем VGGSounder — расширенный, перезагруженный датасет с подробными мультимодальными метками, который позволяет проводить более точные исследования.
## Метод
VGGSounder является дополнением к VGGSound и представляет собой новый многомерный тестовый набор, основанный на том же наборе видео, но с переоцененными метками. Методология включает перезагрузку меток с целью гарантировать точность и полноту. Мы также ввели новый метрику "модальностная путаница", которая позволяет отслеживать различия в производительности моделей при добавлении дополнительной модальности. Данная метрика позволяет выявлять недостатки моделей, связанные с их несовершенным пониманием мультимодальных сигналов.
## Результаты
Мы провели эксперименты с использованием VGGSounder на нескольких знаковых моделях аудио-визуального понимания. Наши результаты показали, что многие модели демонстрируют существенные недостатки в понимании одной или обеих модальностей. Например, мы обнаружили, что при добавлении дополнительной модальности производительность моделей значительно ухудшается из-за существующих несовпадений и пересечений классов. Эти результаты демонстрируют необходимость более точных методов оценки для таких моделей.
## Значимость
VGGSounder открывает новые возможности для понимания и оценки аудио-визуальных моделей. Он может использоваться в бенчмарках для проверки новых моделей, а также для изучения проблем, связанных с несовпадением модальностей. Возможно, эта работа может привести к новым алгоритмам, которые будут более эффективно обрабатывать мультимодальные данные. Кроме того, VGGSounder может быть применим в различных областях, таких как аудио-визуальная синтезированная реальность, устройства с аудио-визуальным взаимодействием, и мультимодальная аналитика.
## Выводы
Мы представили VGGSounder, переоцененную многомерную метку для VGGSound, которая оптимизирована для точной оценки аудио-визуальных моделей. Наши исследования выявили недоста
Abstract
The emergence of audio-visual foundation models underscores the importance of
reliably assessing their multi-modal understanding. The VGGSound dataset is
commonly used as a benchmark for evaluation audio-visual classification.
However, our analysis identifies several limitations of VGGSound, including
incomplete labelling, partially overlapping classes, and misaligned modalities.
These lead to distorted evaluations of auditory and visual capabilities. To
address these limitations, we introduce VGGSounder, a comprehensively
re-annotated, multi-label test set that extends VGGSound and is specifically
designed to evaluate audio-visual foundation models. VGGSounder features
detailed modality annotations, enabling precise analyses of modality-specific
performance. Furthermore, we reveal model limitations by analysing performance
degradation when adding another input modality with our new modality confusion
metric.
Ссылки и действия
Дополнительные ресурсы: