VGGSounder: Audio-Visual Evaluations for Foundation Models

2508.08237v2 cs.MM, cs.AI, cs.SD 2025-08-14

Авторы:

Daniil Zverev, Thaddäus Wiedemer, Ameya Prabhu, Matthias Bethge, Wieland Brendel, A. Sophia Koepke

Резюме на русском

## Контекст Аудио-визуальные фундаментальные модели, использующие звуковые и зрительные сигналы, приобретают все большую значимость в области машинного обучения. Одной из ключевых задач в этой области является правильное оценивание понимания таких моделей. Для этого часто используется датасет VGGSound, который представляет собой значительный ресурс для оценки классификации аудио-визуальных сигналов. Однако наш анализ выявил несколько проблем, включая неполную меткацию, пересекающиеся классы и неоднородность между модальностями. Эти ошибки влияют на точность оценки моделей и потенциально приводят к неверным выводам. Чтобы устранить эти недостатки, мы предлагаем VGGSounder — расширенный, перезагруженный датасет с подробными мультимодальными метками, который позволяет проводить более точные исследования. ## Метод VGGSounder является дополнением к VGGSound и представляет собой новый многомерный тестовый набор, основанный на том же наборе видео, но с переоцененными метками. Методология включает перезагрузку меток с целью гарантировать точность и полноту. Мы также ввели новый метрику "модальностная путаница", которая позволяет отслеживать различия в производительности моделей при добавлении дополнительной модальности. Данная метрика позволяет выявлять недостатки моделей, связанные с их несовершенным пониманием мультимодальных сигналов. ## Результаты Мы провели эксперименты с использованием VGGSounder на нескольких знаковых моделях аудио-визуального понимания. Наши результаты показали, что многие модели демонстрируют существенные недостатки в понимании одной или обеих модальностей. Например, мы обнаружили, что при добавлении дополнительной модальности производительность моделей значительно ухудшается из-за существующих несовпадений и пересечений классов. Эти результаты демонстрируют необходимость более точных методов оценки для таких моделей. ## Значимость VGGSounder открывает новые возможности для понимания и оценки аудио-визуальных моделей. Он может использоваться в бенчмарках для проверки новых моделей, а также для изучения проблем, связанных с несовпадением модальностей. Возможно, эта работа может привести к новым алгоритмам, которые будут более эффективно обрабатывать мультимодальные данные. Кроме того, VGGSounder может быть применим в различных областях, таких как аудио-визуальная синтезированная реальность, устройства с аудио-визуальным взаимодействием, и мультимодальная аналитика. ## Выводы Мы представили VGGSounder, переоцененную многомерную метку для VGGSound, которая оптимизирована для точной оценки аудио-визуальных моделей. Наши исследования выявили недоста

Abstract

The emergence of audio-visual foundation models underscores the importance of reliably assessing their multi-modal understanding. The VGGSound dataset is commonly used as a benchmark for evaluation audio-visual classification. However, our analysis identifies several limitations of VGGSound, including incomplete labelling, partially overlapping classes, and misaligned modalities. These lead to distorted evaluations of auditory and visual capabilities. To address these limitations, we introduce VGGSounder, a comprehensively re-annotated, multi-label test set that extends VGGSound and is specifically designed to evaluate audio-visual foundation models. VGGSounder features detailed modality annotations, enabling precise analyses of modality-specific performance. Furthermore, we reveal model limitations by analysing performance degradation when adding another input modality with our new modality confusion metric.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

VGGSounder: Audio-Visual Evaluations for Foundation Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ProAV-DiT: A Projected Latent Diffusion Transformer for Efficient Synchronized A...

SynthGuard: An Open Platform for Detecting AI-Generated Multimedia with Multimod...

VGGSounder: Audio-Visual Evaluations for Foundation Models

Навигация