VGGSounder: Audio-Visual Evaluations for Foundation Models
2508.08237v1
cs.MM, cs.AI, cs.SD
2025-08-13
Авторы:
Daniil Zverev, Thaddäus Wiedemer, Ameya Prabhu, Matthias Bethge, Wieland Brendel, A. Sophia Koepke
Резюме на русском
#### Контекст
Аудио-визуальные фонд-модели становятся важным инструментом для объединения данных из разных чувств. Однако для их эффективного использования необходима надежная оценка их мультимодального понимания. Несмотря на популярность VGGSounder-датасета в качестве бенчмарка для оценки классификации аудио-визуальных данных, его имеются существенные ограничения. Эти ограничения включают неполную метканию, частичное перекрытие классов и несоответствие модальностей. Эти проблемы деформируют оценку возможностей моделей по распознаванию звука и видео.
#### Метод
Мы предлагаем VGGSounder, новый аудио-визуальный тестовый набор, который является расширением VGGSound. Данный набор был тщательно переоценен и снабжен подробными метками модальностей, позволяющими проводить точные анализы по отдельности силы каждой модальности. Мы также предлагаем новый метрику, "мешанина модальностей", которая позволяет выявлять ограничения моделей при добавлении дополнительных входных модальностей.
#### Результаты
Исследования проводились на основе VGGSounder-датасета. Мы проанализировали использование аудио-визуальных моделей и их восприятие разных модальностей. Отчёт о результатах включал анализ полученных показателей и сравнения с другими моделями. Наша метрика "мешанина модальностей" позволила выявить сильные и слабые стороны построенных моделей.
#### Значимость
Предлагаемый набор данных и методы тестирования открывают новые горизонты для эффективного оценивания фондовых аудио-визуальных моделей. Такие наборы данных являются важной инструментовой базой для развития моделей, которые понимают синергетически данные из разных чувств. В целом, достижение VGGSounder-датасета может способствовать развитию широкого спектра приложений, включая робототехнику, медицину, аудио-визуальные системы видеонаблюдения.
#### Выводы
Мы установили, что VGGSounder является значительным улучшением для понимания ограничений и сил фондовых моделей аудио-визуального характера. Наш рабочий набор данных и метрика "мешанина модальностей" могут стать ключевыми инструментами для будущих исследований. В будущем мы планируем расширить VGGSounder, включив более наборов задач и сценариев, чтобы обеспечить более глубокое понимание мультимодальных моделей.
Abstract
The emergence of audio-visual foundation models underscores the importance of
reliably assessing their multi-modal understanding. The VGGSounder dataset is
commonly used as a benchmark for evaluation audio-visual classification.
However, our analysis identifies several limitations of VGGSounder, including
incomplete labelling, partially overlapping classes, and misaligned modalities.
These lead to distorted evaluations of auditory and visual capabilities. To
address these limitations, we introduce VGGSounder, a comprehensively
re-annotated, multi-label test set that extends VGGSound and is specifically
designed to evaluate audio-visual foundation models. VGGSounder features
detailed modality annotations, enabling precise analyses of modality-specific
performance. Furthermore, we reveal model limitations by analysing performance
degradation when adding another input modality with our new modality confusion
metric.
Ссылки и действия
Дополнительные ресурсы: