VGGSounder: Audio-Visual Evaluations for Foundation Models

2508.08237v1 cs.MM, cs.AI, cs.SD 2025-08-13
Авторы:

Daniil Zverev, Thaddäus Wiedemer, Ameya Prabhu, Matthias Bethge, Wieland Brendel, A. Sophia Koepke

Резюме на русском

#### Контекст Аудио-визуальные фонд-модели становятся важным инструментом для объединения данных из разных чувств. Однако для их эффективного использования необходима надежная оценка их мультимодального понимания. Несмотря на популярность VGGSounder-датасета в качестве бенчмарка для оценки классификации аудио-визуальных данных, его имеются существенные ограничения. Эти ограничения включают неполную метканию, частичное перекрытие классов и несоответствие модальностей. Эти проблемы деформируют оценку возможностей моделей по распознаванию звука и видео. #### Метод Мы предлагаем VGGSounder, новый аудио-визуальный тестовый набор, который является расширением VGGSound. Данный набор был тщательно переоценен и снабжен подробными метками модальностей, позволяющими проводить точные анализы по отдельности силы каждой модальности. Мы также предлагаем новый метрику, "мешанина модальностей", которая позволяет выявлять ограничения моделей при добавлении дополнительных входных модальностей. #### Результаты Исследования проводились на основе VGGSounder-датасета. Мы проанализировали использование аудио-визуальных моделей и их восприятие разных модальностей. Отчёт о результатах включал анализ полученных показателей и сравнения с другими моделями. Наша метрика "мешанина модальностей" позволила выявить сильные и слабые стороны построенных моделей. #### Значимость Предлагаемый набор данных и методы тестирования открывают новые горизонты для эффективного оценивания фондовых аудио-визуальных моделей. Такие наборы данных являются важной инструментовой базой для развития моделей, которые понимают синергетически данные из разных чувств. В целом, достижение VGGSounder-датасета может способствовать развитию широкого спектра приложений, включая робототехнику, медицину, аудио-визуальные системы видеонаблюдения. #### Выводы Мы установили, что VGGSounder является значительным улучшением для понимания ограничений и сил фондовых моделей аудио-визуального характера. Наш рабочий набор данных и метрика "мешанина модальностей" могут стать ключевыми инструментами для будущих исследований. В будущем мы планируем расширить VGGSounder, включив более наборов задач и сценариев, чтобы обеспечить более глубокое понимание мультимодальных моделей.

Abstract

The emergence of audio-visual foundation models underscores the importance of reliably assessing their multi-modal understanding. The VGGSounder dataset is commonly used as a benchmark for evaluation audio-visual classification. However, our analysis identifies several limitations of VGGSounder, including incomplete labelling, partially overlapping classes, and misaligned modalities. These lead to distorted evaluations of auditory and visual capabilities. To address these limitations, we introduce VGGSounder, a comprehensively re-annotated, multi-label test set that extends VGGSound and is specifically designed to evaluate audio-visual foundation models. VGGSounder features detailed modality annotations, enabling precise analyses of modality-specific performance. Furthermore, we reveal model limitations by analysing performance degradation when adding another input modality with our new modality confusion metric.

Ссылки и действия

Связанные статьи

VGGSounder: Audio-Visual Evaluations for Foundation Models

## Контекст Аудио-визуальные фундаментальные модели, использующие звуковые и зрительные сигналы, приобретают все большу...

2025-08-14