When Audio and Text Disagree: Revealing Text Bias in Large Audio-Language Models
2508.15407v1
cs.CL, cs.AI
2025-08-23
Авторы:
Cheng Wang, Gelei Deng, Xianglin Yang, Han Qiu, Tianwei Zhang
Резюме на русском
## Контекст
Современные Large Audio-Language Models (LALMs) обладают уникальными способностями обработки и понимания мультимодальных данных, включающих звуковые и текстовые потоки. Однако возникают трудности при обработке конфликтующих сведений, когда звуковые и текстовые модели вводят противоречивые данные. Этот аспект остается практически неизученным, что является основной мотивацией для данного исследования. Проблема становится критично важной в связи с широким применением таких моделей в реальном мире, где точность и достоверность решений крайне важны. Недостаток исследований по этому вопросу наводит на мысль о необходимости разработки специализированных методов для оценки и устранения таких проблем в LALMs.
## Метод
Для изучения проблемы использована собственная методология, основанная на создании нового бенчмарка под названием MCR-BENCH. Этот бенчмарк предназначен для оценки поведения LALMs в ситуациях, когда звуковые и текстовые модели приводят к несоответствию. Метод включал разработку специально выбранных задач, которые искусственно вводили конфликтующие ситуации для точной оценки моделей. Использование этой методики позволило выявить ошибки и разглядеть тенденцию LALMs к предпочтению текста в решении конфликтов. Такой подход дал возможность обосновать необходимость разработки более равновесных методов обработки мультимодальных данных.
## Результаты
В результате подробных экспериментов было получено значительное количество сведений о тенденциях LALMs к предпочтению текста в случаях конфликтующих данных. Эксперименты проводились на различных задачах аудио-понимания, включая классификацию, оценку эмоций и распознавание слов. Оказалось, что LALMs часто отбрасывают звуковую информацию при наличии противоречий, что приводит к существенной потере точности в задачах, ориентированных на аудио. Выявлена тенденция к переобучению моделей, которая демонстрируется их чрезмерной уверенностью в правильности ответов даже при внедрении существенных противоречий.
## Значимость
Полученные результаты имеют широкое применение в областях, где требуется достоверность решений, таких как распознавание речи, транскрипция и анализ аудио. Изученные проблемы имеют прямое отношение к улучшению надежности LALMs в реальных условиях. Данные исследования могут способствовать развитию моделей, которые более точно балансируют вклад каждой модели в мультимодальных задачах. Эти находки также могут открыть новые пути для развития технологий, которые будут эффективостьно обрабатывать несогласованности в звуковых и текстовых данных.
## Выводы
Полу
Abstract
Large Audio-Language Models (LALMs) are enhanced with audio perception
capabilities, enabling them to effectively process and understand multimodal
inputs that combine audio and text. However, their performance in handling
conflicting information between audio and text modalities remains largely
unexamined. This paper introduces MCR-BENCH, the first comprehensive benchmark
specifically designed to evaluate how LALMs prioritize information when
presented with inconsistent audio-text pairs. Through extensive evaluation
across diverse audio understanding tasks, we reveal a concerning phenomenon:
when inconsistencies exist between modalities, LALMs display a significant bias
toward textual input, frequently disregarding audio evidence. This tendency
leads to substantial performance degradation in audio-centric tasks and raises
important reliability concerns for real-world applications. We further
investigate the influencing factors of text bias, and explore mitigation
strategies through supervised finetuning, and analyze model confidence patterns
that reveal persistent overconfidence even with contradictory inputs. These
findings underscore the need for improved modality balance during training and
more sophisticated fusion mechanisms to enhance the robustness when handling
conflicting multi-modal inputs. The project is available at
https://github.com/WangCheng0116/MCR-BENCH.
Ссылки и действия
Дополнительные ресурсы: