When Audio and Text Disagree: Revealing Text Bias in Large Audio-Language Models

2508.15407v1 cs.CL, cs.AI 2025-08-23

Авторы:

Cheng Wang, Gelei Deng, Xianglin Yang, Han Qiu, Tianwei Zhang

Резюме на русском

## Контекст Современные Large Audio-Language Models (LALMs) обладают уникальными способностями обработки и понимания мультимодальных данных, включающих звуковые и текстовые потоки. Однако возникают трудности при обработке конфликтующих сведений, когда звуковые и текстовые модели вводят противоречивые данные. Этот аспект остается практически неизученным, что является основной мотивацией для данного исследования. Проблема становится критично важной в связи с широким применением таких моделей в реальном мире, где точность и достоверность решений крайне важны. Недостаток исследований по этому вопросу наводит на мысль о необходимости разработки специализированных методов для оценки и устранения таких проблем в LALMs. ## Метод Для изучения проблемы использована собственная методология, основанная на создании нового бенчмарка под названием MCR-BENCH. Этот бенчмарк предназначен для оценки поведения LALMs в ситуациях, когда звуковые и текстовые модели приводят к несоответствию. Метод включал разработку специально выбранных задач, которые искусственно вводили конфликтующие ситуации для точной оценки моделей. Использование этой методики позволило выявить ошибки и разглядеть тенденцию LALMs к предпочтению текста в решении конфликтов. Такой подход дал возможность обосновать необходимость разработки более равновесных методов обработки мультимодальных данных. ## Результаты В результате подробных экспериментов было получено значительное количество сведений о тенденциях LALMs к предпочтению текста в случаях конфликтующих данных. Эксперименты проводились на различных задачах аудио-понимания, включая классификацию, оценку эмоций и распознавание слов. Оказалось, что LALMs часто отбрасывают звуковую информацию при наличии противоречий, что приводит к существенной потере точности в задачах, ориентированных на аудио. Выявлена тенденция к переобучению моделей, которая демонстрируется их чрезмерной уверенностью в правильности ответов даже при внедрении существенных противоречий. ## Значимость Полученные результаты имеют широкое применение в областях, где требуется достоверность решений, таких как распознавание речи, транскрипция и анализ аудио. Изученные проблемы имеют прямое отношение к улучшению надежности LALMs в реальных условиях. Данные исследования могут способствовать развитию моделей, которые более точно балансируют вклад каждой модели в мультимодальных задачах. Эти находки также могут открыть новые пути для развития технологий, которые будут эффективостьно обрабатывать несогласованности в звуковых и текстовых данных. ## Выводы Полу

Abstract

Large Audio-Language Models (LALMs) are enhanced with audio perception capabilities, enabling them to effectively process and understand multimodal inputs that combine audio and text. However, their performance in handling conflicting information between audio and text modalities remains largely unexamined. This paper introduces MCR-BENCH, the first comprehensive benchmark specifically designed to evaluate how LALMs prioritize information when presented with inconsistent audio-text pairs. Through extensive evaluation across diverse audio understanding tasks, we reveal a concerning phenomenon: when inconsistencies exist between modalities, LALMs display a significant bias toward textual input, frequently disregarding audio evidence. This tendency leads to substantial performance degradation in audio-centric tasks and raises important reliability concerns for real-world applications. We further investigate the influencing factors of text bias, and explore mitigation strategies through supervised finetuning, and analyze model confidence patterns that reveal persistent overconfidence even with contradictory inputs. These findings underscore the need for improved modality balance during training and more sophisticated fusion mechanisms to enhance the robustness when handling conflicting multi-modal inputs. The project is available at https://github.com/WangCheng0116/MCR-BENCH.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

When Audio and Text Disagree: Revealing Text Bias in Large Audio-Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация