AHAMask: Reliable Task Specification for Large Audio Language Models without Instructions

2509.01787v1 eess.AS, cs.AI, cs.SD 2025-09-05
Авторы:

Yiwei Guo, Bohan Li, Hankun Wang, Zhihan Li, Shuai Wang, Xie Chen, Kai Yu

Резюме на русском

#### Контекст Крупные звуковые языковые модели (LALMs) расширяют текстовые модели с большим объемом текстов, добавляя универсальные возможности звукового понимания. Однако они чувствительны к инструкциям, при которых задачи, выраженные в разных формах, могут приводить к разным результатам. Эта непредсказуемость ограничивает широкое применение LALMs в реальных сценариях. Для решения этой проблемы необходима универсальная, надежная и простая в использовании система управления задачами, не требующая конкретных инструкций. #### Метод Мы предлагаем AHAMask — метод, основанный на маскировании определенных аттенционных заголовков в декодерной LALM-модели. Этот подход позволяет непосредственно активировать функции звукового понимания, не требуя специальных инструкций. Маски обучаются в составе LALM-архитектуры, сохраняя количество тренируемых параметров равным количеству аттенционных заголовков в основной модели. Это снижает влияние дополнительных параметров на модель и обеспечивает эффективность. #### Результаты Мы провели эксперименты с широким спектром звуковых задач, включая распознавание речи, синтез речи и задачи композиции. Результаты показали, что AHAMask обеспечивает сопоставимую или даже лучшую производительность по сравнению с традиционными методами, использующими инструкции. Это подтверждает возможность LALM для надежного и бесшовного управления задачами. #### Значимость AHAMask может быть использован в различных сферах, таких как распознавание речи, звуковой анализ, генерация звука и синтез речи. Он предлагает удобную альтернативу инструкциям, что уменьшает сложность использования модели в реальных задачах. Это раскрывает перспективы для более широкого применения LALMs в сценариях, где надежность и простота ключевые факторы. #### Выводы AHAMask доказывает, что LALM-модели содержат "функциональные пути", которые могут быть активированы с помощью селективного маскирования. На этой основе мы планируем рассмотреть более глубокое изучение этих путей, чтобы улучшить понимание и управление функциональностью LALM-моделей. Также мы намереваемся применить этот подход к другим задачам, включая видео- и текстовые модели.

Abstract

Although current large audio language models (LALMs) extend text large language models (LLMs) with generic acoustic understanding abilities, they usually suffer from instruction sensitivity, where different instructions of the same intention can yield drastically different outcomes. In this work, we propose AHAMask, where we simply mask some of the attention heads in the decoder-only LLM backbone of LALMs, to trigger specific acoustic task functionalities without instructions. These masks are efficiently obtained by training on an LALM, with the number of trainable parameters equal to the attention head count in its LLM backbone. We show by experiments that applying such selective attention head masks achieves comparable or even better performance than using instructions, either on single or composite tasks. Besides achieving reliable acoustic task specification for LALMs, this also reveals that LALMs exhibit certain "functional pathways" in their attention heads.

Ссылки и действия

Связанные статьи

Unsupervised Speech Enhancement using Data-defined Priors

#### Контекст Улучшение речевых сигналов — ключевая задача в области обработки звука, нацеленная на повышение чёткости ...

2025-10-01

Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty...

## Контекст Основной акцент в данном исследовании размещен на развитии эффективных методов персонализации автоматической...

2025-09-26