AHAMask: Reliable Task Specification for Large Audio Language Models without Instructions
2509.01787v1
eess.AS, cs.AI, cs.SD
2025-09-05
Авторы:
Yiwei Guo, Bohan Li, Hankun Wang, Zhihan Li, Shuai Wang, Xie Chen, Kai Yu
Резюме на русском
#### Контекст
Крупные звуковые языковые модели (LALMs) расширяют текстовые модели с большим объемом текстов, добавляя универсальные возможности звукового понимания. Однако они чувствительны к инструкциям, при которых задачи, выраженные в разных формах, могут приводить к разным результатам. Эта непредсказуемость ограничивает широкое применение LALMs в реальных сценариях. Для решения этой проблемы необходима универсальная, надежная и простая в использовании система управления задачами, не требующая конкретных инструкций.
#### Метод
Мы предлагаем AHAMask — метод, основанный на маскировании определенных аттенционных заголовков в декодерной LALM-модели. Этот подход позволяет непосредственно активировать функции звукового понимания, не требуя специальных инструкций. Маски обучаются в составе LALM-архитектуры, сохраняя количество тренируемых параметров равным количеству аттенционных заголовков в основной модели. Это снижает влияние дополнительных параметров на модель и обеспечивает эффективность.
#### Результаты
Мы провели эксперименты с широким спектром звуковых задач, включая распознавание речи, синтез речи и задачи композиции. Результаты показали, что AHAMask обеспечивает сопоставимую или даже лучшую производительность по сравнению с традиционными методами, использующими инструкции. Это подтверждает возможность LALM для надежного и бесшовного управления задачами.
#### Значимость
AHAMask может быть использован в различных сферах, таких как распознавание речи, звуковой анализ, генерация звука и синтез речи. Он предлагает удобную альтернативу инструкциям, что уменьшает сложность использования модели в реальных задачах. Это раскрывает перспективы для более широкого применения LALMs в сценариях, где надежность и простота ключевые факторы.
#### Выводы
AHAMask доказывает, что LALM-модели содержат "функциональные пути", которые могут быть активированы с помощью селективного маскирования. На этой основе мы планируем рассмотреть более глубокое изучение этих путей, чтобы улучшить понимание и управление функциональностью LALM-моделей. Также мы намереваемся применить этот подход к другим задачам, включая видео- и текстовые модели.
Abstract
Although current large audio language models (LALMs) extend text large
language models (LLMs) with generic acoustic understanding abilities, they
usually suffer from instruction sensitivity, where different instructions of
the same intention can yield drastically different outcomes. In this work, we
propose AHAMask, where we simply mask some of the attention heads in the
decoder-only LLM backbone of LALMs, to trigger specific acoustic task
functionalities without instructions. These masks are efficiently obtained by
training on an LALM, with the number of trainable parameters equal to the
attention head count in its LLM backbone. We show by experiments that applying
such selective attention head masks achieves comparable or even better
performance than using instructions, either on single or composite tasks.
Besides achieving reliable acoustic task specification for LALMs, this also
reveals that LALMs exhibit certain "functional pathways" in their attention
heads.
Ссылки и действия
Дополнительные ресурсы: