Speech Discrete Tokens or Continuous Features? A Comparative Analysis for Spoken Language Understanding in SpeechLLMs
2508.17863v1
cs.CL, cs.SD
2025-08-27
Авторы:
Dingdong Wang, Junan Li, Mingyu Cui, Dongchao Yang, Xueyuan Chen, Helen Meng
Резюме на русском
#### Контекст
Говорение — это сложное средство межличностного общения, которое позволяет людям делиться информацией, выражать эмоции и устанавливать взаимодействия. В последние годы стало понятно, что обработка говорящего языка требует новых подходов, которые могут обрабатывать большие объемы данных, включая звуковые сигналы, слова и контекст. SpeechLLMs (Speech Large Language Models) являются продвинутыми моделями, которые используются для таких задач, как распознавание речи и понимание речи. Существуют два основных подхода к обработке речи: использование дискретных токенов и непрерывных признаков. Несмотря на то что оба подхода доказали свою эффективность в различных задачах, пока не было проведено подробного сравнения их возможностей в рамках SpeechLLMs. Мы предлагаем сравнить дискретные токены и непрерывные признаки, используя одинаковые экспериментальные условия, чтобы выявить преимущества каждого подхода.
#### Метод
Мы использовали самостоятельное обучение (SSL) для создания дискретных токенов и непрерывных признаков. Для сравнения мы выбрали шесть задач, связанных с пониманием речи, включая задачи распознавания речи, разметки речи и понимания речи на разных уровнях. Для экспериментов мы использовали две модели разного размера: Qwen1.5-0.5B и Llama3.1-8B. Эти модели были обучены на больших объемах данных для обеспечения точности и полноты результатов. Мы также проводили анализы, включая эффективность обучения, анализ слоёв моделей и устойчивость моделей к помехам.
#### Результаты
В результате экспериментов мы обнаружили, что непрерывные признаки показали более высокую точность по сравнению с дискретными токенами. На каждой из шести задач по пониманию речи непрерывные признаки демонстрировали более высокую точность и стабильность. Мы также обнаружили, что каждый подход имеет свои особенности в обучении и обработке речевых данных. Например, дискретные токены показали лучшие результаты в задачах, требующих высокой скорости обработки, в то время как непрерывные признаки демонстрировали высокую точность в задачах, требующих понимания контекста.
#### Значимость
Полученные результаты имеют большое значение для развития SpeechLLMs. Мы показали, что непрерывные признаки могут быть более эффективными в задачах, требующих понимания контекста, таких как разметка речи и понимание речи на высоком уровне. Эти результаты могут помочь разработчикам моделей SpeechLLMs делать выбор между дискретными токенами и непрерывными признаками в зависимости от конкретных задач и требований. Мы также открыли новые направления для будущих исследований, в том числе исследование способов сочетания дискретных и непр
Abstract
With the rise of Speech Large Language Models (SpeechLLMs), two dominant
approaches have emerged for speech processing: discrete tokens and continuous
features. Each approach has demonstrated strong capabilities in audio-related
processing tasks. However, the performance gap between these two paradigms has
not been thoroughly explored. To address this gap, we present a fair comparison
of self-supervised learning (SSL)-based discrete and continuous features under
the same experimental settings. We evaluate their performance across six spoken
language understanding-related tasks using both small and large-scale LLMs
(Qwen1.5-0.5B and Llama3.1-8B). We further conduct in-depth analyses, including
efficient comparison, SSL layer analysis, LLM layer analysis, and robustness
comparison. Our findings reveal that continuous features generally outperform
discrete tokens in various tasks. Each speech processing method exhibits
distinct characteristics and patterns in how it learns and processes speech
information. We hope our results will provide valuable insights to advance
spoken language understanding in SpeechLLMs.
Ссылки и действия
Дополнительные ресурсы: