Speech Discrete Tokens or Continuous Features? A Comparative Analysis for Spoken Language Understanding in SpeechLLMs

2508.17863v1 cs.CL, cs.SD 2025-08-27

Авторы:

Dingdong Wang, Junan Li, Mingyu Cui, Dongchao Yang, Xueyuan Chen, Helen Meng

Резюме на русском

#### Контекст Говорение — это сложное средство межличностного общения, которое позволяет людям делиться информацией, выражать эмоции и устанавливать взаимодействия. В последние годы стало понятно, что обработка говорящего языка требует новых подходов, которые могут обрабатывать большие объемы данных, включая звуковые сигналы, слова и контекст. SpeechLLMs (Speech Large Language Models) являются продвинутыми моделями, которые используются для таких задач, как распознавание речи и понимание речи. Существуют два основных подхода к обработке речи: использование дискретных токенов и непрерывных признаков. Несмотря на то что оба подхода доказали свою эффективность в различных задачах, пока не было проведено подробного сравнения их возможностей в рамках SpeechLLMs. Мы предлагаем сравнить дискретные токены и непрерывные признаки, используя одинаковые экспериментальные условия, чтобы выявить преимущества каждого подхода. #### Метод Мы использовали самостоятельное обучение (SSL) для создания дискретных токенов и непрерывных признаков. Для сравнения мы выбрали шесть задач, связанных с пониманием речи, включая задачи распознавания речи, разметки речи и понимания речи на разных уровнях. Для экспериментов мы использовали две модели разного размера: Qwen1.5-0.5B и Llama3.1-8B. Эти модели были обучены на больших объемах данных для обеспечения точности и полноты результатов. Мы также проводили анализы, включая эффективность обучения, анализ слоёв моделей и устойчивость моделей к помехам. #### Результаты В результате экспериментов мы обнаружили, что непрерывные признаки показали более высокую точность по сравнению с дискретными токенами. На каждой из шести задач по пониманию речи непрерывные признаки демонстрировали более высокую точность и стабильность. Мы также обнаружили, что каждый подход имеет свои особенности в обучении и обработке речевых данных. Например, дискретные токены показали лучшие результаты в задачах, требующих высокой скорости обработки, в то время как непрерывные признаки демонстрировали высокую точность в задачах, требующих понимания контекста. #### Значимость Полученные результаты имеют большое значение для развития SpeechLLMs. Мы показали, что непрерывные признаки могут быть более эффективными в задачах, требующих понимания контекста, таких как разметка речи и понимание речи на высоком уровне. Эти результаты могут помочь разработчикам моделей SpeechLLMs делать выбор между дискретными токенами и непрерывными признаками в зависимости от конкретных задач и требований. Мы также открыли новые направления для будущих исследований, в том числе исследование способов сочетания дискретных и непр

Abstract

With the rise of Speech Large Language Models (SpeechLLMs), two dominant approaches have emerged for speech processing: discrete tokens and continuous features. Each approach has demonstrated strong capabilities in audio-related processing tasks. However, the performance gap between these two paradigms has not been thoroughly explored. To address this gap, we present a fair comparison of self-supervised learning (SSL)-based discrete and continuous features under the same experimental settings. We evaluate their performance across six spoken language understanding-related tasks using both small and large-scale LLMs (Qwen1.5-0.5B and Llama3.1-8B). We further conduct in-depth analyses, including efficient comparison, SSL layer analysis, LLM layer analysis, and robustness comparison. Our findings reveal that continuous features generally outperform discrete tokens in various tasks. Each speech processing method exhibits distinct characteristics and patterns in how it learns and processes speech information. We hope our results will provide valuable insights to advance spoken language understanding in SpeechLLMs.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Speech Discrete Tokens or Continuous Features? A Comparative Analysis for Spoken Language Understanding in SpeechLLMs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dialect Identification Using Resource-Efficient Fine-Tuning Approaches

A new kid on the block: Distributional semantics predicts the word-specific tone...

CLiFT-ASR: A Cross-Lingual Fine-Tuning Framework for Low-Resource Taiwanese Hokk...

POTSA: A Cross-Lingual Speech Alignment Framework for Low Resource Speech-to-Tex...

CantoASR: Prosody-Aware ASR-LALM Collaboration for Low-Resource Cantonese

Навигация