EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs
2509.09174v1
cs.CL, cs.AI, cs.SD
2025-09-13
Авторы:
Yuhao Zhang, Yuhao Du, Zhanchen Dai, Xiangnan Ma, Kaiqi Kou, Benyou Wang, Haizhou Li
Резюме на русском
#### Контекст
Speech-to-speech large language models (SLLMs) являются наиболее последними достижениями в области искусственного интеллекта. Они построены на основе текстовых ларже ларже моделей ларже и имеют возможность преобразовывать речевые сигналы в другие речевые сигналы. Несмотря на свою мощь, эти модели сталкиваются со значительными проблемами, в том числе уменьшением знаний и возможностей рассуждений. Эти ограничения возникают из-за того, что современные ларже модели не удается полностью расширить ларже ларже ларже ларже модели ларже модели. Для решения этой проблемы предлагается EchoX, которая использует ларже семантические ларже представления и ларже генерирует ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ла
Abstract
Speech-to-speech large language models (SLLMs) are attracting increasing
attention. Derived from text-based large language models (LLMs), SLLMs often
exhibit degradation in knowledge and reasoning capabilities. We hypothesize
that this limitation arises because current training paradigms for SLLMs fail
to bridge the acoustic-semantic gap in the feature representation space. To
address this issue, we propose EchoX, which leverages semantic representations
and dynamically generates speech training targets. This approach integrates
both acoustic and semantic learning, enabling EchoX to preserve strong
reasoning abilities as a speech LLM. Experimental results demonstrate that
EchoX, with about six thousand hours of training data, achieves advanced
performance on multiple knowledge-based question-answering benchmarks. The
project is available at https://github.com/FreedomIntelligence/EchoX.
Ссылки и действия
Дополнительные ресурсы: