VOX-KRIKRI: Unifying Speech and Language through Continuous Fusion
2509.15667v1
cs.CL, cs.SD, eess.AS
2025-09-23
Авторы:
Dimitrios Damianos, Leon Voukoutis, Georgios Paraskevopoulos, Vassilis Katsouros
Резюме на русском
#### Контекст
В последние годы значительный прогресс в области распознавания речи и обработки естественного языка был достигнут благодаря развитию больших языковых моделей (LLM) и архитектур с преобразованием Фурье. Однако проблема существует в синергетичном использовании этих моделей для обеспечения более развитой интерактивности между речи и языком. Особенно выраженная эта проблема в многоязычных и низкоресурсных регионах, где доступ к сложным технологиям ограничен. Наша исследовательская группа адресовала эту проблему, стремясь создать модель, которая бы учитывала обе модели в равной степени, повышая точность и общую эффективность.
#### Метод
Мы предлагаем **VOX-KRIKRI**, рамочную систему, которая объединяет предварительно обученные LLM-модели и акустические архитектуры, такие как Whisper, для построения системы с преобразованием речи и языка. В отличие от прямого использования акустических эмбеддингов, мы предлагаем интермедиатную модель, объединяющую акустические скрытые состояния лексического моделирования с текстовыми эмбеддингами. Модель работает в постоянном виде и может быть применена в оффлайн и режиме стриминга. Мы также представили первую греческую модель с преобразованием речи и языка, которая является результатом нашего подхода. Основной механизм — это межмодальное взаимодействие через кросс-модальное внимание, которое позволяет модели одновременно обрабатывать речевые и языковые сигналы.
#### Результаты
Мы провели многочисленные эксперименты с различными данными и показали, что наш подход позволяет достичь существенных улучшений в распознавании речи. Мы проверили нашу модель на греческом языке, и результаты показали относительное улучшение в распознавании речи на $\sim 20\%$ по сравнению с предыдущими решениями. Эти результаты были достигнуты благодаря мощному кросс-модальному взаимодействию и эффективной интеграции LLM и акустических моделей. Мы также проверили нашу модель на других языках и получили положительные результаты, что подтверждает многоязычность и эффективность нашего подхода.
#### Значимость
Наше решение имеет большое значение для многоязычных и низкоресурсных решений в области транскрибирования речи. Эта модель может быть применена в различных сферах, включая здравоохранение, преподавание и управление, где преобразование речи и языка является ключевым компонентом. Мы показали, что континьюирование в пространстве текста в качестве метода фузирования может быть эффективно для решения проблемы многоязычного распознавания речи и обеспечивает новые шан
Abstract
We present a multimodal fusion framework that bridges pre-trained
decoder-based large language models (LLM) and acoustic encoder-decoder
architectures such as Whisper, with the aim of building speech-enabled LLMs.
Instead of directly using audio embeddings, we explore an intermediate
audio-conditioned text space as a more effective mechanism for alignment. Our
method operates fully in continuous text representation spaces, fusing
Whisper's hidden decoder states with those of an LLM through cross-modal
attention, and supports both offline and streaming modes. We introduce
\textit{VoxKrikri}, the first Greek speech LLM, and show through analysis that
our approach effectively aligns representations across modalities. These
results highlight continuous space fusion as a promising path for multilingual
and low-resource speech LLMs, while achieving state-of-the-art results for
Automatic Speech Recognition in Greek, providing an average $\sim20\%$ relative
improvement across benchmarks.
Ссылки и действия
Дополнительные ресурсы: