Novel Parasitic Dual-Scale Modeling for Efficient and Accurate Multilingual Speech Translation

2508.11189v1 cs.CL, cs.SD, eess.AS 2025-08-19

Авторы:

Chenyang Le, Yinfeng Xia, Huiyan Li, Manhong Wang, Yutao Sun, Xingyang Ma, Yanmin Qian

Резюме на русском

## Контекст Многоязычная распознавательная технология является важной областью исследований, поскольку она позволяет устранить барьеры языковых различий и обеспечить широкий круг пользователей. Однако современные многоязычные модели транскрипции речи в текст часто сталкиваются с проблемами, такими как большой размер моделей, высокий потребление ресурсов и снижение производительности при локальной инференсе. Такие ограничения становятся весомым препятствием для развертывания моделей в реальных условиях, где требуется быстрота, эффективность и точность. Цель нашего исследования заключается в разработке эффективной и точной модели, которая бы сочетала в себе высокую производительность с сохранением высокого качества перевода. ## Метод Для решения этих проблем мы предлагаем **Паразитный Двойной-Масштабный Метод (Parasitic Dual-Scale Approach)**. Основные компоненты этого подхода: усовершенствованная методика спекулятивного семплинга, методы сжатия модели и знаний (knowledge distillation). Мы расширяем модель Whisper Medium до whisperM2M, при этом внедряя нашу собственную модульную систему KVSPN (Knowledge-Vision-Speech-Parallel-Network). Этот модуль позволяет разделять функции модели на два уровня: первый - работа с низким разрешением для быстроты, второй - предсказание с высоким разрешением для точности. Эта двойная конфигурация позволяет уменьшить нагрузку на вычисления, увеличивая при этом производительность. ## Результаты Мы проводили эксперименты на шести языках с популярными диалектами: английский, французский, немецкий, испанский, итальянский и турецкий. Для оценки качества перевода использовали метрику BLEU. Наши результаты показывают, что KVSPN модуль обеспечивает скоростный прирост в 40% при сохранении безудержного качества перевода (неизменного BLEU-скора). Благодаря использованию метода дистилляции знаний, мы добились скоростного прироста в 2.6 раз сохраняя на выходе качество, которое значительно превосходит результаты оригинальной модели Whisper Medium. ## Значимость Наш подход широко применяется в сценариях, где требуется быстрота работы и надежность, например в локальных приложениях, устройствах с ограниченными ресурсами и сервисах, требующих непрерывности. Важность нашей работы также заключается в том, что она позволяет достичь сочетания масштабности и точности, которое недоступно для многих современных многоязычных моделей. Мы также открываем новые пути для дальнейшего развития моделей, включая использование более сложных стратегий сжатия и расширения кросс-языковых моделей. ## Выводы Мы представили новую модель whisperM2M, в которой используется **Паразитный Двойной-Масштабный Метод**.

Abstract

Recent advancements in speech-to-text translation have led to the development of multilingual models capable of handling multiple language pairs simultaneously. However, these unified models often suffer from large parameter sizes, making it challenging to balance inference efficiency and performance, particularly in local deployment scenarios. We propose an innovative Parasitic Dual-Scale Approach, which combines an enhanced speculative sampling method with model compression and knowledge distillation techniques. Building on the Whisper Medium model, we enhance it for multilingual speech translation into whisperM2M, and integrate our novel KVSPN module, achieving state-of-the-art (SOTA) performance across six popular languages with improved inference efficiency. KVSPN enables a 40\% speedup with no BLEU score degradation. Combined with distillation methods, it represents a 2.6$\times$ speedup over the original Whisper Medium with superior performance.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Novel Parasitic Dual-Scale Modeling for Efficient and Accurate Multilingual Speech Translation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Joint Speech and Text Training for LLM-Based End-to-End Spoken Dialogue State Tr...

Mispronunciation Detection and Diagnosis Without Model Training: A Retrieval-Bas...

Proactive Hearing Assistants that Isolate Egocentric Conversations

Hallucination Benchmark for Speech Foundation Models

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Predic...

Навигация