Novel Parasitic Dual-Scale Modeling for Efficient and Accurate Multilingual Speech Translation
2508.11189v1
cs.CL, cs.SD, eess.AS
2025-08-19
Авторы:
Chenyang Le, Yinfeng Xia, Huiyan Li, Manhong Wang, Yutao Sun, Xingyang Ma, Yanmin Qian
Резюме на русском
## Контекст
Многоязычная распознавательная технология является важной областью исследований, поскольку она позволяет устранить барьеры языковых различий и обеспечить широкий круг пользователей. Однако современные многоязычные модели транскрипции речи в текст часто сталкиваются с проблемами, такими как большой размер моделей, высокий потребление ресурсов и снижение производительности при локальной инференсе. Такие ограничения становятся весомым препятствием для развертывания моделей в реальных условиях, где требуется быстрота, эффективность и точность. Цель нашего исследования заключается в разработке эффективной и точной модели, которая бы сочетала в себе высокую производительность с сохранением высокого качества перевода.
## Метод
Для решения этих проблем мы предлагаем **Паразитный Двойной-Масштабный Метод (Parasitic Dual-Scale Approach)**. Основные компоненты этого подхода: усовершенствованная методика спекулятивного семплинга, методы сжатия модели и знаний (knowledge distillation). Мы расширяем модель Whisper Medium до whisperM2M, при этом внедряя нашу собственную модульную систему KVSPN (Knowledge-Vision-Speech-Parallel-Network). Этот модуль позволяет разделять функции модели на два уровня: первый - работа с низким разрешением для быстроты, второй - предсказание с высоким разрешением для точности. Эта двойная конфигурация позволяет уменьшить нагрузку на вычисления, увеличивая при этом производительность.
## Результаты
Мы проводили эксперименты на шести языках с популярными диалектами: английский, французский, немецкий, испанский, итальянский и турецкий. Для оценки качества перевода использовали метрику BLEU. Наши результаты показывают, что KVSPN модуль обеспечивает скоростный прирост в 40% при сохранении безудержного качества перевода (неизменного BLEU-скора). Благодаря использованию метода дистилляции знаний, мы добились скоростного прироста в 2.6 раз сохраняя на выходе качество, которое значительно превосходит результаты оригинальной модели Whisper Medium.
## Значимость
Наш подход широко применяется в сценариях, где требуется быстрота работы и надежность, например в локальных приложениях, устройствах с ограниченными ресурсами и сервисах, требующих непрерывности. Важность нашей работы также заключается в том, что она позволяет достичь сочетания масштабности и точности, которое недоступно для многих современных многоязычных моделей. Мы также открываем новые пути для дальнейшего развития моделей, включая использование более сложных стратегий сжатия и расширения кросс-языковых моделей.
## Выводы
Мы представили новую модель whisperM2M, в которой используется **Паразитный Двойной-Масштабный Метод**.
Abstract
Recent advancements in speech-to-text translation have led to the development
of multilingual models capable of handling multiple language pairs
simultaneously. However, these unified models often suffer from large parameter
sizes, making it challenging to balance inference efficiency and performance,
particularly in local deployment scenarios. We propose an innovative Parasitic
Dual-Scale Approach, which combines an enhanced speculative sampling method
with model compression and knowledge distillation techniques. Building on the
Whisper Medium model, we enhance it for multilingual speech translation into
whisperM2M, and integrate our novel KVSPN module, achieving state-of-the-art
(SOTA) performance across six popular languages with improved inference
efficiency. KVSPN enables a 40\% speedup with no BLEU score degradation.
Combined with distillation methods, it represents a 2.6$\times$ speedup over
the original Whisper Medium with superior performance.
Ссылки и действия
Дополнительные ресурсы: