TICL: Text-Embedding KNN For Speech In-Context Learning Unlocks Speech Recognition Abilities of Large Multimodal Models

2509.13395v1 eess.AS, cs.AI, cs.CL, cs.LG, cs.MM 2025-09-19
Авторы:

Haolong Zheng, Yekaterina Yegorova, Mark Hasegawa-Johnson

Резюме на русском

## Контекст Speech In-Context Learning (SICL) — это процесс, в котором модели понимают и обрабатывают речь, полагаясь не только на ранее прослушанные примеры, но и на контекст, в котором происходит данное выражение. Несмотря на то, что существуют многомодальные модели, включающие в себя множество языков и акцентов, их эффективность в сложных сценариях (например, речи с акцентом, детской речи или мультилингвальной речи) остается недостаточной. Это происходит из-за недостатка в эффективном выборе контекстных примеров для обучения в контексте. Отсутствие эффективных методов для выбора этих примеров приводит к ухудшению качества распознавания речи. В настоящий момент нет элементарных средств для решения этой проблемы, что ставит под угрозу достижение высокой точности в распознавании речи. ## Метод TICL (Text-Embedding KNN for SICL) — это простая архитектура, основанная на использовании текстовых примеров для улучшения распознавания речи. Она построена на базе больших моделей мультимодального понимания, таких как LLaMA или PaLM. Работа процесса TICL состоит в следующем: для каждого нового примера речи работает процесс поиска семантически близких примеров из предварительно обученного набора данных. Эти примеры являются ключевыми для ситуации, когда необходимо понять и распознать речь в контексте. Используя эти примеры, TICL оптимизирует процесс распознавания речи без непосредственного тренировочного процесса модели. Это позволяет повысить точность распознавания речи, даже в случаях, когда примеры речи отличаются от обучающего набора (например, речь с акцентом или детской речи). ## Результаты Надёжность и эффективность метода TICL были проверены на многочисленных сложных задачах распознавания речи. Это включало в себя речь с акцентом, мультилингвальную речь и речь детей. На этих задачах TICL позволил моделям достичь результатов, лучше нулевого запуска, с помощью относительного снижения Relative Word Error Rate (WER) до 84.7%. Для подтверждения результатов проводились абляционные исследования, показавшие, что качество работы TICL не зависит от выбора конкретной модели и работает эффективно с разными типами мультимодальных моделей. Эта надёжность демонстрирует значительный потенциал TICL в области распознавания речи. ## Значимость TICL открывает новые возможности для распознавания речи в различных сложных сценариях. Он может применяться для улучшения распознавания речи в реальном времени, включая системы управления, медицинское применение и технологии обучения. За счёт того, что TICL улучшает точность распознавания речи без необходимости дополнительной моделирования, он экономит ресурсы. Это может привести к более быстрому развитию технологий ра

Abstract

Speech foundation models have recently demonstrated the ability to perform Speech In-Context Learning (SICL). Selecting effective in-context examples is crucial for SICL performance, yet selection methodologies remain underexplored. In this work, we propose Text-Embedding KNN for SICL (TICL), a simple pipeline that uses semantic context to enhance off-the-shelf large multimodal models' speech recognition ability without fine-tuning. Across challenging automatic speech recognition tasks, including accented English, multilingual speech, and children's speech, our method enables models to surpass zero-shot performance with up to 84.7% relative WER reduction. We conduct ablation studies to show the robustness and efficiency of our method.

Ссылки и действия