i-LAVA: Insights on Low Latency Voice-2-Voice Architecture for Agents
2509.20971v1
cs.SD, cs.AI
2025-09-27
Авторы:
Anupam Purwar, Aditya Choudhary
Резюме на русском
#### Контекст
Реальному времени международный голосовой сервис важен для многих приложений, включая удаленное обучение, персональные помощники и видеоигры. Однако создание систем голосового взаимодействия с пониженным временем отклика (RTF) для таких приложений, которые должны работать в реальном времени, по-прежнему остается вызовом. Необходимо выяснить особенности этих систем, которые могут улучшить голосовое взаимодействие и сделать его более эффективным. Этот доклад изучает компоненты, которые могут оптимизировать голосовые системы, а также рассматривает аспекты, которые могут повлиять на понижение RTF.
#### Метод
Мы исследовали V-2-V архитектуру на основе резидентного векторного квантования (RVQ) с возможностью понижения RTF в реальном времени. Модель включает ASR, TTS и диалоговое управление. Мы разделяем данные голосовых запросов на две части: текст и аудио, что позволяет TTS-системе воспроизводить естественный голос, принимая во внимание тему и контекст разговора. Мы использовали систему CSM1b, которая может читать текст и анализировать аудио, чтобы создавать голос с разумами, жестами и эмоциями. Мы оптимизировали TTS-систему, снижая количество RVQ-итераций, что позволяет улучшить RTF, при этом применяя кодбук Mimi.
#### Результаты
Мы проводили эксперименты с различными моделями V-2-V, используя систему CSM1b. Мы проанализировали RTF и качество голоса в зависимости от количества RVQ-итераций и размера кодбука Mimi. Мы поняли, что оптимизировав количество RVQ-итераций и Mimi-кодбука, мы могли снизить RTF до 1,1 секунды в реальном времени. Это улучшение было достигнуто без существенного снижения качества голоса. Мы также доказали, что естественность разговора сильно зависит от того, насколько хорошо TTS может передавать эмоции и контекст разговора.
#### Значимость
Наша работа может использоваться в сферах, где требуется надежное взаимодействие в реальном времени, таких как удаленное обучение, медицина, управление роботами и игры. Мы улучшили RTF, что сделало голосовые системы более эффективными и естественными в общении. Это влияние может преобразовать способ работы с реального времени в различных приложениях.
#### Выводы
Мы успешно оптимизировали V-2-V-систему, уменьшив RTF до 1,1 секунды. Это достижение было достигнуто благодаря оптимизации RVQ-итераций и кодбука Mimi. Мы также установили, что эмоциональная экспрессия и контекст голоса играют ключевую роль в улучшении качества разговора. В будущем, мы планируем исследовать другие способы улучшения TTS-систем, включая использование глубокого обучения для создания более
Abstract
We experiment with a low-latency, end-to-end voice-to-voice communication
model to optimize it for real-time conversational applications. By analyzing
components essential to voice to voice (V-2-V) system viz. automatic speech
recognition (ASR), text-to-speech (TTS), and dialog management, our work
analyzes how to reduce processing time while maintaining high-quality
interactions to identify the levers for optimizing V-2-V system. Our work
identifies that TTS component which generates life-like voice, full of emotions
including natural pauses and exclamations has highest impact on Real time
factor (RTF). The experimented V-2-V architecture utilizes CSM1b has the
capability to understand tone as well as context of conversation by ingesting
both audio and text of prior exchanges to generate contextually accurate
speech. We explored optimization of Residual Vector Quantization (RVQ)
iterations by the TTS decoder which come at a cost of decrease in the quality
of voice generated. Our experimental evaluations also demonstrate that for
V-2-V implementations based on CSM most important optimizations can be brought
by reducing the number of RVQ Iterations along with the codebooks used in Mimi.
Ссылки и действия
Дополнительные ресурсы: