i-LAVA: Insights on Low Latency Voice-2-Voice Architecture for Agents

2509.20971v1 cs.SD, cs.AI 2025-09-27
Авторы:

Anupam Purwar, Aditya Choudhary

Резюме на русском

#### Контекст Реальному времени международный голосовой сервис важен для многих приложений, включая удаленное обучение, персональные помощники и видеоигры. Однако создание систем голосового взаимодействия с пониженным временем отклика (RTF) для таких приложений, которые должны работать в реальном времени, по-прежнему остается вызовом. Необходимо выяснить особенности этих систем, которые могут улучшить голосовое взаимодействие и сделать его более эффективным. Этот доклад изучает компоненты, которые могут оптимизировать голосовые системы, а также рассматривает аспекты, которые могут повлиять на понижение RTF. #### Метод Мы исследовали V-2-V архитектуру на основе резидентного векторного квантования (RVQ) с возможностью понижения RTF в реальном времени. Модель включает ASR, TTS и диалоговое управление. Мы разделяем данные голосовых запросов на две части: текст и аудио, что позволяет TTS-системе воспроизводить естественный голос, принимая во внимание тему и контекст разговора. Мы использовали систему CSM1b, которая может читать текст и анализировать аудио, чтобы создавать голос с разумами, жестами и эмоциями. Мы оптимизировали TTS-систему, снижая количество RVQ-итераций, что позволяет улучшить RTF, при этом применяя кодбук Mimi. #### Результаты Мы проводили эксперименты с различными моделями V-2-V, используя систему CSM1b. Мы проанализировали RTF и качество голоса в зависимости от количества RVQ-итераций и размера кодбука Mimi. Мы поняли, что оптимизировав количество RVQ-итераций и Mimi-кодбука, мы могли снизить RTF до 1,1 секунды в реальном времени. Это улучшение было достигнуто без существенного снижения качества голоса. Мы также доказали, что естественность разговора сильно зависит от того, насколько хорошо TTS может передавать эмоции и контекст разговора. #### Значимость Наша работа может использоваться в сферах, где требуется надежное взаимодействие в реальном времени, таких как удаленное обучение, медицина, управление роботами и игры. Мы улучшили RTF, что сделало голосовые системы более эффективными и естественными в общении. Это влияние может преобразовать способ работы с реального времени в различных приложениях. #### Выводы Мы успешно оптимизировали V-2-V-систему, уменьшив RTF до 1,1 секунды. Это достижение было достигнуто благодаря оптимизации RVQ-итераций и кодбука Mimi. Мы также установили, что эмоциональная экспрессия и контекст голоса играют ключевую роль в улучшении качества разговора. В будущем, мы планируем исследовать другие способы улучшения TTS-систем, включая использование глубокого обучения для создания более

Abstract

We experiment with a low-latency, end-to-end voice-to-voice communication model to optimize it for real-time conversational applications. By analyzing components essential to voice to voice (V-2-V) system viz. automatic speech recognition (ASR), text-to-speech (TTS), and dialog management, our work analyzes how to reduce processing time while maintaining high-quality interactions to identify the levers for optimizing V-2-V system. Our work identifies that TTS component which generates life-like voice, full of emotions including natural pauses and exclamations has highest impact on Real time factor (RTF). The experimented V-2-V architecture utilizes CSM1b has the capability to understand tone as well as context of conversation by ingesting both audio and text of prior exchanges to generate contextually accurate speech. We explored optimization of Residual Vector Quantization (RVQ) iterations by the TTS decoder which come at a cost of decrease in the quality of voice generated. Our experimental evaluations also demonstrate that for V-2-V implementations based on CSM most important optimizations can be brought by reducing the number of RVQ Iterations along with the codebooks used in Mimi.

Ссылки и действия