Toward Low-Latency End-to-End Voice Agents for Telecommunications Using Streaming ASR, Quantized LLMs, and Real-Time TTS

2508.04721v1 cs.SD, cs.AI, eess.AS, 68T50, 68T10, 94A12, I.2.7; H.3.3; C.2.2 2025-08-09
Авторы:

Vignesh Ethiraj, Ashwath David, Sidhanth Menon, Divya Vijay

Резюме на русском

Мы предлагаем полностью структурированную низкозадержковую систему для AI-агентов, ориентированных на голосовые запросы, разработанную специально для телеком-индустрии. Наша реализация включает в себя семь моделей, которые позволяют выполнять надежные, быстрые и достаточно гибкие ансамбли. Обеспеченные системой обработки естественного языка, автоматическим распознаванием речи, текстом-в-речь и генерацией актуальных ответов на основе документов, эти агенты предназначены для автоматизации звонков в службу поддержки, обеспечения интерактивных интеллектуальных IVR-систем и улучшения общей эффективности систем связи. Мы проводим тщательный анализ позволяющий измерить влияние различных компонентов на производительность и задержки в реальном времени. Наши результаты показали, что полученные модели обеспечивают надежное выполнение задач в реальном времени, с поддержкой телеком-гибридного подхода. Это открывает новые возможности для интеллектуальных систем, построенных на технологии глубокого обучения, для телекоммуникаций.

Abstract

We introduce a low-latency telecom AI voice agent pipeline for real-time, interactive telecommunications use, enabling advanced voice AI for call center automation, intelligent IVR (Interactive Voice Response), and AI-driven customer support. The solution is built for telecom, combining four specialized models by NetoAI: TSLAM, a 4-bit quantized Telecom-Specific Large Language Model (LLM); T-VEC, a Telecom-Specific Embedding Model; TTE, a Telecom-Specific Automatic Speech Recognition (ASR) model; and T-Synth, a Telecom-Specific Text-to-Speech (TTS) model. These models enable highly responsive, domain-adapted voice AI agents supporting knowledge-grounded spoken interactions with low latency. The pipeline integrates streaming ASR (TTE), conversational intelligence (TSLAM), retrieval augmented generation (RAG) over telecom documents, and real-time TTS (T-Synth), setting a new benchmark for telecom voice assistants. To evaluate the system, we built a dataset of 500 human-recorded telecom questions from RFCs, simulating real telecom agent queries. This framework allows analysis of latency, domain relevance, and real-time performance across the stack. Results show that TSLAM, TTE, and T-Synth deliver real-time factors (RTF) below 1.0, supporting enterprise, low-latency telecom deployments. These AI agents -- powered by TSLAM, TTE, and T-Synth -- provide a foundation for next-generation telecom AI, enabling automated customer support, diagnostics, and more.

Ссылки и действия