Toward Low-Latency End-to-End Voice Agents for Telecommunications Using Streaming ASR, Quantized LLMs, and Real-Time TTS
2508.04721v1
cs.SD, cs.AI, eess.AS, 68T50, 68T10, 94A12, I.2.7; H.3.3; C.2.2
2025-08-09
Авторы:
Vignesh Ethiraj, Ashwath David, Sidhanth Menon, Divya Vijay
Резюме на русском
Мы предлагаем полностью структурированную низкозадержковую систему для AI-агентов, ориентированных на голосовые запросы, разработанную специально для телеком-индустрии. Наша реализация включает в себя семь моделей, которые позволяют выполнять надежные, быстрые и достаточно гибкие ансамбли. Обеспеченные системой обработки естественного языка, автоматическим распознаванием речи, текстом-в-речь и генерацией актуальных ответов на основе документов, эти агенты предназначены для автоматизации звонков в службу поддержки, обеспечения интерактивных интеллектуальных IVR-систем и улучшения общей эффективности систем связи. Мы проводим тщательный анализ позволяющий измерить влияние различных компонентов на производительность и задержки в реальном времени. Наши результаты показали, что полученные модели обеспечивают надежное выполнение задач в реальном времени, с поддержкой телеком-гибридного подхода. Это открывает новые возможности для интеллектуальных систем, построенных на технологии глубокого обучения, для телекоммуникаций.
Abstract
We introduce a low-latency telecom AI voice agent pipeline for real-time,
interactive telecommunications use, enabling advanced voice AI for call center
automation, intelligent IVR (Interactive Voice Response), and AI-driven
customer support. The solution is built for telecom, combining four specialized
models by NetoAI: TSLAM, a 4-bit quantized Telecom-Specific Large Language
Model (LLM); T-VEC, a Telecom-Specific Embedding Model; TTE, a Telecom-Specific
Automatic Speech Recognition (ASR) model; and T-Synth, a Telecom-Specific
Text-to-Speech (TTS) model. These models enable highly responsive,
domain-adapted voice AI agents supporting knowledge-grounded spoken
interactions with low latency. The pipeline integrates streaming ASR (TTE),
conversational intelligence (TSLAM), retrieval augmented generation (RAG) over
telecom documents, and real-time TTS (T-Synth), setting a new benchmark for
telecom voice assistants. To evaluate the system, we built a dataset of 500
human-recorded telecom questions from RFCs, simulating real telecom agent
queries. This framework allows analysis of latency, domain relevance, and
real-time performance across the stack. Results show that TSLAM, TTE, and
T-Synth deliver real-time factors (RTF) below 1.0, supporting enterprise,
low-latency telecom deployments. These AI agents -- powered by TSLAM, TTE, and
T-Synth -- provide a foundation for next-generation telecom AI, enabling
automated customer support, diagnostics, and more.