Why Synthetic Isn't Real Yet: A Diagnostic Framework for Contact Center Dialogue Generation

2508.18210v1 cs.CL, cs.AI 2025-08-27
Авторы:

Rishikesh Devanathan, Varun Nathan, Ayush Kumar

Резюме на русском

#### Контекст Область исследования сосредоточена на генерировании синтетических диалогов в контактных центрах, где задачи прикладной естественной языковой обработки связаны с техническими и этическими вызовами. Существующие проблемы включают ограничения в доступе к реальным данным из-за приватности и нехватки данных для эффективной обработки и моделирования. Synthetic dialogue generation помогает адресовать эти вызовы, но требуются более точные методы для оценки качества сгенерированных диалогов. Исследование оправдывает потребность в детальной оценке, поскольку существующие подходы часто не удаляются на практике из-за проблем с неестественностью диалога, разрывом с точки зрения сентимента и недостатками в реалистичности поведения. #### Метод Предлагается методология, основывающаяся на гибкой архитектуре, которая использует комплексные сигналы руководства для генерирования диалогов. Основная техника включает многоэтапное генерирование, где каждый этап адаптируется к конкретным характеристикам диалога в контактных центрах, таким как роль-асимметрия, неструктурированность, и правила соблюдения. Метод также использует новый диагностический фреймворк, который состоит из 18 метрик, охватывающих лингвистические и поведенческие аспекты. Эти метрики позволяют сравнить реальные и синтетические диалоги, выявляя с WEAKNESSES в каждой области. Технологические решения включают в себя несколько моделей языка, таких как GPT-3, а также новые методы стимулирования, чтобы продвинуть границы реалистичности. #### Результаты Исследование проводит эксперименты с четырьмя моделями и вариантами генерирования диалогов, включая простые команды и характеристически-ориентированные подходы. Результаты показывают, что ни один подход не показывает превосходства над другими по всем 18 метрикам. Особое внимание уделяется проблемам, таким как неестественность диалога (disfluency), предсказуемость сентимента и недостаточная реалистичность поведения. Например, модели, которые работают с характеристически-ориентированным подходом, показывают лучший результат в области intent recognition, но страдают от неестественности лексики. Базовые референсы, основанные на некоторых характеристиках, также показывают сильные стороны, но ограничены в области полноты. #### Значимость Предложенный подход имеет широкие применения в областях, где необходимо создание реалистичных диалогов для тестирования моделей и моделирования различных сценариев в контактных центрах. Он помогает выявить с WEAKNESSES в существующих моделях и делает возможным улучш

Abstract

Synthetic transcript generation is critical in contact center domains, where privacy and data scarcity limit model training and evaluation. Unlike prior synthetic dialogue generation work on open-domain or medical dialogues, contact center conversations are goal-oriented, role-asymmetric, and behaviorally complex, featuring disfluencies, ASR noise, and compliance-driven agent actions. In deployments where transcripts are unavailable, standard pipelines still yield derived call attributes such as Intent Summaries, Topic Flow, and QA Evaluation Forms. We leverage these as supervision signals to guide generation. To assess the quality of such outputs, we introduce a diagnostic framework of 18 linguistically and behaviorally grounded metrics for comparing real and synthetic transcripts. We benchmark four language-agnostic generation strategies, from simple prompting to characteristic-aware multi-stage approaches, alongside reference-free baselines. Results reveal persistent challenges: no method excels across all traits, with notable deficits in disfluency, sentiment, and behavioral realism. Our diagnostic tool exposes these gaps, enabling fine-grained evaluation and stress testing of synthetic dialogue across languages.

Ссылки и действия