Why Synthetic Isn't Real Yet: A Diagnostic Framework for Contact Center Dialogue Generation
2508.18210v1
cs.CL, cs.AI
2025-08-27
Авторы:
Rishikesh Devanathan, Varun Nathan, Ayush Kumar
Резюме на русском
#### Контекст
Область исследования сосредоточена на генерировании синтетических диалогов в контактных центрах, где задачи прикладной естественной языковой обработки связаны с техническими и этическими вызовами. Существующие проблемы включают ограничения в доступе к реальным данным из-за приватности и нехватки данных для эффективной обработки и моделирования. Synthetic dialogue generation помогает адресовать эти вызовы, но требуются более точные методы для оценки качества сгенерированных диалогов. Исследование оправдывает потребность в детальной оценке, поскольку существующие подходы часто не удаляются на практике из-за проблем с неестественностью диалога, разрывом с точки зрения сентимента и недостатками в реалистичности поведения.
#### Метод
Предлагается методология, основывающаяся на гибкой архитектуре, которая использует комплексные сигналы руководства для генерирования диалогов. Основная техника включает многоэтапное генерирование, где каждый этап адаптируется к конкретным характеристикам диалога в контактных центрах, таким как роль-асимметрия, неструктурированность, и правила соблюдения. Метод также использует новый диагностический фреймворк, который состоит из 18 метрик, охватывающих лингвистические и поведенческие аспекты. Эти метрики позволяют сравнить реальные и синтетические диалоги, выявляя с WEAKNESSES в каждой области. Технологические решения включают в себя несколько моделей языка, таких как GPT-3, а также новые методы стимулирования, чтобы продвинуть границы реалистичности.
#### Результаты
Исследование проводит эксперименты с четырьмя моделями и вариантами генерирования диалогов, включая простые команды и характеристически-ориентированные подходы. Результаты показывают, что ни один подход не показывает превосходства над другими по всем 18 метрикам. Особое внимание уделяется проблемам, таким как неестественность диалога (disfluency), предсказуемость сентимента и недостаточная реалистичность поведения. Например, модели, которые работают с характеристически-ориентированным подходом, показывают лучший результат в области intent recognition, но страдают от неестественности лексики. Базовые референсы, основанные на некоторых характеристиках, также показывают сильные стороны, но ограничены в области полноты.
#### Значимость
Предложенный подход имеет широкие применения в областях, где необходимо создание реалистичных диалогов для тестирования моделей и моделирования различных сценариев в контактных центрах. Он помогает выявить с WEAKNESSES в существующих моделях и делает возможным улучш
Abstract
Synthetic transcript generation is critical in contact center domains, where
privacy and data scarcity limit model training and evaluation. Unlike prior
synthetic dialogue generation work on open-domain or medical dialogues, contact
center conversations are goal-oriented, role-asymmetric, and behaviorally
complex, featuring disfluencies, ASR noise, and compliance-driven agent
actions. In deployments where transcripts are unavailable, standard pipelines
still yield derived call attributes such as Intent Summaries, Topic Flow, and
QA Evaluation Forms. We leverage these as supervision signals to guide
generation. To assess the quality of such outputs, we introduce a diagnostic
framework of 18 linguistically and behaviorally grounded metrics for comparing
real and synthetic transcripts. We benchmark four language-agnostic generation
strategies, from simple prompting to characteristic-aware multi-stage
approaches, alongside reference-free baselines. Results reveal persistent
challenges: no method excels across all traits, with notable deficits in
disfluency, sentiment, and behavioral realism. Our diagnostic tool exposes
these gaps, enabling fine-grained evaluation and stress testing of synthetic
dialogue across languages.
Ссылки и действия
Дополнительные ресурсы: