Spot the BlindSpots: Systematic Identification and Quantification of Fine-Grained LLM Biases in Contact Center Summaries

2508.13124v1 cs.CL, cs.AI 2025-08-20

Авторы:

Kawin Mayilvaghanan, Siddhant Gupta, Ayush Kumar

Резюме на русском

#### Контекст В контактных центрах абстрактная суммаризация является основным приложением, где большие языковые модели (LLMs) днем и ночью генерируют миллионы сводных отчетов по звонкам. Хотя качество этих суммарных текстов может показаться высоким, неясно, не страдают ли LLMs от системных ошибок, которые могут привести к упущениям или переудействующему отношению к определенным аспектам звонка. Эти недостатки могут влечь за собой ухудшение качества обслуживания и недовольство клиентов. Хотя существуют исследования по социальным и позиционным ошибкам, нет ясности в отношении биаз, которые могут возникнуть в контексте контактных центров — мы их называем **операционным биазом**. Целью нашего исследования является заполнить этот пробел, создав метод, который позволит нам увидеть и измерить эти биазы. #### Метод Мы представляем **BlindSpot** — рамочный подход, основанный на тезавуре, состоящей из 15 категорий операционного биаза, таких как дисфлюенция, говорящий, тема. BlindSpot работает с LLM в качестве нулевого-шаттовый классификатор, чтобы вывести распределение категорий для каждого из 15 биазных показателей в паре звонка транскрипта и соответствующего ему сводного текста. Для измерения биаза вводятся две метрики: **Fidelity Gap** (разность логарифмических распределений) и **Coverage** (процент отсутствующих лейблов). Мы выбрали 2500 реальных звонков в качестве обучающей выборки, использовали 20 моделей LLM разных размеров и производителей (таких как GPT, Llama и Claude), чтобы провести эмпирический эксперимент. #### Результаты Эксперименты показали, что биазы в LLMs, которые используются в контактных центрах, являются системными и присутствуют во всех протестированных моделях, независимо от их размера или семейства. Например, мы обнаружили, что суммарные отчеты часто скрывают важные аспекты, такие как дисфлюенция речи или точные подробности темы беседы. **Fidelity Gap** показал, что биазы могут быть достаточно существенными, а **Coverage** показал, что 20-30% важных клиентских деталей могут упускаться из сводных отчетов. #### Значимость Наши результаты имеют широкое применение в области контактных центров. Мы показали, что BlindSpot может быть инструментальным для отслеживания и устранения операционных биаз в LLMs. Это может способствовать улучшению качества обслуживания, повышению доверия к искусственному интеллекту, и, в конечном итоге, повышению удовлетворенности клиентов. Мы также выделили направления для будущих исследований, такие как расширение тезавура для включения более сложных форм биаза и оптими

Abstract

Abstractive summarization is a core application in contact centers, where Large Language Models (LLMs) generate millions of summaries of call transcripts daily. Despite their apparent quality, it remains unclear whether LLMs systematically under- or over-attend to specific aspects of the transcript, potentially introducing biases in the generated summary. While prior work has examined social and positional biases, the specific forms of bias pertinent to contact center operations - which we term Operational Bias - have remained unexplored. To address this gap, we introduce BlindSpot, a framework built upon a taxonomy of 15 operational bias dimensions (e.g., disfluency, speaker, topic) for the identification and quantification of these biases. BlindSpot leverages an LLM as a zero-shot classifier to derive categorical distributions for each bias dimension in a pair of transcript and its summary. The bias is then quantified using two metrics: Fidelity Gap (the JS Divergence between distributions) and Coverage (the percentage of source labels omitted). Using BlindSpot, we conducted an empirical study with 2500 real call transcripts and their summaries generated by 20 LLMs of varying scales and families (e.g., GPT, Llama, Claude). Our analysis reveals that biases are systemic and present across all evaluated models, regardless of size or family.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Spot the BlindSpots: Systematic Identification and Quantification of Fine-Grained LLM Biases in Contact Center Summaries

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация