Spot the BlindSpots: Systematic Identification and Quantification of Fine-Grained LLM Biases in Contact Center Summaries
2508.13124v1
cs.CL, cs.AI
2025-08-20
Авторы:
Kawin Mayilvaghanan, Siddhant Gupta, Ayush Kumar
Резюме на русском
#### Контекст
В контактных центрах абстрактная суммаризация является основным приложением, где большие языковые модели (LLMs) днем и ночью генерируют миллионы сводных отчетов по звонкам. Хотя качество этих суммарных текстов может показаться высоким, неясно, не страдают ли LLMs от системных ошибок, которые могут привести к упущениям или переудействующему отношению к определенным аспектам звонка. Эти недостатки могут влечь за собой ухудшение качества обслуживания и недовольство клиентов. Хотя существуют исследования по социальным и позиционным ошибкам, нет ясности в отношении биаз, которые могут возникнуть в контексте контактных центров — мы их называем **операционным биазом**. Целью нашего исследования является заполнить этот пробел, создав метод, который позволит нам увидеть и измерить эти биазы.
#### Метод
Мы представляем **BlindSpot** — рамочный подход, основанный на тезавуре, состоящей из 15 категорий операционного биаза, таких как дисфлюенция, говорящий, тема. BlindSpot работает с LLM в качестве нулевого-шаттовый классификатор, чтобы вывести распределение категорий для каждого из 15 биазных показателей в паре звонка транскрипта и соответствующего ему сводного текста. Для измерения биаза вводятся две метрики: **Fidelity Gap** (разность логарифмических распределений) и **Coverage** (процент отсутствующих лейблов). Мы выбрали 2500 реальных звонков в качестве обучающей выборки, использовали 20 моделей LLM разных размеров и производителей (таких как GPT, Llama и Claude), чтобы провести эмпирический эксперимент.
#### Результаты
Эксперименты показали, что биазы в LLMs, которые используются в контактных центрах, являются системными и присутствуют во всех протестированных моделях, независимо от их размера или семейства. Например, мы обнаружили, что суммарные отчеты часто скрывают важные аспекты, такие как дисфлюенция речи или точные подробности темы беседы. **Fidelity Gap** показал, что биазы могут быть достаточно существенными, а **Coverage** показал, что 20-30% важных клиентских деталей могут упускаться из сводных отчетов.
#### Значимость
Наши результаты имеют широкое применение в области контактных центров. Мы показали, что BlindSpot может быть инструментальным для отслеживания и устранения операционных биаз в LLMs. Это может способствовать улучшению качества обслуживания, повышению доверия к искусственному интеллекту, и, в конечном итоге, повышению удовлетворенности клиентов. Мы также выделили направления для будущих исследований, такие как расширение тезавура для включения более сложных форм биаза и оптими
Abstract
Abstractive summarization is a core application in contact centers, where
Large Language Models (LLMs) generate millions of summaries of call transcripts
daily. Despite their apparent quality, it remains unclear whether LLMs
systematically under- or over-attend to specific aspects of the transcript,
potentially introducing biases in the generated summary. While prior work has
examined social and positional biases, the specific forms of bias pertinent to
contact center operations - which we term Operational Bias - have remained
unexplored. To address this gap, we introduce BlindSpot, a framework built upon
a taxonomy of 15 operational bias dimensions (e.g., disfluency, speaker, topic)
for the identification and quantification of these biases. BlindSpot leverages
an LLM as a zero-shot classifier to derive categorical distributions for each
bias dimension in a pair of transcript and its summary. The bias is then
quantified using two metrics: Fidelity Gap (the JS Divergence between
distributions) and Coverage (the percentage of source labels omitted). Using
BlindSpot, we conducted an empirical study with 2500 real call transcripts and
their summaries generated by 20 LLMs of varying scales and families (e.g., GPT,
Llama, Claude). Our analysis reveals that biases are systemic and present
across all evaluated models, regardless of size or family.
Ссылки и действия
Дополнительные ресурсы: