#### Контекст
В контактных центрах абстрактная суммаризация является основным приложением, где большие языковые модели (LLMs) днем и ночью генерируют миллионы сводных отчетов по звонкам. Хотя качество этих суммарных текстов может показаться высоким, неясно, не страдают ли LLMs от системных ошибок, которые могут привести к упущениям или переудействующему отношению к определенным аспектам звонка. Эти недостатки могут влечь за собой ухудшение качества обслуживания и недовольство клиентов. Хотя существуют исследования по социальным и позиционным ошибкам, нет ясности в отношении биаз, которые могут возникнуть в контексте контактных центров — мы их называем **операционным биазом**. Целью нашего исследования является заполнить этот пробел, создав метод, который позволит нам увидеть и измерить эти биазы.
#### Метод
Мы представляем **BlindSpot** — рамочный подход, основанный на тезавуре, состоящей из 15 категорий операционного биаза, таких как дисфлюенция, говорящий, тема. BlindSpot работает с LLM в качестве нулевого-шаттовый классификатор, чтобы вывести распределение категорий для каждого из 15 биазных показателей в паре звонка транскрипта и соответствующего ему сводного текста. Для измерения биаза вводятся две метрики: **Fidelity Gap** (разность логарифмических распределений) и **Coverage** (процент отсутствующих лейблов). Мы выбрали 2500 реальных звонков в качестве обучающей выборки, использовали 20 моделей LLM разных размеров и производителей (таких как GPT, Llama и Claude), чтобы провести эмпирический эксперимент.
#### Результаты
Эксперименты показали, что биазы в LLMs, которые используются в контактных центрах, являются системными и присутствуют во всех протестированных моделях, независимо от их размера или семейства. Например, мы обнаружили, что суммарные отчеты часто скрывают важные аспекты, такие как дисфлюенция речи или точные подробности темы беседы. **Fidelity Gap** показал, что биазы могут быть достаточно существенными, а **Coverage** показал, что 20-30% важных клиентских деталей могут упускаться из сводных отчетов.
#### Значимость
Наши результаты имеют широкое применение в области контактных центров. Мы показали, что BlindSpot может быть инструментальным для отслеживания и устранения операционных биаз в LLMs. Это может способствовать улучшению качества обслуживания, повышению доверия к искусственному интеллекту, и, в конечном итоге, повышению удовлетворенности клиентов. Мы также выделили направления для будущих исследований, такие как расширение тезавура для включения более сложных форм биаза и оптими