Towards Automated Error Discovery: A Study in Conversational AI

2509.10833v1 cs.CL, cs.AI, cs.HC, cs.LG 2025-09-17
Авторы:

Dominic Petrak, Thy Thy Tran, Iryna Gurevych

Резюме на русском

------------------------------------------------ ## Контекст ------------------------------------------------ Современные широковещательные системы на основе широковещательных моделей языка (LLM), такие как консультанты по здоровью, привносят в сферу здравоохранения новейший подход к предоставлению услуг здравоохранения. Однако эти системы часто сталкиваются с проблемами, такими как неточности, несоответствия контексту и непредсказуемость результатов. Эти проблемы могут привести к негативному опыту пользователей и снижению доверия к системе. Одним из ключевых аспектов, стоящих перед развитием этих систем, является разработка эффективных методов автоматического обнаружения и оценки ошибок в тексте. Эти методы помогают обнаруживать и моделировать негативные поведенческие характеристики, такие как неточности и несоответствия контексту, которые могут возникать в результатах системы. Целью данного исследования является разработка и проверка фреймворка для автоматического обнаружения ошибок в тексте, который может быть применен для улучшения качества результатов в здравоохранении и других областях. ## Метод ------------------------------------------------ Для реализации предложенного фреймворка разработана методология, основанная на сочетании методов машинного обучения и естественного языкового процессинга. Метод SEEED (Soft Clustering Extended Encoder-Based Error Detection) использует софт-кластеринг и расширенную модель encoder-based для обнаружения и оценки ошибок в тексте. Основными инструментами являются: 1. **Soft Nearest Neighbor Loss (SNNL)**: Этот подход усиливает веса для отрицательных примеров, что позволяет модели лучше отличать ошибки от правильных ответов. 2. **Label-Based Sample Ranking (LBSR)**: Эта техника используется для выбора самых отличительных примеров для обучения модели, что улучшает способность модели к обнаружению неправильных ответов. Кроме того, были разработаны специальные методы для подготовки данных, включая методы для автоматического создания тестовых наборов и методы для оценки точности модели. ## Результаты ------------------------------------------------ Для оценки эффективности SEEED был проведен эксперимент на нескольких диалоговых датасетах, аннотированных ошибками. Результаты показали, что SEEED превосходит существующие подходы, включая GPT-4o и Phi-4, на несколько процентов в точности обнаружения непредсказуемых ошибок. Было получено, что SEEED обнаруживает непредсказуемые ошибки с точностью до 8% выше, чем существующие модели. Это улучшение связано с использованием расширенных методов кластеризации и оценки примеров, что позволяет модели лучше определять и отделять ошибки от правильных ответов. ## Значимость ------------------------------------------------ Результаты данного исследования имеют важное значение для развития систем здравоохранения, в частности для расширения возможностей консультан

Abstract

Although LLM-based conversational agents demonstrate strong fluency and coherence, they still produce undesirable behaviors (errors) that are challenging to prevent from reaching users during deployment. Recent research leverages large language models (LLMs) to detect errors and guide response-generation models toward improvement. However, current LLMs struggle to identify errors not explicitly specified in their instructions, such as those arising from updates to the response-generation model or shifts in user behavior. In this work, we introduce Automated Error Discovery, a framework for detecting and defining errors in conversational AI, and propose SEEED (Soft Clustering Extended Encoder-Based Error Detection), as an encoder-based approach to its implementation. We enhance the Soft Nearest Neighbor Loss by amplifying distance weighting for negative samples and introduce Label-Based Sample Ranking to select highly contrastive examples for better representation learning. SEEED outperforms adapted baselines -- including GPT-4o and Phi-4 -- across multiple error-annotated dialogue datasets, improving the accuracy for detecting unknown errors by up to 8 points and demonstrating strong generalization to unknown intent detection.

Ссылки и действия