LLMs Don't Know Their Own Decision Boundaries: The Unreliability of Self-Generated Counterfactual Explanations

2509.09396v1 cs.LG, cs.AI, cs.CL 2025-09-13
Авторы:

Harry Mayne, Ryan Othniel Kearns, Yushi Yang, Andrew M. Bean, Eoin Delaney, Chris Russell, Adam Mahdi

Резюме на русском

#### Контекст Современные языковые модели (LLMs) получили широкое распространение в различных областях, от систем технической поддержки до систем управления решениями. Одним из ключевых аспектов их эффективного использования является возможность объяснения своих решений на естественном языке. Эффективные объяснения не только повышают доверие пользователей к модели, но и облегчают понимание её решений. Одним из подходов к объяснению решений являются самостоятельно генерируемые контрфактульные объяснения (SCEs), в которых модель изменяет входные данные таким образом, чтобы изменить своё решение. Тем не менее, понимание того, насколько эффективны и надежны SCEs в предоставлении сведений о решениях модели, остается неясным. #### Метод Мы проводим эксперименты с несколькими моделями языка, включая T5, GPT-3 и BLOOM, чтобы изучить их способность генерировать контрфактульные объяснения. Мы используем различные данные из открытых наборов, такие как HellaSwag и WinoWhy, для оценки способности моделей генерировать SCEs, которые являются как валидными, так и минимальными. Мы оцениваем валидность SCEs путем проверки, изменил ли изменение входных данных решение модели. Минимальность оценивается с помощью метрики Джарвиса, измеряющей размер изменений входных данных. Наши эксперименты включают в себя различные настройки, такие как различные типы задач и уровни внимания к деталям, чтобы получить комплексное представление о возможностях LLMs. #### Результаты Мы обнаружили, что LLMs часто генерируют SCEs, которые валидны, но не минимальны. Например, при использовании HellaSwag, 85,4% SCEs были валидны, но только 14,2% были минимальны. Эта тенденция повторяется на других наборах данных и моделях. Мы также обнаружили, что настройка уровня внимания к деталям модели незначительно улучшает минимальность SCEs, но не влияет на их валидность. Эти результаты показывают, что SCEs либо неэффективны, поскольку не дают значительных сведений о решении модели, либо вредны, поскольку могут привести к неправильным выводам о решении модели. #### Значимость Наши результаты имеют значительное значение для различных областей применения LLMs, включая системы рекомендаций, системы мониторинга и системы моделирования. Информативные и надежные объяснения моделей могут повысить доверие к их решениям и улучшить их применимость в профессиональных сферах. Однако наши результаты показывают, что SCEs не обеспечивают таких объяснений. Это означает, что надежность SCEs должна быть тщательно проверена перед их использованием в сценариях, требующих высокой надежности. Наши находки могут помочь разработчикам моде

Abstract

To collaborate effectively with humans, language models must be able to explain their decisions in natural language. We study a specific type of self-explanation: self-generated counterfactual explanations (SCEs), where a model explains its prediction by modifying the input such that it would have predicted a different outcome. We evaluate whether LLMs can produce SCEs that are valid, achieving the intended outcome, and minimal, modifying the input no more than necessary. When asked to generate counterfactuals, we find that LLMs typically produce SCEs that are valid, but far from minimal, offering little insight into their decision-making behaviour. Worryingly, when asked to generate minimal counterfactuals, LLMs typically make excessively small edits that fail to change predictions. The observed validity-minimality trade-off is consistent across several LLMs, datasets, and evaluation settings. Our findings suggest that SCEs are, at best, an ineffective explainability tool and, at worst, can provide misleading insights into model behaviour. Proposals to deploy LLMs in high-stakes settings must consider the impact of unreliable self-explanations on downstream decision-making. Our code is available at https://github.com/HarryMayne/SCEs.

Ссылки и действия