LLMs Don't Know Their Own Decision Boundaries: The Unreliability of Self-Generated Counterfactual Explanations
2509.09396v1
cs.LG, cs.AI, cs.CL
2025-09-13
Авторы:
Harry Mayne, Ryan Othniel Kearns, Yushi Yang, Andrew M. Bean, Eoin Delaney, Chris Russell, Adam Mahdi
Резюме на русском
#### Контекст
Современные языковые модели (LLMs) получили широкое распространение в различных областях, от систем технической поддержки до систем управления решениями. Одним из ключевых аспектов их эффективного использования является возможность объяснения своих решений на естественном языке. Эффективные объяснения не только повышают доверие пользователей к модели, но и облегчают понимание её решений. Одним из подходов к объяснению решений являются самостоятельно генерируемые контрфактульные объяснения (SCEs), в которых модель изменяет входные данные таким образом, чтобы изменить своё решение. Тем не менее, понимание того, насколько эффективны и надежны SCEs в предоставлении сведений о решениях модели, остается неясным.
#### Метод
Мы проводим эксперименты с несколькими моделями языка, включая T5, GPT-3 и BLOOM, чтобы изучить их способность генерировать контрфактульные объяснения. Мы используем различные данные из открытых наборов, такие как HellaSwag и WinoWhy, для оценки способности моделей генерировать SCEs, которые являются как валидными, так и минимальными. Мы оцениваем валидность SCEs путем проверки, изменил ли изменение входных данных решение модели. Минимальность оценивается с помощью метрики Джарвиса, измеряющей размер изменений входных данных. Наши эксперименты включают в себя различные настройки, такие как различные типы задач и уровни внимания к деталям, чтобы получить комплексное представление о возможностях LLMs.
#### Результаты
Мы обнаружили, что LLMs часто генерируют SCEs, которые валидны, но не минимальны. Например, при использовании HellaSwag, 85,4% SCEs были валидны, но только 14,2% были минимальны. Эта тенденция повторяется на других наборах данных и моделях. Мы также обнаружили, что настройка уровня внимания к деталям модели незначительно улучшает минимальность SCEs, но не влияет на их валидность. Эти результаты показывают, что SCEs либо неэффективны, поскольку не дают значительных сведений о решении модели, либо вредны, поскольку могут привести к неправильным выводам о решении модели.
#### Значимость
Наши результаты имеют значительное значение для различных областей применения LLMs, включая системы рекомендаций, системы мониторинга и системы моделирования. Информативные и надежные объяснения моделей могут повысить доверие к их решениям и улучшить их применимость в профессиональных сферах. Однако наши результаты показывают, что SCEs не обеспечивают таких объяснений. Это означает, что надежность SCEs должна быть тщательно проверена перед их использованием в сценариях, требующих высокой надежности. Наши находки могут помочь разработчикам моде
Abstract
To collaborate effectively with humans, language models must be able to
explain their decisions in natural language. We study a specific type of
self-explanation: self-generated counterfactual explanations (SCEs), where a
model explains its prediction by modifying the input such that it would have
predicted a different outcome. We evaluate whether LLMs can produce SCEs that
are valid, achieving the intended outcome, and minimal, modifying the input no
more than necessary. When asked to generate counterfactuals, we find that LLMs
typically produce SCEs that are valid, but far from minimal, offering little
insight into their decision-making behaviour. Worryingly, when asked to
generate minimal counterfactuals, LLMs typically make excessively small edits
that fail to change predictions. The observed validity-minimality trade-off is
consistent across several LLMs, datasets, and evaluation settings. Our findings
suggest that SCEs are, at best, an ineffective explainability tool and, at
worst, can provide misleading insights into model behaviour. Proposals to
deploy LLMs in high-stakes settings must consider the impact of unreliable
self-explanations on downstream decision-making. Our code is available at
https://github.com/HarryMayne/SCEs.
Ссылки и действия
Дополнительные ресурсы: