Explaining Black-box Language Models with Knowledge Probing Systems: A Post-hoc Explanation Perspective

2508.16969v1 cs.CL, cs.AI, cs.DB 2025-08-27

Авторы:

Yunxiao Zhao, Hao Xu, Zhiqiang Wang, Xiaoli Li, Jiye Liang, Ru Li

Резюме на русском

## Контекст Безрассильные языковые модели (PLM) обучены на больших объемах немаркированных данных и проявляют выдающиеся навыки рассуждения. Однако их "черные-ящик" структура затрудняет их доверительность. Из-за невозможности раскрыть причины их выводов, разработчики используют методы, называемые **post-hoc explanations**, чтобы получить информированные объяснения для внешних пользователей. Эти методы позволяют проверить, понимает ли модель неявное знание за пределами текста, а не только его поверхностную структуру. Мы предлагаем метод KnowProb, который работает как post-hoc explainer, чтобы изучить понимание PLM и отсутствие знаний. Это позволяет выявить слабые места и улучшить понимание работы PLM. ## Метод Методом KnowProb генерируются шесть типов потенциальных объяснений, рассматривая текст как поддержка различных типов знаний. Это включает три вида **knowledge-based understanding** (например, сходство сущностей или знания об имени) и три вида **association-based reasoning** (например, понятие логики или географические связи). KnowProb использует эти шесть типов объяснений, чтобы проверить, правильно ли PLM понимает текст. Такой подход позволяет выявить ошибки в понимании и раскрыть лимиты PLM. ## Результаты В экспериментах мы проверили KnowProb на нескольких моделях, включая обычные и большие PLM-модели. Мы показали, что многие модели, даже большие, не могут достаточно хорошо понимать неявное знание. Например, тесты показали, что многие модели выдают неверные ответы на вопросы, которые требуют глубокого понимания текста. KnowProb успешно выявил эти недостатки, демонстрируя, что текущие модели страдают от лимитов в их понимании нестандартных типов знаний. ## Значимость Метод KnowProb может быть полезен во многих областях, таких как разработка доверительных моделей, улучшение анализа текста и развитие новых методов обучения. Он также позволяет лучше понять ограничения PLM и направляет исследователей в разработке более транспарентых моделей. Это делает KnowProb важной частью работы над достижением более транспарентных и надежных моделей языкового понимания. ## Выводы KnowProb продемонстрировал эффективность в обнаружении слабых мест в PLM, которые страдают от ограничений в понимании нестандартных знаний. Это открыло новые возможности для повышения доверия к моделям и стимулировало развитие методов post-hoc explanations в области NLP. Будущие работы будут ориентированы на улучшение KnowProb и его применение в контексте более сложных моделей языкового понимания.

Abstract

Pre-trained Language Models (PLMs) are trained on large amounts of unlabeled data, yet they exhibit remarkable reasoning skills. However, the trustworthiness challenges posed by these black-box models have become increasingly evident in recent years. To alleviate this problem, this paper proposes a novel Knowledge-guided Probing approach called KnowProb in a post-hoc explanation way, which aims to probe whether black-box PLMs understand implicit knowledge beyond the given text, rather than focusing only on the surface level content of the text. We provide six potential explanations derived from the underlying content of the given text, including three knowledge-based understanding and three association-based reasoning. In experiments, we validate that current small-scale (or large-scale) PLMs only learn a single distribution of representation, and still face significant challenges in capturing the hidden knowledge behind a given text. Furthermore, we demonstrate that our proposed approach is effective for identifying the limitations of existing black-box models from multiple probing perspectives, which facilitates researchers to promote the study of detecting black-box models in an explainable way.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Explaining Black-box Language Models with Knowledge Probing Systems: A Post-hoc Explanation Perspective

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

OsmT: Bridging OpenStreetMap Queries and Natural Language with Open-source Tag-a...

Skeletons Matter: Dynamic Data Augmentation for Text-to-Query

Do LLMs Align with My Task? Evaluating Text-to-SQL via Dataset Alignment

Play by the Type Rules: Inferring Constraints for LLM Functions in Declarative P...

MoNaCo: More Natural and Complex Questions for Reasoning Across Dozens of Docume...

Навигация