Explaining Black-box Language Models with Knowledge Probing Systems: A Post-hoc Explanation Perspective
2508.16969v1
cs.CL, cs.AI, cs.DB
2025-08-27
Авторы:
Yunxiao Zhao, Hao Xu, Zhiqiang Wang, Xiaoli Li, Jiye Liang, Ru Li
Резюме на русском
## Контекст
Безрассильные языковые модели (PLM) обучены на больших объемах немаркированных данных и проявляют выдающиеся навыки рассуждения. Однако их "черные-ящик" структура затрудняет их доверительность. Из-за невозможности раскрыть причины их выводов, разработчики используют методы, называемые **post-hoc explanations**, чтобы получить информированные объяснения для внешних пользователей. Эти методы позволяют проверить, понимает ли модель неявное знание за пределами текста, а не только его поверхностную структуру. Мы предлагаем метод KnowProb, который работает как post-hoc explainer, чтобы изучить понимание PLM и отсутствие знаний. Это позволяет выявить слабые места и улучшить понимание работы PLM.
## Метод
Методом KnowProb генерируются шесть типов потенциальных объяснений, рассматривая текст как поддержка различных типов знаний. Это включает три вида **knowledge-based understanding** (например, сходство сущностей или знания об имени) и три вида **association-based reasoning** (например, понятие логики или географические связи). KnowProb использует эти шесть типов объяснений, чтобы проверить, правильно ли PLM понимает текст. Такой подход позволяет выявить ошибки в понимании и раскрыть лимиты PLM.
## Результаты
В экспериментах мы проверили KnowProb на нескольких моделях, включая обычные и большие PLM-модели. Мы показали, что многие модели, даже большие, не могут достаточно хорошо понимать неявное знание. Например, тесты показали, что многие модели выдают неверные ответы на вопросы, которые требуют глубокого понимания текста. KnowProb успешно выявил эти недостатки, демонстрируя, что текущие модели страдают от лимитов в их понимании нестандартных типов знаний.
## Значимость
Метод KnowProb может быть полезен во многих областях, таких как разработка доверительных моделей, улучшение анализа текста и развитие новых методов обучения. Он также позволяет лучше понять ограничения PLM и направляет исследователей в разработке более транспарентых моделей. Это делает KnowProb важной частью работы над достижением более транспарентных и надежных моделей языкового понимания.
## Выводы
KnowProb продемонстрировал эффективность в обнаружении слабых мест в PLM, которые страдают от ограничений в понимании нестандартных знаний. Это открыло новые возможности для повышения доверия к моделям и стимулировало развитие методов post-hoc explanations в области NLP. Будущие работы будут ориентированы на улучшение KnowProb и его применение в контексте более сложных моделей языкового понимания.
Abstract
Pre-trained Language Models (PLMs) are trained on large amounts of unlabeled
data, yet they exhibit remarkable reasoning skills. However, the
trustworthiness challenges posed by these black-box models have become
increasingly evident in recent years. To alleviate this problem, this paper
proposes a novel Knowledge-guided Probing approach called KnowProb in a
post-hoc explanation way, which aims to probe whether black-box PLMs understand
implicit knowledge beyond the given text, rather than focusing only on the
surface level content of the text. We provide six potential explanations
derived from the underlying content of the given text, including three
knowledge-based understanding and three association-based reasoning. In
experiments, we validate that current small-scale (or large-scale) PLMs only
learn a single distribution of representation, and still face significant
challenges in capturing the hidden knowledge behind a given text. Furthermore,
we demonstrate that our proposed approach is effective for identifying the
limitations of existing black-box models from multiple probing perspectives,
which facilitates researchers to promote the study of detecting black-box
models in an explainable way.
Ссылки и действия
Дополнительные ресурсы: