Quantifying Self-Awareness of Knowledge in Large Language Models

2509.15339v1 cs.CL, 68T50, I.2.7 2025-09-23

Авторы:

Yeongbin Seo, Dongha Lee, Jinyoung Yeo

Резюме на русском

## Контекст Современные большие языковые модели (LLMs) представляют собой мощные инструменты, способные выполнять широкий спектр задач, от генерации текста до ответа на запросы. Однако они часто сталкиваются с проблемой **hallucination** — генерации неверной или недостоверной информации, которая может быть представлена как уверенность в знании. Эта ситуация поднимает вопрос о самосознании моделей. Насколько LLMs понимают свои ограничения и достоверность своих ответов? Этот вопрос приобретает важность в свет роста зависимости от технологий, использующих LLMs в решении реальных проблем. Необходимо развить методы, позволяющие лучше понять и оценить самосознание моделей. ## Метод Мы предлагаем два совершенно разных подхода для измерения и улучшения самосознания LLMs: 1. **Approximate Question-side Effect (AQE)**: Это метод, который позволяет выделить и измерить вклад в процесс ответа, д Driven by question-side сигналов (например, сложные запросы могут вызвать высшую вероятность верного ответа независимо от модели). AQE определяет, насколько ответ модели зависит от этих сигналов, а не от действительного мышления. 2. **Semantic Compression by Answering in One Word (SCAO)**: SCAO — это метод, который улучшает модельную самоосознательность, сжимая ответы до одного смыслового слова. Это позволяет избегать слишком широких или неоднозначных ответов и подчеркивает модельное понимание конкретного вопроса. ## Результаты Мы провели ряд экспериментов с LLMs на различных данных, включая стандартные наборы данных для оценки самосознания и холлюцинаций. Результаты показывают, что: - AQE выявляет существенный вклад в ответы LLMs, который происходит из-за зависимости от входных запросов, а не из-за реального самосознания модели. - SCAO позволяет LLMs фокусироваться на модельных сигналах, улучшая самосознательность в условиях, где вопрос-сторонние сигналы значительно снижены. ## Значимость 1. **Практическое применение**: Наша работа помогает улучшить способность LLMs к самосознанию, что имеет значение для уменьшения риска холлюцинаций и повышения доверия в их ответах. 2. **Преимущества**: Методы AQE и SCAO демонстрируют свою эффективность в различных условиях и позволяют лучше разделять глубокое понимание от глупых ловушек вопросов. 3. **Потенциальное влияние**: Эти разработки могут привести к более уверенным и надежным LLMs, которые могут использоваться в критически важных задачах, таких как клиническая диагностика, финансовая аналитика и т.д. ## Выводы Мы показали, что многие из показателей "самосознания" LLMs на самом деле связаны с ловушками в вопросах, а не с их модельным мышлением.

Abstract

Hallucination prediction in large language models (LLMs) is often interpreted as a sign of self-awareness. However, we argue that such performance can arise from question-side shortcuts rather than true model-side introspection. To disentangle these factors, we propose the Approximate Question-side Effect (AQE), which quantifies the contribution of question-awareness. Our analysis across multiple datasets reveals that much of the reported success stems from exploiting superficial patterns in questions. We further introduce SCAO (Semantic Compression by Answering in One word), a method that enhances the use of model-side signals. Experiments show that SCAO achieves strong and consistent performance, particularly in settings with reduced question-side cues, highlighting its effectiveness in fostering genuine self-awareness in LLMs.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Quantifying Self-Awareness of Knowledge in Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

When Retrieval Succeeds and Fails: Rethinking Retrieval-Augmented Generation for...

Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexit...

Charting a Decade of Computational Linguistics in Italy: The CLiC-it Corpus

Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence...

Testing the assumptions about the geometry of sentence embedding spaces: the cos...

Навигация