## Контекст
Современные большие языковые модели (LLMs) представляют собой мощные инструменты, способные выполнять широкий спектр задач, от генерации текста до ответа на запросы. Однако они часто сталкиваются с проблемой **hallucination** — генерации неверной или недостоверной информации, которая может быть представлена как уверенность в знании. Эта ситуация поднимает вопрос о самосознании моделей. Насколько LLMs понимают свои ограничения и достоверность своих ответов? Этот вопрос приобретает важность в свет роста зависимости от технологий, использующих LLMs в решении реальных проблем. Необходимо развить методы, позволяющие лучше понять и оценить самосознание моделей.
## Метод
Мы предлагаем два совершенно разных подхода для измерения и улучшения самосознания LLMs:
1. **Approximate Question-side Effect (AQE)**:
Это метод, который позволяет выделить и измерить вклад в процесс ответа, д Driven by question-side сигналов (например, сложные запросы могут вызвать высшую вероятность верного ответа независимо от модели). AQE определяет, насколько ответ модели зависит от этих сигналов, а не от действительного мышления.
2. **Semantic Compression by Answering in One Word (SCAO)**:
SCAO — это метод, который улучшает модельную самоосознательность, сжимая ответы до одного смыслового слова. Это позволяет избегать слишком широких или неоднозначных ответов и подчеркивает модельное понимание конкретного вопроса.
## Результаты
Мы провели ряд экспериментов с LLMs на различных данных, включая стандартные наборы данных для оценки самосознания и холлюцинаций. Результаты показывают, что:
- AQE выявляет существенный вклад в ответы LLMs, который происходит из-за зависимости от входных запросов, а не из-за реального самосознания модели.
- SCAO позволяет LLMs фокусироваться на модельных сигналах, улучшая самосознательность в условиях, где вопрос-сторонние сигналы значительно снижены.
## Значимость
1. **Практическое применение**: Наша работа помогает улучшить способность LLMs к самосознанию, что имеет значение для уменьшения риска холлюцинаций и повышения доверия в их ответах.
2. **Преимущества**: Методы AQE и SCAO демонстрируют свою эффективность в различных условиях и позволяют лучше разделять глубокое понимание от глупых ловушек вопросов.
3. **Потенциальное влияние**: Эти разработки могут привести к более уверенным и надежным LLMs, которые могут использоваться в критически важных задачах, таких как клиническая диагностика, финансовая аналитика и т.д.
## Выводы
Мы показали, что многие из показателей "самосознания" LLMs на самом деле связаны с ловушками в вопросах, а не с их модельным мышлением.