Predictable Compression Failures: Why Language Models Actually Hallucinate

2509.11208v1 stat.ML, cs.LG 2025-09-17

Авторы:

Leon Chlon, Ahmed Karim, Maggie Chlon

Резюме на русском

## Контекст Large language models (LLMs) — это мощные инструменты для обработки и генерации текста, основывающиеся на трансформерах. Они могут решать задачи в области естественного языка, включая автоматический перевод, синтез и анализ текста. Несмотря на их выдающиеся достижения, LLMs часто "халлуцинируют" — генерируют информацию, несовместимую с данными ввода. Это проявляется в неточности, несоответствии фактам и ложному понимании задач. Такое поведение связано с особенностями их архитектуры и методологии обучения. Эти проблемы ограничивают доверие к LLMs в критически важных приложениях, таких как медицинские диагностика и финансовый анализ. Наша исследовательская мотивация состоит в том, чтобы изучить причины такого поведения и разработать методы, позволяющие предсказуемо устранять такие "халлуцинации". ## Метод Мы разрабатываем метод, основанный на теории информации и компьютерных моделях, для анализа и устранения "халлуцинаций" в LLMs. Наш подход заключается в том, чтобы измерить и контролировать неоднородность в выводе модели, используя понимание генерации текста как процесса сжатия информации. Мы используем следующие технические решения: 1. **Оптимизация компрессии при оценке текста**: Мы рассматриваем контроль размера данных, генерируемых моделью, как ключевую компоненту. 2. **Повышение степени понимания модели**: Мы вводим механизмы, которые позволяют модели лучше понимать контекст и отделять достоверные данные от ложных. 3. **Адаптивность модели**: Мы разрабатываем алгоритмы, которые позволяют модели адаптироваться к новым типам данных и ситуациям. ## Результаты Мы проводим эксперименты на нескольких наборах данных, включая текстовые корпуса в различных языках и вариантах задач (например, синтез текста и вывод ответов на вопросы). Мы удачно проверяем наши теоретические модели на практике, получая результаты, показывающие снижение частоты "халлуцинаций". Мы также показываем, что наш подход позволяет улучшить точность решений и снизить неточности в выводе модели. ## Значимость Результаты нашего исследования имеют огромное значение для развития технологий генерации текста. Мы показываем, что наш подход может быть применен в следующих областях: 1. **Синтез текста**: Мы улучшаем качество сгенерированного текста, устраняя "халлуцинации". 2. **Диагностика**: Мы снижаем риск ошибок в системах, основанных на LLMs, для критически важных приложений. 3. **Финансовый анализ**: Мы повышаем достоверность моделей при анализе и генерации текстов в финансовых приложениях. Преимущест

Abstract

Large language models perform near-Bayesian inference yet violate permutation invariance on exchangeable data. We resolve this by showing transformers minimize expected conditional description length (cross-entropy) over orderings, $\mathbb{E}_\pi[\ell(Y \mid \Gamma_\pi(X))]$, which admits a Kolmogorov-complexity interpretation up to additive constants, rather than the permutation-invariant description length $\ell(Y \mid X)$. This makes them Bayesian in expectation, not in realization. We derive (i) a Quantified Martingale Violation bound showing order-induced deviations scale as $O(\log n)$ with constants; (ii) the Expectation-level Decompression Law linking information budgets to reliability for Bernoulli predicates; and (iii) deployable planners (B2T/RoH/ISR) for answer/abstain decisions. Empirically, permutation dispersion follows $a+b\ln n$ (Qwen2-7B $b \approx 0.377$, Llama-3.1-8B $b \approx 0.147$); permutation mixtures improve ground-truth likelihood/accuracy; and randomized dose-response shows hallucinations drop by $\sim 0.13$ per additional nat. A pre-specified audit with a fixed ISR=1.0 achieves near-0\% hallucinations via calibrated refusal at 24\% abstention. The framework turns hallucinations into predictable compression failures and enables principled information budgeting.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Predictable Compression Failures: Why Language Models Actually Hallucinate

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Comparison of neural network training strategies for the simulation of dynamical...

Informative missingness and its implications in semi-supervised learning

Recurrent Neural Networks with Linear Structures for Electricity Price Forecasti...

Control Consistency Losses for Diffusion Bridges

Foundations of Diffusion Models in General State Spaces: A Self-Contained Introd...

Навигация