Variational Uncertainty Decomposition for In-Context Learning

2509.02327v2 stat.ML, cs.LG 2025-09-06
Авторы:

I. Shavindra Jayasekera, Jacob Si, Filippo Valdettaro, Wenlong Chen, A. Aldo Faisal, Yingzhen Li

Резюме на русском

## Контекст В последние годы появилось много больших языковых моделей (LLMs), которые показали импрессивные результаты в выполнении задач предсказания в контексте (in-context learning). Однако, несмотря на их успех, остается значительной неопределенностью в их результатах. Эта неопределенность может быть вызвана разными факторами: от отсутствия в данных для обучения (epistemic uncertainty) до непредсказуемости самой задачи (aleatoric uncertainty). Для повышения надежности использования LLMs в реальных приложениях необходимо понять эти источники неопределенности. Недавние работы предположили, что in-context learning может быть рассмотрен как процесс байесовского инференцирования, что открыло путь к оценке неопределенности в этом контексте. Однако, сложность вычисления постeriorа для латентных параметров остается большой проблемой. Наша работа ставит цель сделать шаг вперед в этих исследованиях, предлагая метод, который позволяет декомпозировать неопределенность без непосредственного извлечения постериора. ## Метод Мы предлагаем **Variational Uncertainty Decomposition (VUD)** – метод, который декомпозирует неопределенность в in-context learning без непосредственного использования латентных параметров. Основная идея заключается в использовании **вспомогательных запросов (queries)**, которые служат как пробы для оценки неопределенности. Мы оптимизируем эти запросы так, чтобы получить верхнюю оценку для aleatoric uncertainty и нижнюю оценку для epistemic uncertainty. Это достигается за счет множественных выполнений задачи с разными вариациями входных данных. Наш метод не требует полного постериорного распространения, а вместо этого использует аппроксимации, позволяя эффективно оценивать неопределенность в рамках LLM. ## Результаты Мы проверили наш метод на синтетических и реальных данных, включая задачи классификации и регрессии. Наши эксперименты показали, что декомпозиция неопределенности, полученная с помощью VUD, эффективно отражает два основных типа неопределенности: epistemic и aleatoric. Мы сравнили нашу реализацию с другими подходами, такими как Monte Carlo Dropout и Deep Ensembles. Результаты показали, что наш метод дает более точные оценки неопределенности, особенно в ситуациях, когда данные для обучения ограничены. Кроме того, мы проверили качество оценок на реальных данных, чтобы продемонстрировать практическую значимость нашего подхода. ## Значимость Наш метод может быть применен в различных областях, где LLMs используются для критических задач, таких как медицинские предсказания, финансовый анализ и робототехника. Он предоставляет более глубокое понимание неопределенности, что помогает улучшить надежность и уменьшить риски. Кроме того, полученные результаты включают в себя универсаль

Abstract

As large language models (LLMs) gain popularity in conducting prediction tasks in-context, understanding the sources of uncertainty in in-context learning becomes essential to ensuring reliability. The recent hypothesis of in-context learning performing predictive Bayesian inference opens the avenue for Bayesian uncertainty estimation, particularly for decomposing uncertainty into epistemic uncertainty due to lack of in-context data and aleatoric uncertainty inherent in the in-context prediction task. However, the decomposition idea remains under-explored due to the intractability of the latent parameter posterior from the underlying Bayesian model. In this work, we introduce a variational uncertainty decomposition framework for in-context learning without explicitly sampling from the latent parameter posterior, by optimising auxiliary queries as probes to obtain an upper bound to the aleatoric uncertainty of an LLM's in-context learning procedure, which also induces a lower bound to the epistemic uncertainty. Through experiments on synthetic and real-world tasks, we show quantitatively and qualitatively that the decomposed uncertainties obtained from our method exhibit desirable properties of epistemic and aleatoric uncertainty.

Ссылки и действия