Conformal Sets in Multiple-Choice Question Answering under Black-Box Settings with Provable Coverage Guarantees

2508.05544v1 cs.CL, cs.AI 2025-08-08
Авторы:

Guang Yang, Xinyang Liu

Резюме на русском

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы Large Language Models (LLMs) достигли значительных успехов в задачах многовариантных ответов (Multiple-Choice Question Answering, MCQA), став мощным инструментом для решения широкого круга задач. Однако, несмотря на их продвинутые возможности, их неоднократно выявлялись проблемы, связанные с недостаточной надежностью. Такие недостатки, как генерация неточных или вымышленных фактов (hallucination) и чрезмерное уверенность в неверных ответах (overconfidence), препятствуют их применению в областях с высоким уровнем риска, где надежность и точность критически важны. Эти проблемы особенно остры в контексте "черного ящика" (black-box settings), когда внутренняя работа модели непонятна, и пользователи не могут оценить надежность предлагаемых ответов. Таким образом, необходимо разработать методы, которые позволят оценивать неопределенность (uncertainty quantification) в ответах моделей, обеспечивая высокую надежность даже в условиях, когда внутренний механизм модели недоступен для анализа. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы предлагают метод основанный на частотном анализе (frequency-based) и конформной прогнозирование (conformal prediction, CP). Здесь, для каждого вопроса, модель генерирует несколько независимых выборок ответов из своего распределения. Тогда, из всех этих выборок, выбирается тот, который встречается наиболее часто. Этот "наиболее частотный" ответ используется для вычисления предсказательной энтропии (Predictive Entropy, PE), которая служит мерой неопределенности. В отличие от традиционных методов, основанных на логитах (logit-based probabilities), этот подход не требует доступа к внутренним параметрам модели и может быть применен в "черном ящике". Этот метод также позволяет контролировать частоту ошибок (empirical miscoverage rate) в заданных уровнях риска, что делает его надежным инstrumentом для оценки неопределенности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования, эксперименты проводились на шести различных LLMs и четырех датасетах (MedMCQA, MedQA, MMLU, MMLU-Pro). Результаты показали, что частотный подход к оценке неопределенности (frequency-based PE) значительно превосходит логит-базированный подход (logit-based PE) в различении верных и неверных ответов, измеренном по метрике AUROC (Area Under the Receiver Operating Characteristic Curve). Кроме того, метод эффективно контролирует частоту ошибок (empirical miscoverage rate) в пределах заданных рисков, что подтверждает его надежность. Эти результаты демонстрируют, что частотный анализ может служить эффективным заменой логит-базированной вероятности в "черных ящиках". ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, где надежность ответов критична, таких как медицинская диагностика, финансовые консультации и юридические решения. Благодаря его способности обеспечить гарантии покрытия (coverage guarantees), этот метод может увеличить доверие к LLMs в практических приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен distribution-free, model-agnostic фреймворк для надежной оценки неопределенности в MCQA, который может быть применен к любой модели в условиях "черного ящика". Будущие исследования могут фокусироваться на улучшении эффективности этого подхода и его адаптации для других доменов и задач.

Abstract

Large Language Models (LLMs) have shown remarkable progress in multiple-choice question answering (MCQA), but their inherent unreliability, such as hallucination and overconfidence, limits their application in high-risk domains. To address this, we propose a frequency-based uncertainty quantification method under black-box settings, leveraging conformal prediction (CP) to ensure provable coverage guarantees. Our approach involves multiple independent samplings of the model's output distribution for each input, with the most frequent sample serving as a reference to calculate predictive entropy (PE). Experimental evaluations across six LLMs and four datasets (MedMCQA, MedQA, MMLU, MMLU-Pro) demonstrate that frequency-based PE outperforms logit-based PE in distinguishing between correct and incorrect predictions, as measured by AUROC. Furthermore, the method effectively controls the empirical miscoverage rate under user-specified risk levels, validating that sampling frequency can serve as a viable substitute for logit-based probabilities in black-box scenarios. This work provides a distribution-free model-agnostic framework for reliable uncertainty quantification in MCQA with guaranteed coverage, enhancing the trustworthiness of LLMs in practical applications.

Ссылки и действия