Credence Calibration Game? Calibrating Large Language Models through Structured Play

2508.14390v1 cs.CL, cs.AI 2025-08-22
Авторы:

Ke Fang, Tianyi Zhao, Lu Cheng

Резюме на русском

#### Контекст Large Language Models (LLMs) широко применяются в решении задач, требующих высокой надёжности и точности, таких как юридические системы, здравоохранение и финансы. Однако, несмотря на высокую точность, LLMs часто страдают от проблемы недооценки или переоценки уверенности в своих ответах. Такое поведение может привести к серьёзным последствиям, особенно в критичных для принятия решений сферах. Несмотря на существующие методы повышения калибровки моделей, многие из них требуют дополнительной супервайзированной информации или дополнительных параметров, что усложняет их применение в реальных ситуациях. Наша мотивация заключается в разработке эффективного, простого в использовании и повсеместно применимого метода калибровки, который не требует дополнительных ресурсов. #### Метод Мы предлагаем Credence Calibration Game (CCG) — интерактивную игру с заданными правилами, в косвенном образе напоминающую игру "где-то здесь". Игра представляет собой систему обучения с подкреплением, в которой LLM выступает в роли игрока, получая награду за правильные ответы и наказание за неверные. Основная идея заключается в том, чтобы LLM предсказывала уверенность в своих ответах и получала обратную связь в виде значения, либо совпадения, либо отличия от истинного ответа. Этот подход позволяет модели многократно улучшать свои предсказания, обучаясь на ответах. Игра состоит из серии задач, структурированных таким образом, чтобы модель могла запоминать уровень своей уверенности и корректировать её в ходе игры. #### Результаты Мы проверили нашу модель на нескольких LLMs, включая GPT-3 и RoBERTa, применяя различные наборы данных, в том числе прикладные задачи, такие как классификация и генерация текста. Мы доказали, что наш метод повышает калибровку моделей, снижая ошибки в прогнозах и улучшая уровень уверенности. В экспериментах мы использовали несколько игровых конфигураций, в том числе различные виды заданий и сложности. Результаты показали, что наша модель превосходит существующие методы калибровки в тестах на доверительность и правильности ответов. #### Значимость Наши результаты демонстрируют, что игровой подход может быть применён для калибровки больших языковых моделей, не требуя дополнительных ресурсов или супервайзированных данных. Метод может быть применён в критичных для принятия решений сферах, таких как здравоохранение, финансы и юриспруденция, где надёжные и калиброванные предсказания ключевые. Мы также отмечаем, что наш подход может быть расширен для калибровки других типов моделей искусственного интеллекта, таких как регрессионные модели или нейросети. #### Выво

Abstract

As Large Language Models (LLMs) are increasingly deployed in decision-critical domains, it becomes essential to ensure that their confidence estimates faithfully correspond to their actual correctness. Existing calibration methods have primarily focused on post-hoc adjustments or auxiliary model training; however, many of these approaches necessitate additional supervision or parameter updates. In this work, we propose a novel prompt-based calibration framework inspired by the Credence Calibration Game. Our method establishes a structured interaction loop wherein LLMs receive feedback based on the alignment of their predicted confidence with correctness. Through feedback-driven prompting and natural language summaries of prior performance, our framework dynamically improves model calibration. Extensive experiments across models and game configurations demonstrate consistent improvements in evaluation metrics. Our results highlight the potential of game-based prompting as an effective strategy for LLM calibration. Code and data are available at https://anonymous.4open.science/r/LLM-Calibration/.

Ссылки и действия