## Контекст
В современном мире развитие интеллектуальных технологий приводит к появлению моделей языка, которые становятся все более надежными и мощными. Однако существуют серьезные проблемы, связанные с отсутствием доверия к решениям моделей в ситуациях неопределенности. Это приводит к ошибочным выводам и ухудшению удовлетворенности пользователей. Большинство существующих подходов к управлению неопределенностью в текстовых моделях ориентированы на выбор между ответом и отказом, но не обеспечивают гарантий качества или не учитывают разнообразия источников неопределенности. Необходимо разработать новую методологию, которая объединит различные источники неопределенности и обеспечит качественные решения в любых ситуациях.
## Метод
Разработанный UniCR-фреймворк (Unified Confidence and Refusal) предлагает совместить различные источники неопределенности, такие как последовательность вероятностей, дисперсия самоконсистентности, совместимость с поиском и отзывы инструментов или верификации, в единую модель. Метод использует легковесную модель калибровки, основанную на температурном масштабировании, для преобразования неопределенности в классификатор вероятности. Он поддерживает API-только модели через черно-блочные признаки и обеспечивает эффективную обработку неопределенности, используя строгие гарантии соответствия. Для улучшения качества ответов в задачах долгого текста, таких как расширенный поиск, фреймворк вырабатывает гибкую стратегию сбора доказательств для вычисления вероятности того, что ответ верен.
## Результаты
Запущенные эксперименты покрыли три области: короткие запросы к знаниям, генерацию кода с возможностью выполнения и расширенный рассуждающий поиск с использованием инструментов. Модель UniCR показала значительные улучшения по метрикам калибровки, снизив значение "положительной" ошибки (ответ на неверный вопрос) до 12%, что значительно превышает показатели других подходов, таких как логит-пороги или пост-хок-калибровщики. Благодаря инновационной стратегии объединения различных источников неопределенности модель обеспечивает высокую точность и качественное управление риском в различных сценариях.
## Значимость
Разработанный подход может быть применен в различных областях, где важно управление неопределенностью, например, в работе с юридическими документами, медицинским анализом или управлении рисками в финансовых системах. UniCR обеспечивает пользователям высокую достоверность, снижает риск ошибок и в то же время позволяет полностью использовать мощь моделей языка. Его универсальная архитектура поз