Decoding Uncertainty: The Impact of Decoding Strategies for Uncertainty Estimation in Large Language Models
2509.16696v1
cs.CL, cs.LG
2025-09-24
Авторы:
Wataru Hashimoto, Hidetaka Kamigaito, Taro Watanabe
Резюме на русском
#### Контекст
В последние годы широко распространены технологии на основе Больших Лингвовых Моделей (LLMs), которые успешно применяются во многих областях, от трансляции и автоматизированного письма до моделирования рыночных тенденций. Однако, несмотря на их мощь, эти модели часто сталкиваются с проблемой неопределенности во время процесса сгенерированного текста. Неопределенность может быть вызвана разными факторами, такими как неполнота данных, недостаточность обучения или неверное выражение пользовательских предпочтений. Для улучшения качества результатов и уменьшения нежелательных последствий неопределенности необходимо разработать эффективные стратегии оценки и контроля неопределенности в LLMs.
#### Метод
В настоящем исследовании мы рассматриваем различные стратегии декодирования, которые могут изменить структуру выходных данных Больших Лингвовых Моделей и, как следствие, повлиять на неопределенность. Методология исследования включает в себя эксперименты с такими стратегиями, как Contrastive Search, Beam Search, Sampling и другие, которые манипулируют предложенными вариантами вывода языковой модели. Мы проводим исследования на разных наборах данных, которые отражают различные типы задач, таких как трансляция, генерация текстов и даже моделирование прогнозируемых рыночных тенденций. Наша цель — изучить, как эти стратегии влияют на неопределенность и качество генерируемого текста.
#### Результаты
Проведенные эксперименты показали, что стратегия Contrastive Search дает наилучшие результаты в оценке неопределенности во время генерации текста. Эта стратегия способна снизить частоту повторений в тексте и улучшить оценку неопределенности, что делает генерируемый текст более надежным и точным. Тем не менее, результаты этих стратегий могут отличаться в зависимости от того, была ли модель в обучении использована в целом, или только субъектно уточнена с помощью супервайзед файн-тюнинга. Это подчеркивает важность настройки стратегий декодирования в зависимости от конкретного контекста и задачи.
#### Значимость
Результаты нашего исследования имеют значительное значение в области генерации текста с помощью Больших Лингвовых Моделей. Они могут быть применены в области моделирования текстов, в том числе в сфере моделирования рыночных тенденций, где точность и надежность генерируемой информации критически важны. Кроме того, эти стратегии могут быть расширены и применены в других областях, таких как медицина и юриспруденция, где неопределенность может иметь серьезные последствия. Эти найденные результаты также открывают
Abstract
Decoding strategies manipulate the probability distribution underlying the
output of a language model and can therefore affect both generation quality and
its uncertainty. In this study, we investigate the impact of decoding
strategies on uncertainty estimation in Large Language Models (LLMs). Our
experiments show that Contrastive Search, which mitigates repetition, yields
better uncertainty estimates on average across a range of preference-aligned
LLMs. In contrast, the benefits of these strategies sometimes diverge when the
model is only post-trained with supervised fine-tuning, i.e. without explicit
alignment.
Ссылки и действия
Дополнительные ресурсы: