## Контекст
В современных текстовых генерационных моделях, таких как Large Language Models (LLMs), широко используется техника обрезания выбора токенов для генерации текста. Она позволяет контролировать тон и стиль генерируемого текста, ограничивая сеть выбором токенов соответствующего доверия. Однако существуют проблемы, связанные с тем, чтобы добиться оптимального баланса между творчеством и логической согласованностью. Техники, такие как top-\$p\$-sampling (nucleus sampling) и min-\$p\$-sampling, сталкиваются с ограничениями, в том числе слишком узкой оптимизации токена с наивысшим доверием без учета профиля вероятностей в целом. В данной работе мы сосредоточиваемся на развитии нового подхода для эффективного управления этой динамикой.
## Метод
Мы предлагаем **top-H decoding**, метод, который позволяет контролировать творческую и когнитивную субъективность в текстовой генерации, основываясь на теоретических аспектах взаимодействия этих свойств. Метод опирается на формализацию проблемы **entropy-constrained minimum divergence** (ECMD), которая, в свою очередь, эквивалентна **entropy-constrained mass maximization** (ECMM), являющейся NP-трудной задачей. Для ее решения мы предлагаем грубое, но эффективное решение, основанное на логике грибного алгоритма. Этот подход позволяет снизить разброс в выборе токенов, увеличивая среднюю вероятность выбранных значений, с тем свойством, что он остается независим от того, насколько высокой или низкой требуется творческая степень.
## Результаты
Мы проверили **top-H decoding** на нескольких датасетах, включая benchmarks для творческого письма и для вопросов-ответов (question-answering). На датасете Creative Writing Benchmarks, наш метод показал результаты, превосходящие существующие технологии, включая min-\$p\$-sampling, на **25.63%** в творческих задачах. Одновременно, на вопросах-ответах, таких как GPQA, GSM8K и MT-Bench, наша модель поддерживала высокую точность, не теряя в логической согласованности, даже при высоких значениях творчества. Также, с помощью LLM-as-judge мы проверили, что top-H сохраняет логическую когнитивную согласованность даже при высоком уровне творчества, что отличает его от min-\$p\$-sampling.
## Значимость
Выводы работы показывают, что **top-H decoding** открывает новые горизонты в области текстовой генерации, давая возможность улучшить творческий потенциал и сохранить логическую целостность в тексте одновременно. Метод может быть успешно интегрирован в современные текстовые генерационные системы, включая модели для креативного письма, машинного обучения, интеллектуальных агентов и даже в область генерации новостей. Э