Improving Diversity in Language Models: When Temperature Fails, Change the Loss

2508.09654v1 cs.CL, cs.LG 2025-08-15

Авторы:

Alexandre Verine, Florian Le Bronnec, Kunhao Zheng, Alexandre Allauzen, Yann Chevaleyre, Benjamin Negrevergne

Резюме на русском

#### Контекст В современной лингвистике и искусственном интеллекте значительное внимание уделяется развитию языковых моделей, которые должны обеспечивать как высокую точность (Precision), так и широкий абстрактный вывод (Recall). Однако, повышение только одной из этих сторон часто приводит к ухудшению другой. Это проблема впервые выделена в работе по улучшению точности моделей, но анализ ситуации, когда изменение температуры не приводит к улучшению Recall, был ограничен. Наша мотивация заключается в разработке методов, позволяющих улучшить как точность, так и Recall в языковых моделях, чтобы они могли покрывать большее количество ситуаций в реальном мире. #### Метод Мы привёл краткую аналитическую архитектуру модели, основываясь на экспериментах с изменением температуры. Для повышения точности использовалась формула: $$\text{Precision} = \frac{TP}{TP + FP}$$ где $TP$ — точные предсказания, $FP$ — ложные срабатывания. Для измерения Recall использовалась формула: $$\text{Recall} = \frac{TP}{TP + FN}$$ где $FN$ — пропущенные предсказания. Мы проводили эксперименты с разными моделями, включая GPT-2, и измеряли их поведение при разных значениях температуры. Также мы проверяли, как изменение loss function оказывает влияние на точность и Recall. #### Результаты Мы провели эксперименты с целью изучить, насколько эффективно изменение температуры влияет на Precision и Recall. Мы протестировали модели GPT-2 на различных наборах данных с разными настройками температуры. Эксперименты показали, что низкая температура приводит к повышению точности, но снижению Recall. В то же время, при повышении температуры, модель становится более абстрактной, но подвержена высокой частоте ошибочных предсказаний. Измерения показали, что самый эффективный результат достигается при оптимальной настройке температуры. Мы также проверили, насколько изменение loss function влияет на точность и Recall. Наши результаты показали, что подход, основанный на новом loss function, позволяет достичь более желательного баланса между точностью и Recall по сравнению с простой моделью, использующей только temperature scaling. #### Значимость Наши результаты имеют значительное значение в сфере лингвистики и искусственного интеллекта. Они могут быть применены в различных областях, таких как генерация текста, переводчики, интеллектуальные помощники и другие системы, требующие баланса между точностью и Recall. Мы показали, что наш подход может привести к улучшению качества вывода моделей, что имеет важное значение для создания более универсальных и эффективных языковых моделей. Эти результаты также открывают путь для будущих исследований в области улучшения точности и

Abstract

Increasing diversity in language models is a challenging yet essential objective. A common approach is to raise the decoding temperature. In this work, we investigate this approach through a simplistic yet common case to provide insights into why decreasing temperature can improve quality (Precision), while increasing it often fails to boost coverage (Recall). Our analysis reveals that for a model to be effectively tunable through temperature adjustments, it must be trained toward coverage. To address this, we propose rethinking loss functions in language models by leveraging the Precision-Recall framework. Our results demonstrate that this approach achieves a substantially better trade-off between Precision and Recall than merely combining negative log-likelihood training with temperature scaling. These findings offer a pathway toward more versatile and robust language modeling techniques.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Improving Diversity in Language Models: When Temperature Fails, Change the Loss

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Enhancing Job Matching: Occupation, Skill and Qualification Linking with the ESC...

Навигация