LLM Output Homogenization is Task Dependent

2509.21267v1 cs.CL, cs.CY 2025-09-27
Авторы:

Shomik Jain, Jack Lanchantin, Maximilian Nickel, Karen Ullrich, Ashia Wilson, Jamelle Watson-Daniels

Резюме на русском

## Контекст Large language models (LLMs) становятся все более важными для решения различных задач, но их работа может стать менее эффективной из-за проблемы вывода — homogenization. Это ситуация, когда модель дает одинаковые или похожие ответы на разные входные данные, что может приводить к недостатку разнообразия и неэффективности в задачах, требующих разнообразия. Проблема homogenization затрагивает различные области применения LLMs, от математических задач до творческого письма. Но не все задачи требуют разнообразия ответов. Например, в математических задачах часто достаточно одного правильного ответа, но в творческом письме требуется разнообразие сюжета, стиля и географии. Таким образом, вопрос о том, нужно ли уменьшать homogenization, зависит от контекста задачи. Существующие исследования часто не учитывают этот контекст и пытаются уменьшать homogenization всех задач похожим образом. Это приводит к ограничениям в качестве и эффективности решения задач. Наша работа нацелена на развитие более конкретной подходной модели, которая учитывает разные потребности разнообразия в зависимости от типа задачи. ## Метод Чтобы развить более точный подход, мы предлагаем следующие компоненты: 1. **Task Taxonomy**: Мы разделяем задачи на восемь категорий, у которых разные подходы к разнообразию ответов. Например, в задачах с жесткими правилами (таких как математика), homogenization нежелателен, но в творческих задачах он может быть существенным. 2. **Task-Anchored Functional Diversity**: Мы предлагаем метод, который оценивает разнообразие ответов в зависимости от типа задачи. Это позволяет лучше понять, насколько ответы варьируются в пределах ожидаемого диапазона. 3. **Task-Anchored Sampling Technique**: Мы предлагаем новый метод выбора сэмплов, который увеличивает разнообразие в тех задачах, где он необходим, и сохраняет homogenization там, где это требуется. ## Результаты Мы проверяли нашу модель на различных задачах, включая математические задачи, творческое письмо и другие. Мы показали, что наш подход позволяет повысить разнообразие ответов в задачах, где это необходимо, без ущерба качеству ответов. Например, в задачах с жесткими правилами, наш метод повысил разнообразие ответов, но не снизил качество ответов. В творческих задачах, наш подход позволил повысить разнообразие в ключевых аспектах, таких как сюжет, география и стиль. ## Значимость Наш подход имеет широкое применение в различных областях, где LLMs используются. Например, в образовательных системах, где требуется разнообразие задач для обучения, наш подход может улучшить эффективность. Также, в творческом письме, наш метод мож

Abstract

A large language model can be less helpful if it exhibits output response homogenization. But whether two responses are considered homogeneous, and whether such homogenization is problematic, both depend on the task category. For instance, in objective math tasks, we often expect no variation in the final answer but anticipate variation in the problem-solving strategy. Whereas, for creative writing tasks, we may expect variation in key narrative components (e.g. plot, genre, setting, etc), beyond the vocabulary or embedding diversity produced by temperature-sampling. Previous work addressing output homogenization often fails to conceptualize diversity in a task-dependent way. We address this gap in the literature directly by making the following contributions. (1) We present a task taxonomy comprised of eight task categories that each have distinct conceptualizations of output homogenization. (2) We introduce task-anchored functional diversity to better evaluate output homogenization. (3) We propose a task-anchored sampling technique that increases functional diversity for task categories where homogenization is undesired, while preserving homogenization where it is desired. (4) We challenge the perceived existence of a diversity-quality trade-off by increasing functional diversity while maintaining response quality. Overall, we demonstrate how task dependence improves the evaluation and mitigation of output homogenization.

Ссылки и действия