Reference-Free Rating of LLM Responses via Latent Information
2509.24678v1
cs.CL, cs.AI, cs.LG
2025-10-01
Авторы:
Leander Girrbach, Chi-Ping Su, Tankred Saanum, Richard Socher, Eric Schulz, Zeynep Akata
Резюме на русском
#### Контекст
В последние годы становится все более очевидным, что генеративные модели естественного языка (LLM) расширяют возможности широкого круга приложений, включая роботы-консультанты, поисковые системы и анализ текстов. Однако одним из ключевых вопросов остается способ оценки качества ответов этих моделей. Несмотря на популярность способов, основанных на сравнении ответов с маркированными данными (референсами), такие подходы не всегда применимы в ситуациях, когда такие референсы отсутствуют. Также возникают проблемы с неоднозначностью оценки, неустойчивостью под выборкой и ограниченной детерминированностью результатов. Мы исследуем возможность оценивать ответы моделей без референса, используя внутренние сигналы модели, чтобы получить более точные и детерминированные результаты.
#### Метод
Мы предлагаем Latent Judges, метод использования внутренних сигналов модели для получения детерминированных оценок ответов. Этот подход включает в себя три основных компонента:
1. **Пробы (Probes):** Оценка ответов с помощью линейных моделей, протечка информации из внутренних слоев модели.
2. **Проверщики (Verifiers):** Модели, оценивающие вероятность того, что ответ верный, используя методы похожие на семантические проверки.
3. **Вероятностно-взвешенные оценки (Probability-Weighted Scores):** Метод, в котором ответы ставятся в числовой диапазон на основе вероятностного распределения модели.
Каждый из этих методов использует специфические сигналы модели, позволяя получать более точные и детальные оценки ответов без сравнения с референсами.
#### Результаты
Мы проверили Latent Judges на широком наборе тестов, включая многоклассовые и парные оценки ответов. Наши результаты показали, что этот подход не только соответствует, но и превосходит стандартные методы оценки без референса, особенно в случае парной оценки и сортировки ответов в порядке важности (Best-of-N). Общая точность поднялась на 10-20%, при этом улучшивсья качественно оценка ответов. Также были изучены вопросы неоднозначности и стабильности результатов, а также показано, как различные методы Latent Judges справляются с этими вызовами.
#### Значимость
Предложенные методы Latent Judges открывают новые возможности для детерминированных и тонко настраиваемых оценок ответов LLM. Это может иметь большое значение в следующих областях:
- **Контроль качества ответов:** Улучшенное средство для подбора лучшего ответа в мультимодельных системах.
- **Обучение и адаптация моделей:** Более точные метрики для оценки прогресса и корректности обучения.
- **Анализ текстов и рекомендаци
Abstract
How reliable are single-response LLM-as-a-judge ratings without references,
and can we obtain fine-grained, deterministic scores in this setting? We study
the common practice of asking a judge model to assign Likert-scale scores to
free-text responses and show two systematic issues: scores are unstable under
sampling and poorly calibrated, leading to compression near the top of the
scale and frequent ties. We then propose and evaluate Latent Judges, which
derive scalar ratings from internal model signals: (i) probability-weighted
scores over integer ratings, (ii) verifier-style probabilities of "yes", and
(iii) linear probes trained on model activations at the rating position. Across
a broad suite of pairwise and single-rating benchmarks, latent methods match or
surpass standard prompting, with consistent gains on pairwise accuracy and
listwise ranking relevant to Best-of-N selection. Probability-weighted scores
achieve the strongest single-rating correlations, while probes recover useful
signals when output logits are miscalibrated. These results indicate that
latent information provides deterministic and more discriminative signals for
reference-free evaluation, and can improve selection and training approaches
like Best-of-$N$, multi-teacher distillation, and routing.
Ссылки и действия
Дополнительные ресурсы: