On the Shelf Life of Fine-Tuned LLM Judges: Future Proofing, Backward Compatibility, and Question Generalization
2509.23542v1
cs.CL, cs.AI, cs.LG
2025-10-01
Авторы:
Janvijay Singh, Austin Xu, Yilun Zhou, Yefan Zhou, Dilek Hakkani-Tur, Shafiq Joty
Резюме на русском
#### Контекст
Достижения в области глубокого обучения позволили развить модели генеративного текста (LLM), которые могут выполнять различные задачи, включая оценку текстов, моделирование наград и финейзинг. Одним из важных направлений является использование моделей как "судей", которые оценивают ответы других моделей на заданные вопросы. Несмотря на очевидные преимущества этого подхода, существуют практические проблемы, которые необходимо учесть при финейзинге и использовании таких моделей в реальной жизни. Например, модели, обученные на данных одного поколения генераторов, могут сталкиваться с проблемами при оценке ответов других моделей, изменяющихся со временем. Этот аспект, также как и вопросы обратной совместимости и общеуниверсальности вопросов, требуют подробного изучения.
#### Метод
Мы рассматриваем проблему скейла и работоспособности временных моделей "судьи" с помощью объединенного подхода, который учитывает три аспекта: **future proofing**, **backward compatibility** и **question generalization**. Для экспериментов мы использовали три разных модели текстов (base models), в том числе T5, LLaMA и OPT. Финейзинг производилось с помощью двух методов: SFT (сокращенно от "supervised fine-tuning") и DPO (денормализованная потеря обучения). Мы строили различные выборки для обучения и тестирования, включая ответы, генерируемые моделями различных поколений, и неизвестные вопросы, которые модели не увидели во время обучения.
#### Результаты
Наши эксперименты показали, что **future proofing** оказался самым сложным заданием для осуществления. Модели, обученные на ответах одного поколения моделей, трудно регуляризировать для того, чтобы оценивать ответы других поколений. Однако **backward compatibility** была намного проще — модели, обученные на ответах старых моделей, оказались в большей степени способны оценивать ответы новых моделей. **Question generalization** показала, что все модели имели некоторую степень деградации показателей, когда им предлагались неизвестные вопросы. Мы также обнаружили, что **continual learning**, то есть обучение модели с помощью смешанных данных ответов с различных поколений, даёт более балансированный результат, чем только на обучение с ответов сильных или слабых моделей.
#### Значимость
Наши результаты имеют важное значение для разработчиков моделей, которые работают с финейзингом LLM-моделей в качестве судей. Мы показали, что **future proofing** является наиболее сложной задачей, но решения, основанные на **DPO-финейзинге**, демонстрируют лучшие результаты в этой области. **Backward compatibility**, наоборот, является примерно непроблематичным, и мы показали, что модели могут справляться с ним без особых проблем. Наконец, результаты по **question generalization** подчеркивают необ
Abstract
The LLM-as-a-judge paradigm is widely used in both evaluating free-text model
responses and reward modeling for model alignment and finetuning. Recently,
finetuning judges with judge-specific data has emerged as an often preferred
choice over directly prompting frontier models as judges, as the former
achieves better performance with smaller model sizes while being more robust to
common biases. However, the standard evaluation ignores several practical
concerns of finetuned judges regarding their real world deployment. In this
paper, we identify and formalize three aspects that affect the shelf life of
these judges: future proofing and backward compatibility -- how well judges
finetuned on responses by today's generator models perform on responses by
future models or past models, as well as question generalization -- how well
judges generalize to unseen questions at test time. We study these three
aspects in the math domain under a unified framework with varying train and
test distributions, three SFT- and DPO-based finetuning algorithms and three
different base models. Experiments suggest that future-proofing is challenging
for most models, while backward compatibility is relatively easy, with
DPO-trained models consistently improving performance. We further find that
continual learning provides a more balanced adaptation to shifts between older
and newer response distributions than training solely on stronger or weaker
responses. Moreover, all models observe certain degrees of performance
degradation when moving from questions seen during training to unseen ones,
showing that current judges do not fully generalize to unseen questions. These
findings provide insights into practical considerations for developing and
deploying judge models in the face of ever-changing generators.
Ссылки и действия
Дополнительные ресурсы: