On the Shelf Life of Fine-Tuned LLM Judges: Future Proofing, Backward Compatibility, and Question Generalization

2509.23542v1 cs.CL, cs.AI, cs.LG 2025-10-01
Авторы:

Janvijay Singh, Austin Xu, Yilun Zhou, Yefan Zhou, Dilek Hakkani-Tur, Shafiq Joty

Резюме на русском

#### Контекст Достижения в области глубокого обучения позволили развить модели генеративного текста (LLM), которые могут выполнять различные задачи, включая оценку текстов, моделирование наград и финейзинг. Одним из важных направлений является использование моделей как "судей", которые оценивают ответы других моделей на заданные вопросы. Несмотря на очевидные преимущества этого подхода, существуют практические проблемы, которые необходимо учесть при финейзинге и использовании таких моделей в реальной жизни. Например, модели, обученные на данных одного поколения генераторов, могут сталкиваться с проблемами при оценке ответов других моделей, изменяющихся со временем. Этот аспект, также как и вопросы обратной совместимости и общеуниверсальности вопросов, требуют подробного изучения. #### Метод Мы рассматриваем проблему скейла и работоспособности временных моделей "судьи" с помощью объединенного подхода, который учитывает три аспекта: **future proofing**, **backward compatibility** и **question generalization**. Для экспериментов мы использовали три разных модели текстов (base models), в том числе T5, LLaMA и OPT. Финейзинг производилось с помощью двух методов: SFT (сокращенно от "supervised fine-tuning") и DPO (денормализованная потеря обучения). Мы строили различные выборки для обучения и тестирования, включая ответы, генерируемые моделями различных поколений, и неизвестные вопросы, которые модели не увидели во время обучения. #### Результаты Наши эксперименты показали, что **future proofing** оказался самым сложным заданием для осуществления. Модели, обученные на ответах одного поколения моделей, трудно регуляризировать для того, чтобы оценивать ответы других поколений. Однако **backward compatibility** была намного проще — модели, обученные на ответах старых моделей, оказались в большей степени способны оценивать ответы новых моделей. **Question generalization** показала, что все модели имели некоторую степень деградации показателей, когда им предлагались неизвестные вопросы. Мы также обнаружили, что **continual learning**, то есть обучение модели с помощью смешанных данных ответов с различных поколений, даёт более балансированный результат, чем только на обучение с ответов сильных или слабых моделей. #### Значимость Наши результаты имеют важное значение для разработчиков моделей, которые работают с финейзингом LLM-моделей в качестве судей. Мы показали, что **future proofing** является наиболее сложной задачей, но решения, основанные на **DPO-финейзинге**, демонстрируют лучшие результаты в этой области. **Backward compatibility**, наоборот, является примерно непроблематичным, и мы показали, что модели могут справляться с ним без особых проблем. Наконец, результаты по **question generalization** подчеркивают необ

Abstract

The LLM-as-a-judge paradigm is widely used in both evaluating free-text model responses and reward modeling for model alignment and finetuning. Recently, finetuning judges with judge-specific data has emerged as an often preferred choice over directly prompting frontier models as judges, as the former achieves better performance with smaller model sizes while being more robust to common biases. However, the standard evaluation ignores several practical concerns of finetuned judges regarding their real world deployment. In this paper, we identify and formalize three aspects that affect the shelf life of these judges: future proofing and backward compatibility -- how well judges finetuned on responses by today's generator models perform on responses by future models or past models, as well as question generalization -- how well judges generalize to unseen questions at test time. We study these three aspects in the math domain under a unified framework with varying train and test distributions, three SFT- and DPO-based finetuning algorithms and three different base models. Experiments suggest that future-proofing is challenging for most models, while backward compatibility is relatively easy, with DPO-trained models consistently improving performance. We further find that continual learning provides a more balanced adaptation to shifts between older and newer response distributions than training solely on stronger or weaker responses. Moreover, all models observe certain degrees of performance degradation when moving from questions seen during training to unseen ones, showing that current judges do not fully generalize to unseen questions. These findings provide insights into practical considerations for developing and deploying judge models in the face of ever-changing generators.

Ссылки и действия