Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

2508.11847v1 stat.ML, cs.LG 2025-08-19
Авторы:

Jenny Y. Huang, Yunyi Shen, Dennis Wei, Tamara Broderick

Резюме на русском

#### Контекст Современные бо LLM (large language models) широко используются в различных областях, включая обработку естественного языка, поддержку принятия решений и синтез текста. Одним из ключевых аспектов этих моделей является их ранжирование, которое определяет их эффективность и достоверность в задачах реального мира. Несмотря на то, что существуют многочисленные подходы к ранжированию, включая систему Брадли-Терри (Bradley-Terry ranking system), остается неясным, насколько эти ранжирования устойчивы к небольшим изменениям в данных. Эта неопределенность может привести к некорректным оценкам моделей и к неверным выводам в принципиальных задачах. #### Метод Мы предлагаем метод для оценки устойчивости ранжирования Брадли-Терри к удалению очень малого количества элементов данных. Метод основан на использовании дифференциальных вычислений для выявления наиболее влиятельных объектов данных. Он учитывает взаимосвязи между моделями и предпочтениями, позволяя идентифицировать точные элементы, которые могут исказить результаты. Этот подход эффективен, так как не требует переобучения модели и прост в интепретации. #### Результаты Мы проводили эксперименты с данными из двух популярных платформ для людских предпочтений: Chatbot Arena и MT-Bench. Наш анализ показал, что ранжирования, получаемые из Chatbot Arena, являются чрезвычайно чувствительными к малейшим изменениям в данных. Напротив, ранжирования, основанные на MT-Bench, демонстрируют значительное устойчивость. Это может быть объяснено тем, что MT-Bench использует экспертных оценщиков и тщательно сконструированные задачи. Даже при удалении менее 0.02% от общего количества предпочтений можно изменить топ-рейтинги моделей. #### Значимость Наши находки имеют значительное значение для разработчиков и оценщиков моделей. Они показывают, насколько важно учитывать устойчивость ранжирования при принятии решений о выборе моделей. Узнавая, какие конкретные предпочтения имеют наибольшую влиятельность, можно улучшить процессы оценки моделей, убедившись в их достоверности. Это также может привести к более убедительным и надежным результатам в приложениях, использующих LLM. #### Выводы Мы установили, что даже очень малые изменения в данных могут значительно повлиять на ранжирования LLM. Наши находки подчеркивают необходимость в разработке устойчивых методов оценки, чтобы избежать неверных выводов. Мы планируем расширить нашу работу, исследуя другие подходы к оценке устойчивости ранжирования и их применение в практических ситуациях. Это будет помочь создать более надежные и эффективные модели LLM.

Abstract

We propose a method for evaluating the robustness of a widely used LLM ranking system -- the Bradley--Terry ranking system -- to dropping a worst-case very small fraction of evaluation data. Our approach is computationally fast and easy to adopt. When we apply our method to matchups from two popular human-preference platforms, Chatbot Arena and MT-Bench, we find that the Bradley--Terry rankings of top-performing models are remarkably sensitive to the removal of a small fraction of evaluations. Our framework also identifies the specific evaluations most responsible for such ranking flips, allowing for inspections of these influential preferences. We observe that the rankings derived from MT-Bench preferences are notably more robust than those from Chatbot Arena, likely due to MT-bench's use of expert annotators and carefully constructed prompts. Finally, we find that rankings based on crowdsourced human-evaluated systems are just as sensitive as those based on LLM-as-a-judge evaluations, where in both, dropping as little as 0.02% of the total evaluations in the dataset can change the top-ranked model.

Ссылки и действия