Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings
2508.11847v1
stat.ML, cs.LG
2025-08-19
Авторы:
Jenny Y. Huang, Yunyi Shen, Dennis Wei, Tamara Broderick
Резюме на русском
#### Контекст
Современные бо LLM (large language models) широко используются в различных областях, включая обработку естественного языка, поддержку принятия решений и синтез текста. Одним из ключевых аспектов этих моделей является их ранжирование, которое определяет их эффективность и достоверность в задачах реального мира. Несмотря на то, что существуют многочисленные подходы к ранжированию, включая систему Брадли-Терри (Bradley-Terry ranking system), остается неясным, насколько эти ранжирования устойчивы к небольшим изменениям в данных. Эта неопределенность может привести к некорректным оценкам моделей и к неверным выводам в принципиальных задачах.
#### Метод
Мы предлагаем метод для оценки устойчивости ранжирования Брадли-Терри к удалению очень малого количества элементов данных. Метод основан на использовании дифференциальных вычислений для выявления наиболее влиятельных объектов данных. Он учитывает взаимосвязи между моделями и предпочтениями, позволяя идентифицировать точные элементы, которые могут исказить результаты. Этот подход эффективен, так как не требует переобучения модели и прост в интепретации.
#### Результаты
Мы проводили эксперименты с данными из двух популярных платформ для людских предпочтений: Chatbot Arena и MT-Bench. Наш анализ показал, что ранжирования, получаемые из Chatbot Arena, являются чрезвычайно чувствительными к малейшим изменениям в данных. Напротив, ранжирования, основанные на MT-Bench, демонстрируют значительное устойчивость. Это может быть объяснено тем, что MT-Bench использует экспертных оценщиков и тщательно сконструированные задачи. Даже при удалении менее 0.02% от общего количества предпочтений можно изменить топ-рейтинги моделей.
#### Значимость
Наши находки имеют значительное значение для разработчиков и оценщиков моделей. Они показывают, насколько важно учитывать устойчивость ранжирования при принятии решений о выборе моделей. Узнавая, какие конкретные предпочтения имеют наибольшую влиятельность, можно улучшить процессы оценки моделей, убедившись в их достоверности. Это также может привести к более убедительным и надежным результатам в приложениях, использующих LLM.
#### Выводы
Мы установили, что даже очень малые изменения в данных могут значительно повлиять на ранжирования LLM. Наши находки подчеркивают необходимость в разработке устойчивых методов оценки, чтобы избежать неверных выводов. Мы планируем расширить нашу работу, исследуя другие подходы к оценке устойчивости ранжирования и их применение в практических ситуациях. Это будет помочь создать более надежные и эффективные модели LLM.
Abstract
We propose a method for evaluating the robustness of a widely used LLM
ranking system -- the Bradley--Terry ranking system -- to dropping a worst-case
very small fraction of evaluation data. Our approach is computationally fast
and easy to adopt. When we apply our method to matchups from two popular
human-preference platforms, Chatbot Arena and MT-Bench, we find that the
Bradley--Terry rankings of top-performing models are remarkably sensitive to
the removal of a small fraction of evaluations. Our framework also identifies
the specific evaluations most responsible for such ranking flips, allowing for
inspections of these influential preferences. We observe that the rankings
derived from MT-Bench preferences are notably more robust than those from
Chatbot Arena, likely due to MT-bench's use of expert annotators and carefully
constructed prompts. Finally, we find that rankings based on crowdsourced
human-evaluated systems are just as sensitive as those based on LLM-as-a-judge
evaluations, where in both, dropping as little as 0.02% of the total
evaluations in the dataset can change the top-ranked model.
Ссылки и действия
Дополнительные ресурсы: