Justice in Judgment: Unveiling (Hidden) Bias in LLM-assisted Peer Reviews

2509.13400v1 cs.CY, cs.AI 2025-09-19
Авторы:

Sai Suresh Marchala Vasu, Ivaxi Sheth, Hui-Po Wang, Ruta Binkyte, Mario Fritz

Резюме на русском

#### Контекст Область исследования связана с использованием бо LARGE LANGUAGE MODELS (LLMs) в процессе peer review, где они помогают рецензентам составлять более подробные и четкие оценки. Хотя это привносит удобство и эффективность, возникают вопросы о справедливости и надежности результатов. Люди и организации хотят понять, насколько честны и беспристрастны рекомендации, сгенерированные LLMs. Мотивация исследования заключается в изучении потенциальных биаса в LLMs, особенно в зависимости от метаданных, таких как авторская аффилиация и пол. Это поможет установить, насколько сильно LLMs закрепляют существующие стереотипы и если ли у них потенциал для свободного от человеческих предубеждений решать задачи. #### Метод Исследование основывается на экспериментальной методологии с помощью LLMs. Для тестирования биаса использовались управляемые эксперименты, где метаданные, такие как авторские аффилиации и пол, были скрытыми или измененными. Модель LLM получала фиксированный текст, но с разными метаданными, чтобы оценить, как эти параметры влияют на результаты. Архитектура использовалась "out-of-the-box", без дополнительных адаптаций. Эксперименты проводились на разных наборах данных, чтобы убедиться в общественной значимости результатов. #### Результаты Исследование показало существование биаса в отношении авторских аффилиаций, при котором LLMs отдают предпочтение институтам, с высоким рейтингом в общепринятых академических рейтингах. Также выявлены небольшие предпочтения в отношении пола, которые, хотя и незначительны в масштабе, могут усиливаться со временем и при повторных оценках. Особенно выражена эффектность LLMs в формировании "токен-базированных" оценок, где вкрадчиво выраженные предпочтения могут становиться более заметными. #### Значимость Результаты имеют важное значение для широкого спектра доменов, включая научное издательство, образование и реализацию ИИ. Этот подход может помочь обнаруживать и корректировать биасы в ИИ-системах, способствуя справедливости и доверию к ИИ-решениям в рецензировании. Преимущества заключаются в том, что исследование предоставляет обоснованные рекомендации по обнаружению и предотвращению биаса в LLMs, а также может способствовать развитию более справедливых моделей. #### Выводы На основе полученных результатов, LLMs в peer review не являются полностью свободными от человеческих биаса. Но их можно обучить для более справедливого и глубокого анализа, если принять дополнительные меры. Будущие исследования будут фокусироваться на развитии методов для определения и устранения биаса в глубоком

Abstract

The adoption of large language models (LLMs) is transforming the peer review process, from assisting reviewers in writing more detailed evaluations to generating entire reviews automatically. While these capabilities offer exciting opportunities, they also raise critical concerns about fairness and reliability. In this paper, we investigate bias in LLM-generated peer reviews by conducting controlled experiments on sensitive metadata, including author affiliation and gender. Our analysis consistently shows affiliation bias favoring institutions highly ranked on common academic rankings. Additionally, we find some gender preferences, which, even though subtle in magnitude, have the potential to compound over time. Notably, we uncover implicit biases that become more evident with token-based soft ratings.

Ссылки и действия