Justice in Judgment: Unveiling (Hidden) Bias in LLM-assisted Peer Reviews
2509.13400v1
cs.CY, cs.AI
2025-09-19
Авторы:
Sai Suresh Marchala Vasu, Ivaxi Sheth, Hui-Po Wang, Ruta Binkyte, Mario Fritz
Резюме на русском
#### Контекст
Область исследования связана с использованием бо LARGE LANGUAGE MODELS (LLMs) в процессе peer review, где они помогают рецензентам составлять более подробные и четкие оценки. Хотя это привносит удобство и эффективность, возникают вопросы о справедливости и надежности результатов. Люди и организации хотят понять, насколько честны и беспристрастны рекомендации, сгенерированные LLMs. Мотивация исследования заключается в изучении потенциальных биаса в LLMs, особенно в зависимости от метаданных, таких как авторская аффилиация и пол. Это поможет установить, насколько сильно LLMs закрепляют существующие стереотипы и если ли у них потенциал для свободного от человеческих предубеждений решать задачи.
#### Метод
Исследование основывается на экспериментальной методологии с помощью LLMs. Для тестирования биаса использовались управляемые эксперименты, где метаданные, такие как авторские аффилиации и пол, были скрытыми или измененными. Модель LLM получала фиксированный текст, но с разными метаданными, чтобы оценить, как эти параметры влияют на результаты. Архитектура использовалась "out-of-the-box", без дополнительных адаптаций. Эксперименты проводились на разных наборах данных, чтобы убедиться в общественной значимости результатов.
#### Результаты
Исследование показало существование биаса в отношении авторских аффилиаций, при котором LLMs отдают предпочтение институтам, с высоким рейтингом в общепринятых академических рейтингах. Также выявлены небольшие предпочтения в отношении пола, которые, хотя и незначительны в масштабе, могут усиливаться со временем и при повторных оценках. Особенно выражена эффектность LLMs в формировании "токен-базированных" оценок, где вкрадчиво выраженные предпочтения могут становиться более заметными.
#### Значимость
Результаты имеют важное значение для широкого спектра доменов, включая научное издательство, образование и реализацию ИИ. Этот подход может помочь обнаруживать и корректировать биасы в ИИ-системах, способствуя справедливости и доверию к ИИ-решениям в рецензировании. Преимущества заключаются в том, что исследование предоставляет обоснованные рекомендации по обнаружению и предотвращению биаса в LLMs, а также может способствовать развитию более справедливых моделей.
#### Выводы
На основе полученных результатов, LLMs в peer review не являются полностью свободными от человеческих биаса. Но их можно обучить для более справедливого и глубокого анализа, если принять дополнительные меры. Будущие исследования будут фокусироваться на развитии методов для определения и устранения биаса в глубоком
Abstract
The adoption of large language models (LLMs) is transforming the peer review
process, from assisting reviewers in writing more detailed evaluations to
generating entire reviews automatically. While these capabilities offer
exciting opportunities, they also raise critical concerns about fairness and
reliability. In this paper, we investigate bias in LLM-generated peer reviews
by conducting controlled experiments on sensitive metadata, including author
affiliation and gender. Our analysis consistently shows affiliation bias
favoring institutions highly ranked on common academic rankings. Additionally,
we find some gender preferences, which, even though subtle in magnitude, have
the potential to compound over time. Notably, we uncover implicit biases that
become more evident with token-based soft ratings.
Ссылки и действия
Дополнительные ресурсы: