Can Smaller Large Language Models Evaluate Research Quality?

2508.07196v1 cs.DL, cs.AI 2025-08-13

Авторы:

Mike Thelwall

Резюме на русском

## Контекст Существует возрастающий интерес к использованию Больших Моделей Языка (LLM) для оценки качества исследований. Однако большинство исследований фокусируются на крупнейших моделях, таких как Google Gemini и ChatGPT 4o и 4o-mini. Менее изучено, могут ли меньшие модели, такие как Gemma-3-27b-it, давать аналогичные результаты. Узнать это важно для оптимизации затрат и внедрения моделей в ситуации, где необходима безопасность или конфиденциальность. ## Метод Оценка качества исследований проводилась с использованием Google Gemma-3-27b-it, подготовленной на основе уменьшенной версии Gemma-3 с 27 миллиардами параметров. Оценка основывалась на сравнении её выдач с результатами оценки экспертами в 34 областях знаний, основанных на UK Research Excellence Framework 2021. Для избежания неточностей в оценке были проведены 5 повторений каждого эксперимента, чтобы проверить устойчивость результатов. ## Результаты Проанализированы 104,187 статей. Gemma-3-27b-it демонстрировала положительную корреляцию с экспертными оценками во всех 34 областях. Её корреляции были 83.8% такой же сильной, как у ChatGPT 4o, и 94.7% — у ChatGPT 4o-mini. Однако повторение оценки не привело к значительным улучшениям результатов, что отличает Gemma-3-27b-it от более крупных моделей. Меньшая модель даёт достаточно точные результаты, но с менее выраженным диапазоном оценок и более узкой диапазоном вариаций стиля. ## Значимость Полученные результаты показывают, что меньшие модели LLM могут быть эффективными для оценки качества исследований, что делает их применимыми в сценариях, где требуется экономия ресурсов или защищенная обработка данных. Это также открывает возможность использования моделей с меньшим размером в учёных работах, без потери качества оценки. ## Выводы Наше исследование показывает, что качество оценки исследований не является априорной чертой только крупных моделей LLM. Меньшие модели, такие как Gemma-3-27b-it, также могут применяться для этих задач, что делает их полезными для широкого круга приложений. Будущие исследования следует уделить вниманию улучшению методов оценки качества и проверке повторяемости результатов.

Abstract

Although both Google Gemini (1.5 Flash) and ChatGPT (4o and 4o-mini) give research quality evaluation scores that correlate positively with expert scores in nearly all fields, and more strongly that citations in most, it is not known whether this is true for smaller Large Language Models (LLMs). In response, this article assesses Google's Gemma-3-27b-it, a downloadable LLM (60Gb). The results for 104,187 articles show that Gemma-3-27b-it scores correlate positively with an expert research quality score proxy for all 34 Units of Assessment (broad fields) from the UK Research Excellence Framework 2021. The Gemma-3-27b-it correlations have 83.8% of the strength of ChatGPT 4o and 94.7% of the strength of ChatGPT 4o-mini correlations. Differently from the two larger LLMs, the Gemma-3-27b-it correlations do not increase substantially when the scores are averaged across five repetitions, its scores tend to be lower, and its reports are relatively uniform in style. Overall, the results show that research quality score estimation can be conducted by offline LLMs, so this capability is not an emergent property of the largest LLMs. Moreover, score improvement through repetition is not a universal feature of LLMs. In conclusion, although the largest LLMs still have the highest research evaluation score estimation capability, smaller ones can also be used for this task, and this can be helpful for cost saving or when secure offline processing is needed.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Can Smaller Large Language Models Evaluate Research Quality?

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ARISE: Agentic Rubric-Guided Iterative Survey Engine for Automated Scholarly Pap...

AI Literacy in UAE Libraries: Assessing Competencies, Training Needs, and Ethica...

Can Small and Reasoning Large Language Models Score Journal Articles for Researc...

Layout-Aware OCR for Black Digital Archives with Unsupervised Evaluation

Animer une base de connaissance: des ontologies aux mod{è}les d'I.A. g{é}n{é}rat...

Навигация