Assessing the Reliability and Validity of Large Language Models for Automated Assessment of Student Essays in Higher Education
2508.02442v1
cs.CY, cs.AI
2025-08-09
Авторы:
Andrea Gaggioli, Giuseppe Casaburi, Leonardo Ercolani, Francesco Collova', Pietro Torre, Fabrizio Davide
Резюме на русском
**Резюме**
В статье анализируется надежность и достоверность пяти современных текстовых генеративных моделей (LLMs) — Claude 3.5, DeepSeek v2, Gemini 2.5, GPT-4 и Mistral 24B — при оценке студенческих эссе в высшем образовании. Исследование основывается на оценке 67 итальяноязычных эссе по психологии, используя четырёхкритерийный рейтинг (Подходящесть, Здравость, Оригинальность, Реализуемость). Наблюдаются существенные расхождения между оценками моделей и человеком, в том числе непостоянные результаты оценивания Здравости и Феасибильности. Кроме того, выявлена склонность к надуву рейтинга Здравости и непостоянность в работе с контекстуальными факторами. Людско-модельный согласий (Quadratic Weighted Kappa) оказался незначительным, а внутримодельная стабильность (Kendall's W) — ниже 0.30. На основе этих результатов следует, что текущие LLMs ограничены в способности делать контекстуально обоснованные оценки и воспроизводить гуманное жизнерадостное суждение в задачах, требующих глубинного дисциплинарного понимания. Человеческое управление остается критически важным при автоматизированных оценках, особенно в сложных интерпретируемых задачах.
Abstract
This study investigates the reliability and validity of five advanced Large
Language Models (LLMs), Claude 3.5, DeepSeek v2, Gemini 2.5, GPT-4, and Mistral
24B, for automated essay scoring in a real world higher education context. A
total of 67 Italian-language student essays, written as part of a university
psychology course, were evaluated using a four-criterion rubric (Pertinence,
Coherence, Originality, Feasibility). Each model scored all essays across three
prompt replications to assess intra-model stability. Human-LLM agreement was
consistently low and non-significant (Quadratic Weighted Kappa), and
within-model reliability across replications was similarly weak (median
Kendall's W < 0.30). Systematic scoring divergences emerged, including a
tendency to inflate Coherence and inconsistent handling of context-dependent
dimensions. Inter-model agreement analysis revealed moderate convergence for
Coherence and Originality, but negligible concordance for Pertinence and
Feasibility. Although limited in scope, these findings suggest that current
LLMs may struggle to replicate human judgment in tasks requiring disciplinary
insight and contextual sensitivity. Human oversight remains critical when
evaluating open-ended academic work, particularly in interpretive domains.
Ссылки и действия
Дополнительные ресурсы: