Beyond the Score: Uncertainty-Calibrated LLMs for Automated Essay Assessment
2509.15926v1
cs.CL, cs.LG
2025-09-23
Авторы:
Ahmed Karim, Qiao Wang, Zheng Yuan
Резюме на русском
## Контекст
Существующие Автоматизированные Системы Оценки Эссе (Automated Essay Scoring, AES) достигли близкого к человеческому согласию на некоторых общедоступных бенчмарках. Однако их реального применения в высокостаких экзаменах, таких как SAT или GRE, ограничено. Основной проблемой является отсутствие подробных показателей достоверности или объяснений для выдаваемых оценок. Большинство моделей выдают единственную оценку без каких-либо дополнительных мер уверенности. Мы призваны решить эту проблему, используя технологию conformal prediction, которая позволяет оборачивать любую модель в модель, выдающую множественные варианты ответов с формальными гарантиями покрытия.
## Метод
Для реализации автоматизированной системы оценки эссе использованы две модели: Llama-3 8B и Qwen-2.5 3B. Эти модели были приведены к уровню вероятности в 90% с помощью conformal prediction. Для оценки результатов использовался показатель UAcc (uncertainty-aware accuracy), который мотивирует модели для более точных и компактных предсказаний. Эта модель была тренирована на трех различных корпусах данных: ASAP, TOEFL11 и Cambridge-FCE. Таким образом, структура исследования учитывает не только достижение точности, но и включает в себя построение уверенных и компактных предсказаний.
## Результаты
Результаты исследования показали, что модели Llama-3 и Qwen-2.5 способны привести к полному покрытию готовых результатов в тестовых условиях, при этом сохраняя компактность множественных ответов. Общая точность предсказаний показала, что модели уже могут быть использованы в качестве дополнения к существующим AES-системам. Эти модели показали свою эффективность в качестве промежуточного решения в ситуациях, где есть необходимость в объяснениях и достоверности оценок.
## Значимость
Такие модели могут быть применены в ситуациях, где необходима точная оценка, но при этом необходимо обеспечить конфиденциальность и доступность моделей. Например, они могут использоваться в образовательных программах, где необходимо не только оценивать текст, но и обеспечивать прозрачность в процессе оценки. Это открывает путь для использования небольших значительно модифицированных моделей, которые создают достаточно точные и достоверные результаты, особенно в сфере образования, где качество оценки может повлиять на будущие карьерные перспективы.
## Выводы
Мы показали, что модели Llama-3 и Qwen-2.5 могут быть использованы в качестве доступных и эффективных систем AES с поддержкой согласованности в предсказаниях. Новые подходы, такие как conformal prediction и UAcc, дают возможность улучшить доверие к моделям и обеспечить более полный анализ в процессе оценки. Мы также планируем расширить нашу
Abstract
Automated Essay Scoring (AES) systems now reach near human agreement on some
public benchmarks, yet real-world adoption, especially in high-stakes
examinations, remains limited. A principal obstacle is that most models output
a single score without any accompanying measure of confidence or explanation.
We address this gap with conformal prediction, a distribution-free wrapper that
equips any classifier with set-valued outputs and formal coverage guarantees.
Two open-source large language models (Llama-3 8B and Qwen-2.5 3B) are
fine-tuned on three diverse corpora (ASAP, TOEFL11, Cambridge-FCE) and
calibrated at a 90 percent risk level. Reliability is assessed with UAcc, an
uncertainty-aware accuracy that rewards models for being both correct and
concise. To our knowledge, this is the first work to combine conformal
prediction and UAcc for essay scoring. The calibrated models consistently meet
the coverage target while keeping prediction sets compact, indicating that
open-source, mid-sized LLMs can already support teacher-in-the-loop AES; we
discuss scaling and broader user studies as future work.
Ссылки и действия
Дополнительные ресурсы: