Assisting the Grading of a Handwritten General Chemistry Exam with Artificial Intelligence
2509.10591v1
cs.CY, cs.AI
2025-09-17
Авторы:
Jan Cvengros, Gerd Kortemeyer
Резюме на русском
## Контекст
Актуальным для современной образовательной системы является вопрос автоматизации процессов контроля и оценки учебных показателей студентов. Особым вниманием заслуживает решение проблем, связанных с оценкой рукописных экзаменов, где требуется высокая степень точности и объективности. Развитие искусственного интеллекта (ИИ) предлагает новые возможности для автоматизации таких задач, но при этом возникают вопросы о надежности и честности таких систем. Одной из таких задач является оценка рукописных экзаменов по химии, где необходимо учесть различные типы вопросов, включая текстовые, химические реакции, формулы, рисунки и графики.
## Метод
Для оценки точности и надежности AI-системы были использованы изображения рукописных экзаменов, углубленно проанализированы различные виды вопросов, такие как текстовые ответы, формулы, рисунки и графики. Оценка проводилась с использованием линейных регрессионных анализов и психометрических методов. Были выделены следующие типы вопросов: текстовые ответы, химические реакции, формулы, рисунки и графики. Для каждого типа вопросов измерялась точность выдачи AI в сравнении с оценками человеческих экспертов.
## Результаты
На основе проведенных экспериментов были получены следующие результаты. Для текстовых ответов и химических реакций AI показал высокую точность и согласованность с оценками человеческих экспертов. Однако для задач, требующих вычислений или графических отображений, точность была значительно ниже. Это связано с тем, что AI имеет трудности в понимании сложных графических структур и выполнении точных вычислений. Таким образом, необходима постоянная надзорная оценка человеком для обеспечения точности и честности результатов.
## Значимость
Полученные результаты открывают широкие перспективы для применения AI в образовательных процессах, особенно в автоматизации процессов контроля и оценки рукописных экзаменов. Использование AI может существенно сократить время, необходимое для оценки больших объемов работ, а также обеспечить более унифицированную оценку. Несмотря на это, требуется внимательное рассмотрение вопросов справедливости и доверия студентов к таким системам. Будущие исследования должны быть направлены на улучшение надежности AI в области графических и вычислительных задач.
## Выводы
В целом, результаты показывают, что AI может быть эффективным инструментом для автоматизации оценки рукописных тестов в области химии, особенно для текстовых и химических реакций. Однако необходимо сохранить роль че
Abstract
We explore the effectiveness and reliability of an artificial intelligence
(AI)-based grading system for a handwritten general chemistry exam, comparing
AI-assigned scores to human grading across various types of questions. Exam
pages and grading rubrics were uploaded as images to account for chemical
reaction equations, short and long open-ended answers, numerical and symbolic
answer derivations, drawing, and sketching in pencil-and-paper format. Using
linear regression analyses and psychometric evaluations, the investigation
reveals high agreement between AI and human graders for textual and chemical
reaction questions, while highlighting lower reliability for numerical and
graphical tasks. The findings emphasize the necessity for human oversight to
ensure grading accuracy, based on selective filtering. The results indicate
promising applications for AI in routine assessment tasks, though careful
consideration must be given to student perceptions of fairness and trust in
integrating AI-based grading into educational practice.
Ссылки и действия
Дополнительные ресурсы: