Assisting the Grading of a Handwritten General Chemistry Exam with Artificial Intelligence

2509.10591v1 cs.CY, cs.AI 2025-09-17
Авторы:

Jan Cvengros, Gerd Kortemeyer

Резюме на русском

## Контекст Актуальным для современной образовательной системы является вопрос автоматизации процессов контроля и оценки учебных показателей студентов. Особым вниманием заслуживает решение проблем, связанных с оценкой рукописных экзаменов, где требуется высокая степень точности и объективности. Развитие искусственного интеллекта (ИИ) предлагает новые возможности для автоматизации таких задач, но при этом возникают вопросы о надежности и честности таких систем. Одной из таких задач является оценка рукописных экзаменов по химии, где необходимо учесть различные типы вопросов, включая текстовые, химические реакции, формулы, рисунки и графики. ## Метод Для оценки точности и надежности AI-системы были использованы изображения рукописных экзаменов, углубленно проанализированы различные виды вопросов, такие как текстовые ответы, формулы, рисунки и графики. Оценка проводилась с использованием линейных регрессионных анализов и психометрических методов. Были выделены следующие типы вопросов: текстовые ответы, химические реакции, формулы, рисунки и графики. Для каждого типа вопросов измерялась точность выдачи AI в сравнении с оценками человеческих экспертов. ## Результаты На основе проведенных экспериментов были получены следующие результаты. Для текстовых ответов и химических реакций AI показал высокую точность и согласованность с оценками человеческих экспертов. Однако для задач, требующих вычислений или графических отображений, точность была значительно ниже. Это связано с тем, что AI имеет трудности в понимании сложных графических структур и выполнении точных вычислений. Таким образом, необходима постоянная надзорная оценка человеком для обеспечения точности и честности результатов. ## Значимость Полученные результаты открывают широкие перспективы для применения AI в образовательных процессах, особенно в автоматизации процессов контроля и оценки рукописных экзаменов. Использование AI может существенно сократить время, необходимое для оценки больших объемов работ, а также обеспечить более унифицированную оценку. Несмотря на это, требуется внимательное рассмотрение вопросов справедливости и доверия студентов к таким системам. Будущие исследования должны быть направлены на улучшение надежности AI в области графических и вычислительных задач. ## Выводы В целом, результаты показывают, что AI может быть эффективным инструментом для автоматизации оценки рукописных тестов в области химии, особенно для текстовых и химических реакций. Однако необходимо сохранить роль че

Abstract

We explore the effectiveness and reliability of an artificial intelligence (AI)-based grading system for a handwritten general chemistry exam, comparing AI-assigned scores to human grading across various types of questions. Exam pages and grading rubrics were uploaded as images to account for chemical reaction equations, short and long open-ended answers, numerical and symbolic answer derivations, drawing, and sketching in pencil-and-paper format. Using linear regression analyses and psychometric evaluations, the investigation reveals high agreement between AI and human graders for textual and chemical reaction questions, while highlighting lower reliability for numerical and graphical tasks. The findings emphasize the necessity for human oversight to ensure grading accuracy, based on selective filtering. The results indicate promising applications for AI in routine assessment tasks, though careful consideration must be given to student perceptions of fairness and trust in integrating AI-based grading into educational practice.

Ссылки и действия