Assessing the Quality of AI-Generated Exams: A Large-Scale Field Study

2508.08314v1 cs.CY, cs.AI 2025-08-14
Авторы:

Calvin Isley, Joshua Gilbert, Evangelos Kassos, Michaela Kocher, Allen Nie, Emma Brunskill, Ben Domingue, Jake Hofman, Joscha Legewie, Teddy Svoronos, Charlotte Tuminelli, Sharad Goel

Резюме на русском

## Контекст Образовательная сфера сталкивается с значительными изменениями, связанными с внедрением технологий искусственного интеллекта (ИИ). Одним из актуальных направлений является использование бо LLM (больших моделей языковых моделей) для создания тестовых заданий. Это привносит новые возможности для эффективного, масштабируемого и настраиваемого обучения. Однако существуют вопросы о качестве таких заданий и их ответом на психометрические критерии. Недостаток исследований по этим вопросам ограничивает понимание реального потенциала ИИ в образовательных тестах. Наша мотивация заключается в изучении и оценке качества AI-генерируемых тестов в реальных условиях обучения, чтобы определить их психометрические свойства и потенциал для улучшения образовательных процессов. ## Метод Мы разработали инновационную методологию, основанную на итеративном подходе к созданию и оценке AI-тестовых заданий. Этот подход включает в себя генерирование вопросов с помощью бо LLM, циклическую оценку и корректировку этих вопросов на основе ЛЛМ-анализа. Наша стратегия включает в себя несколько этапов: 1. Генерация вопросов с использованием бо LLM. 2. Ручная оценка качества вопросов. 3. Внедрение предложенных изменений в LLM для повышения качества. 4. Повторение циклов до получения оптимальных результатов. Оценка качества подвергается методологии "item response theory" (IRT), которая позволяет анализировать ответы студентов и сравнивать их с классическими тестами. Данные из 91 курсов, включающих различные области (компьютерные науки, математика, химия), позволили нам провести широкомасштабное исследование. ## Результаты В ходе исследования мы проанализировали поведение 1670 студентов, протестировавших AI-генерируемые тесты в сравнении с экспертно созданными тестами. Результаты показали, что показатели качества AI-тестов соответствовали показателям экспертных тестов. Наши данные подтвердили, что AI-тестовые задания демонстрируют высокую психометрическую точность и эффективность в реальных условиях. Большая часть вопросов, полученных через итеративный метод, прошла тестирование на соответствие критериям качества и были успешно приняты в реальных курсах. ## Значимость Наши результаты открывают перспективы для широкого использования AI в образовательных тестах. Это может повысить эффективность процесса создания тестов, уменьшить время и ресурсы, необходимые для экспертного контроля. AI может стать инструментом для создания настраиваемых, качественных тестов для различных областей, что позволит улучшить индивидуальный подход к обучению. Мы также от

Abstract

While large language models (LLMs) challenge conventional methods of teaching and learning, they present an exciting opportunity to improve efficiency and scale high-quality instruction. One promising application is the generation of customized exams, tailored to specific course content. There has been significant recent excitement on automatically generating questions using artificial intelligence, but also comparatively little work evaluating the psychometric quality of these items in real-world educational settings. Filling this gap is an important step toward understanding generative AI's role in effective test design. In this study, we introduce and evaluate an iterative refinement strategy for question generation, repeatedly producing, assessing, and improving questions through cycles of LLM-generated critique and revision. We evaluate the quality of these AI-generated questions in a large-scale field study involving 91 classes -- covering computer science, mathematics, chemistry, and more -- in dozens of colleges across the United States, comprising nearly 1700 students. Our analysis, based on item response theory (IRT), suggests that for students in our sample the AI-generated questions performed comparably to expert-created questions designed for standardized exams. Our results illustrate the power of AI to make high-quality assessments more readily available, benefiting both teachers and students.

Ссылки и действия