Automated Generation of Curriculum-Aligned Multiple-Choice Questions for Malaysian Secondary Mathematics Using Generative AI

2508.04442v1 cs.CL, cs.AI 2025-08-09
Авторы:

Rohaizah Abdul Wahid, Muhamad Said Nizamuddin Nadim, Suliana Sulaiman, Syahmi Akmal Shaharudin, Muhammad Danial Jupikil, Iqqwan Jasman Su Azlan Su

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современной образовательной практике существует актуальная проблема создания высококачественных и масштабируемых оценивающих инструментов, особенно в условиях ограниченных ресурсов. Эта проблема особенно остро стоит в регионах с низким уровнем ресурсов, где языки обучения, такие как Бахаса Мелайу, имеют ограниченные ресурсы для разработки образовательного контента. Малазийская система образования сталкивается с трудностями в обеспечении точности и соответствия учебному плану при создании оценивающих материалов. Это создает потребность в инновационных подходах, которые могли бы обеспечить качество и соответствие курсивному плану. Generative AI (GenAI) представляет собой перспективное решение для автоматического генерирования оценивающих вопросов, однако этот подход не без вызовов. Одной из ключевых проблем является обеспечение фактической точности и соответствия учебному плану, особенно для ресурсоемких языков. Таким образом, требуется разработка методологий, которые могли бы обеспечить высокое качество автоматически генерируемых вопросов, основанных на официальных учебных материалах и планах. Цель данного исследования – разработка и сравнение различных методологий автоматического генерирования вопросов для математики 1 класса на языке Бахаса Мелайу, используя модель OpenAI's GPT-4. Исследование рассматривает четыре последовательных подхода к генерации вопросов: от базовых незаземленных подсказок до более сложных методологий, основанных на Retrieval-Augmented Generation (RAG). Исследование также анализирует точность и соответствие учебному плану, используя специально разработанные методы оценки, такие как Semantic Textual Similarity (STS) и RAG-based Question-Answering (RAG-QA). ## ПРЕДЛОЖЕННЫЙ МЕТОД В исследовании были разработаны четыре последовательных подхода к генерации вопросов. Первые два метода основаны на незаземленных подсказках, которые генерируют вопросы без непосредственного использования дополнительных контекстуальных данных. Эти методы включают структурированные и базовые подходы к формулировке запросов. Третий и четвертый подходы основаны на RAG-методологии, которая дополняет модель генерации дополнительными контекстуальными данными. Один из них использует фреймворк LangChain для упрощения процесса, а другой реализуется вручную для более тонкого контроля над процессом. Оба подхода используют официальные учебные материалы, включая заметки учителей и годовой учебный план (RPT), для обеспечения соответствия учебному плану. Кроме того, была разработана двойная система оценки для проверки генерируемых вопросов. Одна из компонентов, STS, измеряет соответствие вопросов учебному плану, а другая, RAG-QA, проверяет фактическую точность вопросов путем их проверки с помощью дополнительных контекстуальных данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании проведены эксперименты, которые сравнивают четыре подхода к генерации вопросов. Результаты показывают, что RAG-based подходы значительно превосходят незаземленные подсказки в терминах соответствия учебному плану и фактической точности. Методы, основанные на RAG, продемонстрировали лучшие результаты в измерении STS и RAG-QA, показывая высокий уровень соответствия курсивному плану. Дополнительно, исследование провело анализ того, как удобство использования фреймворка LangChain сравнивается с более тонким контролем, предоставляемым ручной реализацией. Это показало, что фреймворк LangChain обеспечивает более простой интеграцию, но может ограничивать точность контроля. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Данное исследование имеет значительное практическое применение в области образования, особенно в регионах с низким уровнем ресурсов. Разработанная методология может быть использована для создания высококачественных оценивающих материалов, которые соответствуют учебному плану и обеспечивают фактическую точность. Это может быть особенно полезно для регионов, где языки обучения имеют ограниченные ресурсы. Преимущества этого подхода включают в себя масштабируемость, высокую точность и возможность адаптации к конкретным учебным планам. Это может способствовать развитию EdTech-решений в Малазии и других регионах с похожими условиями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует, что RAG-based подходы являются эффективными для генерации высококачественных оценивающих вопросов, соответствующих учебному плану. Это открывает перспективы для дальнейшего развития EdTech-решений, особенно в регионах с низким уровнем ресурсов. Будущие исследования могут фокусироваться на улучшении точности и эффективности таких систем, а также на расширении их применения на другие предметы и регионы.

Abstract

This paper addresses the critical need for scalable and high-quality educational assessment tools within the Malaysian education system. It highlights the potential of Generative AI (GenAI) while acknowledging the significant challenges of ensuring factual accuracy and curriculum alignment, especially for low-resource languages like Bahasa Melayu. This research introduces and compares four incremental pipelines for generating Form 1 Mathematics multiple-choice questions (MCQs) in Bahasa Melayu using OpenAI's GPT-4o. The methods range from non-grounded prompting (structured and basic) to Retrieval-Augmented Generation (RAG) approaches (one using the LangChain framework, one implemented manually). The system is grounded in official curriculum documents, including teacher-prepared notes and the yearly teaching plan (RPT). A dual-pronged automated evaluation framework is employed to assess the generated questions. Curriculum alignment is measured using Semantic Textual Similarity (STS) against the RPT, while contextual validity is verified through a novel RAG-based Question-Answering (RAG-QA) method. The results demonstrate that RAG-based pipelines significantly outperform non-grounded prompting methods, producing questions with higher curriculum alignment and factual validity. The study further analyzes the trade-offs between the ease of implementation of framework-based RAG and the fine-grained control offered by a manual pipeline. This work presents a validated methodology for generating curriculum-specific educational content in a low-resource language, introduces a symbiotic RAG-QA evaluation technique, and provides actionable insights for the development and deployment of practical EdTech solutions in Malaysia and similar regions.

Ссылки и действия