Enhancing Knowledge Tracing through Leakage-Free and Recency-Aware Embeddings

2508.17092v1 cs.CY, cs.AI, cs.LG 2025-08-27
Авторы:

Yahya Badran, Christine Preisach

Резюме на русском

## Контекст Knowledge Tracing (KT) — это проблематика предсказания будущего ученика на основе его взаимодействий с материалом обучения. Основной набор данных для моделей KT из секвенции ответов на вопросы включает в себя различные аспекты, такие как порядок и время взаимодействий, знания концепций (KCs) — набор навыков, необходимых для каждого задания. Тем не менее, многие KT-модели страдают от проблемы лейбл-лейк, когда входные данные нечаянно раскрывают правильный ответ, особенно в условиях нескольких KCs на каждый вопрос. Эта проблема повлияла на точность предсказаний в различных KT-моделях. ## Метод Мы предложили несколько решений для того, чтобы устранить эту проблему. Наша основная техника — маскирование лейблов при построении входных эмбеддингов в определенных случаях, когда данные скрывают лейблы. Для этого мы вводим новый MASK-лейбл, выдержанный в стиле масок моделей типа BERT. Это позволяет защитить модели от негативного влияния лейбл-лейка. Кроме того, мы представили идею Recency Encoding, которая основывается на учете шагового расстояния между текущим заданием и его предыдущим во времени. Эта новая форма позиционного кодирования позволяет лучше моделировать гармонические отношения в обучении, включая процессы забывания. ## Результаты Мы провели эксперименты с использованием различных KT-моделей, таких как DKT, DKT+, AKT и SAKT, и использовали несколько наборов данных, включая ASSISTments и Junyi Academy. Наши результаты показывают, что применение нашей техники MASK-метки и Recency Encoding существенно повышает точность предсказаний моделей в сравнении с базовыми версиями. Эффект особенно заметен в случаях, когда данные имеют сильный лейбл-лейк. Эти изменения также работают эффективно в контексте небольших данных, что демонстрирует их широкую применимость. ## Значимость Наши решения могут быть применены в различных областях, где KT используется для личной ориентации в обучении, анализа содержания и синтеза учебных материалов. Мы показали, что наши новые методы не только улучшают точность, но и повышают устойчивость моделей к негативному влиянию лейбл-лейка. Это делает нашу работу важной для улучшения пользовательских подходов в обучении, а также для повышения качества моделей, использующих различные виды разметки. ## Выводы Мы предложили новые методы для устранения определенных проблем в Knowledge Tracing — в частности, лейбл-лейка и недостаточного учета динамики обучения в распознавании KCs. Наши релизовые результаты показали, что обеспечение MASK-метода и Recency Encoding может значительно улучшить точность и устойчивость KT-моделей. Мы направились на дальнейшее иссле

Abstract

Knowledge Tracing (KT) aims to predict a student's future performance based on their sequence of interactions with learning content. Many KT models rely on knowledge concepts (KCs), which represent the skills required for each item. However, some of these models are vulnerable to label leakage, in which input data inadvertently reveal the correct answer, particularly in datasets with multiple KCs per question. We propose a straightforward yet effective solution to prevent label leakage by masking ground-truth labels during input embedding construction in cases susceptible to leakage. To accomplish this, we introduce a dedicated MASK label, inspired by masked language modeling (e.g., BERT), to replace ground-truth labels. In addition, we introduce Recency Encoding, which encodes the step-wise distance between the current item and its most recent previous occurrence. This distance is important for modeling learning dynamics such as forgetting, which is a fundamental aspect of human learning, yet it is often overlooked in existing models. Recency Encoding demonstrates improved performance over traditional positional encodings on multiple KT benchmarks. We show that incorporating our embeddings into KT models like DKT, DKT+, AKT, and SAKT consistently improves prediction accuracy across multiple benchmarks. The approach is both efficient and widely applicable.

Ссылки и действия

Связанные статьи

The Secret Agenda: LLMs Strategically Lie and Our Current Safety Tools Are Blind

## Контекст В последние годы высокопроизводительные текстовые генеративные модели (LLMs) стали важной частью многих тех...

2025-09-26

Synthetic Data and the Shifting Ground of Truth

### Контекст В последние годы наблюдается всплеск интереса к синтетическим данным, которые используются для защиты конф...

2025-09-19