Detecting Reading-Induced Confusion Using EEG and Eye Tracking
2508.14442v1
cs.HC, cs.AI
2025-08-22
Авторы:
Haojun Zhuang, Dünya Baradari, Nataliya Kosmyna, Arnav Balyan, Constanze Albrecht, Stephanie Chen, Pattie Maes
Резюме на русском
## Контекст
В настоящее время люди часто сталкиваются с превышением пределов их понимания при чтении текстов в различных сферах — от книг и статей до социальных сетей и чатботов. Этот процесс часто сопровождается чтением материалов, которые вызывают непонимание или путаницу. Такое недопонимание может стать ограничением для понимания и запоминания информации, что является ключевым препятствием для эффективного обучения. Несмотря на то, что чтение — это важная способность, способствующая развитию знаний, на сегодняшний день ученые пока недостаточно понимают, как чтение может вызывать различные уровни непонимания, в том числе личностные и групповые различия в этом направлении. Одна из ключевых проблем заключается в том, что невозможность определить моменты, когда читатель находится в состоянии непонимания, сделала невозможным разработку эффективных методов для определения и компенсации такой путаницы в реальном времени. Этот исследовательский проект ориентируется на решение этой проблемы, оценивая возможность использования технологий, таких как ЭЭГ и трекинг взгляда, для точного определения моментов путаницы в процессе чтения.
## Метод
Мы использовали многомодальный подход, объединив EEG и трекинг взгляда, для изучения моментов путаницы в процессе чтения. Наши испытуемые читали выбранные параграфы, которые были извлечены из различных реальных источников. Мы собирали данные ЭЭГ и трекали взгляд, а затем использовали машинное обучение для классификации моментов, когда читатель переживал непонимание. Затем мы проводили детальный анализ этих данных, определяя, какие части мозга и глаз были активны в момент непонимания.
## Результаты
Мы провели эксперименты с 11 участниками, которые считывали выбранные тексты. Мы использовали ЭЭГ для измерения мозговых сигналов и трекинг взгляда для изучения движений глаз. Эти данные были обработаны с помощью машинного обучения для определения моментов, когда у читателя были сигналы непонимания. Мы отделили Н400, определяя, какая часть мозга реагирует на непонятные слова. Мы также использовали данные трекинга взгляда, чтобы оценить, как читатели взаимодействуют с текстом. Наши результаты показали, что модели, использующие как ЭЭГ, так и трекинг взгляда, демонстрируют значительное увеличение точности классификации, приблизительно в 4-22% по сравнению с базовыми моделями.
## Значимость
Наши результаты могут быть применены в различных областях, включая персонализированное обучение, интерактивные системы и доступность. Технология, основанная на ЭЭГ и трекинге взгляда, может быть использована для мониторинга непони
Abstract
Humans regularly navigate an overwhelming amount of information via text
media, whether reading articles, browsing social media, or interacting with
chatbots. Confusion naturally arises when new information conflicts with or
exceeds a reader's comprehension or prior knowledge, posing a challenge for
learning. In this study, we present a multimodal investigation of
reading-induced confusion using EEG and eye tracking. We collected neural and
gaze data from 11 adult participants as they read short paragraphs sampled from
diverse, real-world sources. By isolating the N400 event-related potential
(ERP), a well-established neural marker of semantic incongruence, and
integrating behavioral markers from eye tracking, we provide a detailed
analysis of the neural and behavioral correlates of confusion during
naturalistic reading. Using machine learning, we show that multimodal (EEG +
eye tracking) models improve classification accuracy by 4-22% over unimodal
baselines, reaching an average weighted participant accuracy of 77.3% and a
best accuracy of 89.6%. Our results highlight the dominance of the brain's
temporal regions in these neural signatures of confusion, suggesting avenues
for wearable, low-electrode brain-computer interfaces (BCI) for real-time
monitoring. These findings lay the foundation for developing adaptive systems
that dynamically detect and respond to user confusion, with potential
applications in personalized learning, human-computer interaction, and
accessibility.
Ссылки и действия
Дополнительные ресурсы: