DynaMind: Reconstructing Dynamic Visual Scenes from EEG by Aligning Temporal Dynamics and Multimodal Semantics to Guided Diffusion
2509.01177v1
cs.CV, cs.AI, cs.HC, eess.SP
2025-09-05
Авторы:
Junxiang Liu, Junming Lin, Jiangtong Li, Jie Li
Резюме на русском
## Контекст
Моделирование динамических визуальных сцен из электроэнцефалограмм (EEG) является ключевым вопросом в области мозгового декодирования. Однако существующие методы сталкиваются с недостатками в решении проблем, связанных с низкой специфичностью EEG, временным несоответствием записей нейросигналов и видеоинформации, а также недостаточным использованием семантической информации. Эти ограничения приводят к недостаточной динамической целостности и недостаточной семантической контекстуализации. Поэтому необходимо разработать систему, которая сможет эффективно комбинировать эти аспекты для точного моделирования визуальных сцен.
## Метод
DynaMind представляет собой современный разработанный подход, который сочетает нейродинамические признаки и семантические компоненты в рамках трех модулей: Regional-aware Semantic Mapper (RSM), Temporal-aware Dynamic Aligner (TDA) и Dual-Guidance Video Reconstructor (DGVR). RSM использует региональный подход к извлечению семантических признаков из EEG, агрегируя их в общую структуру для дальнейшего применения. TDA генерирует динамический латентный секвенс, обеспечивая гармоничность в ходе временных изменений. DGVR синтезирует видео, используя эти семантические признаки и динамический секвенс для достижения самой высокой точности и коректности.
## Результаты
Проведенные эксперименты показали, что DynaMind достигает значительных улучшений в сравнении с предыдущими методами. На SEED-DV датасете, он повысил точность воспроизведения видео на 12.5% (видео-уровень) и 10.3% (фрейм-уровень). Этот подход также показал предвосхитительную разрешающую способность, повысив SSIM на 9.4% и снизив FVMD на 19.7%. Эти результаты подтверждают высокую точность и визуальное качество, установив новый состояние техники в области видеореконструкции из EEG.
## Значимость
DynaMind открывает путь к новым возможностям в области динамического моделирования визуальных сцен, имея широкие применения в технологиях интерактивных систем, робототехнике и медицине. Он предлагает высокую точность, динамическую целостность и визуальную четкость, которые отсутствуют в существующих решениях. Будущие исследования будут сконцентрированы на расширении применений, улучшении точности и исследовании повышения моделирования зависимости между нейродинамикой и семантическими признаками.
## Выводы
DynaMind становится ключевым развитием в области моделирования визуальных сцен с помощью EEG. Он выделяется своей уникальной архитектурой, объединяющей нейродинамические и семантические компоненты, что позволяет достигать высокого качества реконструкции. Будущие работы будут с
Abstract
Reconstruction dynamic visual scenes from electroencephalography (EEG)
signals remains a primary challenge in brain decoding, limited by the low
spatial resolution of EEG, a temporal mismatch between neural recordings and
video dynamics, and the insufficient use of semantic information within brain
activity. Therefore, existing methods often inadequately resolve both the
dynamic coherence and the complex semantic context of the perceived visual
stimuli. To overcome these limitations, we introduce DynaMind, a novel
framework that reconstructs video by jointly modeling neural dynamics and
semantic features via three core modules: a Regional-aware Semantic Mapper
(RSM), a Temporal-aware Dynamic Aligner (TDA), and a Dual-Guidance Video
Reconstructor (DGVR). The RSM first utilizes a regional-aware encoder to
extract multimodal semantic features from EEG signals across distinct brain
regions, aggregating them into a unified diffusion prior. In the mean time, the
TDA generates a dynamic latent sequence, or blueprint, to enforce temporal
consistency between the feature representations and the original neural
recordings. Together, guided by the semantic diffusion prior, the DGVR
translates the temporal-aware blueprint into a high-fidelity video
reconstruction. On the SEED-DV dataset, DynaMind sets a new state-of-the-art
(SOTA), boosting reconstructed video accuracies (video- and frame-based) by
12.5 and 10.3 percentage points, respectively. It also achieves a leap in
pixel-level quality, showing exceptional visual fidelity and temporal coherence
with a 9.4% SSIM improvement and a 19.7% FVMD reduction. This marks a critical
advancement, bridging the gap between neural dynamics and high-fidelity visual
semantics.