DynaMind: Reconstructing Dynamic Visual Scenes from EEG by Aligning Temporal Dynamics and Multimodal Semantics to Guided Diffusion

2509.01177v1 cs.CV, cs.AI, cs.HC, eess.SP 2025-09-05
Авторы:

Junxiang Liu, Junming Lin, Jiangtong Li, Jie Li

Резюме на русском

## Контекст Моделирование динамических визуальных сцен из электроэнцефалограмм (EEG) является ключевым вопросом в области мозгового декодирования. Однако существующие методы сталкиваются с недостатками в решении проблем, связанных с низкой специфичностью EEG, временным несоответствием записей нейросигналов и видеоинформации, а также недостаточным использованием семантической информации. Эти ограничения приводят к недостаточной динамической целостности и недостаточной семантической контекстуализации. Поэтому необходимо разработать систему, которая сможет эффективно комбинировать эти аспекты для точного моделирования визуальных сцен. ## Метод DynaMind представляет собой современный разработанный подход, который сочетает нейродинамические признаки и семантические компоненты в рамках трех модулей: Regional-aware Semantic Mapper (RSM), Temporal-aware Dynamic Aligner (TDA) и Dual-Guidance Video Reconstructor (DGVR). RSM использует региональный подход к извлечению семантических признаков из EEG, агрегируя их в общую структуру для дальнейшего применения. TDA генерирует динамический латентный секвенс, обеспечивая гармоничность в ходе временных изменений. DGVR синтезирует видео, используя эти семантические признаки и динамический секвенс для достижения самой высокой точности и коректности. ## Результаты Проведенные эксперименты показали, что DynaMind достигает значительных улучшений в сравнении с предыдущими методами. На SEED-DV датасете, он повысил точность воспроизведения видео на 12.5% (видео-уровень) и 10.3% (фрейм-уровень). Этот подход также показал предвосхитительную разрешающую способность, повысив SSIM на 9.4% и снизив FVMD на 19.7%. Эти результаты подтверждают высокую точность и визуальное качество, установив новый состояние техники в области видеореконструкции из EEG. ## Значимость DynaMind открывает путь к новым возможностям в области динамического моделирования визуальных сцен, имея широкие применения в технологиях интерактивных систем, робототехнике и медицине. Он предлагает высокую точность, динамическую целостность и визуальную четкость, которые отсутствуют в существующих решениях. Будущие исследования будут сконцентрированы на расширении применений, улучшении точности и исследовании повышения моделирования зависимости между нейродинамикой и семантическими признаками. ## Выводы DynaMind становится ключевым развитием в области моделирования визуальных сцен с помощью EEG. Он выделяется своей уникальной архитектурой, объединяющей нейродинамические и семантические компоненты, что позволяет достигать высокого качества реконструкции. Будущие работы будут с

Abstract

Reconstruction dynamic visual scenes from electroencephalography (EEG) signals remains a primary challenge in brain decoding, limited by the low spatial resolution of EEG, a temporal mismatch between neural recordings and video dynamics, and the insufficient use of semantic information within brain activity. Therefore, existing methods often inadequately resolve both the dynamic coherence and the complex semantic context of the perceived visual stimuli. To overcome these limitations, we introduce DynaMind, a novel framework that reconstructs video by jointly modeling neural dynamics and semantic features via three core modules: a Regional-aware Semantic Mapper (RSM), a Temporal-aware Dynamic Aligner (TDA), and a Dual-Guidance Video Reconstructor (DGVR). The RSM first utilizes a regional-aware encoder to extract multimodal semantic features from EEG signals across distinct brain regions, aggregating them into a unified diffusion prior. In the mean time, the TDA generates a dynamic latent sequence, or blueprint, to enforce temporal consistency between the feature representations and the original neural recordings. Together, guided by the semantic diffusion prior, the DGVR translates the temporal-aware blueprint into a high-fidelity video reconstruction. On the SEED-DV dataset, DynaMind sets a new state-of-the-art (SOTA), boosting reconstructed video accuracies (video- and frame-based) by 12.5 and 10.3 percentage points, respectively. It also achieves a leap in pixel-level quality, showing exceptional visual fidelity and temporal coherence with a 9.4% SSIM improvement and a 19.7% FVMD reduction. This marks a critical advancement, bridging the gap between neural dynamics and high-fidelity visual semantics.

Ссылки и действия