NeuroGaze-Distill: Brain-informed Distillation and Depression-Inspired Geometric Priors for Robust Facial Emotion Recognition

2509.11916v1 cs.CV, I.2.10; I.4.8; I.5.4 2025-09-17

Авторы:

Zilin Li, Weiwei Xu, Xuanqi Zhao, Yiran Zhu

Резюме на русском

#### Контекст Узнавание эмоций на основе лица (FER) является важной задачей в области обработки имиджей и обнаружения эмоций. Несмотря на успех моделей, которые обучаются на пикселях, они часто сталкиваются с проблемой неполного обобщения на новых данных. Это связано с тем, что лицевая природа не является прямым и несмещенным прокси-индикатором внутренних эмоциональных состояний. Без собственных внутренних представлений о чувствах модели остаются ограниченными в своей точности и универсальности. Другая мотивация заключается в использовании нейроинформационных признаков, которые могут уточнять визуальные модели, но часто требуют сложных парности данных и ресурсоемких вычислений. Цель настоящей работы — развить простую, эффективную и универсальную методологию, которая может быть развернута в реальном мире. #### Метод Мы предлагаем NeuroGaze-Distill, кросс-модальный фреймворк обучения с подделкой, который передает биоинформационные признаки из модели-учителя в модель-ученика, основываясь на статических признаках valence/arousal (V/A) и депрессионным инспирированном геометрическом признаке (D-Geo). Учитель, обученный на EEG-топографических картах от DREAMER (с MAHNOB-HCI в качестве неотмеченных данных), производит статическую сетку V/A 5x5, которая замораживается и используется на протяжении всего учебного процесса. Нет необходимости в парности лиц-EEG или невизуальных сигналах во время работы. Ученик, реализованный как ResNet-18/50, обучается на FERPlus с использованием классических кросс-энтропийных и классических классификационных регуляризаторов: (i) **Proto-KD (cosine)**, который выравнивает внутренние признаки ученика с головоломными V/A-признаками; и (ii) **D-Geo**, который мягко изменяет геометрию признаков, опираясь на наблюдения из исследований депрессии, например, сокращении вокруг высокоудовольствия. Мы проводим эксперименты внутри домена (FERPlus) и междоменного (AffectNet-mini, CK+), измеряя 8-и классовые оценки, а также метрики F1 и балансируемую точность для сравнения с неодинаковыми метками. #### Результаты Испытания показали, что NeuroGaze-Distill показывает стабильные улучшения в точности и F1-метрике по сравнению с базовой моделью. Абляционные эксперименты подтвердили вклад статических признаков V/A и D-Geo в улучшение производительности. Мы проанализировали размер статической сетки V/A и обнаружили, что 5x5 дает лучший баланс между стабильностью и производительностью. Наши результаты показали, что NeuroGaze-Distill может быть эффективно применен для улучшения универсальности FER-моделей без дополнительных архитектурных сложностей.

Abstract

Facial emotion recognition (FER) models trained only on pixels often fail to generalize across datasets because facial appearance is an indirect and biased proxy for underlying affect. We present NeuroGaze-Distill, a cross-modal distillation framework that transfers brain-informed priors into an image-only FER student via static Valence/Arousal (V/A) prototypes and a depression-inspired geometric prior (D-Geo). A teacher trained on EEG topographic maps from DREAMER (with MAHNOB-HCI as unlabeled support) produces a consolidated 5x5 V/A prototype grid that is frozen and reused; no EEG-face pairing and no non-visual signals at deployment are required. The student (ResNet-18/50) is trained on FERPlus with conventional CE/KD and two lightweight regularizers: (i) Proto-KD (cosine) aligns student features to the static prototypes; (ii) D-Geo softly shapes the embedding geometry in line with affective findings often reported in depression research (e.g., anhedonia-like contraction in high-valence regions). We evaluate both within-domain (FERPlus validation) and cross-dataset protocols (AffectNet-mini; optional CK+), reporting standard 8-way scores alongside present-only Macro-F1 and balanced accuracy to fairly handle label-set mismatch. Ablations attribute consistent gains to prototypes and D-Geo, and favor 5x5 over denser grids for stability. The method is simple, deployable, and improves robustness without architectural complexity.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

NeuroGaze-Distill: Brain-informed Distillation and Depression-Inspired Geometric Priors for Robust Facial Emotion Recognition

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dense Motion Captioning

Навигация