The Role of Review Process Failures in Affective State Estimation: An Empirical Investigation of DEAP Dataset

2508.02417v1 eess.SP, cs.LG 2025-08-09
Авторы:

Nazmun N Khan, Taylor Sweet, Chase A Harvey, Calder Knapp, Dean J. Krusienski, David E Thompson

Резюме на русском

#### Контекст Установить точное восприятие эмоционального состояния с помощью электроэнцефалограмм (EEG) оказалось нелегким заданием. Это связано с неоднородностью результатов и отсутствием унифицированных критериев оценки. Одной из наиболее известных платформ для работы с этими данными является DEAP, которая используется в огромном количестве исследований. Несмотря на это, широко распространенными ошибками в работе над DEAP являются неверное разбиение данных, выбор биазный признаков, недостаточная оптимизация параметров модели, игнорирование несбалансированности классов и недостаточная транспарентность в описании методологии. Эти недостатки не только мешают достижению точных результатов, но и вызывают вопросы о реальной надежности получаемых результатов. Наша цель — изучить то, насколько эти проблемы влияют на результаты исследований, и предложить решения для улучшения методологии. #### Метод Мы проанализировали 101 исследования, использующих DEAP-данные для распознавания эмоций. Наша основная методика включала экспертные оценки, анализ полученных результатов и воспроизведение экспериментов с нарушением стандартных процедур. Мы искали распространенные проблемы в методологии, такие как проблемы с разделением данных, недостаточное использование классификаторов и неверное использование гиперпараметров. Для подтверждения нашей теории, мы воспроизвели эксперименты с известными ошибками в методологии и сравнили их результаты с теми, которые получились при строгом соблюдении стандартов. Это позволило нам оценить вклад каждой из проблем в получаемый вывод. #### Результаты Мы обнаружили, что 87% из 101 исследований, проанализированных в рамках нашего исследования, содержат один или несколько ошибочных аспектов методологии. Наиболее часто встречаются проблемы с неправильным разделением данных и недостаточным экспериментальным контролем. Мы также обнаружили, что эти ошибки могут привести к существенному увеличению категориальной точности классификации — до 46%. Эти результаты показывают, что распространенные недостатки в методологии могут значительно повлиять на надежность результатов. Они также свидетельствуют о том, что недостаток стандартизации в этих исследованиях может привести к значительной неточности и несогласованности в данных. #### Значимость Наши результаты имеют большое значение для многих областей, в том числе для машинного обучения, биомедицины, искусственного интеллекта и обработки сигналов. Они показывают, что наличие стандартизированных процедур работы с данными может значительно повысить надежность результатов. Наши по

Abstract

The reliability of affective state estimation using EEG data is in question, given the variability in reported performance and the lack of standardized evaluation protocols. To investigate this, we reviewed 101 studies, focusing on the widely used DEAP dataset for emotion recognition. Our analysis revealed widespread methodological issues that include data leakage from improper segmentation, biased feature selection, flawed hyperparameter optimization, neglect of class imbalance, and insufficient methodological reporting. Notably, we found that nearly 87% of the reviewed papers contained one or more of these errors. Moreover, through experimental analysis, we observed that such methodological flaws can inflate the classification accuracy by up to 46%. These findings reveal fundamental gaps in standardized evaluation practices and highlight critical deficiencies in the peer review process for machine learning applications in neuroscience, emphasizing the urgent need for stricter methodological standards and evaluation protocols.

Ссылки и действия