MDD-Net: Multimodal Depression Detection through Mutual Transformer

2508.08093v1 cs.CV, cs.LG, cs.MM, eess.AS 2025-08-13
Авторы:

Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Hamdi Altaheri, Lobna Nassar, Fakhri Karray

Резюме на русском

## Контекст Сегодня депрессия является одной из наиболее распространенных психических расстройств, значительно снижающих качество жизни и ухудшающих эмоциональное и физическое состояние людей. Одним из перспективных подходов к ее диагностике является использование данных социальных сетей, так как они отражают многообразные аспекты человеческого поведения. Несмотря на это, многие текущие методы диагностики депрессии опираются лишь на одну модальность данных, что приводит к несостоятельной оценке и, как следствие, неточному диагностическому результату. Многомодальный подход, включающий в себя морфологию речи и лицевые выражения, может существенно улучшить точность диагностики. Данная работа предлагает MDD-Net — систему, основанную на mutual transformers, для эффективного диагностирования депрессии с применением акустических и визуальных данных. ## Метод MDD-Net состоит из четырех основных модулей: модуля для извлечения акустических признаков, модуля для извлечения визуальных признаков, mutual transformer для вычисления корреляций между признаками и их слияния, а также модуля для детектирования депрессии на основе сгенерированных признаков. Acoustic Feature Extraction Module использует технологию глубокого обучения для извлечения значимых акустических признаков из звуковых файлов. Visual Feature Extraction Module осуществляет выделение визуальных признаков, отражающих эмоциональное состояние, с использованием конвейера из нескольких контрастных слоёв. Mutual Transformer модуль вычисляет корреляции между акустическими и визуальными данными, а также выполняет их слияние для получения комплексных признаковых представлений. Наконец, Detection Layer принимает эти представления и обеспечивает диагностику депрессии с высокой точностью. ## Результаты Для оценки MDD-Net были проведены тщательные эксперименты на D-Vlog Dataset, который содержит акустические и визуальные данные социальных сетей. Эксперименты показали, что система существенно превосходит существующие методы, повышая F1-Score до 17.37% по сравнению с состоянием арту. Эти результаты подтверждают высокую эффективность MDD-Net в диагностике депрессии, демонстрируя преимущества многомодального подхода с использованием mutual transformers. Детальные результаты и полный исходный код доступны на GitHub по ссылке: [https://github.com/rezwanh001/Multimodal-Depression-Detection](https://github.com/rezwanh001/Multimodal-Depression-Detection). ## Значимость Разработанная система может быть применена в области психиатрии и ментального здоровья для повышения точности диагностики депрессии. Её преимущества заключаются в использовании многомодального подхода, улучшающего достоверность диагноза, и в эффективном использова

Abstract

Depression is a major mental health condition that severely impacts the emotional and physical well-being of individuals. The simple nature of data collection from social media platforms has attracted significant interest in properly utilizing this information for mental health research. A Multimodal Depression Detection Network (MDD-Net), utilizing acoustic and visual data obtained from social media networks, is proposed in this work where mutual transformers are exploited to efficiently extract and fuse multimodal features for efficient depression detection. The MDD-Net consists of four core modules: an acoustic feature extraction module for retrieving relevant acoustic attributes, a visual feature extraction module for extracting significant high-level patterns, a mutual transformer for computing the correlations among the generated features and fusing these features from multiple modalities, and a detection layer for detecting depression using the fused feature representations. The extensive experiments are performed using the multimodal D-Vlog dataset, and the findings reveal that the developed multimodal depression detection network surpasses the state-of-the-art by up to 17.37% for F1-Score, demonstrating the greater performance of the proposed system. The source code is accessible at https://github.com/rezwanh001/Multimodal-Depression-Detection.

Ссылки и действия