Exploring Machine Learning and Language Models for Multimodal Depression Detection
2508.20805v1
cs.CL, cs.AI, cs.SD
2025-08-30
Авторы:
Javier Si Zhao Hong, Timothy Zoe Delaya, Sherwyn Chan Yin Kit, Pai Chet Ng, Xiaoxiao Miao
Резюме на русском
#### Контекст
Самоощущение бытия (self-awareness), психическое здоровье и функциональность человека зависят от емких и принятого в социуме поведения. Депрессия, как одна из наиболее распространенных психических расстройств, оказывает существенное влияние на эти аспекты. Однако, определение депрессии и её степени часто требует долговременного лечения и мониторинга, что может привести к задержке диагноза и последующим последствиям. Настоящее исследование ориентируется на разработку методов многоmodal'ного выявления депрессии, используя машинное обучение и глубокие нейронные сети. Это актуально в связи со становлением информационных технологий и ИИ в работе с психическим здоровьем.
#### Метод
Мы используем три типа данных: звуковые фрагменты, видео, и текстовые фрагменты, для выявления сигналов депрессии. Модели XGBoost, трансформер-архитектуры и большие языковые модели (LLMs) были выбраны для сравнительного анализа. Данные записывались в лаборатории специализированных устройств, включая телефоны, компьютеры, и компактные датчики. Модели обучались на многоканальных признаках, после чего проводился сравнительный анализ на выборке данных. Для анализа требулами мы применяли метрики F1-score и accuracy.
#### Результаты
Мы проверили работу моделей на трех модах: звуке, видео, и тексте. Исследование показало, что LLMs лучше всего справляются с видеоданными, за счёт их мощи в обработке естественного языка. XGBoost показал высокую производительность с звуковыми файлами. Трансформеры среднестатистически показались в эффективности, но демонстрируют лучшую производительность в качестве модификационных моделей. В целом, результаты подтвердили, что многоmodal'ное обучение может значительно улучшить точность диагноза депрессии.
#### Значимость
Наша работа открывает новые возможности для оптимизации диагностики депрессии с помощью ИИ. Многоmodal'ные модели могут быть применены в психиатрии для повышения точности диагноза, минимизации задержек, и улучшения результатов лечения. Мы также выделяем возможность использования наших моделей для других психических расстройств, таких как аутизм и тестирование синдрома дефицита внимания.
#### Выводы
Мы успешно исследовали различные модели машинного обучения для диагностики депрессии с помощью многоmodal'ных признаков. Наши результаты показали, что LLMs и XGBoost превосходят трансформеры в определенных модах данных. Мы также подтвердили значимость многоmodal'ных моделей в развитии ИИ для психического здоровья. В будущем мы планируем расширить наши модели для включ
Abstract
This paper presents our approach to the first Multimodal Personality-Aware
Depression Detection Challenge, focusing on multimodal depression detection
using machine learning and deep learning models. We explore and compare the
performance of XGBoost, transformer-based architectures, and large language
models (LLMs) on audio, video, and text features. Our results highlight the
strengths and limitations of each type of model in capturing depression-related
signals across modalities, offering insights into effective multimodal
representation strategies for mental health prediction.
Ссылки и действия
Дополнительные ресурсы: