Exploring Machine Learning and Language Models for Multimodal Depression Detection

2508.20805v1 cs.CL, cs.AI, cs.SD 2025-08-30
Авторы:

Javier Si Zhao Hong, Timothy Zoe Delaya, Sherwyn Chan Yin Kit, Pai Chet Ng, Xiaoxiao Miao

Резюме на русском

#### Контекст Самоощущение бытия (self-awareness), психическое здоровье и функциональность человека зависят от емких и принятого в социуме поведения. Депрессия, как одна из наиболее распространенных психических расстройств, оказывает существенное влияние на эти аспекты. Однако, определение депрессии и её степени часто требует долговременного лечения и мониторинга, что может привести к задержке диагноза и последующим последствиям. Настоящее исследование ориентируется на разработку методов многоmodal'ного выявления депрессии, используя машинное обучение и глубокие нейронные сети. Это актуально в связи со становлением информационных технологий и ИИ в работе с психическим здоровьем. #### Метод Мы используем три типа данных: звуковые фрагменты, видео, и текстовые фрагменты, для выявления сигналов депрессии. Модели XGBoost, трансформер-архитектуры и большие языковые модели (LLMs) были выбраны для сравнительного анализа. Данные записывались в лаборатории специализированных устройств, включая телефоны, компьютеры, и компактные датчики. Модели обучались на многоканальных признаках, после чего проводился сравнительный анализ на выборке данных. Для анализа требулами мы применяли метрики F1-score и accuracy. #### Результаты Мы проверили работу моделей на трех модах: звуке, видео, и тексте. Исследование показало, что LLMs лучше всего справляются с видеоданными, за счёт их мощи в обработке естественного языка. XGBoost показал высокую производительность с звуковыми файлами. Трансформеры среднестатистически показались в эффективности, но демонстрируют лучшую производительность в качестве модификационных моделей. В целом, результаты подтвердили, что многоmodal'ное обучение может значительно улучшить точность диагноза депрессии. #### Значимость Наша работа открывает новые возможности для оптимизации диагностики депрессии с помощью ИИ. Многоmodal'ные модели могут быть применены в психиатрии для повышения точности диагноза, минимизации задержек, и улучшения результатов лечения. Мы также выделяем возможность использования наших моделей для других психических расстройств, таких как аутизм и тестирование синдрома дефицита внимания. #### Выводы Мы успешно исследовали различные модели машинного обучения для диагностики депрессии с помощью многоmodal'ных признаков. Наши результаты показали, что LLMs и XGBoost превосходят трансформеры в определенных модах данных. Мы также подтвердили значимость многоmodal'ных моделей в развитии ИИ для психического здоровья. В будущем мы планируем расширить наши модели для включ

Abstract

This paper presents our approach to the first Multimodal Personality-Aware Depression Detection Challenge, focusing on multimodal depression detection using machine learning and deep learning models. We explore and compare the performance of XGBoost, transformer-based architectures, and large language models (LLMs) on audio, video, and text features. Our results highlight the strengths and limitations of each type of model in capturing depression-related signals across modalities, offering insights into effective multimodal representation strategies for mental health prediction.

Ссылки и действия