Dynamic Fusion Multimodal Network for SpeechWellness Detection
2508.18057v1
cs.SD, cs.AI
2025-08-27
Авторы:
Wenqiang Sun, Han Yin, Jisheng Bai, Jianfeng Chen
Резюме на русском
## Контекст
Самоубийство является одной из ведущих причин смертности среди подростков. Определение риска самоубийства является критической проблемой в области психиатрии и искусственного интеллекта. Одним из основных подходов является использование мультимодальных сигналов, таких как речь и текст, для получения более полного представления о ментальном состоянии человека. Однако существующие методы часто ограничиваются анализом только одного типа сигналов, что приводит к урезанному виду информации и неэффективной оценке риска. В этом контексте, в рамках 1-го SpeechWellness Detection Challenge, предлагается исследовать новую мультимодальную систему, которая использует динамический механизм слияния модальностей для эффективного детектирования статуса "speech wellness".
## Метод
Предложенная система основывается на мультимодальной архитектуре с динамическим слиянием модальностей. Она использует как временные последовательности (time-domain), так и временно-частотные (time-frequency, TF) акустические признаки, а также семантические представления для более точного определения риска. Главная инновация заключается в разработке динамического блока слияния, который применяет learnable weights для каждой модальности в процессе слияния. Это позволяет модели адаптировать вклад каждой модальности в процессе определения результата. Для лучшей эффективности вычислений архитектура была упрощена и существенно сокращена в модели базового типа, что позволило сократить количество параметров в разы.
## Результаты
Для проверки эффективности системы проводились эксперименты на специальной выборке данных. Проведение экспериментов показало, что модель показывает значительно лучшую точность в детектировании статуса "speech wellness" по сравнению с базовой моделью, использовавшейся в ходе вызова. Было достигнуто 78% сокращения количества параметров модели и получено 5% увеличение точности. Эти результаты подтверждают эффективность использования мультимодального подхода и динамического слияния модальностей для повышения точности в данной области.
## Значимость
Предложенная модель может быть применена в сфере психологического мониторинга и психиатрии для определения риска самоубийства. Она предлагает значительное повышение точности в определении здоровьесберегающего статуса речи по сравнению с традиционными подходами. Использование мультимодальных сигналов также позволяет лучше учитывать различные аспекты психического состояния, что делает модель более гибкой и эффективной в решении данной задачи. Будущие исследования будут сфокусированы на улучшении методов оценки риска и интеграции дополнительных модально
Abstract
Suicide is one of the leading causes of death among adolescents. Previous
suicide risk prediction studies have primarily focused on either textual or
acoustic information in isolation, the integration of multimodal signals, such
as speech and text, offers a more comprehensive understanding of an
individual's mental state. Motivated by this, and in the context of the 1st
SpeechWellness detection challenge, we explore a lightweight multi-branch
multimodal system based on a dynamic fusion mechanism for speechwellness
detection. To address the limitation of prior approaches that rely on
time-domain waveforms for acoustic analysis, our system incorporates both
time-domain and time-frequency (TF) domain acoustic features, as well as
semantic representations. In addition, we introduce a dynamic fusion block to
adaptively integrate information from different modalities. Specifically, it
applies learnable weights to each modality during the fusion process, enabling
the model to adjust the contribution of each modality. To enhance computational
efficiency, we design a lightweight structure by simplifying the original
baseline model. Experimental results demonstrate that the proposed system
exhibits superior performance compared to the challenge baseline, achieving a
78% reduction in model parameters and a 5% improvement in accuracy.
Ссылки и действия
Дополнительные ресурсы: