Dynamic Fusion Multimodal Network for SpeechWellness Detection

2508.18057v1 cs.SD, cs.AI 2025-08-27

Авторы:

Wenqiang Sun, Han Yin, Jisheng Bai, Jianfeng Chen

Резюме на русском

## Контекст Самоубийство является одной из ведущих причин смертности среди подростков. Определение риска самоубийства является критической проблемой в области психиатрии и искусственного интеллекта. Одним из основных подходов является использование мультимодальных сигналов, таких как речь и текст, для получения более полного представления о ментальном состоянии человека. Однако существующие методы часто ограничиваются анализом только одного типа сигналов, что приводит к урезанному виду информации и неэффективной оценке риска. В этом контексте, в рамках 1-го SpeechWellness Detection Challenge, предлагается исследовать новую мультимодальную систему, которая использует динамический механизм слияния модальностей для эффективного детектирования статуса "speech wellness". ## Метод Предложенная система основывается на мультимодальной архитектуре с динамическим слиянием модальностей. Она использует как временные последовательности (time-domain), так и временно-частотные (time-frequency, TF) акустические признаки, а также семантические представления для более точного определения риска. Главная инновация заключается в разработке динамического блока слияния, который применяет learnable weights для каждой модальности в процессе слияния. Это позволяет модели адаптировать вклад каждой модальности в процессе определения результата. Для лучшей эффективности вычислений архитектура была упрощена и существенно сокращена в модели базового типа, что позволило сократить количество параметров в разы. ## Результаты Для проверки эффективности системы проводились эксперименты на специальной выборке данных. Проведение экспериментов показало, что модель показывает значительно лучшую точность в детектировании статуса "speech wellness" по сравнению с базовой моделью, использовавшейся в ходе вызова. Было достигнуто 78% сокращения количества параметров модели и получено 5% увеличение точности. Эти результаты подтверждают эффективность использования мультимодального подхода и динамического слияния модальностей для повышения точности в данной области. ## Значимость Предложенная модель может быть применена в сфере психологического мониторинга и психиатрии для определения риска самоубийства. Она предлагает значительное повышение точности в определении здоровьесберегающего статуса речи по сравнению с традиционными подходами. Использование мультимодальных сигналов также позволяет лучше учитывать различные аспекты психического состояния, что делает модель более гибкой и эффективной в решении данной задачи. Будущие исследования будут сфокусированы на улучшении методов оценки риска и интеграции дополнительных модально

Abstract

Suicide is one of the leading causes of death among adolescents. Previous suicide risk prediction studies have primarily focused on either textual or acoustic information in isolation, the integration of multimodal signals, such as speech and text, offers a more comprehensive understanding of an individual's mental state. Motivated by this, and in the context of the 1st SpeechWellness detection challenge, we explore a lightweight multi-branch multimodal system based on a dynamic fusion mechanism for speechwellness detection. To address the limitation of prior approaches that rely on time-domain waveforms for acoustic analysis, our system incorporates both time-domain and time-frequency (TF) domain acoustic features, as well as semantic representations. In addition, we introduce a dynamic fusion block to adaptively integrate information from different modalities. Specifically, it applies learnable weights to each modality during the fusion process, enabling the model to adjust the contribution of each modality. To enhance computational efficiency, we design a lightweight structure by simplifying the original baseline model. Experimental results demonstrate that the proposed system exhibits superior performance compared to the challenge baseline, achieving a 78% reduction in model parameters and a 5% improvement in accuracy.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Dynamic Fusion Multimodal Network for SpeechWellness Detection

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация