FusionEnsemble-Net: An Attention-Based Ensemble of Spatiotemporal Networks for Multimodal Sign Language Recognition

2508.09362v1 cs.CV, cs.AI, cs.LG 2025-08-15

Авторы:

Md. Milon Islam, Md Rezwanul Haque, S M Taslim Uddin Raju, Fakhri Karray

Резюме на русском

## Контекст Говорение и знаки, используемые в здравоохранении, требуют точного распознавания сложной многоmodal'ных жестов. Однако существующие методы часто сталкиваются с проблемами точности и стабильности, особенно при работе со синхронными данными. Из-за этого, разработка более эффективных методов распознавания знаков и жестов является ключевым мотивом для повышения доступности здравоохранения для людей с нарушениями речи или слуха. ## Метод FusionEnsemble-Net представляет собой набор двухmodal'ных сетей, объединенных в единую конфигурацию, чтобы улучшить их работу. В этой модели используется последовательное слияние данных с разных модалок, таких как RGB-видео и дальномерные карты. Эта модель состоит из четырех сетей с разными архитектурами, которые формируют разные способы обработки данных. Каждая сеть применяет модуль внимания, чтобы выделить имеющуюся важность каждого модала. Эти модели объединяются в одну систему, которая учитывает различные взгляды на данные. ## Результаты Эксперименты проводились на большом датасете MultiMeDaLIS, относящемся к знакам итальянского языка знаков. Модель FusionEnsemble-Net показала высокую точность распознавания - 99.44%. Это свидетельствует о том, что модель может синхронно использовать две модальности данных, а единая система внимания и классификации повышает ее точность. ## Значимость Результаты модели могут быть применены в различных областях, таких как здравоохранение, образование и социальные связи, чтобы обеспечить более доступное взаимодействие с людьми, использующими знаки. FusionEnsemble-Net является более точной и устойчивой альтернативой существующим решениям, что может повлиять на развитие технологий в области распознавания жестов и знаков. ## Выводы FusionEnsemble-Net доказала свою эффективность в распознавании знаков и жестов, благодаря использованию системы внимания и слияния данных. Будущие работы будут направлены на расширение модели для работы с другими языками знаков и улучшение ее универсальности.

Abstract

Accurate recognition of sign language in healthcare communication poses a significant challenge, requiring frameworks that can accurately interpret complex multimodal gestures. To deal with this, we propose FusionEnsemble-Net, a novel attention-based ensemble of spatiotemporal networks that dynamically fuses visual and motion data to enhance recognition accuracy. The proposed approach processes RGB video and range Doppler map radar modalities synchronously through four different spatiotemporal networks. For each network, features from both modalities are continuously fused using an attention-based fusion module before being fed into an ensemble of classifiers. Finally, the outputs of these four different fused channels are combined in an ensemble classification head, thereby enhancing the model's robustness. Experiments demonstrate that FusionEnsemble-Net outperforms state-of-the-art approaches with a test accuracy of 99.44% on the large-scale MultiMeDaLIS dataset for Italian Sign Language. Our findings indicate that an ensemble of diverse spatiotemporal networks, unified by attention-based fusion, yields a robust and accurate framework for complex, multimodal isolated gesture recognition tasks. The source code is available at: https://github.com/rezwanh001/Multimodal-Isolated-Italian-Sign-Language-Recognition.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

FusionEnsemble-Net: An Attention-Based Ensemble of Spatiotemporal Networks for Multimodal Sign Language Recognition

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация