FusionEnsemble-Net: An Attention-Based Ensemble of Spatiotemporal Networks for Multimodal Sign Language Recognition
2508.09362v1
cs.CV, cs.AI, cs.LG
2025-08-15
Авторы:
Md. Milon Islam, Md Rezwanul Haque, S M Taslim Uddin Raju, Fakhri Karray
Резюме на русском
## Контекст
Говорение и знаки, используемые в здравоохранении, требуют точного распознавания сложной многоmodal'ных жестов. Однако существующие методы часто сталкиваются с проблемами точности и стабильности, особенно при работе со синхронными данными. Из-за этого, разработка более эффективных методов распознавания знаков и жестов является ключевым мотивом для повышения доступности здравоохранения для людей с нарушениями речи или слуха.
## Метод
FusionEnsemble-Net представляет собой набор двухmodal'ных сетей, объединенных в единую конфигурацию, чтобы улучшить их работу. В этой модели используется последовательное слияние данных с разных модалок, таких как RGB-видео и дальномерные карты. Эта модель состоит из четырех сетей с разными архитектурами, которые формируют разные способы обработки данных. Каждая сеть применяет модуль внимания, чтобы выделить имеющуюся важность каждого модала. Эти модели объединяются в одну систему, которая учитывает различные взгляды на данные.
## Результаты
Эксперименты проводились на большом датасете MultiMeDaLIS, относящемся к знакам итальянского языка знаков. Модель FusionEnsemble-Net показала высокую точность распознавания - 99.44%. Это свидетельствует о том, что модель может синхронно использовать две модальности данных, а единая система внимания и классификации повышает ее точность.
## Значимость
Результаты модели могут быть применены в различных областях, таких как здравоохранение, образование и социальные связи, чтобы обеспечить более доступное взаимодействие с людьми, использующими знаки. FusionEnsemble-Net является более точной и устойчивой альтернативой существующим решениям, что может повлиять на развитие технологий в области распознавания жестов и знаков.
## Выводы
FusionEnsemble-Net доказала свою эффективность в распознавании знаков и жестов, благодаря использованию системы внимания и слияния данных. Будущие работы будут направлены на расширение модели для работы с другими языками знаков и улучшение ее универсальности.
Abstract
Accurate recognition of sign language in healthcare communication poses a
significant challenge, requiring frameworks that can accurately interpret
complex multimodal gestures. To deal with this, we propose FusionEnsemble-Net,
a novel attention-based ensemble of spatiotemporal networks that dynamically
fuses visual and motion data to enhance recognition accuracy. The proposed
approach processes RGB video and range Doppler map radar modalities
synchronously through four different spatiotemporal networks. For each network,
features from both modalities are continuously fused using an attention-based
fusion module before being fed into an ensemble of classifiers. Finally, the
outputs of these four different fused channels are combined in an ensemble
classification head, thereby enhancing the model's robustness. Experiments
demonstrate that FusionEnsemble-Net outperforms state-of-the-art approaches
with a test accuracy of 99.44% on the large-scale MultiMeDaLIS dataset for
Italian Sign Language. Our findings indicate that an ensemble of diverse
spatiotemporal networks, unified by attention-based fusion, yields a robust and
accurate framework for complex, multimodal isolated gesture recognition tasks.
The source code is available at:
https://github.com/rezwanh001/Multimodal-Isolated-Italian-Sign-Language-Recognition.
Ссылки и действия
Дополнительные ресурсы: