SwasthLLM: a Unified Cross-Lingual, Multi-Task, and Meta-Learning Zero-Shot Framework for Medical Diagnosis Using Contrastive Representations

2509.20567v1 cs.CL, cs.AI, cs.IR 2025-09-26
Авторы:

Ayan Sar, Pranav Singh Puri, Sumit Aich, Tanupriya Choudhury, Abhijit Kumar

Резюме на русском

#### Контекст Modern healthcare средах требуют эффективных систем для автоматического диагностирования заболеваний из клинического текста. Эта задача становится особенно сложной в многоязычных средах, где есть недостаточность аннотированных медицинских данных, особенно в low-resource языках, и высокая языковая разнообразия. Эти факторы сильно влияют на качество автоматизированных диагностических систем. Для устранения этих проблем, предлагается разработать SwasthLLM – модель, которая может эффективно работать в cross-lingual средах, способная обучаться в zero-shot режиме и выполнять multi-task задачи без нужды в языкопредварительной настройке. #### Метод SwasthLLM основывается на multilingual XLM-RoBERTa encoder, который включает в себя attention механизм для захвата языковых особенностей. Для обеспечения alignment семантических представлений в разных языках, введен Siamese contrastive learning module, который гарантирует, что семантически эквивалентные медицинские тексты в разных языках будут иметь похожие embeddings. Для улучшения language-invariant representation, используется contrastive projection head. Модель обучается с помощью multi-task learning, включающего в себя задачи disease classification, translation alignment и contrastive learning. Более того, Model-Agnostic Meta-Learning (MAML) применяется для улучшения rapid adaptation capabilities, что позволяет модели быстро адаптироваться к незнакомым языкам или задачам с минимальными данными. #### Результаты Extensive evaluation показывает, что SwasthLLM демонстрирует высокую performance в диагностических задачах. В supervised settings, test accuracy составляет 97.22%, а F1-score – 97.17%. В zero-shot сценариях, SwasthLLM достигает 92.78% accuracy на Hindi и 73.33% на Bengali, что демонстрирует сильную generalization в low-resource языках. Это важно, так как модель не только высоко эффективна в supervised режиме, но и способна выполнять задачи в zero-shot сценариях, что может быть крайне полезно для диагностики в регионах, где нет доступа к аннотированным данным. #### Значимость SwasthLLM может быть применен в различных медицинских средах, где требуется автоматизированное диагностирование заболеваний из текста, особенно в low-resource средах. Основной преимуществом является значительное уменьшение нужды в language-specific fine-tuning. Это позволяет модели быть примененной в разных языковых контекстах без каких-либо дополнительных настроек. Такой подход может сильно повлиять на область медицинского NLP, делая диагностику доступней и эффективней в различных медицинских системах. #### Выводы SwasthLLM показывает сильный потенциал в cross-lingual медицинской диагностике, используя zero-shot и multi-task learning подходы. Основными достижениями являются высокое diagnostic accuracy и generalization в low-resource языках, таких как Hindi и Bengali. Будущие исследования будут сфокусированы на улучшении модели для более широкого набора языков и расширении её возможностей для други

Abstract

In multilingual healthcare environments, automatic disease diagnosis from clinical text remains a challenging task due to the scarcity of annotated medical data in low-resource languages and the linguistic variability across populations. This paper proposes SwasthLLM, a unified, zero-shot, cross-lingual, and multi-task learning framework for medical diagnosis that operates effectively across English, Hindi, and Bengali without requiring language-specific fine-tuning. At its core, SwasthLLM leverages the multilingual XLM-RoBERTa encoder augmented with a language-aware attention mechanism and a disease classification head, enabling the model to extract medically relevant information regardless of the language structure. To align semantic representations across languages, a Siamese contrastive learning module is introduced, ensuring that equivalent medical texts in different languages produce similar embeddings. Further, a translation consistency module and a contrastive projection head reinforce language-invariant representation learning. SwasthLLM is trained using a multi-task learning strategy, jointly optimizing disease classification, translation alignment, and contrastive learning objectives. Additionally, we employ Model-Agnostic Meta-Learning (MAML) to equip the model with rapid adaptation capabilities for unseen languages or tasks with minimal data. Our phased training pipeline emphasizes robust representation alignment before task-specific fine-tuning. Extensive evaluation shows that SwasthLLM achieves high diagnostic performance, with a test accuracy of 97.22% and an F1-score of 97.17% in supervised settings. Crucially, in zero-shot scenarios, it attains 92.78% accuracy on Hindi and 73.33% accuracy on Bengali medical text, demonstrating strong generalization in low-resource contexts.

Ссылки и действия