DiagECG: An LLM-Driven Framework for Diagnostic Reasoning via Discretized ECG Tokenization

2508.15338v1 cs.AI, cs.CL 2025-08-23
Авторы:

Jinning Yang, Wen Shi

Резюме на русском

## Контекст Электрокардиография (ECG) является ключевым инструментом в диагностике заболеваний сердечно-сосудистой системы. Однако существующие автоматизированные подходы часто сталкиваются с проблемами общестепенности и не могут полноценно поддерживать открытый рассуждательный процесс. Эти ограничения существенно снижают эффективность клинических решений. Мы предлагаем DiagECG — уникальную систему, которая объединяет моделирование временных рядов и естественных языков, обеспечивая широкий круг задач в области диагностики. Модель не только расширяет возможности существующих моделей, но и позволяет новым пользователям применять технологии глубокого обучения в медицинских задачах. ## Метод DiagECG использует сочетание техник токенизации и моделирования временных рядов. Основной алгоритм включает: 1. **Токенизация ЭКГ**: 12-лидные сигналы ЭКГ преобразуются в символьные токены с помощью lead-independent encoder и quantization module. 2. **Расширение LLM-входа**: новые токены добавляются к существующей модели, позволяя ей обрабатывать входные данные как ЭКГ, так и естественный язык. 3. **Предварительное обучение**: модель проходит набор трехугольных задач авторегрессионного прогнозирования ЭКГ, чтобы модель LLM могла осуществлять динамическую моделирование ЭКГ. 4. **Инструкционное тюнинг**: последний этап включает подготовку модели к задачам вопроса-ответа и созданию диагностических отчетов. ## Результаты Мы провели эксперименты с использованием больших данных ЭКГ и сравнили результаты с традиционными подходами. Модель DiagECG показала высокую обобщаемость и точность в диагностических задачах. Обнаружено, что включение токенизированных ЭКГ в LLM существенно повышает производительность и обеспечивает устойчивую работу в условиях нестандартных задач. ## Значимость DiagECG может применяться в различных сферах, включая клиническую диагностику, предсказание медицинских событий и генерацию отчетов. Основные преимущества: - Улучшение общестепенности и точности в медицинских задачах. - Увеличение возможности использования глубокого обучения в медицине. - Формирование промышленной платформы для связи технологий глубокого обучения и жизненно важного развития. ## Выводы Наш подход демонстрирует мощь интеграции символьных представлений ЭКГ и моделей естественного языка. Дальнейшие исследования будут направлены на расширение возможностей модели, улучшение ее универсальности и повышение ее доступности для клинических практик.

Abstract

Electrocardiography plays a central role in cardiovascular diagnostics, yet existing automated approaches often struggle to generalize across clinical tasks and offer limited support for open-ended reasoning. We present DiagECG, a novel framework that integrates time-series and language modeling by enabling large language models to process 12-lead ECG signals for clinical text generation tasks. Our approach discretizes continuous ECG embeddings into symbolic tokens using a lead-independent encoder and quantization module. These tokens are then used to extend the vocabulary of LLM, allowing the model to handle both ECG and natural language inputs in a unified manner. To bridge the modality gap, we pretrain the model on an autoregressive ECG forecasting task, enabling the LLM to model temporal dynamics using its native language modeling capabilities. Finally, we perform instruction tuning on both ECG question answering and diagnostic report generation. Without modifying the core model, DiagECG achieves strong performance across tasks while maintaining generalization to out-of-distribution settings. Extensive experiments demonstrate the effectiveness of each component and highlight the potential of integrating symbolic ECG representations into LLMs for medical reasoning.

Ссылки и действия