ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine
2508.14706v1
cs.CL, cs.AI, cs.CV, cs.LG, cs.MM
2025-08-22
Авторы:
Junying Chen, Zhenyang Cai, Zhiheng Liu, Yunjin Yang, Rongsheng Wang, Qingying Xiao, Xiangyi Feng, Zhan Su, Jing Guo, Xiang Wan, Guangjun Yu, Haizhou Li, Benyou Wang
Резюме на русском
#### Контекст
Классические знания о традиционной китайской медицине (TCM), основанные на глубокой теоретической базе, весьма ценны для понимания и корректного применения этого направления в лечении. Однако существуют две основные проблемы: отсутствие достаточного количества высококачественных данных для обучения и высокая многомодальность TCM, включающей в себя такие сенсорные модели, как видение, слух, осязание и даже сенсорное восприятие пульса. Традиционные трансформации текста не могут успешно решить эти задачи. Из-за этого LLMs (large language models), несмотря на их успех в других областях, пока не применимы для решения проблем в области TCM. Мы предлагаем ShizhenGPT - первый мультимодальный LLM, разработанный специально для решения проблем в области Традиционной китайской медицины.
#### Метод
ShizhenGPT разрабатывается на основе предварительной обученной модели LLMs, которая получила многомодальные данные, включая текстовые данные, изображения, аудио и даже физиологические сигналы. Мы сформировали одну из крупнейших коллекций данных в сфере Традиционной китайской медицины, состоящую из 100 ГБ текстовых данных и 200 ГБ мультимодальных данных. Данные включают 1,2 миллиона изображений, 200 часов аудио и физиологические сигналы. Модель ShizhenGPT была обучена на этих данных с использованием предварительной обученной модели LLMs и инструментами обучения с помощью инструкций. Это позволило модели не только получать глубокие знания о Традиционной китайской медицине, но также производить мультимодальный анализ.
#### Результаты
Мы проверили ShizhenGPT на крупнейших национальных экзаменах по квалификации в области Традиционной китайской медицины. Также был создан визуальный бенчмарк для оценки визуального распознавания и диагностики лекарственных средств. Эксперименты показали, что ShizhenGPT оказалась выигрышной в сравнении с соревнующимися моделями различных масштабов и даже с более крупными моделями, которые имеют доступ к большим ресурсам. Особенно важно отметить, что ShizhenGPT проявила лучшую способность к визуальному распознаванию в TCM, включая распознавание медикаментов по их визуальным свойствам, и демонстрирует гармоничное восприятие данных в разных модальностях, таких как звук, пульс, запах и визуальные сигналы.
#### Значимость
Мы видим широкие возможности применения ShizhenGPT в области Традиционной китайской медицины. Эта модель может использоваться в области диагностики, лечения, учебных программ и проектах по изучению Традиционной китайской медицины. Широкий спектр модальностей, которые модель может об
Abstract
Despite the success of large language models (LLMs) in various domains, their
potential in Traditional Chinese Medicine (TCM) remains largely underexplored
due to two critical barriers: (1) the scarcity of high-quality TCM data and (2)
the inherently multimodal nature of TCM diagnostics, which involve looking,
listening, smelling, and pulse-taking. These sensory-rich modalities are beyond
the scope of conventional LLMs. To address these challenges, we present
ShizhenGPT, the first multimodal LLM tailored for TCM. To overcome data
scarcity, we curate the largest TCM dataset to date, comprising 100GB+ of text
and 200GB+ of multimodal data, including 1.2M images, 200 hours of audio, and
physiological signals. ShizhenGPT is pretrained and instruction-tuned to
achieve deep TCM knowledge and multimodal reasoning. For evaluation, we collect
recent national TCM qualification exams and build a visual benchmark for
Medicinal Recognition and Visual Diagnosis. Experiments demonstrate that
ShizhenGPT outperforms comparable-scale LLMs and competes with larger
proprietary models. Moreover, it leads in TCM visual understanding among
existing multimodal LLMs and demonstrates unified perception across modalities
like sound, pulse, smell, and vision, paving the way toward holistic multimodal
perception and diagnosis in TCM. Datasets, models, and code are publicly
available. We hope this work will inspire further exploration in this field.