📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine

2025-08-22

Авторы:

Junying Chen, Zhenyang Cai, Zhiheng Liu, Yunjin Yang, Rongsheng Wang, Qingying Xiao, Xiangyi Feng, Zhan Su, Jing Guo, Xiang Wan, Guangjun Yu, Haizhou Li, Benyou Wang

#### Контекст Классические знания о традиционной китайской медицине (TCM), основанные на глубокой теоретической базе, весьма ценны для понимания и корректного применения этого направления в лечении. Однако существуют две основные проблемы: отсутствие достаточного количества высококачественных данных для обучения и высокая многомодальность TCM, включающей в себя такие сенсорные модели, как видение, слух, осязание и даже сенсорное восприятие пульса. Традиционные трансформации текста не могут успешно решить эти задачи. Из-за этого LLMs (large language models), несмотря на их успех в других областях, пока не применимы для решения проблем в области TCM. Мы предлагаем ShizhenGPT - первый мультимодальный LLM, разработанный специально для решения проблем в области Традиционной китайской медицины. #### Метод ShizhenGPT разрабатывается на основе предварительной обученной модели LLMs, которая получила многомодальные данные, включая текстовые данные, изображения, аудио и даже физиологические сигналы. Мы сформировали одну из крупнейших коллекций данных в сфере Традиционной китайской медицины, состоящую из 100 ГБ текстовых данных и 200 ГБ мультимодальных данных. Данные включают 1,2 миллиона изображений, 200 часов аудио и физиологические сигналы. Модель ShizhenGPT была обучена на этих данных с использованием предварительной обученной модели LLMs и инструментами обучения с помощью инструкций. Это позволило модели не только получать глубокие знания о Традиционной китайской медицине, но также производить мультимодальный анализ. #### Результаты Мы проверили ShizhenGPT на крупнейших национальных экзаменах по квалификации в области Традиционной китайской медицины. Также был создан визуальный бенчмарк для оценки визуального распознавания и диагностики лекарственных средств. Эксперименты показали, что ShizhenGPT оказалась выигрышной в сравнении с соревнующимися моделями различных масштабов и даже с более крупными моделями, которые имеют доступ к большим ресурсам. Особенно важно отметить, что ShizhenGPT проявила лучшую способность к визуальному распознаванию в TCM, включая распознавание медикаментов по их визуальным свойствам, и демонстрирует гармоничное восприятие данных в разных модальностях, таких как звук, пульс, запах и визуальные сигналы. #### Значимость Мы видим широкие возможности применения ShizhenGPT в области Традиционной китайской медицины. Эта модель может использоваться в области диагностики, лечения, учебных программ и проектах по изучению Традиционной китайской медицины. Широкий спектр модальностей, которые модель может об

Annotation:

Despite the success of large language models (LLMs) in various domains, their potential in Traditional Chinese Medicine (TCM) remains largely underexplored due to two critical barriers: (1) the scarcity of high-quality TCM data and (2) the inherently multimodal nature of TCM diagnostics, which involve looking, listening, smelling, and pulse-taking. These sensory-rich modalities are beyond the scope of conventional LLMs. To address these challenges, we present ShizhenGPT, the first multimodal LLM...

ID: 2508.14706v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 Beyond the Leaderboard: Rethinking Medical Benchmarks for Large Language Models

2025-08-09

Авторы:

Zizhan Ma, Wenxuan Wang, Guo Yu, Yiu-Fai Cheung, Meidan Ding, Jie Liu, Wenting Chen, Linlin Shen

**Резюме** Появление больших языковых моделей (LLMs) в области медицины открыло новые возможности, но остается спорным из-за недостатка надежности оценочных бенчмарков. Большинство таких бенчмарков либо недостаточно приближены к реальной клинической практике, либо страдают от проблем с данными, такими как попадание контролируемых случаев в обучающие выборки. Для устранения этих проблем авторы предлагают MedCheck — первую разработку, ориентированную на жизненный цикл бенчмарков, с целью глубокого анализа их качества. MedCheck включает 46 критериев, разделенных на 5 этапов жизненного цикла бенчмарков, начиная от разработки и заканчивая государственным управлением. Исследователи применяют MedCheck к 53 LLM-бенчмаркам, выявляя серьезные проблемы, включая отсутствие связи с клинической практикой, риски данных из-за негативного воздействия и недостаток оценки стойкости моделей и их понимания неопределенности. Результаты показывают, что MedCheck может стать мощным инструментом для оценки и улучшения бенчмарков, способствуя более надежной и транспаренной оценке AI в медицине.

Annotation:

Large language models (LLMs) show significant potential in healthcare, prompting numerous benchmarks to evaluate their capabilities. However, concerns persist regarding the reliability of these benchmarks, which often lack clinical fidelity, robust data management, and safety-oriented evaluation metrics. To address these shortcomings, we introduce MedCheck, the first lifecycle-oriented assessment framework specifically designed for medical benchmarks. Our framework deconstructs a benchmark's dev...

ID: 2508.04325v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF