Авторы:
Haojun Yu, Youcheng Li, Zihan Niu, Nan Zhang, Xuantong Gong, Huan Li, Zhiying Zou, Haifeng Qi, Zhenxiao Cao, Zijie Lan, Xingjian Yuan, Jiating He, Haokai Zhang, Shengtao Zhang, Zicheng Wang, Dong Wang, Ziwei Zhao, Congying Chen, Yong Wang, Wangyan Qin, Qingli Zhu, Liwei Wang
## Контекст
Breast ultrasound (BUS) является важной диагностической методой для обнаружения и изучения новообразований в груди. Ежегодно проводится миллионы экспериментов, но существуют значительные проблемы в области обучения искусственных нейронных сетей для этой области. Ограниченность надежных и крупных высококачественных датасетов, а также нехватка подробного анализа различных типов грудиных новообразований, создают значительные вызовы для развития AI. Мотивацией для создания датасета BUS-CoT является решение этих проблем и повышение точности диагностики, особенно в области редких и сложных типов новообразований, которые часто вызывают трудности для клинических специалистов.
## Метод
BUS-CoT (Breast Ultrasound Chain-of-Thought) является крупным датасетом, специально разработанным для анализа процесса рассуждения (chain-of-thought, CoT). Он содержит 11,439 изображений, относящихся к 10,019 лейцины из 4,838 пациентов. Датасет охватывает все 99 типов грудиных новообразований, согласно их классификации. Чтобы обеспечить надежность и точность, процессы рассуждения были структурированы на следующие этапы: наблюдение, определение признаков, диагноз и классификация по хистопатологии. Эти этапы были аннотированы и проверены опытными специалистами, чтобы обеспечить высокую точность и репрезентативность.
## Результаты
Датасет BUS-CoT был использован в экспериментах на построении моделей CoT-рассуждения. Проведенные эксперименты показали, что модели, обученные на данных BUS-CoT, демонстрируют значительное повышение точности в диагностике, особенно в случаях редких и сложных новообразований. Это подтверждает то, что датасет может способствовать развитию AI-систем, которые обладают улучшенной способностью работать в редких и ошибочно-склонных классах.
## Значимость
Благодаря своему широкому охвату и подробной аннотации, датасет BUS-CoT может быть применен в различных областях медицинского AI, включая обучение нейронных сетей для диагностики грудиных новообразований. Он предоставляет уникальные возможности для повышения точности и универсальности AI-систем, особенно в случаях, где существует риск ошибок. Это включает в себя не только редкие новообразования, но также сложные случаи, где клинические специалисты могут столкнуться с трудностями.
## Выводы
Благодаря своей полноте и качественной аннотации, датасет BUS-CoT является открытием в области исследований CoT-рассуждений в медицине. Он позволяет улучшить точность диагностики и расширить возможности AI в области грудиных новообразований. На будущее, исследователи планируют расширить да
Annotation:
Breast ultrasound (BUS) is an essential tool for diagnosing breast lesions,
with millions of examinations per year. However, publicly available
high-quality BUS benchmarks for AI development are limited in data scale and
annotation richness. In this work, we present BUS-CoT, a BUS dataset for
chain-of-thought (CoT) reasoning analysis, which contains 11,439 images of
10,019 lesions from 4,838 patients and covers all 99 histopathology types. To
facilitate research on incentivizing CoT reasoning, w...
ID: 2509.17046v2
eess.IV, cs.AI, cs.CV