Specialised or Generic? Tokenization Choices for Radiology Language Models

2508.09952v1 cs.CL, cs.AI, cs.LG 2025-08-15

Авторы:

Hermione Warr, Wentian Xu, Harry Anthony, Yasin Ibrahim, Daniel McGowan, Konstantinos Kamnitsas

Резюме на русском

## Контекст В области языковых моделей (Language Models, LM) важность выбора токенизатора, определяющего словарь модели, четко установлена. Однако эта проблема в радиологии остается подробно изученной. Радиологические отчеты отличаются специфичным лексиконом, включая медицинские термины и формальную нотацию. Применение широко распространенных естественноязыковых токенизаторов может привести к ошибкам или неполному пониманию текста. Наша мотивация заключается в сравнении специализированных, медицинских и генерических токенизаторов на задаче суммаризации радиологических отчетов, а также изучении эффекта предварительного тренирования моделей (pre-training) на PubMed. ## Метод Мы сравниваем три типа токенизаторов: генерический (с поддержкой русского языка), медицинский и домен-специфический (созданный специально для радиологии). Каждый токенизатор используется для преобразования текстов радиологических отчетов на трех различных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных. Модели тренируются с использованием PubMed и без него. Задача суммаризации измеряется по метрикам качества текста. Для экспериментов используются данные из радиологических центров. ## Результаты Модели с домен-специфическими токенизаторами показали лучшие результаты по метрике BLEU, суммарному скору качества (ROUGE) и другим критериям. Эти модели также работают эффективнее с меньшими потребностями в памяти из-за меньшего размера словаря и корочего потока токенов. Модели с медицинскими токенизаторами также демонстрируют высокий уровень эффективности, хотя специализированные токенизаторы показывают лучшие результаты. Без предварительного тренирования на PubMed различия между токенизаторами более заметны. ## Значимость Наши результаты показывают, что домен-специфические токенизаторы являются оптимальным выбором для задач суммаризации радиологических отчетов. Их использование повышает точность моделей, уменьшает требования к памяти и улучшает производительность. Эти модели могут быть применены в области медицинского

Abstract

The vocabulary used by language models (LM) - defined by the tokenizer - plays a key role in text generation quality. However, its impact remains under-explored in radiology. In this work, we address this gap by systematically comparing general, medical, and domain-specific tokenizers on the task of radiology report summarisation across three imaging modalities. We also investigate scenarios with and without LM pre-training on PubMed abstracts. Our findings demonstrate that medical and domain-specific vocabularies outperformed widely used natural language alternatives when models are trained from scratch. Pre-training partially mitigates performance differences between tokenizers, whilst the domain-specific tokenizers achieve the most favourable results. Domain-specific tokenizers also reduce memory requirements due to smaller vocabularies and shorter sequences. These results demonstrate that adapting the vocabulary of LMs to the clinical domain provides practical benefits, including improved performance and reduced computational demands, making such models more accessible and effective for both research and real-world healthcare settings.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Specialised or Generic? Tokenization Choices for Radiology Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация