Specialised or Generic? Tokenization Choices for Radiology Language Models
2508.09952v1
cs.CL, cs.AI, cs.LG
2025-08-15
Авторы:
Hermione Warr, Wentian Xu, Harry Anthony, Yasin Ibrahim, Daniel McGowan, Konstantinos Kamnitsas
Резюме на русском
## Контекст
В области языковых моделей (Language Models, LM) важность выбора токенизатора, определяющего словарь модели, четко установлена. Однако эта проблема в радиологии остается подробно изученной. Радиологические отчеты отличаются специфичным лексиконом, включая медицинские термины и формальную нотацию. Применение широко распространенных естественноязыковых токенизаторов может привести к ошибкам или неполному пониманию текста. Наша мотивация заключается в сравнении специализированных, медицинских и генерических токенизаторов на задаче суммаризации радиологических отчетов, а также изучении эффекта предварительного тренирования моделей (pre-training) на PubMed.
## Метод
Мы сравниваем три типа токенизаторов: генерический (с поддержкой русского языка), медицинский и домен-специфический (созданный специально для радиологии). Каждый токенизатор используется для преобразования текстов радиологических отчетов на трех различных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных импульсивных. Модели тренируются с использованием PubMed и без него. Задача суммаризации измеряется по метрикам качества текста. Для экспериментов используются данные из радиологических центров.
## Результаты
Модели с домен-специфическими токенизаторами показали лучшие результаты по метрике BLEU, суммарному скору качества (ROUGE) и другим критериям. Эти модели также работают эффективнее с меньшими потребностями в памяти из-за меньшего размера словаря и корочего потока токенов. Модели с медицинскими токенизаторами также демонстрируют высокий уровень эффективности, хотя специализированные токенизаторы показывают лучшие результаты. Без предварительного тренирования на PubMed различия между токенизаторами более заметны.
## Значимость
Наши результаты показывают, что домен-специфические токенизаторы являются оптимальным выбором для задач суммаризации радиологических отчетов. Их использование повышает точность моделей, уменьшает требования к памяти и улучшает производительность. Эти модели могут быть применены в области медицинского
Abstract
The vocabulary used by language models (LM) - defined by the tokenizer -
plays a key role in text generation quality. However, its impact remains
under-explored in radiology. In this work, we address this gap by
systematically comparing general, medical, and domain-specific tokenizers on
the task of radiology report summarisation across three imaging modalities. We
also investigate scenarios with and without LM pre-training on PubMed
abstracts. Our findings demonstrate that medical and domain-specific
vocabularies outperformed widely used natural language alternatives when models
are trained from scratch. Pre-training partially mitigates performance
differences between tokenizers, whilst the domain-specific tokenizers achieve
the most favourable results. Domain-specific tokenizers also reduce memory
requirements due to smaller vocabularies and shorter sequences. These results
demonstrate that adapting the vocabulary of LMs to the clinical domain provides
practical benefits, including improved performance and reduced computational
demands, making such models more accessible and effective for both research and
real-world healthcare settings.
Ссылки и действия
Дополнительные ресурсы: