Deep learning and abstractive summarisation for radiological reports: an empirical study for adapting the PEGASUS models' family with scarce data
2509.15419v1
cs.CL, cs.AI, cs.LG
2025-09-22
Авторы:
Claudio Benzoni, Martina Langhals, Martin Boeker, Luise Modersohn, Máté E. Maros
Резюме на русском
## Контекст
Область исследования — искусственный интеллект в сфере медицины, а именно — автоматическая суммирования радиологических отчетов. Этот вопрос приобретает важность в связи с ростом количества данных в области радиологии, что создает необходимость в эффективных инструментах для автоматического суммирования медицинских текстов. Несмотря на прогресс в области глубокого обучения, абстрактное суммирование всё ещё представляет собой вызов, особенно в ситуациях, когда данные ограничены и потребность в точности высока. Целью данной работы является исследование и анализ процесса адаптации нейронных сетей семейства PEGASUS к специализированной области — радиологическим отчетам. Ещё одной целью является определение оптимальных параметров моделей и изучение рисков переобучения и недообучения при малом объёме данных.
## Метод
Для решения поставленных задач использовались модели PEGASUS и PEGASUS-X. Подход к адаптации заключался в гибком модифицировании этих моделей, включая fine-tuning с использованием специально подготовленной медицинской выборки. Для оценки моделей использовались метрики семантической и лексической точности, включая BLEU, ROUGE, METEOR. Модели тренировались на данных, содержащих 230 тысяч реальных радиологических отчетов. Выборка данных была разделена на train/validation/test в соотношении 80/10/10. Для каждой модели проводился эксперимент с разными размерами моделей, чтобы изучить влияние размера на обучение.
## Результаты
PEGASUS демонстрировал различные этапы тренировки, включая "двойное убывание" и "пика, падение и восстановление". PEGASUS-X, при использовании большего размера модели, показал снижение производительности по сравнению с меньшим размером модели. Семантические и лексические метрики показали, что при малом объёме данных модель PEGASUS-X в ситуациях ошибочного размера модели может работать хуже, чем PEGASUS. Эта ситуация подчёркивает острость проблемы в случае недостатка данных и высокой выразительности моделей.
## Значимость
Результаты имеют практическое применение в сфере медицины, особенно в автоматизации суммирования радиологических отчетов. Модели PEGASUS могут быть применены для создания эффективных систем, которые уменьшают время, затрачиваемое на ручное суммирование клинических данных. Благодаря этому можно улучшить качество и эффективность работы врачей. Это также открывает пути для дальнейшего исследования методов fine-tuning моделей с высоким уровнем выразительности в ситуациях с ограниченным количеством данных.
## Выводы
Данная работа показывает, что адаптация моделей PEGASUS к специализированным данным мож
Abstract
Regardless of the rapid development of artificial intelligence, abstractive
summarisation is still challenging for sensitive and data-restrictive domains
like medicine. With the increasing number of imaging, the relevance of
automated tools for complex medical text summarisation is expected to become
highly relevant. In this paper, we investigated the adaptation via fine-tuning
process of a non-domain-specific abstractive summarisation encoder-decoder
model family, and gave insights to practitioners on how to avoid over- and
underfitting. We used PEGASUS and PEGASUS-X, on a medium-sized radiological
reports public dataset. For each model, we comprehensively evaluated two
different checkpoints with varying sizes of the same training data. We
monitored the models' performances with lexical and semantic metrics during the
training history on the fixed-size validation set. PEGASUS exhibited different
phases, which can be related to epoch-wise double-descent, or
peak-drop-recovery behaviour. For PEGASUS-X, we found that using a larger
checkpoint led to a performance detriment. This work highlights the challenges
and risks of fine-tuning models with high expressivity when dealing with scarce
training data, and lays the groundwork for future investigations into more
robust fine-tuning strategies for summarisation models in specialised domains.
Ссылки и действия
Дополнительные ресурсы: