Classification of kinetic-related injury in hospital triage data using NLP
2509.04969v1
cs.CL, cs.LG
2025-09-09
Авторы:
Midhun Shyam, Jim Basilakis, Kieran Luken, Steven Thomas, John Crozier, Paul M. Middleton, X. Rosalind Wang
Резюме на русском
## Контекст
Триаж-заметки, создаваемые в начале пациентского посещения в больнице, содержат ценные сведения, которые могут помочь медицинским персоналу и исследователям понять эпидемиологию пациентов в отделе неотложной помощи и степень временности заболевания или травмы. Однако применение современных технологий естественного языкового обработки (NLP) и машинного обучения (ML) для анализа триажных данных сталкивается с рядом проблем. Во-первых, госпитальные данные содержат чрезвычайно чувствительную информацию, которая подлежит законам о защите приватности, и поэтому должна анализироваться на месте. Во-вторых, большинство госпиталей и медицинских учреждений не обладают необходимым оборудованием для тонкой настройки больших языковых моделей (LLM), а вовсе не готовы к их обучению с нуля. Наконец, для идентификации записей, требующих внимания, требуется экспертное вовлечение в ручной пометке данных, что требует много времени и стоит дорого. Мы представляем в данной работе процесс, который позволяет классифицировать триажные данные с помощью LLM и ограниченных вычислительных ресурсов.
## Метод
Мы использовали предобученную LLM, классификатор, который был быстро приведен к успешной работе на маленьком (2K) открытом наборе данных с помощью GPU. Затем, для приспособления к определенному госпитальному набору данных (1K примеров), мы продолжили обучение модели на CPU. Это позволило нам удачно классифицировать триажные данные с ограниченными вычислительными ресурсами. Мы демонстрируем, что строго выбранные наборы данных и использование уже существующих моделей и открытых данных могут обеспечить успех в классификации триажных записей даже на ограниченных мощностях.
## Результаты
Мы провели эксперименты с небольшим набором открытых данных (2K примеров) и госпитальным набором данных (1K примеров), используя LLM. Для тонкой настройки использовались GPU и CPU соответственно. В результате получили высокую точность классификации, даже при ограниченных вычислительных ресурсах. Это позволило успешно идентифицировать критические триажные записи с первичной классификацией.
## Значимость
Представленный подход может применяться в различных областях, таких как мониторинг здоровья, оптимизация ресурсов госпиталей и улучшение заболеваемости. Он предлагает более эффективный и экономичный способ использования LLM в здравоохранении. Мы видим возможность использования этой модели для быстрого определения критических случаев в время реального времени, что может способствовать более точному вмешательству в критических ситуациях.
## Выводы
Мы успе
Abstract
Triage notes, created at the start of a patient's hospital visit, contain a
wealth of information that can help medical staff and researchers understand
Emergency Department patient epidemiology and the degree of time-dependent
illness or injury. Unfortunately, applying modern Natural Language Processing
and Machine Learning techniques to analyse triage data faces some challenges:
Firstly, hospital data contains highly sensitive information that is subject to
privacy regulation thus need to be analysed on site; Secondly, most hospitals
and medical facilities lack the necessary hardware to fine-tune a Large
Language Model (LLM), much less training one from scratch; Lastly, to identify
the records of interest, expert inputs are needed to manually label the
datasets, which can be time-consuming and costly. We present in this paper a
pipeline that enables the classification of triage data using LLM and limited
compute resources. We first fine-tuned a pre-trained LLM with a classifier
using a small (2k) open sourced dataset on a GPU; and then further fine-tuned
the model with a hospital specific dataset of 1000 samples on a CPU. We
demonstrated that by carefully curating the datasets and leveraging existing
models and open sourced data, we can successfully classify triage data with
limited compute resources.
Ссылки и действия
Дополнительные ресурсы: