Classification of kinetic-related injury in hospital triage data using NLP

2509.04969v1 cs.CL, cs.LG 2025-09-09
Авторы:

Midhun Shyam, Jim Basilakis, Kieran Luken, Steven Thomas, John Crozier, Paul M. Middleton, X. Rosalind Wang

Резюме на русском

## Контекст Триаж-заметки, создаваемые в начале пациентского посещения в больнице, содержат ценные сведения, которые могут помочь медицинским персоналу и исследователям понять эпидемиологию пациентов в отделе неотложной помощи и степень временности заболевания или травмы. Однако применение современных технологий естественного языкового обработки (NLP) и машинного обучения (ML) для анализа триажных данных сталкивается с рядом проблем. Во-первых, госпитальные данные содержат чрезвычайно чувствительную информацию, которая подлежит законам о защите приватности, и поэтому должна анализироваться на месте. Во-вторых, большинство госпиталей и медицинских учреждений не обладают необходимым оборудованием для тонкой настройки больших языковых моделей (LLM), а вовсе не готовы к их обучению с нуля. Наконец, для идентификации записей, требующих внимания, требуется экспертное вовлечение в ручной пометке данных, что требует много времени и стоит дорого. Мы представляем в данной работе процесс, который позволяет классифицировать триажные данные с помощью LLM и ограниченных вычислительных ресурсов. ## Метод Мы использовали предобученную LLM, классификатор, который был быстро приведен к успешной работе на маленьком (2K) открытом наборе данных с помощью GPU. Затем, для приспособления к определенному госпитальному набору данных (1K примеров), мы продолжили обучение модели на CPU. Это позволило нам удачно классифицировать триажные данные с ограниченными вычислительными ресурсами. Мы демонстрируем, что строго выбранные наборы данных и использование уже существующих моделей и открытых данных могут обеспечить успех в классификации триажных записей даже на ограниченных мощностях. ## Результаты Мы провели эксперименты с небольшим набором открытых данных (2K примеров) и госпитальным набором данных (1K примеров), используя LLM. Для тонкой настройки использовались GPU и CPU соответственно. В результате получили высокую точность классификации, даже при ограниченных вычислительных ресурсах. Это позволило успешно идентифицировать критические триажные записи с первичной классификацией. ## Значимость Представленный подход может применяться в различных областях, таких как мониторинг здоровья, оптимизация ресурсов госпиталей и улучшение заболеваемости. Он предлагает более эффективный и экономичный способ использования LLM в здравоохранении. Мы видим возможность использования этой модели для быстрого определения критических случаев в время реального времени, что может способствовать более точному вмешательству в критических ситуациях. ## Выводы Мы успе

Abstract

Triage notes, created at the start of a patient's hospital visit, contain a wealth of information that can help medical staff and researchers understand Emergency Department patient epidemiology and the degree of time-dependent illness or injury. Unfortunately, applying modern Natural Language Processing and Machine Learning techniques to analyse triage data faces some challenges: Firstly, hospital data contains highly sensitive information that is subject to privacy regulation thus need to be analysed on site; Secondly, most hospitals and medical facilities lack the necessary hardware to fine-tune a Large Language Model (LLM), much less training one from scratch; Lastly, to identify the records of interest, expert inputs are needed to manually label the datasets, which can be time-consuming and costly. We present in this paper a pipeline that enables the classification of triage data using LLM and limited compute resources. We first fine-tuned a pre-trained LLM with a classifier using a small (2k) open sourced dataset on a GPU; and then further fine-tuned the model with a hospital specific dataset of 1000 samples on a CPU. We demonstrated that by carefully curating the datasets and leveraging existing models and open sourced data, we can successfully classify triage data with limited compute resources.

Ссылки и действия