AI-Powered Detection of Inappropriate Language in Medical School Curricula
2508.19883v1
cs.CL, cs.AI, cs.CY, I.2.1; I.2.7
2025-08-29
Авторы:
Chiman Salavati, Shannon Song, Scott A. Hale, Roberto E. Montenegro, Shiri Dori-Hacohen, Fabricio Murai
Резюме на русском
#### Контекст
Медицинская образовательная программа является ключевым фактором в формировании клинических навыков и отношений с пациентами. Однако данные материалы часто содержат устаревший, исключающий или непациент-центрированный язык, который может сказаться на качестве обучения и результатах лечения. Особенно важно уточнить, что многие из этих материалов были разработаны в течение многих десятилетий, и, несмотря на их репутацию, они могут включать языковые выражения, теперь считающиеся неприемлемыми по современным медицинским стандартам. Таким образом, актуальность идентификации такого языка и его корректировки в медицинских учебниках имеет большую значимость. Несмотря на репутацию современных методик, этот процесс требует огромных вложений времени и ресурсов, что делает его невыполнимым в масштабе.
#### Метод
Для решения этой проблемы были рассмотрены несколько подходов. В качестве основы использовались методы машинного обучения и мелких языковых моделей (Small Language Models, SLM), а также больших языковых моделей (Large Language Models, LLM) с использованием in-context learning. Для SLM были рассмотрены следующие варианты: (1) общий классификатор IUL, (2) подкомпонентный бинарный классификатор, (3) многометричный классификатор и (4) двухступенчатая гибридная система, включающая общую IUL-детекцию и последующую многометричную классификацию. Для LLMs были рассмотрены варианты с применением различных структурных подходов к формированию запросов, включающих определения подкомпонентов и/или строки-образцы (shots).
#### Результаты
В ходе изучения было выявлено, что многометричный классификатор показал самый высокий результат в данных с аннотациями, но повышение эффективности менее специфичных классификаторов достигло 25%, когда добавлялись неотмеченные примеры как отрицательные примеры. Большинство вариантов LLM, включая LLama-3 8B и 70B, не смогли превзойти SLM в точности и качестве распознавания IUL. Даже при использовании структурированных подсказок (shots), LLM иногда предполагали неточные или различные оценки сравнительно с SLM. Однако гибридная модель, объединяющая общую IUL-детекцию с многометричным классификатором, показала наиболее эффективный подход.
#### Значимость
Этот подход может быть применен в различных сферах, где необходима идентификация и корректировка неприемлемого языка, в том числе в образовательной сфере и клинических исследованиях. Особенно важно, чтобы медицинские учебные программы отражали современные стандарты, так как это может повлиять на клиническое обучение, отно
Abstract
The use of inappropriate language -- such as outdated, exclusionary, or
non-patient-centered terms -- medical instructional materials can significantly
influence clinical training, patient interactions, and health outcomes. Despite
their reputability, many materials developed over past decades contain examples
now considered inappropriate by current medical standards. Given the volume of
curricular content, manually identifying instances of inappropriate use of
language (IUL) and its subcategories for systematic review is prohibitively
costly and impractical. To address this challenge, we conduct a first-in-class
evaluation of small language models (SLMs) fine-tuned on labeled data and
pre-trained LLMs with in-context learning on a dataset containing approximately
500 documents and over 12,000 pages. For SLMs, we consider: (1) a general IUL
classifier, (2) subcategory-specific binary classifiers, (3) a multilabel
classifier, and (4) a two-stage hierarchical pipeline for general IUL detection
followed by multilabel classification. For LLMs, we consider variations of
prompts that include subcategory definitions and/or shots. We found that both
LLama-3 8B and 70B, even with carefully curated shots, are largely outperformed
by SLMs. While the multilabel classifier performs best on annotated data,
supplementing training with unflagged excerpts as negative examples boosts the
specific classifiers' AUC by up to 25%, making them most effective models for
mitigating harmful language in medical curricula.