Improving Crash Data Quality with Large Language Models: Evidence from Secondary Crash Narratives in Kentucky
2508.04399v1
cs.CL, cs.AI, cs.IR, cs.LG
2025-08-09
Авторы:
Xu Zhang, Mei Chen
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Повышение качества данных о дорожно-транспортных происшествиях (ДТП) является ключевым фактором для повышения безопасности дорожного движения. Одной из серьезных проблем в этой области является точная идентификация вторичных ДТП, которые часто недостаточно задокументированы в основных отчетах. Вторичные ДТП — это события, которые происходят в результате задержек или перенаправлений трафика, вызванных первичным ДТП. Традиционные методы анализа часто не могут эффективно обрабатывать свободные текстовые описания событий, что приводит к потере важной информации.
В штате Кентукки были собраны и проверены вручную 16 656 нарратива ДТП за период 2015–2022 годов, в которых было подтверждено 3 803 вторичных ДТП. Эти данные показывают, что традиционные методы классификации и анализа текстовых данных страдают от ограниченной точности и высокого уровня ложноположительных результатов. Поэтому необходимо разработать более точные и эффективные методы, основанные на современных технологиях обработки естественного языка (НЛП), для анализа таких текстовых данных.
Использование передовых моделей НЛП, таких как Large Language Models (LLMs) и файн-тюнинговые трансформеры, может предоставить новые возможности для улучшения качества данных. Однако эти модели отличаются по точности, скорости работы и вычислительным требованиям. Таким образом, целью данного исследования является оценка эффективности различных моделей НЛП для улучшения качества данных о ДТП, специально в контексте идентификации вторичных ДТП.
## ПРЕДЛОЖЕННЫЙ МЕТОД
В исследовании были использованы три класса моделей для анализа текстовых нарративов ДТП:
1. **Zero-shot Large Language Models (LLMs):** Эти модели, такие как LLaMA3:70B, DeepSeek-R1:70B, Qwen3:32B и Gemma3:27B, работают без предварительной калибровки на специфических данных. Они используют обширные знания, встроенные в модели, для классификации текстов.
2. **Файн-тюнинговые трансформеры:** Этот класс включает модели BERT, DistilBERT, RoBERTa, XLNet и Longformer, которые были специально оттюнированы на данных ДТП Кентукки за период 2015–2021 годов.
3. **Традиционная логистическая регрессия:** Этот метод использовался в качестве базового для сравнения с более передовыми моделями.
Модели были обучены на данных 2015–2021 годов и протестированы на данных 2022 года, которые содержали 1 771 нарратив. Методология включала в себя подготовку данных, обучение моделей и оценку их производительности с использованием метрик, таких как точность (accuracy) и F1-score.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Результаты экспериментов показали, что файн-тюнинговые трансформеры достигли наилучших результатов. Модель RoBERTa показала наивысший F1-score (0,90) и точность (95%). Эти результаты значительно превосходят базовый метод логистической регрессии, который достиг F1-score только 0,66.
Zero-shot LLMs также показали высокую эффективность, особенно Gemma3:27B, которая достигла F1-score 0,86 и высокого recall (0,94). Однако эти модели требуют значительных вычислительных ресурсов. Например, обработка данных с помощью DeepSeek-R1:70B заняла до 723 минут, в то время как файн-тюнинговые модели обрабатывали тестирующий набор за секунды после короткого обучения.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Исследование демонстрирует практическую значимость использования передовых моделей НЛП для улучшения качества данных о ДТП. Файн-тюнинговые трансформеры, такие как RoBERTa, предоставляют высокую точность и эффективность, что делает их подходящими для реального применения.
Кроме того, исследование подчеркивает важность разработки эффективных стратегий развертывания, таких как локальное размещение моделей с целью обеспечения конфиденциальности, а также использование ансамблей моделей для повышения точности. Инкрементальная обработка данных может также помочь в обеспечении масштабируемости таких систем.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
Исследование показывает, что файн-тюнинговые трансформеры являются наиболее эффективными для улучшения качества данных о ДТП. Однако существует потенциал для дальнейшего улучшения с помощью оптимизации размеров моделей и использования меньших LLMs для сокращения времени обработки. Будущие исследования могут фокусироваться на разработке более эффективных методов для реального времени обработки данных и интеграции этих технологий в существующие системы мониторинга безопасности дорожного движения.
Abstract
This study evaluates advanced natural language processing (NLP) techniques to
enhance crash data quality by mining crash narratives, using secondary crash
identification in Kentucky as a case study. Drawing from 16,656 manually
reviewed narratives from 2015-2022, with 3,803 confirmed secondary crashes, we
compare three model classes: zero-shot open-source large language models (LLMs)
(LLaMA3:70B, DeepSeek-R1:70B, Qwen3:32B, Gemma3:27B); fine-tuned transformers
(BERT, DistilBERT, RoBERTa, XLNet, Longformer); and traditional logistic
regression as baseline. Models were calibrated on 2015-2021 data and tested on
1,771 narratives from 2022. Fine-tuned transformers achieved superior
performance, with RoBERTa yielding the highest F1-score (0.90) and accuracy
(95%). Zero-shot LLaMA3:70B reached a comparable F1 of 0.86 but required 139
minutes of inference; the logistic baseline lagged well behind (F1:0.66). LLMs
excelled in recall for some variants (e.g., GEMMA3:27B at 0.94) but incurred
high computational costs (up to 723 minutes for DeepSeek-R1:70B), while
fine-tuned models processed the test set in seconds after brief training.
Further analysis indicated that mid-sized LLMs (e.g., DeepSeek-R1:32B) can
rival larger counterparts in performance while reducing runtime, suggesting
opportunities for optimized deployments. Results highlight trade-offs between
accuracy, efficiency, and data requirements, with fine-tuned transformer models
balancing precision and recall effectively on Kentucky data. Practical
deployment considerations emphasize privacy-preserving local deployment,
ensemble approaches for improved accuracy, and incremental processing for
scalability, providing a replicable scheme for enhancing crash-data quality
with advanced NLP.