Improving Crash Data Quality with Large Language Models: Evidence from Secondary Crash Narratives in Kentucky

2508.04399v1 cs.CL, cs.AI, cs.IR, cs.LG 2025-08-09

Авторы:

Xu Zhang, Mei Chen

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Повышение качества данных о дорожно-транспортных происшествиях (ДТП) является ключевым фактором для повышения безопасности дорожного движения. Одной из серьезных проблем в этой области является точная идентификация вторичных ДТП, которые часто недостаточно задокументированы в основных отчетах. Вторичные ДТП — это события, которые происходят в результате задержек или перенаправлений трафика, вызванных первичным ДТП. Традиционные методы анализа часто не могут эффективно обрабатывать свободные текстовые описания событий, что приводит к потере важной информации. В штате Кентукки были собраны и проверены вручную 16 656 нарратива ДТП за период 2015–2022 годов, в которых было подтверждено 3 803 вторичных ДТП. Эти данные показывают, что традиционные методы классификации и анализа текстовых данных страдают от ограниченной точности и высокого уровня ложноположительных результатов. Поэтому необходимо разработать более точные и эффективные методы, основанные на современных технологиях обработки естественного языка (НЛП), для анализа таких текстовых данных. Использование передовых моделей НЛП, таких как Large Language Models (LLMs) и файн-тюнинговые трансформеры, может предоставить новые возможности для улучшения качества данных. Однако эти модели отличаются по точности, скорости работы и вычислительным требованиям. Таким образом, целью данного исследования является оценка эффективности различных моделей НЛП для улучшения качества данных о ДТП, специально в контексте идентификации вторичных ДТП. ## ПРЕДЛОЖЕННЫЙ МЕТОД В исследовании были использованы три класса моделей для анализа текстовых нарративов ДТП: 1. **Zero-shot Large Language Models (LLMs):** Эти модели, такие как LLaMA3:70B, DeepSeek-R1:70B, Qwen3:32B и Gemma3:27B, работают без предварительной калибровки на специфических данных. Они используют обширные знания, встроенные в модели, для классификации текстов. 2. **Файн-тюнинговые трансформеры:** Этот класс включает модели BERT, DistilBERT, RoBERTa, XLNet и Longformer, которые были специально оттюнированы на данных ДТП Кентукки за период 2015–2021 годов. 3. **Традиционная логистическая регрессия:** Этот метод использовался в качестве базового для сравнения с более передовыми моделями. Модели были обучены на данных 2015–2021 годов и протестированы на данных 2022 года, которые содержали 1 771 нарратив. Методология включала в себя подготовку данных, обучение моделей и оценку их производительности с использованием метрик, таких как точность (accuracy) и F1-score. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Результаты экспериментов показали, что файн-тюнинговые трансформеры достигли наилучших результатов. Модель RoBERTa показала наивысший F1-score (0,90) и точность (95%). Эти результаты значительно превосходят базовый метод логистической регрессии, который достиг F1-score только 0,66. Zero-shot LLMs также показали высокую эффективность, особенно Gemma3:27B, которая достигла F1-score 0,86 и высокого recall (0,94). Однако эти модели требуют значительных вычислительных ресурсов. Например, обработка данных с помощью DeepSeek-R1:70B заняла до 723 минут, в то время как файн-тюнинговые модели обрабатывали тестирующий набор за секунды после короткого обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Исследование демонстрирует практическую значимость использования передовых моделей НЛП для улучшения качества данных о ДТП. Файн-тюнинговые трансформеры, такие как RoBERTa, предоставляют высокую точность и эффективность, что делает их подходящими для реального применения. Кроме того, исследование подчеркивает важность разработки эффективных стратегий развертывания, таких как локальное размещение моделей с целью обеспечения конфиденциальности, а также использование ансамблей моделей для повышения точности. Инкрементальная обработка данных может также помочь в обеспечении масштабируемости таких систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показывает, что файн-тюнинговые трансформеры являются наиболее эффективными для улучшения качества данных о ДТП. Однако существует потенциал для дальнейшего улучшения с помощью оптимизации размеров моделей и использования меньших LLMs для сокращения времени обработки. Будущие исследования могут фокусироваться на разработке более эффективных методов для реального времени обработки данных и интеграции этих технологий в существующие системы мониторинга безопасности дорожного движения.

Abstract

This study evaluates advanced natural language processing (NLP) techniques to enhance crash data quality by mining crash narratives, using secondary crash identification in Kentucky as a case study. Drawing from 16,656 manually reviewed narratives from 2015-2022, with 3,803 confirmed secondary crashes, we compare three model classes: zero-shot open-source large language models (LLMs) (LLaMA3:70B, DeepSeek-R1:70B, Qwen3:32B, Gemma3:27B); fine-tuned transformers (BERT, DistilBERT, RoBERTa, XLNet, Longformer); and traditional logistic regression as baseline. Models were calibrated on 2015-2021 data and tested on 1,771 narratives from 2022. Fine-tuned transformers achieved superior performance, with RoBERTa yielding the highest F1-score (0.90) and accuracy (95%). Zero-shot LLaMA3:70B reached a comparable F1 of 0.86 but required 139 minutes of inference; the logistic baseline lagged well behind (F1:0.66). LLMs excelled in recall for some variants (e.g., GEMMA3:27B at 0.94) but incurred high computational costs (up to 723 minutes for DeepSeek-R1:70B), while fine-tuned models processed the test set in seconds after brief training. Further analysis indicated that mid-sized LLMs (e.g., DeepSeek-R1:32B) can rival larger counterparts in performance while reducing runtime, suggesting opportunities for optimized deployments. Results highlight trade-offs between accuracy, efficiency, and data requirements, with fine-tuned transformer models balancing precision and recall effectively on Kentucky data. Practical deployment considerations emphasize privacy-preserving local deployment, ensemble approaches for improved accuracy, and incremental processing for scalability, providing a replicable scheme for enhancing crash-data quality with advanced NLP.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Improving Crash Data Quality with Large Language Models: Evidence from Secondary Crash Narratives in Kentucky

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

General Agentic Memory Via Deep Research

Inside CORE-KG: Evaluating Structured Prompting and Coreference Resolution for K...

DuoLens: A Framework for Robust Detection of Machine-Generated Multilingual Text...

Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

Is Implicit Knowledge Enough for LLMs? A RAG Approach for Tree-based Structures

Навигация