Predicting and Explaining Traffic Crash Severity Through Crash Feature Selection
2508.11504v1
cs.LG, cs.CY
2025-08-19
Авторы:
Andrea Castellani, Zacharias Papadovasilakis, Giorgos Papoutsoglou, Mary Cole, Brian Bautsch, Tobias Rodemann, Ioannis Tsamardinos, Angela Harden
Резюме на русском
## Контекст
Транспортные происшествия остаются лидирующим фактором травматизма и смертности во всем мире. Несмотря на существующие меры безопасности, необходимо развитие новых данных-д basед подходов для точного прогнозирования и устранения серьезных последствий. Особенно критичным является вопрос об определении и интерпретации ключевых факторов, влияющих на уровень травм и серьезности аварий. Такие факторы могут включать в себя демографические, экологические, технические и операционные аспекты. Целью данного исследования является разработка прозрачной и повторяемой методологии, основанной на автоматизированных методах машинного обучения и исследовании их интерпретации, чтобы улучшить понимание факторов, влияющих на серьезность аварий.
## Метод
Исследование основывается на широком датасете, содержащем более 3 миллионов записей о авариях, собранных над этим штатом в течение шести лет (2017–2022). Данные были агрегированы до уровня транспортных средств, составив 2,3 миллиона записей для анализа. Для построения прогностических моделей была применена методология, объединяющая Автоматизированное Машинное Обучение (AutoML) и Объяснимая Искусственная Интеллектуальная Система (Explainable AI), в частности, технику SHapley Additive exPlanations (SHAP). Эти технологии позволили выделить и интерпретировать значимые факторы, влияющие на серьезность аварий. Модели были обучены и проверены на разнородных данных с использованием многочленной логистической регрессии, чтобы обеспечить лучшую читаемость и понимание результатов.
## Результаты
Используя методы AutoML, были построены модели, отличающие серьезные от несерьезных аварий. Модели были проверены в условиях тестового сета, получив AUC-ROC в 84,9%. Значимыми факторами оказались 17 признаков, среди которых: тип места происшествия, установленная скорость, возраст салонных пассажиров, действия до аварии. Особое внимание было уделено прозрачности интерпретации результатов. Например, какие-то традиционно важные факторы, такие как алкогольное опьянение, оказались менее важными, чем экологические и контекстуальные переменные. Это демонстрирует мощь нового подхода, который ценит точность и понимание результатов выше простого предсказания.
## Значимость
Разработанный подход может применяться в различных сферах, включая транспортную безопасность, страхование, городской планирование и машинное обучение. Он предоставляет новый способ интерпретировать данные, чтобы понять, какие факторы влияют на
Abstract
Motor vehicle crashes remain a leading cause of injury and death worldwide,
necessitating data-driven approaches to understand and mitigate crash severity.
This study introduces a curated dataset of more than 3 million people involved
in accidents in Ohio over six years (2017-2022), aggregated to more than 2.3
million vehicle-level records for predictive analysis. The primary contribution
is a transparent and reproducible methodology that combines Automated Machine
Learning (AutoML) and explainable artificial intelligence (AI) to identify and
interpret key risk factors associated with severe crashes. Using the JADBio
AutoML platform, predictive models were constructed to distinguish between
severe and non-severe crash outcomes. The models underwent rigorous feature
selection across stratified training subsets, and their outputs were
interpreted using SHapley Additive exPlanations (SHAP) to quantify the
contribution of individual features. A final Ridge Logistic Regression model
achieved an AUC-ROC of 85.6% on the training set and 84.9% on a hold-out test
set, with 17 features consistently identified as the most influential
predictors. Key features spanned demographic, environmental, vehicle, human,
and operational categories, including location type, posted speed, minimum
occupant age, and pre-crash action. Notably, certain traditionally emphasized
factors, such as alcohol or drug impairment, were less influential in the final
model compared to environmental and contextual variables. Emphasizing
methodological rigor and interpretability over mere predictive performance,
this study offers a scalable framework to support Vision Zero with aligned
interventions and advanced data-informed traffic safety policy.
Ссылки и действия
Дополнительные ресурсы: