Multi-Modal Camera-Based Detection of Vulnerable Road Users
2509.06333v1
cs.CV, cs.RO
2025-09-10
Авторы:
Penelope Brown, Julie Stephany Berrio Perez, Mao Shan, Stewart Worrall
Резюме на русском
## Контекст
Современная дорожная безопасность сталкивается с значительными проблемами, связанными с опасностью для нерешительных дорожных пользователей (VRUs), включая пешеходов, велосипедистов и мотоциклистов. Эти группы составляют более половины трафических смертей в мире, но их детекция остается трудной в условиях плохого освещения, плохих погодных условий и несбалансированных данных. Недостаток эффективных методов детекции VRUs в таких условиях приводит к увеличению риска аварий. Исследователи стремятся к разработке мультимодальных систем детекции, которые бы повысили точность и надежность, особенно в сложных средах.
## Метод
Мультимодальный подход к детекции VRUs включает интеграцию RGB-изображений и термальных иррадиационных изображений. Для обучения использовались данные KITTI, BDD100K и Teledyne FLIR. Для улучшения детекции редких классов, таких как VRUs, применялись класс-взвешенные потери. Оптимальная точность и эффективность достигались за счет 640-пиксельного разрешения и частичного заморозка корневых слоев модели YOLOv8. Дополнительные светловые аugmentations позволили увеличить устойчивость модели к различным условиям освещения.
## Результаты
Эксперименты показали, что термальные модели демонстрируют высокую точность, в то время как RGB-to-thermal аugmentations способствуют повышению рекалла для редких классов VRUs. Модель, обученная на мультимодальных данных, показала значительное повышение точности и обнаружения в условиях низкого освещения и неблагоприятных погодных условий. Эти результаты демонстрируют мощность мультимодальных подходов в улучшении безопасности дорожного движения.
## Значимость
Мультимодальная система детекции VRUs может быть применена в различных сферах, включая системы беспилотных автомобилей, системы поддержки Conclusions решений для пешеходов и мотоциклистов. Основное преимущество — повышение точности и надежности детекции в трудных условиях. Будущие исследования будут фокусироваться на улучшении эффективности и объема данных, а также на развитии моделей с меньшим потреблением ресурсов.
## Выводы
Исследование успешно демонстрирует эффективность мультимодального подхода, используя RGB и термальные изображения для детекции VRUs. Отдельно выделяется высокая точность термальных моделей и положительное влияние класс-взвешенных потерь. Вывод: мультимодальные системы могут существенно повысить безопасность дорожного движения, особенно в условиях плохого освещения и негативных погодных условий. Дальнейшие исследования будут сфокусированы на улучшении моделей и их применении в реальных условиях.
Abstract
Vulnerable road users (VRUs) such as pedestrians, cyclists, and motorcyclists
represent more than half of global traffic deaths, yet their detection remains
challenging in poor lighting, adverse weather, and unbalanced data sets. This
paper presents a multimodal detection framework that integrates RGB and thermal
infrared imaging with a fine-tuned YOLOv8 model. Training leveraged KITTI,
BDD100K, and Teledyne FLIR datasets, with class re-weighting and light
augmentations to improve minority-class performance and robustness, experiments
show that 640-pixel resolution and partial backbone freezing optimise accuracy
and efficiency, while class-weighted losses enhance recall for rare VRUs.
Results highlight that thermal models achieve the highest precision, and
RGB-to-thermal augmentation boosts recall, demonstrating the potential of
multimodal detection to improve VRU safety at intersections.
Ссылки и действия
Дополнительные ресурсы: