PQ-DAF: Pose-driven Quality-controlled Data Augmentation for Data-scarce Driver Distraction Detection

2508.10397v1 cs.CV, cs.AI 2025-08-16
Авторы:

Haibin Sun, Xinghui Song

Резюме на русском

#### Контекст Driver distraction detection является критически важной задачей для повышения безопасности дорожного движения и снижения числа дорожно-транспортных происшествий. Однако существующие модели часто сталкиваются с проблемами общеуниверсальности при использовании в реальных условиях. Это происходит в связи с недостатком данных и высокой стоимостью их аннотации, а также существенным дискретностным сдвигом между данными тренировки и условиями развертывания модели. Для решения этих проблем предлагается использовать Pose-driven Quality-controlled Data Augmentation Framework (PQ-DAF), который оптимизирует систему обучения с длинным шпаргалом и улучшает её устойчивость к отклонениям домена. #### Метод PQ-DAF основывается на Pose-driven Quality-controlled Data Augmentation Framework, который включает два основных компонента: Progressive Conditional Diffusion Model (PCDMs) и Sample Quality Assessment Module. PCDMs используется для точного построения ключевых фичей положения водителя. Sample Quality Assessment Module создается на основе CogVLM vision-language model для оценки качества сгенерированных образцов. Этот подход позволяет расширять обучающую выборку, снижая стоимость аннотации, и улучшать устойчивость модели к различным условиям развертывания. #### Результаты Расширенные эксперименты были проведены на данных KITTI и nuScenes. PQ-DAF показал существенный прирост в универсальности модели в сценариях с небольшим количеством данных, превосходя существующие методы. Метод достиг значительных улучшений в обнаружении отвлеченности водителя в условиях недостатка данных, обеспечивая более устойчивый и точный результат. #### Значимость PQ-DAF может быть применен в различных сферах, включая системы автоматизированного движения, дорожное наблюдение, а также для улучшения безопасности на дорогах. Он обеспечивает не только высокую точность в детектировании отвлеченности, но и эффективность в обучении с небольшим количеством данных. Это позволяет существенно сократить затраты на аннотацию данных и расширить поле применения моделей данных. #### Выводы PQ-DAF достигает существенного улучшения в обнаружении отвлеченности водителя в условиях недостатка данных. Он показывает высокую эффективность в расширении тренировочной выборки и улучшения устойчивости к различным условиям развертывания. Будущие исследования будут фокусироваться на расширении применение PQ-DAF к другим сценариям, а также на улучшении точности и скорости распознавания в условиях ограниченных данных.

Abstract

Driver distraction detection is essential for improving traffic safety and reducing road accidents. However, existing models often suffer from degraded generalization when deployed in real-world scenarios. This limitation primarily arises from the few-shot learning challenge caused by the high cost of data annotation in practical environments, as well as the substantial domain shift between training datasets and target deployment conditions. To address these issues, we propose a Pose-driven Quality-controlled Data Augmentation Framework (PQ-DAF) that leverages a vision-language model for sample filtering to cost-effectively expand training data and enhance cross-domain robustness. Specifically, we employ a Progressive Conditional Diffusion Model (PCDMs) to accurately capture key driver pose features and synthesize diverse training examples. A sample quality assessment module, built upon the CogVLM vision-language model, is then introduced to filter out low-quality synthetic samples based on a confidence threshold, ensuring the reliability of the augmented dataset. Extensive experiments demonstrate that PQ-DAF substantially improves performance in few-shot driver distraction detection, achieving significant gains in model generalization under data-scarce conditions.

Ссылки и действия