PQ-DAF: Pose-driven Quality-controlled Data Augmentation for Data-scarce Driver Distraction Detection
2508.10397v1
cs.CV, cs.AI
2025-08-16
Авторы:
Haibin Sun, Xinghui Song
Резюме на русском
#### Контекст
Driver distraction detection является критически важной задачей для повышения безопасности дорожного движения и снижения числа дорожно-транспортных происшествий. Однако существующие модели часто сталкиваются с проблемами общеуниверсальности при использовании в реальных условиях. Это происходит в связи с недостатком данных и высокой стоимостью их аннотации, а также существенным дискретностным сдвигом между данными тренировки и условиями развертывания модели. Для решения этих проблем предлагается использовать Pose-driven Quality-controlled Data Augmentation Framework (PQ-DAF), который оптимизирует систему обучения с длинным шпаргалом и улучшает её устойчивость к отклонениям домена.
#### Метод
PQ-DAF основывается на Pose-driven Quality-controlled Data Augmentation Framework, который включает два основных компонента: Progressive Conditional Diffusion Model (PCDMs) и Sample Quality Assessment Module. PCDMs используется для точного построения ключевых фичей положения водителя. Sample Quality Assessment Module создается на основе CogVLM vision-language model для оценки качества сгенерированных образцов. Этот подход позволяет расширять обучающую выборку, снижая стоимость аннотации, и улучшать устойчивость модели к различным условиям развертывания.
#### Результаты
Расширенные эксперименты были проведены на данных KITTI и nuScenes. PQ-DAF показал существенный прирост в универсальности модели в сценариях с небольшим количеством данных, превосходя существующие методы. Метод достиг значительных улучшений в обнаружении отвлеченности водителя в условиях недостатка данных, обеспечивая более устойчивый и точный результат.
#### Значимость
PQ-DAF может быть применен в различных сферах, включая системы автоматизированного движения, дорожное наблюдение, а также для улучшения безопасности на дорогах. Он обеспечивает не только высокую точность в детектировании отвлеченности, но и эффективность в обучении с небольшим количеством данных. Это позволяет существенно сократить затраты на аннотацию данных и расширить поле применения моделей данных.
#### Выводы
PQ-DAF достигает существенного улучшения в обнаружении отвлеченности водителя в условиях недостатка данных. Он показывает высокую эффективность в расширении тренировочной выборки и улучшения устойчивости к различным условиям развертывания. Будущие исследования будут фокусироваться на расширении применение PQ-DAF к другим сценариям, а также на улучшении точности и скорости распознавания в условиях ограниченных данных.
Abstract
Driver distraction detection is essential for improving traffic safety and
reducing road accidents. However, existing models often suffer from degraded
generalization when deployed in real-world scenarios. This limitation primarily
arises from the few-shot learning challenge caused by the high cost of data
annotation in practical environments, as well as the substantial domain shift
between training datasets and target deployment conditions. To address these
issues, we propose a Pose-driven Quality-controlled Data Augmentation Framework
(PQ-DAF) that leverages a vision-language model for sample filtering to
cost-effectively expand training data and enhance cross-domain robustness.
Specifically, we employ a Progressive Conditional Diffusion Model (PCDMs) to
accurately capture key driver pose features and synthesize diverse training
examples. A sample quality assessment module, built upon the CogVLM
vision-language model, is then introduced to filter out low-quality synthetic
samples based on a confidence threshold, ensuring the reliability of the
augmented dataset. Extensive experiments demonstrate that PQ-DAF substantially
improves performance in few-shot driver distraction detection, achieving
significant gains in model generalization under data-scarce conditions.
Ссылки и действия
Дополнительные ресурсы: