Audio-Based Pedestrian Detection in the Presence of Vehicular Noise
2509.19295v1
eess.AS, cs.AI, cs.LG, cs.SD
2025-09-25
Авторы:
Yonghyun Kim, Chaeyeon Han, Akash Sarode, Noah Posner, Subhrajit Guhathakurta, Alexander Lerch
Резюме на русском
#### Контекст
Аудио-базированное обнаружение пешеходов является сложной задачей, которая до сих пор была исследована только в шумоограниченных средах. Однако в реальном мире шум от транспорта часто преобладает над звуковыми сигналами, связанными с пешеходами. Это создает сложности для правильного обнаружения пешеходов в таких условиях. Мы предлагаем новый датасет, анализ результатов и подробный обзор состояния исследований в области звукового обнаружения пешеходов в условиях транспортного шума. Данные эксперименты позволяют увидеть степень устойчивости алгоритмов к шумам и кросс-средственную оценку моделей в разных условиях.
#### Метод
Мы предлагаем новый датасет, состоящий из 1321 часов аудиозаписей, собранных вблизи дорог в различных условиях транспортного шума. Записи охватывают различные дорожные условия, включая трафик и городской шум. Каждая запись включает 16kHz аудиофайлы, синхронизированные с 1fps видео и шагами разбиения на кадры. Мы использовали модели YOLOv4 и DETR для обнаружения пешеходов, а также модели глубокого обучения для распознавания звуков в разных условиях. Методы включали искусственное натренирование моделей на шумовых данных, а также проверки моделей на тестовом датасете с разным шумовым фоном.
#### Результаты
Мы проводили три основных эксперимента: (i) сравнение моделей на шумовом и нет шумовом датасетах для оценки их кросс-средственной оценки; (ii) изучение влияния шума на показатели моделей, включая различные аспекты звукового контекста; (iii) оценка устойчивости моделей к out-of-domain звуковым сигналам. Результаты показали, что модели YOLOv4 и DETR показывают хорошую стабильность на шумовых записях, но их производительность существенно ухудшается при включении звуков транспорта. Мы также обнаружили, что звуковые сигналы, связанные с транспортом, могут оказывать значительное влияние на модели, особенно когда модели обучены на шумных данных.
#### Значимость
Наша работа имеет значительное значение для разработки моделей звукового обнаружения пешеходов в реальных условиях, в том числе в городских зонах с высоким транспортным шумом. Мы показали, что шум от транспорта может существенно снижать точность моделей, но при этом могут быть использованы методы, которые повышают устойчивость моделей. Это может быть полезно для автоматических систем обнаружения пешеходов в автомобилях, в системах безопасности на дорогах и для систем автоматизации города.
#### Выводы
Мы показали, что звуковые сигналы, с
Abstract
Audio-based pedestrian detection is a challenging task and has, thus far,
only been explored in noise-limited environments. We present a new dataset,
results, and a detailed analysis of the state-of-the-art in audio-based
pedestrian detection in the presence of vehicular noise. In our study, we
conduct three analyses: (i) cross-dataset evaluation between noisy and
noise-limited environments, (ii) an assessment of the impact of noisy data on
model performance, highlighting the influence of acoustic context, and (iii) an
evaluation of the model's predictive robustness on out-of-domain sounds. The
new dataset is a comprehensive 1321-hour roadside dataset. It incorporates
traffic-rich soundscapes. Each recording includes 16kHz audio synchronized with
frame-level pedestrian annotations and 1fps video thumbnails.