TrajFusionNet: Pedestrian Crossing Intention Prediction via Fusion of Sequential and Visual Trajectory Representations
2508.19866v1
cs.CV, cs.LG
2025-08-29
Авторы:
François G. Landry, Moulay A. Akhloufi
Резюме на русском
#### Контекст
Predicting pedestrian crossing intention has становится активной областью исследований в связи с появлением автономных транспортных средств на общественных дорогах. Эта задача состоит в определении вероятности того, что пешеходы предполагают переход дороги. Основные проблемы в данной области включают неопределенность в поведении пешеходов, нестандартность сцен и ограничения ресурсов в реальном времени. Таким образом, поиск моделей, которые эффективно обрабатывают различные типы данных, становится ключевым мотивационным фактором для этого исследования.
#### Метод
TrajFusionNet представляет собой трансформер-модель, которая использует две модальности: последовательность и визуальную представление. Модель состоит из двух модулей: **Sequence Attention Module (SAM)** и **Visual Attention Module (VAM)**. Составляющая SAM изучает последовательность предсказанных и наблюдаемых пешеходных траекторий и скоростей транспортных средств. В то же время, VAM преобразует эти данные в изображение, наложив предсказанные бутячие квадраты на сцену. Эти модули взаимодействуют, объединяя информацию из разных представлений. Модель обладает легковесной архитектурой, которая обеспечивает быструю инференцию.
#### Результаты
Эксперименты проводились на трех различных датасетах, включающих KITTI, INTERACTION и JAAD. TrajFusionNet показала самый высокий F1-меру и низкую дисперсию в сравнении с современными моделями. Благодаря использованию компактных модальностей, модель демонстрирует лучший баланс между точностью и скоростью вычислений. Среднее время инференции TrajFusionNet значительно меньше, чем у конкурентных моделей, что делает ее применимой в реальном времени.
#### Значимость
Приложение TrajFusionNet распространяется на автоматические системы помощи водителю, навигационные приложения и системы для управления автономными транспортными средствами. Модель выделяется своей простотой, эффективностью и точностью. Она способна улучшить безопасность дорожного движения, обеспечивая более точные прогнозы поведения пешеходов.
#### Выводы
TrajFusionNet показывает значительные достижения в области предсказания пешеходского поведения. Будущие исследования будут направлены на улучшение модели для обработки более сложных сцен, включающих несколько пешеходов и кросс-дорожных ситуаций, а также на интеграцию дополнительных внешних факторов, таких как погода и звуковые сигналы.
Abstract
With the introduction of vehicles with autonomous capabilities on public
roads, predicting pedestrian crossing intention has emerged as an active area
of research. The task of predicting pedestrian crossing intention involves
determining whether pedestrians in the scene are likely to cross the road or
not. In this work, we propose TrajFusionNet, a novel transformer-based model
that combines future pedestrian trajectory and vehicle speed predictions as
priors for predicting crossing intention. TrajFusionNet comprises two branches:
a Sequence Attention Module (SAM) and a Visual Attention Module (VAM). The SAM
branch learns from a sequential representation of the observed and predicted
pedestrian trajectory and vehicle speed. Complementarily, the VAM branch
enables learning from a visual representation of the predicted pedestrian
trajectory by overlaying predicted pedestrian bounding boxes onto scene images.
By utilizing a small number of lightweight modalities, TrajFusionNet achieves
the lowest total inference time (including model runtime and data
preprocessing) among current state-of-the-art approaches. In terms of
performance, it achieves state-of-the-art results across the three most
commonly used datasets for pedestrian crossing intention prediction.
Ссылки и действия
Дополнительные ресурсы: