TrajFusionNet: Pedestrian Crossing Intention Prediction via Fusion of Sequential and Visual Trajectory Representations

2508.19866v1 cs.CV, cs.LG 2025-08-29

Авторы:

François G. Landry, Moulay A. Akhloufi

Резюме на русском

#### Контекст Predicting pedestrian crossing intention has становится активной областью исследований в связи с появлением автономных транспортных средств на общественных дорогах. Эта задача состоит в определении вероятности того, что пешеходы предполагают переход дороги. Основные проблемы в данной области включают неопределенность в поведении пешеходов, нестандартность сцен и ограничения ресурсов в реальном времени. Таким образом, поиск моделей, которые эффективно обрабатывают различные типы данных, становится ключевым мотивационным фактором для этого исследования. #### Метод TrajFusionNet представляет собой трансформер-модель, которая использует две модальности: последовательность и визуальную представление. Модель состоит из двух модулей: **Sequence Attention Module (SAM)** и **Visual Attention Module (VAM)**. Составляющая SAM изучает последовательность предсказанных и наблюдаемых пешеходных траекторий и скоростей транспортных средств. В то же время, VAM преобразует эти данные в изображение, наложив предсказанные бутячие квадраты на сцену. Эти модули взаимодействуют, объединяя информацию из разных представлений. Модель обладает легковесной архитектурой, которая обеспечивает быструю инференцию. #### Результаты Эксперименты проводились на трех различных датасетах, включающих KITTI, INTERACTION и JAAD. TrajFusionNet показала самый высокий F1-меру и низкую дисперсию в сравнении с современными моделями. Благодаря использованию компактных модальностей, модель демонстрирует лучший баланс между точностью и скоростью вычислений. Среднее время инференции TrajFusionNet значительно меньше, чем у конкурентных моделей, что делает ее применимой в реальном времени. #### Значимость Приложение TrajFusionNet распространяется на автоматические системы помощи водителю, навигационные приложения и системы для управления автономными транспортными средствами. Модель выделяется своей простотой, эффективностью и точностью. Она способна улучшить безопасность дорожного движения, обеспечивая более точные прогнозы поведения пешеходов. #### Выводы TrajFusionNet показывает значительные достижения в области предсказания пешеходского поведения. Будущие исследования будут направлены на улучшение модели для обработки более сложных сцен, включающих несколько пешеходов и кросс-дорожных ситуаций, а также на интеграцию дополнительных внешних факторов, таких как погода и звуковые сигналы.

Abstract

With the introduction of vehicles with autonomous capabilities on public roads, predicting pedestrian crossing intention has emerged as an active area of research. The task of predicting pedestrian crossing intention involves determining whether pedestrians in the scene are likely to cross the road or not. In this work, we propose TrajFusionNet, a novel transformer-based model that combines future pedestrian trajectory and vehicle speed predictions as priors for predicting crossing intention. TrajFusionNet comprises two branches: a Sequence Attention Module (SAM) and a Visual Attention Module (VAM). The SAM branch learns from a sequential representation of the observed and predicted pedestrian trajectory and vehicle speed. Complementarily, the VAM branch enables learning from a visual representation of the predicted pedestrian trajectory by overlaying predicted pedestrian bounding boxes onto scene images. By utilizing a small number of lightweight modalities, TrajFusionNet achieves the lowest total inference time (including model runtime and data preprocessing) among current state-of-the-art approaches. In terms of performance, it achieves state-of-the-art results across the three most commonly used datasets for pedestrian crossing intention prediction.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

TrajFusionNet: Pedestrian Crossing Intention Prediction via Fusion of Sequential and Visual Trajectory Representations

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация