ForeSight: Multi-View Streaming Joint Object Detection and Trajectory Forecasting

2508.07089v1 cs.CV, cs.RO 2025-08-13
Авторы:

Sandro Papais, Letian Wang, Brian Cheong, Steven L. Waslander

Резюме на русском

## Контекст Исследование автономных транспортных систем становится все более актуальным в связи с ростом требований к безопасности и эффективности вождения. Одной из ключевых задач в этой области является объединение детекции объектов и прогнозирования их динамики в реальном времени. Существующие подходы разделяют эти задачи на отдельные этапы, что приводит к ограничениям в использовании временных сигналов и сокращению точности решений. Возникает потребность в разработке методов, позволяющих эффективно объединять эти задачи, используя многозадачный подход и сжатые архитектуры. ## Метод ForeSight представляет собой многозадачную модель, где детекция и прогнозирование взаимодействуют в режиме потоковой передачи. Она использует библиотечный курс для обмена информацией между задачами, что позволяет улучшить локальное представление объектов и сгладить прогнозы в пространственно-временном пространстве. Модель включает в себя два основных компонента: **Forecast-aware Detection Transformer**, который улучшает пространственную логику, и **Streaming Forecast Transformer**, обеспечивающий временную консистентность. Архитектура основывается на трансформерах и динамически приспосабливается к потоку данных с различной степенью детализации. ## Результаты Исследования проводились на датасете nuScenes, где ForeSight показала сверхсовременные результаты. Она достигла EPA в 54.9%, превысив предыдущие решения на 9.3%. Модель также показала лучшие показатели mAP и minADE среди моделей с многовизуальным входом. Исследования показали, что ForeSight эффективно уменьшает ошибки, связанные с ассоциацией объектов, благодаря использованию трассировочного метода, который сокращает зависимость от предыдущих ошибок. ## Значимость Модель может быть применена в различных автоматизированных системах, включая водительские ассистенты, автономные автобусы и специальные транспортные средства. Основные преимущества ForeSight заключаются в более высокой точности, мощности и эффективности в параллельном режиме, что делает ее привлекательной для реального времени. В будущем можно рассмотреть расширение модели для других задач, таких как обнаружение объектов в разных сценариях или интеграция с другими системами прогнозирования. ## Выводы ForeSight достигла состояния лучших решений в области объектной детекции и прогнозирования траекторий, установив новые стандарты для визуальной 3D-перспективы в автономных системах. Будущие исследования будут сфокусированы на улучшении модели для более сложных сценариев, включая большое количество объектов и многозадачность в разных типах сцен.

Abstract

We introduce ForeSight, a novel joint detection and forecasting framework for vision-based 3D perception in autonomous vehicles. Traditional approaches treat detection and forecasting as separate sequential tasks, limiting their ability to leverage temporal cues. ForeSight addresses this limitation with a multi-task streaming and bidirectional learning approach, allowing detection and forecasting to share query memory and propagate information seamlessly. The forecast-aware detection transformer enhances spatial reasoning by integrating trajectory predictions from a multiple hypothesis forecast memory queue, while the streaming forecast transformer improves temporal consistency using past forecasts and refined detections. Unlike tracking-based methods, ForeSight eliminates the need for explicit object association, reducing error propagation with a tracking-free model that efficiently scales across multi-frame sequences. Experiments on the nuScenes dataset show that ForeSight achieves state-of-the-art performance, achieving an EPA of 54.9%, surpassing previous methods by 9.3%, while also attaining the best mAP and minADE among multi-view detection and forecasting models.

Ссылки и действия