ForeSight: Multi-View Streaming Joint Object Detection and Trajectory Forecasting
2508.07089v1
cs.CV, cs.RO
2025-08-13
Авторы:
Sandro Papais, Letian Wang, Brian Cheong, Steven L. Waslander
Резюме на русском
## Контекст
Исследование автономных транспортных систем становится все более актуальным в связи с ростом требований к безопасности и эффективности вождения. Одной из ключевых задач в этой области является объединение детекции объектов и прогнозирования их динамики в реальном времени. Существующие подходы разделяют эти задачи на отдельные этапы, что приводит к ограничениям в использовании временных сигналов и сокращению точности решений. Возникает потребность в разработке методов, позволяющих эффективно объединять эти задачи, используя многозадачный подход и сжатые архитектуры.
## Метод
ForeSight представляет собой многозадачную модель, где детекция и прогнозирование взаимодействуют в режиме потоковой передачи. Она использует библиотечный курс для обмена информацией между задачами, что позволяет улучшить локальное представление объектов и сгладить прогнозы в пространственно-временном пространстве. Модель включает в себя два основных компонента: **Forecast-aware Detection Transformer**, который улучшает пространственную логику, и **Streaming Forecast Transformer**, обеспечивающий временную консистентность. Архитектура основывается на трансформерах и динамически приспосабливается к потоку данных с различной степенью детализации.
## Результаты
Исследования проводились на датасете nuScenes, где ForeSight показала сверхсовременные результаты. Она достигла EPA в 54.9%, превысив предыдущие решения на 9.3%. Модель также показала лучшие показатели mAP и minADE среди моделей с многовизуальным входом. Исследования показали, что ForeSight эффективно уменьшает ошибки, связанные с ассоциацией объектов, благодаря использованию трассировочного метода, который сокращает зависимость от предыдущих ошибок.
## Значимость
Модель может быть применена в различных автоматизированных системах, включая водительские ассистенты, автономные автобусы и специальные транспортные средства. Основные преимущества ForeSight заключаются в более высокой точности, мощности и эффективности в параллельном режиме, что делает ее привлекательной для реального времени. В будущем можно рассмотреть расширение модели для других задач, таких как обнаружение объектов в разных сценариях или интеграция с другими системами прогнозирования.
## Выводы
ForeSight достигла состояния лучших решений в области объектной детекции и прогнозирования траекторий, установив новые стандарты для визуальной 3D-перспективы в автономных системах. Будущие исследования будут сфокусированы на улучшении модели для более сложных сценариев, включая большое количество объектов и многозадачность в разных типах сцен.
Abstract
We introduce ForeSight, a novel joint detection and forecasting framework for
vision-based 3D perception in autonomous vehicles. Traditional approaches treat
detection and forecasting as separate sequential tasks, limiting their ability
to leverage temporal cues. ForeSight addresses this limitation with a
multi-task streaming and bidirectional learning approach, allowing detection
and forecasting to share query memory and propagate information seamlessly. The
forecast-aware detection transformer enhances spatial reasoning by integrating
trajectory predictions from a multiple hypothesis forecast memory queue, while
the streaming forecast transformer improves temporal consistency using past
forecasts and refined detections. Unlike tracking-based methods, ForeSight
eliminates the need for explicit object association, reducing error propagation
with a tracking-free model that efficiently scales across multi-frame
sequences. Experiments on the nuScenes dataset show that ForeSight achieves
state-of-the-art performance, achieving an EPA of 54.9%, surpassing previous
methods by 9.3%, while also attaining the best mAP and minADE among multi-view
detection and forecasting models.
Ссылки и действия
Дополнительные ресурсы: