DeltaFlow: An Efficient Multi-frame Scene Flow Estimation Method

2508.17054v1 cs.CV, cs.RO 2025-08-27
Авторы:

Qingwen Zhang, Xiaomeng Zhu, Yushan Zhang, Yixi Cai, Olov Andersson, Patric Jensfelt

Резюме на русском

#### Контекст Обработка видеопотоков для вычисления сценного потока (scene flow) является ключевым заданием в развитии автоматизированных систем движения, таких как автопилоты и системы автоматического управления. Традиционные методы сценного потока ориентированы на двухфреймовый анализ, что недостаточно эффективно, так как игнорирует важные сведения о движении в цепочке фреймов. Недавние подходы, ориентированные на многофреймовый анализ, при возрастающем числе используемых фреймов сталкиваются с высокими затратами на вычисления. В этом контексте авторы предлагают DeltaFlow — метод, который способен эффективно использовать информацию из цепочки фреймов с минимальными вычислительными затратами. #### Метод DeltaFlow — это легковесная 3D-архитектура, основанная на принципе $\Delta$-схемы для эффективной обработки движения. Она захватывает межфреймовые движения с помощью $\Delta$-преобразований, которые позволяют извлекать особенности движения с низкими затратами ресурсов. Для улучшения точности и стабильности решения, предлагается Category-Balanced Loss для относительно равномерного обучения в случаях неотделимости классов, и Instance Consistency Loss для обеспечения гармоничного движения объектов. Распространенные данные, такие как Argoverse 2 и Waymo, подвергаются оценке, чтобы проверить реалистичность решения. #### Результаты Эксперименты показали, что DeltaFlow существенно превосходит остальные методы, достигая до 22% нижей ошибки и удвоенной скорости вычислений по сравнению с соревнующими методами. Особым примечательным является его устойчивость к переходу между различными датасетов, что указывает на его высокую гибкость и общий потенциал. Результаты этих экспериментов доступны в открытом доступе, включая код и готовые модели. #### Значимость DeltaFlow может использоваться в различных областях, включая автомобильные технологии, системы экспертизы, а также видеонаблюдение. Он обеспечивает более высокую точность и эффективность по сравнению с другими подходами, что делает его привлекательным для реализации в практических задачах. Благодаря минимальным вычислительным затратам, он может быть легко внедрен в реальные системы, где требуется высокая скорость обработки. #### Выводы Разработанная методика позволяет эффективно обрабатывать сценные потоки с помощью многофреймовой рассуждения, обеспечивая высокую точность и скорость. Она может быть успешно применена в различных практических задачах и является основополагающей для будущих исследований в области сценного потока. Дальнейшие исследования могут сосредоточиться на расширении применения DeltaFlow к более сложным сценариям и улучшению его интеграции с другими системами

Abstract

Previous dominant methods for scene flow estimation focus mainly on input from two consecutive frames, neglecting valuable information in the temporal domain. While recent trends shift towards multi-frame reasoning, they suffer from rapidly escalating computational costs as the number of frames grows. To leverage temporal information more efficiently, we propose DeltaFlow ($\Delta$Flow), a lightweight 3D framework that captures motion cues via a $\Delta$ scheme, extracting temporal features with minimal computational cost, regardless of the number of frames. Additionally, scene flow estimation faces challenges such as imbalanced object class distributions and motion inconsistency. To tackle these issues, we introduce a Category-Balanced Loss to enhance learning across underrepresented classes and an Instance Consistency Loss to enforce coherent object motion, improving flow accuracy. Extensive evaluations on the Argoverse 2 and Waymo datasets show that $\Delta$Flow achieves state-of-the-art performance with up to 22% lower error and $2\times$ faster inference compared to the next-best multi-frame supervised method, while also demonstrating a strong cross-domain generalization ability. The code is open-sourced at https://github.com/Kin-Zhang/DeltaFlow along with trained model weights.

Ссылки и действия