📚 Саммари научных статей из arXiv

Найдено 246 результатов по запросу 'cs.CV, cs.RO' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Robix: A Unified Model for Robot Interaction, Reasoning and Planning

2025-09-05

Авторы:

Huang Fang, Mengxi Zhang, Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li

## Контекст В последние годы возрос внимание к развитию интеллектуальных роботов, которые могут справляться с многозадачностью, общаться с пользователями и выполнять требовательные задачи в реальном мире. Однако существуют несколько значимых проблем. На сегодняшний день, большинство роботов взаимодействуют с пользователями через специализированные модели, некоторые из которых нацелены на задачи природного языка, но не всегда в состоянии распознавать контекст. Кроме того, многие роботы не могут применительно к сложным задачам выполнить планирование с течением времени, что приводит к сбоям в выполнении задач. Эта ситуация ставит в ответственность разработчиков роботов на поиск решений, которые позволят роботам более эффективно работать в составе интеллектуальных систем. Таким образом, появляется мотивация для разработки универсальной модели, которая может объединить природное взаимодействие, принятие решений и задание целей в одной архитектуре. ## Метод Робот-система Robix представляет собой универсальную модель, включающую в себя мощные средства для визуального понимания, планирования задач и общения. Она динамически формирует набор минимальных команд для низкоуровневого управления и при этом может также запускать разговорные ответы для взаимодействия с человеком. Robix работает в качестве высокоуровневого компонента в иерархической системе робота. Она обрабатывает задачи, начиная с простых до сложных, включая взаимодействие с человеком, планирование шагов выполнения, а также отслеживание контекста в течение общения. Метод основывается на цепочке мыслей (chain-of-thought) и имеет трехэтапную стратегию обучения: 1. Дополнительное обучение для улучшения навыков визуального и спациального понимания, гамма-разметки и задач специфичных для задач; 2. Обучение на основе наблюдений для синтеза логики принятия решений и действий в интерактивных сценариях; 3. Регуляризация через учебный процесс реинфорсмента для повышения согласованности в решении задач и долгосрочного планирования. ## Результаты Проводились различные эксперименты, включая оценку уровня успешности в интерактивном выполнении задач, который наблюдался в сценариях с открытыми, многоэтапными, ограниченными и прерванными инструкциями. Демонстрационные результаты показали, что Robix выполняет задачи гораздо эффективнее, чем существующие системы на основе GPT-4 и Gemini 2.5 Pro. Она успешно справляется с различными типами задач, включая: - Обслуживание столов в ресторане; - Покупка продуктов в магазине; - Отбор продуктов, соответствующих определенным тре

Annotation:

We introduce Robix, a unified model that integrates robot reasoning, task planning, and natural language interaction within a single vision-language architecture. Acting as the high-level cognitive layer in a hierarchical robot system, Robix dynamically generates atomic commands for the low-level controller and verbal responses for human interaction, enabling robots to follow complex instructions, plan long-horizon tasks, and interact naturally with human within an end-to-end framework. Robix fu...

ID: 2509.01106v1 cs.AI, cs.CV, cs.RO

arXiv PDF

📄 sam-llm: interpretable lane change trajectoryprediction via parametric finetuning

2025-09-05

Авторы:

Zhuo Cao, Yunxiao Shi, Min Xu

Научная статья представляет SAM-LLM — новую гибридную модель, которая объединяет контекстное разумение Large Language Models (LLMs) с физической точностью моделей кинематики для прогнозирования траекторий смены полосы движения в автономном вождении. Основная идея заключается в том, чтобы приспособить LLM для предсказания ключевых физических параметров траектории (например, отклонение, продолжительность маневра, начальная латентная скорость и изменение горизонтальной скорости) вместо вывода координат в виде непрерывных векторов. Этот подход позволяет получить полную, непрерывную и физически правильную модель траектории, которая интерпретируемая и эффективна в ресурсах, сокращая размер выходных данных на 80% по сравнению с методами, основанными на координатах. Модель достигла высокой точности прогнозирования намерений — 98,73%, показав себя эквивалентной традиционным LLM-моделям, но с дополнительным преимуществом возможности точного объяснения результатов.

Annotation:

This work introduces SAM-LLM, a novel hybrid architecture that bridges the gap between the contextual reasoning of Large Language Models (LLMs) and the physical precision of kinematic lane change models for autonomous driving. The system is designed for interpretable lane change trajectory prediction by finetuning an LLM to output the core physical parameters of a trajectory model instead of raw coordinates. For lane-keeping scenarios, the model predicts discrete coordinates, but for lane change...

ID: 2509.03462v1 cs.AI, cs.CV, cs.RO

arXiv PDF

📄 GENNAV: Polygon Mask Generation for Generalized Referring Navigable Regions

2025-09-02

Авторы:

Kei Katsumata, Yui Iioka, Naoki Hosomi, Teruhisa Misu, Kentaro Yamada, Komei Sugiura

#### Контекст Проблема идентификации назначенных областей на основе спецификаций в естественном языке изображения, захваченного мобильным устройством, широко распространена в области автономного вождения и робототехники. Особенно вызовы возникают при работе с "ступенчатыми" областями, такими как здания и дороги, которые отсутствуют в традиционных аннотациях. Эти сложности могут привести к ошибкам в определении целей, что требует развития более точных методов для идентификации таких областей. Мы предлагаем GENNAV, подход, который адресует эти проблемы, предсказывая существование целей и генерируя маски их сегментации для многообразных областей. #### Метод GENNAV реализует полностью собственный подход к обработке задач сегментации для множества областей, включая те, которые отсутствуют в обучающих данных. Мы используем глубокое нейронное сетевое устройство, которое принимает как входные данные натуральное языковое описание, так и изображение. Генератор масок целевых областей использует контекстно-свободные трансформеры для построения маски по множеству областей и множеству инструкций на естественном языке. Эта архитектура обеспечивает высокую точность и эффективность при работе с несколькими целями. #### Результаты Мы провели эксперименты на нашем новом бенчмарке GRiN-Drive, который включает три типа тестовых семплов: без целей, одной целью и множеством целей. GENNAV показал значительное превосходство по сравнению со стандартными методами по метрикам классификации и сегментации. Кроме того, в реальных экспериментах, проведенных с использованием четырех автомобилей в пяти различных городских районах, GENNAV продемонстрировал высокую стабильность и точность в нулевой тренировке. Эти результаты подтверждают способность GENNAV широко применяться в различных средах. #### Значимость GENNAV может применяться в различных сценариях, включая мобильные программы и робототехнические системы, требующие точного распознавания целей в естественной среде. Он предлагает высокую гибкость и точность, предоставляя значительное преимущество по сравнению с традиционными подходами. Благодаря своей универсальности, GENNAV может привести к значительным улучшениям в области автоматизации и робототехники. #### Выводы Мы представили GENNAV, новый подход к идентификации целей на основе естественного языка и их сегментации в множестве областей. Наши эксперименты показали, что GENNAV превосходит существующие методы, обеспечивая высокую точность и стабильность в различных сценариях. В будущем мы планируем расширить сист

Annotation:

We focus on the task of identifying the location of target regions from a natural language instruction and a front camera image captured by a mobility. This task is challenging because it requires both existence prediction and segmentation, particularly for stuff-type target regions with ambiguous boundaries. Existing methods often underperform in handling stuff-type target regions, in addition to absent or multiple targets. To overcome these limitations, we propose GENNAV, which predicts target...

ID: 2508.21102v1 cs.CV, cs.RO

arXiv PDF

📄 To New Beginnings: A Survey of Unified Perception in Autonomous Vehicle Software

2025-08-30

Авторы:

Loïc Stratil, Felix Fent, Esteban Rivera, Markus Lienkamp

## Контекст Автоматизированная система управления транспортными средствами широко применяется в различных областях, включая городской транспорт, доставку товаров и специальные технологии. Одной из ключевых задач этой системы является высококачественное восприятие окружающей среды, которое включает в себя такие подзадачи, как детекция объектов, слежение за их движением и прогнозирование. Обычно эти подзадачи решаются через модульные пайплайны, где каждая задача выполняется отдельно. Однако эти модули часто приводят к росту ошибок взаимодействия и трудностям в интеграции результатов. Унифицированная перцепция (unified perception) предлагает решение этих проблем, объединяя подзадачи в единую систему, что повышает точность, эффективность и сохраняет интерпретируемость результатов. Эта статья посвящена широкому обзору этого подхода, его преимуществ и перспектив. ## Метод Унифицированная перцепция включает в себя несколько парадигм, категоризирующихся по различным признакам. В первую очередь, важны распределение задач (task allocation), формализация слежения (tracking formulation) и способ представления информации (representation flow). Эти аспекты позволяют выделить три основных парадигмы: Early Unified Perception, Late Unified Perception и Full Unified Perception. Методология основывается на подробной определенности этих парадигм и систематическом анализе их наиболее известных реализаций. Алгоритмы рассматриваются с учетом их архитектуры, стратегий обучения, используемых данных и открытого доступа к исходному коду. ## Результаты Для иллюстрации различных парадигм были проведены сравнительные эксперименты, использующие различные данные, включая как синтетические, так и реальные наборы данных. Основными показателями эффективности стали точность детекции, стабильность слежения и точность прогноза. Результаты показали, что Full Unified Perception привносит существенные преимущества в синтезе результатов, но при этом имеет более высокую сложность обучения. Early и Late Unified Perception, в свою очередь, демонстрируют более простой подход с меньшей сложностью, но при этом могут испытывать трудности в интеграции результатов. ## Значимость Этот подход может быть применен во многих областях, включая городской транспорт, доставку товаров, специальные технологии и даже робототехнику. Он предлагает значительные преимущества в области улучшения точности, эффективности и общей работоспособности системы. Помимо этого, унифицированная перцепция может способствовать созданию более устойчивых и интерактивных систем, что в последние годы становится все более важной задачей в мире автоматизированного транспо

Annotation:

Autonomous vehicle perception typically relies on modular pipelines that decompose the task into detection, tracking, and prediction. While interpretable, these pipelines suffer from error accumulation and limited inter-task synergy. Unified perception has emerged as a promising paradigm that integrates these sub-tasks within a shared architecture, potentially improving robustness, contextual reasoning, and efficiency while retaining interpretable outputs. In this survey, we provide a comprehens...

ID: 2508.20892v1 cs.CV, cs.RO

arXiv PDF

📄 COMETH: Convex Optimization for Multiview Estimation and Tracking of Humans

2025-08-30

Авторы:

Enrico Martini, Ho Jin Choi, Nadia Figueroa, Nicola Bombieri

## Контекст Во времена Industry 5.0, мониторинг человеческой активности становится ключевым для обеспечения безопасности и сохранения здоровья. Однако существуют проблемы с вычислительной сложностью и бендвидтом при использовании систем с многокамерными структурами, что ограничивает их масштабируемость и применение в реальном времени. Распределение обработки данных между устройствами может уменьшить нагрузку на сеть, но приводит к ухудшению точности и неоднородности во времени и пространстве результатов. Цель нашего исследования — разработать решение, которое обеспечивает высокую точность мониторинга тела человека в реальном времени, учитывая ограничения ресурсов и реалистичные условия применения в промышленности и системах безопасности. ## Метод COMETH (Convex Optimization for Multiview Estimation and Tracking of Humans) — это алгоритм, основанный на конвексивной оптимизации, который решает проблему слияния нескольких видов человеческого тела в реальном времени. Он включает три основных компонента: 1. **Интеграция биомеханических и кинематических ограничений**, повышающих точность расположения суставов. 2. **Обратная кинематика на основе конвексивной оптимизации**, объединяющая данные с разных камер в единую модель. 3. **Состояние наблюдателя**, который повышает консистентность временных результатов. Эта методология распределяет вычисления между устройствами, сохраняя высокую точность и минимизируя сетевую нагрузку. ## Результаты COMETH был протестирован на общедоступных и индустриальных данных. Он показал значительные улучшения в локализации, детектировании и слежении за движением, по сравнению с современными стандартами. Например, в сценарии производственной среды, где точность и реакция в реальном времени критичны, алгоритм обеспечил высокую точность и стабильность. Также была проверена модель на генеральных данных, подтвердив ее применимость к различным сценариям применения. ## Значимость COMETH может применяться в различных областях, включая промышленные операции, системы безопасности и здравоохранение. Его основные преимущества заключаются в высокой точности, масштабируемости и эффективности ресурсов. Высокая степень распределения вычислений позволяет применять алгоритм в условиях ограниченности сетевого подключения и высоких нагрузок. Будущие исследования будут сфокусированы на улучшении адаптивности и интеграции с другими системами мониторинга. ## Выводы COMETH представляет собой перспективное решение для реального времени мониторинга тела человека. Он достиг высокой точности в локализации и детектировании, что делает его подходящим для промышленных применений.

Annotation:

In the era of Industry 5.0, monitoring human activity is essential for ensuring both ergonomic safety and overall well-being. While multi-camera centralized setups improve pose estimation accuracy, they often suffer from high computational costs and bandwidth requirements, limiting scalability and real-time applicability. Distributing processing across edge devices can reduce network bandwidth and computational load. On the other hand, the constrained resources of edge devices lead to accuracy d...

ID: 2508.20920v1 cs.CV, cs.RO

arXiv PDF

📄 CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

2025-08-30

Авторы:

Wei Li, Renshan Zhang, Rui Shao, Jie He, Liqiang Nie

## Контекст В современной информатике становится все более актуальной проблема создания моделей, которые могут эффективно обрабатывать информацию, поступающую в различных формах (визуальная, языковая, действительная). Одной из таких моделей являются Vision-Language-Action (VLA) модели, которые способны интерпретировать и выполнять действия на основе визуальных сенсорных данных и текстовых инструкций. Однако существующие VLA-модели часто требуют значительного количества ресурсов для обучения и эффективность их работы остается низкой. В этом контексте возникает необходимость разработки моделей, которые обладалиient при снижении нагрузки на вычислительные ресурсы. ## Метод CogVLA — это новая модель VLA, которая использует инструкционно-направленную маршрутизацию и спарсинг, чтобы улучшить как эффективность, так и производительность. Она включает три стадии: 1) **EFA-Routing** (Encoder-FiLM based Aggregation Routing) — это система, которая внедряет инструкции в визуальный энкодер, чтобы выбирать и сжимать визуальные токены, создавая инструкционно-ориентированное представление; 2) **LFP-Routing** (LLM-FiLM based Pruning Routing) — позволяет многоуровнево масштабировать языковые модели, удаляя ненужные токены в связи с целями действия; 3) **CAtten** (V-L-A Coupled Attention) — комбинация визуально-языковой и действительно-визуальной внимательности с многопоточной декодированием, чтобы обеспечить точность и согласованность в получении и выполнении действий. ## Результаты Эксперименты CogVLA проводились на бенчмарке LIBERO и в реальных задачах робототехники. Модель показала высокую точность в этих задачах, достигая успешности 97.4% при задачах на бенчмарке и 70.0% в реальных сценариях. Благодаря сжатию входных данных (токенов) и эффективной архитектуре, CogVLA снизила требования к ресурсам, уменьшив процесс обучения в два раза и снизив потребление вычислительных ресурсов при инференсе на 2.8 раз по сравнению с OpenVLA. ## Значимость CogVLA может быть применена в различных областях, таких как робототехника, ассистированные технологии и системы видеоанализа. Она обеспечивает более быстрое и эффективное обучение, а также сокращает потребление вычислительных ресурсов во время работы. Этот подход может помочь в развитии моделей, которые будут более экономичными и быстрыми в реальном времени. ## Выводы CogVLA — это перспективная модель VLA, которая использует инструкционно-направленную маршрутизацию и спарсинг для улучшения производительности и эффективности. Она достигает высоких результатов в задачах робототехники и бенчмарке LIBERO, при этом зна

Annotation:

Recent Vision-Language-Action (VLA) models built on pre-trained Vision-Language Models (VLMs) require extensive post-training, resulting in high computational overhead that limits scalability and deployment.We propose CogVLA, a Cognition-Aligned Vision-Language-Action framework that leverages instruction-driven routing and sparsification to improve both efficiency and performance. CogVLA draws inspiration from human multimodal coordination and introduces a 3-stage progressive architecture. 1) En...

ID: 2508.21046v1 cs.CV, cs.RO

arXiv PDF

📄 VibES: Induced Vibration for Persistent Event-Based Sensing

2025-08-28

Авторы:

Vincenzo Polizzi, Stephen Yang, Quentin Clark, Jonathan Kelly, Igor Gilitschenski, David B. Lindell

#### Контекст Область исследования ассинхронных сенсоров, таких как event cameras, широко распространена в современной компьютерной зрения. Эти сенсоры асинхронно измеряют изменения яркости на каждом пикселе, что позволяет получать высокочастотные данные, даже при слабом освещении. Однако, при постоянном освещении и статичных сценах, эти сенсоры не выдают информации, что ограничивает их применение в многих задачах. Для решения этой проблемы в последнее время развивается подход методами индицированного стимулирования событий. Однако, эти подходы часто требуют сложного оборудования или дополнительных оптических компонентов. Предлагаемый подход представляет собой простой и эффективный метод стимулирования событий, используя вращающийся невесомый масс. #### Метод Предложенный метод основан на использовании вращающегося невесомого масса для вызывания периодического вибрационного движения event camera. Это позволяет производить стимуляцию событий даже в стационарных сценах. Для удаления влияния внешнего движения, подход использует пипельную методику, которая анализирует и убирает внешние колебания, оставляя только интересующие события. Эта методика, вместе с механикой вращения, обеспечивает постоянную стимуляцию событий без дополнительных сложностей. #### Результаты Для исследования была создана прототипная система, включающая вращающийся невесомый масс и event camera. Измерения проводились на реальных данных с различных сцен, на которых проводились эксперименты по стимуляции и анализу событий. Эксперименты показали, что метод выдает высококачественные event streams, которые имеют значительные преимущества в сравнении с другими способами стимуляции событий. Также были проведены эксперименты на реальных данных, которые подтвердили высокую эффективность метода в восстановлении параметров движения и улучшении реконструкции изображений. #### Значимость Предлагаемый подход может быть применен в многих областях, включая статические сцены, низкую скорость движения и сложные сцены, где стандартные event cameras не могут поддерживать постоянную стимуляцию событий. Его особенно удобен в тех случаях, когда необходимо постоянно получать данные с высокой частотой, но без внешнего движения. Это дает преимущества в ситуациях, где другие методы не могут работать корректно. Будущие исследования будут направлены на улучшение метода и его интеграцию с различными типами сенсоров и алгоритмами компьютерного зрения. #### Выводы Предложенный подход, VibES, доказал свою эффективность и простоту при использовании в сценах с неподвижной камерой и статическими сцена

Annotation:

Event cameras are a bio-inspired class of sensors that asynchronously measure per-pixel intensity changes. Under fixed illumination conditions in static or low-motion scenes, rigidly mounted event cameras are unable to generate any events, becoming unsuitable for most computer vision tasks. To address this limitation, recent work has investigated motion-induced event stimulation that often requires complex hardware or additional optical components. In contrast, we introduce a lightweight approac...

ID: 2508.19094v1 cs.CV, cs.RO

arXiv PDF

📄 Fiducial Marker Splatting for High-Fidelity Robotics Simulations

2025-08-27

Авторы:

Diram Tabaa, Gianni Di Caro

## Контекст Одним из ключевых аспектов современного исследования в области робототехники является создание высокоточных симуляционных сред. Эти среды необходимы для эффективного обучения мобильных роботов, особенно в сложных средах, таких как закрученные зеленные дома с плотным покрытием, повторяющими структурами и отвесными участками. Несмотря на прогресс в рендеринге 3D-сцен, существующие методы часто сталкиваются с проблемами, такими как неточность в определении местоположения и неэффективность в высокоподробных средах. Необходимы методы, которые могли бы объединить высокую реалистичность и гибкость в определении места. Мотивация для этой работы связана с необходимостью создания системы, которая могла бы обеспечить высокую точность расположения робота и в то же время сохранила реалистичность визуального представления. ## Метод Мы предлагаем гибридную систему, которая использует сильные стороны Gaussian Splatting (GS) для визуальной реалистичности и сочетает ее с структурированными маркерами для робототехнической локализации. Методология включает несколько шагов: первоначально, GS-метод рендерит сцену с высокой точностью. Затем, с помощью алгоритма, мы вставляем специальные маркеры, такие как AprilTags, в сцену, чтобы обеспечить роботу фидбек о своем местоположении. Эти маркеры генерируются с использованием эффективной аппроксимации и интегрируются в систему рендеринга. Этот подход позволяет сохранить высокую точность расположения, не теряя реалистичности визуального симулятора. ## Результаты Мы проводили эксперименты в симуляционной среде, в том числе в сложной среде, напоминающей зеленый дом. Мы сравнивали нашу систему с традиционными методами, такими как fit-to-image. Результаты показали, что наш алгоритм обеспечивает значительно более высокую точность в определении местоположения и эффективность в работе в реальном времени. Например, в среде с плотной кроны и повторяющимися структурами, наш метод демонстрирует повышение точности локализации до 15% по сравнению с базовыми техниками. Кроме того, мы проверили нашу систему в симуляции зеленого дома с физическими элементами, и результаты показали, что она сохраняет высокую точность даже в самых сложных условиях. ## Значимость Наша система может быть применена в различных сферах, включая робототехнику, зеленые дома и другие высокоподробные среды. Одним из основных преимуществ является возможность использовать GS для визуального рендеринга, без ущерба для точности локализации. Это может повысить эффективность в обучении мо

Annotation:

High-fidelity 3D simulation is critical for training mobile robots, but its traditional reliance on mesh-based representations often struggle in complex environments, such as densely packed greenhouses featuring occlusions and repetitive structures. Recent neural rendering methods, like Gaussian Splatting (GS), achieve remarkable visual realism but lack flexibility to incorporate fiducial markers, which are essential for robotic localization and control. We propose a hybrid framework that combin...

ID: 2508.17012v1 cs.CV, cs.RO

arXiv PDF

📄 M3DMap: Object-aware Multimodal 3D Mapping for Dynamic Environments

2025-08-27

Авторы:

Dmitry Yudin

## Контекст 3D-маппинг в динамических средах представляет собой сложную задачу для современных исследователей в области робототехники и автономного транспорта. Нет универсальных представлений для динамических 3D-сцен, которые бы могли интегрировать многомодальные данные, такие как изображения, точечные облака и текст. Эти проблемы ограничивают возможности создания точных и долговечных моделей среды. Мотивация для работы заключается в поиске решений для эффективного и точного 3D-маппинга в таких условиях. Она опирается на тот факт, что нынешние подходы часто недостаточно гибки и не учитывают мощности современных многомодальных моделей и фундаментальных моделей. ## Метод Метод M3DMap предлагает модульную архитектуру, состоящую из нескольких интегрированных компонентов: 1. **Модуль нейронной многомодальной сегментации и отслеживания объектов**, который использует современные модели для определения и отслеживания объектов в многомодальных данных. 2. **Модуль оценки одомашивания** с обучаемыми алгоритмами для точного определения движения системы. 3. **Модуль построения и обновления 3D-карт**, который может работать с различными представлениями сцены, в зависимости от потребностей задачи. 4. **Модуль мультимодального поиска данных**, обеспечивающий обработку и восстановление данных из разных модальностей. Каждый компонент оптимизирован для работы в структурированной среде, что позволяет гибко адаптироваться к разным приложениям, от гра anchинга 3D-объектов до мобильной манипуляции. Также в методе используются теоретические подходы, показывающие пользу мультимодальных данных и фундаментальных моделей для улучшения качества 3D-маппинга. ## Результаты Используя набор тестовых данных, включающий изображения, точечные облака и текстовые метки, проводились эксперименты для оценки качества карт и точности одомашивания. Результаты показали высокую точность в сегментации объектов, точное одомашивание в динамических условиях и эффективность модуля построения карт. Эти результаты зарекомендовали M3DMap как продвинутый подход к решению задач 3D-маппинга в динамических средах. ## Значимость M3DMap может применяться в различных областях, включая автоматизированное транспортное средство, робототехнические системы для дома и промышленности, а также в области виртуальной и дополненной реальности. Основные преимущества заключаются в универсальности, точности и способности интегрировать различные модальности данных. Этот подход может вносить значительный вклад в развитие робототехники и автономных систем, улучшая их способность работать в сложных динамических среда

Annotation:

3D mapping in dynamic environments poses a challenge for modern researchers in robotics and autonomous transportation. There are no universal representations for dynamic 3D scenes that incorporate multimodal data such as images, point clouds, and text. This article takes a step toward solving this problem. It proposes a taxonomy of methods for constructing multimodal 3D maps, classifying contemporary approaches based on scene types and representations, learning methods, and practical application...

ID: 2508.17044v1 cs.CV, cs.RO

arXiv PDF

📄 DeltaFlow: An Efficient Multi-frame Scene Flow Estimation Method

2025-08-27

Авторы:

Qingwen Zhang, Xiaomeng Zhu, Yushan Zhang, Yixi Cai, Olov Andersson, Patric Jensfelt

#### Контекст Обработка видеопотоков для вычисления сценного потока (scene flow) является ключевым заданием в развитии автоматизированных систем движения, таких как автопилоты и системы автоматического управления. Традиционные методы сценного потока ориентированы на двухфреймовый анализ, что недостаточно эффективно, так как игнорирует важные сведения о движении в цепочке фреймов. Недавние подходы, ориентированные на многофреймовый анализ, при возрастающем числе используемых фреймов сталкиваются с высокими затратами на вычисления. В этом контексте авторы предлагают DeltaFlow — метод, который способен эффективно использовать информацию из цепочки фреймов с минимальными вычислительными затратами. #### Метод DeltaFlow — это легковесная 3D-архитектура, основанная на принципе $\Delta$-схемы для эффективной обработки движения. Она захватывает межфреймовые движения с помощью $\Delta$-преобразований, которые позволяют извлекать особенности движения с низкими затратами ресурсов. Для улучшения точности и стабильности решения, предлагается Category-Balanced Loss для относительно равномерного обучения в случаях неотделимости классов, и Instance Consistency Loss для обеспечения гармоничного движения объектов. Распространенные данные, такие как Argoverse 2 и Waymo, подвергаются оценке, чтобы проверить реалистичность решения. #### Результаты Эксперименты показали, что DeltaFlow существенно превосходит остальные методы, достигая до 22% нижей ошибки и удвоенной скорости вычислений по сравнению с соревнующими методами. Особым примечательным является его устойчивость к переходу между различными датасетов, что указывает на его высокую гибкость и общий потенциал. Результаты этих экспериментов доступны в открытом доступе, включая код и готовые модели. #### Значимость DeltaFlow может использоваться в различных областях, включая автомобильные технологии, системы экспертизы, а также видеонаблюдение. Он обеспечивает более высокую точность и эффективность по сравнению с другими подходами, что делает его привлекательным для реализации в практических задачах. Благодаря минимальным вычислительным затратам, он может быть легко внедрен в реальные системы, где требуется высокая скорость обработки. #### Выводы Разработанная методика позволяет эффективно обрабатывать сценные потоки с помощью многофреймовой рассуждения, обеспечивая высокую точность и скорость. Она может быть успешно применена в различных практических задачах и является основополагающей для будущих исследований в области сценного потока. Дальнейшие исследования могут сосредоточиться на расширении применения DeltaFlow к более сложным сценариям и улучшению его интеграции с другими системами

Annotation:

Previous dominant methods for scene flow estimation focus mainly on input from two consecutive frames, neglecting valuable information in the temporal domain. While recent trends shift towards multi-frame reasoning, they suffer from rapidly escalating computational costs as the number of frames grows. To leverage temporal information more efficiently, we propose DeltaFlow ($\Delta$Flow), a lightweight 3D framework that captures motion cues via a $\Delta$ scheme, extracting temporal features with...

ID: 2508.17054v1 cs.CV, cs.RO

arXiv PDF

1
2
19
20
21
22
23
24
25

Показано 201 - 210 из 246 записей