📚 Саммари научных статей из arXiv

Найдено 246 результатов по запросу 'cs.CV, cs.RO' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SLAM-Former: Putting SLAM into One Transformer

2025-09-24

Авторы:

Yijun Yuan, Zhuoguang Chen, Kenan Li, Weibang Wang, Hang Zhao

## Контекст Информационные системы SLAM (Simultaneous Localization and Mapping) широко используются в полевых роботах, видеосъемке, виртуальной реальности и т. д. Они решают задачи ориентирования и построения карты окружающей среды в реальном времени. Однако существующие системы SLAM часто требуют затратных вычислительных ресурсов и фрагментаричных решений. Это связано с использованием независимых модулей для различных задач, таких как локализация, отображение и рефинейм. Существует необходимость в разработке более эффективных, гнучких и универсальных систем, которые могут объединить все эти задачи в единое решение. ## Метод SLAM-Former представляет собой новый подход, который интегрирует все функции SLAM в одну нейронную сеть. Он состоит из двух основных компонентов: фронтенда и беккенда. Фронтенд обрабатывает последовательные монокурсные изображения в реальном времени для построения карты и трекинга объектов. Беккенд выполняет глобальный рефинейм для обеспечения точности и геометрической консистентности результатов. Этот итеративный подход позволяет фронтенду и беккенду одновременно повышать качество работы друг друга. Архитектура основана на трансформерах, что позволяет обрабатывать данные в реальном времени и обеспечивать высокую скорость вычислений. ## Результаты Исследования проводились на широко известных наборах данных, таких как KITTI и Replica. Оценки производительности проводились по таким критериям, как точность локализации, качество карты и скорость выполнения. SLAM-Former показал существенное улучшение по сравнению с другими современными методами. Например, в тестах на KITTI он показал более высокую точность локализации и качество карты, уступив только в скорости выполнения. В Replica, где требуется высокая частота обновлений, SLAM-Former также демонстрировал значительное преимущество в скорости и точности. ## Значимость SLAM-Former может быть применен в различных областях, таких как виртуальная и дополненная реальность, автоматизированная система управления транспортом, мониторинг и охрана. Он обеспечивает высокую скорость и точность, что делает его привлекательным для реализации в реальном времени. Кроме того, единое нейронное решение упрощает процесс разработки и модернизации систем SLAM, уменьшая требования к ресурсам и улучшая их надежность. ## Выводы SLAM-Former представляет собой перспективный подход к объединению всех функций SLAM в одну нейронную сеть. Он демонстрирует высокую эффективность и гибкость, превосходя современные методы по многим критериям. Будущие исследования будут сфокусированы на улучшении скорости выполнения и снижении ресурсоемкости, а такж

Annotation:

We present SLAM-Former, a novel neural approach that integrates full SLAM capabilities into a single transformer. Similar to traditional SLAM systems, SLAM-Former comprises both a frontend and a backend that operate in tandem. The frontend processes sequential monocular images in real-time for incremental mapping and tracking, while the backend performs global refinement to ensure a geometrically consistent result. This alternating execution allows the frontend and backend to mutually promote on...

ID: 2509.16909v1 cs.CV, cs.RO

arXiv PDF

📄 CoBEVMoE: Heterogeneity-aware Feature Fusion with Dynamic Mixture-of-Experts for Collaborative Perception

2025-09-24

Авторы:

Lingzhao Kong, Jiacheng Lin, Siyu Li, Kai Luo, Zhiyong Li, Kailun Yang

#### Контекст Коллаборативное восприятие (collaborative perception) — это методика, нацеленная на расширение покрытия датчиков и повышение точности восприятия за счет обмена информацией между несколькими агентами. Однако ввиду различий в расположении и углезрениях, агенты часто получают нелинейные и гетерогенные наблюдения. Большинство существующих методов интермедиата-фьюжена (intermediate fusion) стремятся сходить похожие признаки, но недостаточно учитывают различия возможностей восприятия между агентами. Наша мотивация заключается в развитии метода, который не только улучшит данный аспект, но и использует новую архитектуру для эффективного обработки таких различий. #### Метод Мы предлагаем CoBEVMoE — новую архитектуру, ориентированную на BEV (Bird's Eye View, вид сверху), которая использует Dynamic Mixture-of-Experts (DMoE). DMoE генерирует экспертов динамически на основе входных признаков каждого агента. Каждый эксперт оптимизирует свой подход к выделению уникальных признаков, при этом поддерживая общие семантические структуры. Это решение позволяет эффективно обрабатывать различия в расположении и восприятии между агентами. Для дополнительного повышения эффективности мы предложили Dynamic Expert Metric Loss (DEML), который улучшает интер-экспертную диверсификацию и укрепляет дискриминативность полученных представлений. #### Результаты Мы проверили CoBEVMoE на двух датасетах: OPV2V и DAIR-V2X-C. На OPV2V он улучшил IoU (Intersection over Union) для камерного BEV-сегментации на +1.5%, а на DAIR-V2X-C — AP@50 для LiDAR-based 3D объектного детектирования на +3.0%. Эти результаты подтверждают эффективность DMoE в моделировании гетерогенных признаков и улучшении результатов в среде многоагентного восприятия. #### Значимость CoBEVMoE может применяться в различных сценариях, где необходимо объединить восприятие нескольких сенсоров или агентов. Он предлагает преимущества в улучшенной моделировании различий между агентами, что может применяться в системах автоматизированного управления транспортом, видеонаблюдении и других системах коллаборативного восприятия. Мы считаем, что наш предложенный подход может стать основой для новых развитий в подобных задачах. #### Выводы Мы доказали эффективность CoBEVMoE в улучшении результатов в многоагентном восприятии с использованием DMoE и DEML. Наши результаты открывают новые перспективы для развития методов коллаборативного восприятия. Будущие исследования будут сконцентрированы на расширении применений нашей модели на более широкие сценарии и оптимизации ее для реального времени.

Annotation:

Collaborative perception aims to extend sensing coverage and improve perception accuracy by sharing information among multiple agents. However, due to differences in viewpoints and spatial positions, agents often acquire heterogeneous observations. Existing intermediate fusion methods primarily focus on aligning similar features, often overlooking the perceptual diversity among agents. To address this limitation, we propose CoBEVMoE, a novel collaborative perception framework that operates in th...

ID: 2509.17107v1 cs.CV, cs.RO, eess.IV

arXiv PDF

📄 DepTR-MOT: Unveiling the Potential of Depth-Informed Trajectory Refinement for Multi-Object Tracking

2025-09-24

Авторы:

Buyin Deng, Lingxin Huang, Kai Luo, Fei Teng, Kailun Yang

## Контекст Visual Multi-Object Tracking (MOT) является кллючевым компонентом распознавания объектов в системах робототехники. Существующие Tracking-By-Detection (TBD) методы часто опираются на 2D-признаки, такие как боксы и моделирование движения. Однако эти методы становятся нестабильными в условиях плотных целей, частых прикрываний и близких взаимодействий. Эти проблемы значительно усиливаются в средах с роботами, где требуется высокая точность и устойчивость. Хотя depth-information могла бы улучшить показатели, большинство MOT-датасетов не имеют depth-annotations, что приводит к неполному использованию этого потенциала. Наша мотивация заключается в раскрытии потенциала depth-informed trajectory refinement (refinement по движению на основе depth-information) для улучшения устойчивости и точности TBD-методов. ## Метод Мы предлагаем DepTR-MOT, базирующийся на DETR-архитектуре и расширенный с помощью depth-information. Основные инновации: (i) Мы используем foundation model-based instance-level soft depth label supervision, чтобы улучшить depth-prediction. (ii) Мы внедрили методы для поддержания global depth consistency, используя distillation dense depth maps. Эти техники позволяют DepTR-MOT выдавать instance-level depth без дополнительных моделей и с низким ресурсоемкостью. Мы также реализуем depth-refinement в TBD-парадигму, чтобы улучшить устойчивость и решить проблемы, такие как occlusions и close-proximity. ## Результаты Мы проверили эффективность DepTR-MOT на двух датасетах: QuadTrack и DanceTrack. На QuadTrack, где требуется устойчивость в условиях плотных целей и частых прикрываний, DepTR-MOT достиг HOTA-score 27.59. На DanceTrack, где требуется высокая точность в условиях dense-сцен, DepTR-MOT показал HOTA-score 44.47. Эти результаты продемонстрировали значительное улучшение в обходе проблем, связанных с пропусками и близкими взаимодействиями, в сравнении с другими TBD-методами. ## Значимость Наши результаты имеют большое значение для robotic perception. DepTR-MOT может быть применен в системах с роботами, где depth-information является ключевым фактором для улучшения tracking. Высокая точность DepTR-MOT делает его привлекательным для robotic grasping, navigation и surveillance applications. Дополнительно, DepTR-MOT не требует дополнительных моделей и остается рациональным в ресурсоемкости. ## Выводы Мы представили DepTR-MOT, новый TBD-метод, который использует depth-information для улучшения точности и устойчивости. Эксперименты показали, что DepTR-MOT эффективно работает в сложных сценах с близкими взаимодействиями и occlusions. Наша работа открывает новые возможности для depth-informed trajectory refinement в MOT. Будущие исследования будут фокусироваться на расширении applicability и улучшении scalability DepTR-MOT для объемных robotic perception tasks.

Annotation:

Visual Multi-Object Tracking (MOT) is a crucial component of robotic perception, yet existing Tracking-By-Detection (TBD) methods often rely on 2D cues, such as bounding boxes and motion modeling, which struggle under occlusions and close-proximity interactions. Trackers relying on these 2D cues are particularly unreliable in robotic environments, where dense targets and frequent occlusions are common. While depth information has the potential to alleviate these issues, most existing MOT dataset...

ID: 2509.17323v1 cs.CV, cs.RO, eess.IV

arXiv PDF

📄 EmbodiedSplat: Personalized Real-to-Sim-to-Real Navigation with Gaussian Splats from a Mobile Device

2025-09-24

Авторы:

Gunjan Chhablani, Xiaomeng Ye, Muhammad Zubair Irshad, Zsolt Kira

## Контекст Область Embodied AI (интеллектуальные системы, взаимодействующие с реальной средой) на момент написания статьи широко использовала симуляционные среды для обучения и оценки моделей. Однако существует две главные проблемы: использование симуляторов с полностью синтетическими средами, которые не имеют фотореалистичности, и высококачественных сред, построенных с помощью дорогостоящих аппаратных средств. Это приводит к сложностям в переходе от симуляции к реальному миру (sim-to-real). Наша мотивация заключается в создании метода, который бы уменьшал эти сложности и позволил эффективно адаптировать модели к реальным условиям. ## Метод Мы предлагаем EmbodiedSplat — метод, который использует 3D Gaussian Splatting (GS) для эффективного снимания и записи реального окружения с помощью мобильных устройств. Эти снимки преобразуются в модели меша и используются в симуляторе Habitat-Sim для оценки и тренировки политик. Основные элементы нашего подхода: 1. **Съемка реального окружения**: мы используем iPhone для съемки сцен, где должна производиться навигация. 2. **Преобразование в меш**: GS преобразует фотограммные данные в 3D-реплики среды. 3. **Оценка и тренировка в симуляторе**: мы применяем Habitat-Sim для анализа поведения моделей в этих реконструированных окружениях. 4. **Персонализация**: наши системы настраиваются на особенности конкретной среды, что увеличивает точность. Этот подход позволяет эффективно использовать реальные данные и оптимизировать сложность и накладные расходы симуляций. ## Результаты Мы провели тщательные эксперименты с различными стратегиями обучения, наборами данных и методами реконструкции моделей. Мы оценивали, насколько эффективно модели могут применяться в реальном мире после тренировки в симуляции. Основные результаты: - **Эффективность EmbodiedSplat**: модели, обученные с помощью нашего метода, показали абсолютные улучшения успешности в навигационных задачах (Image Navigation task) до 20% по сравнению с zero-shot baselines, использующими HM3D, и до 40% по сравнению с HSSD. - **Корреляция симуляции и реальности**: мы получили высокую корреляцию (0.87–0.97) между реальными условиями и реконструкциями, что подтверждает эффективность нашего подхода в переходе симуляции к реальности. Эти результаты показывают, что EmbodiedSplat позволяет эффективно адаптировать модели к реальным условиям с минимальными затратами. ## Значимость Мы видим применение EmbodiedSplat в следующих областях: - **Робототехника и виртуальная реальность**: эффективный тренировочный подход может уменьшить время и стоимость тренировки моделей для навигации в реальных условиях. - **Обучение с подк

Annotation:

The field of Embodied AI predominantly relies on simulation for training and evaluation, often using either fully synthetic environments that lack photorealism or high-fidelity real-world reconstructions captured with expensive hardware. As a result, sim-to-real transfer remains a major challenge. In this paper, we introduce EmbodiedSplat, a novel approach that personalizes policy training by efficiently capturing the deployment environment and fine-tuning policies within the reconstructed scene...

ID: 2509.17430v2 cs.CV, cs.RO

arXiv PDF

📄 DINOv3-Diffusion Policy: Self-Supervised Large Visual Model for Visuomotor Diffusion Policy Learning

2025-09-24

Авторы:

ThankGod Egbe, Peng Wang, Zhihao Guo, Zidong Chen

## Контекст В последние годы визуальные системы, основанные на нейронных сетях, набирают все большую популярность в области робототехники, особенно в зоне визуально-моторных политик. Одной из ключевых проблем является эффективность обучения таких моделей, когда доступ к традиционным супервизированным данным ограничен. Другой важный аспект — улучшение общей гибкости моделей в условиях неизвестных или нерегулярных сред. Работа статьи DINOv3-Diffusion Policy адресует эти проблемы, исследуя возможности pure-self-supervised одного из последних больших моделей — DINOv3 — в зоне visuomotor diffusion policy learning. ## Метод Методология работы основывается на использовании DINOv3 в качестве самостоятельного самосупервизируемого визуального моделирования. Авторы оценивают три аспекта эффективности: обучение с нуля, замороженный вес (frozen) и оптимизация тренировочного процесса (finetuning). Тесты проводятся на четырёх бенчмарк-задачах: "Push-T", "Lift", "Can" и "Square", которые закладываются в основу FiLM-conditioned diffusion policy. Для сравнения используется ResNet-18, традиционный модельный бизнес для таких задач. В результате проводится анализ различных аспектов — точности, устойчивости, обучаемости. ## Результаты В результате экспериментов, реализованных в рамках работы, было показано, что DINOv3-Diffusion Policy демонстрирует высокую эффективность. Специально, "finetuned DINOv3" показал себя на уровне или выше ResNet-18 в задачах, которые требуют высокой точности, например, в задаче "Can". Также, заметное улучшение в обучаемости отмечено для self-supervised DINOv3 в задачах, где наличие многочисленных тренировочных данных ограничено. Это указывает на более высокий уровень гибкости и устойчивости, особенно если сравнивать с ResNet-18 с ImageNet-pretrained. ## Значимость Результаты работы имеют значительный потенциал в различных областях робототехники, включая визуально-моторные политики, роботов для полезных дел, и в области общей гибкости моделей с предварительным тренировком. Использование DINOv3-Diffusion Policy позволяет упростить процесс подготовки моделей в зоне визуального моделирования, уменьшить необходимость в масштабных супервизированных данных, и, таким образом, сделать робототехнические системы более доступными и эффективными. ## Выводы В итоге, работа DINOv3-Diffusion Policy демонстрирует значительные преимущества самостоятельно самосупервизируемых моделей в зоне визуально-моторного моделирования. Она позволяет улучшить обучаемость и устойчивость моделей, снизить необходимость в традиционных супервизированных данных, и улучшить общую гибкость. Будущие исследования могут сфокусироваться на расширении дан

Annotation:

This paper evaluates DINOv3, a recent large-scale self-supervised vision backbone, for visuomotor diffusion policy learning in robotic manipulation. We investigate whether a purely self-supervised encoder can match or surpass conventional supervised ImageNet-pretrained backbones (e.g., ResNet-18) under three regimes: training from scratch, frozen, and finetuned. Across four benchmark tasks (Push-T, Lift, Can, Square) using a unified FiLM-conditioned diffusion policy, we find that (i) finetuned D...

ID: 2509.17684v1 cs.CV, cs.RO

arXiv PDF

📄 How Good are Foundation Models in Step-by-Step Embodied Reasoning?

2025-09-23

Авторы:

Dinura Dissanayake, Ahmed Heakl, Omkar Thawakar, Noor Ahsan, Ritesh Thawkar, Ketan More, Jean Lahoud, Rao Anwer, Hisham Cholakkal, Ivan Laptev, Fahad Shahbaz Khan, Salman Khan

#### Контекст Область исследования включает развитие и применение широковещательных моделей для обеспечения решающих возможностей у роботов в физическом мире. Эти модели должны не только эффективно решать задачи, но и быть безопасными, специфичными и обоснованными в контексте. Несмотря на успехы в области зрительного понимания и генерации текста, современные модели сталкиваются с трудностями при выполнении сложных задач, требующих логического и структурированного рассуждения в реальных средах. Наша мотивация заключается в изучении возможностей широковещательных моделей в области шаг за шагом принятия решений в условиях роботов с полным телом, оперирующих в физической среде. #### Метод Мы предлагаем новый бенчмарк под названием Foundation Model Embodied Reasoning (FoMER), предназначенный для оценки возможностей широковещательных моделей в области логического планирования и принятия решений в условиях роботов. Бенчмарк включает разнообразные задачи, требующие роботов интерпретировать многомодальные данные, учитывать физические ограничения и риски, а также формировать действия в естественной речи. Мы использовали разнообразные типы роботов, что позволило создать широкий пере rechtи докладчиков: Dinura Dissanayake, Ahmed Heakl, Omkar Thawakar, Noor Ahsan, Ritesh Thawkar, Ketan More, Jean Lahoud, Rao Anwer, Hisham Cholakkal, Ivan Laptev, Fahad Shahbaz Khan, Salman Khan.

Annotation:

Embodied agents operating in the physical world must make decisions that are not only effective but also safe, spatially coherent, and grounded in context. While recent advances in large multimodal models (LMMs) have shown promising capabilities in visual understanding and language generation, their ability to perform structured reasoning for real-world embodied tasks remains underexplored. In this work, we aim to understand how well foundation models can perform step-by-step reasoning in embodi...

ID: 2509.15293v1 cs.CV, cs.RO

arXiv PDF

📄 SAMPO:Scale-wise Autoregression with Motion PrOmpt for generative world models

2025-09-23

Авторы:

Sen Wang, Jingyi Tian, Le Wang, Zhimin Liao, Jiayi Li, Huaiyi Dong, Kun Xia, Sanping Zhou, Wei Tang, Hua Gang

## Контекст Область исследования сосредоточена на развитии методов для создания генерируемых моделей мира, которые позволяют агентам прогнозировать последствия своих действий в условиях прикладных задач, таких как планирование, управление и решения с телом дальнейших шагов. Несмотря на прогресс в этой области, существующие модели сталкиваются со сложностями в сохранении пространственной локальности, эффективной декодирования и точном моделировании движения. Эти проблемы приводят к дискретизации и неестественности генерируемых видеосцен. Исследователи стремятся к развитию авторегрессионных систем, которые могут эффективно обходить эти трудности, обеспечивая как качественные, так и эффективные результаты. ## Метод Предлагаемая методология, **SAMPO (Scale-wise Autoregression with Motion PrOmpt)**, является современным гибридным подходом, который объединяет авторегрессионную модель для генерации кадров внутри кадра с применением распределенной модели движения для прогнозирования следующих кадров. Система использует **траекторий-активированный модуль движения**, который фокусирует внимание на динамических областях, и **асимметричный многомасштабный токенизатор**, который сохраняет детали пространства в наблюдаемых кадрах и эффективно выделяет динамические представления. Такой подход позволяет совместить высокую эффективность расчетов с качественно выраженной структурой и динамикой визуальных сцен. ## Результаты Исследователи проводили многочисленные эксперименты для оценки качества генерируемого видео. Они использовали различные датасеты для видеопредсказания в зависимости от действий. Результаты показали, что SAMPO обеспечивает высокую точность в описании динамики сцен, в то же время улучшая качество генерации с 4.4 раз быстреей инференцией по сравнению с конкурентными моделями. Также проведены тесты на нулевой генеральный контроль, подтверждающие хорошую общинность и устойчивость модели в различных условиях. ## Значимость Модель SAMPO имеет широкие потенциальные применения в области осмысленных интерактивных систем, включая системы управления, а также в машинном зрении и прогнозировании в средах с развитым движением. Основное преимущество SAMPO заключается в ее способности сочетать эффективность и качество в генерации сцен, улучшая производительность и целостность визуальных моделей. Это может привести к улучшению контроля в искусственных агентах, более реалистичной моделированию визуального окружения, и, в целом, к повышению качества приложений, основанных на имитации реального мира. ## Выводы Статья SAMPO представляет собой новую модель генери

Annotation:

World models allow agents to simulate the consequences of actions in imagined environments for planning, control, and long-horizon decision-making. However, existing autoregressive world models struggle with visually coherent predictions due to disrupted spatial structure, inefficient decoding, and inadequate motion modeling. In response, we propose \textbf{S}cale-wise \textbf{A}utoregression with \textbf{M}otion \textbf{P}r\textbf{O}mpt (\textbf{SAMPO}), a hybrid framework that combines visual ...

ID: 2509.15536v1 cs.CV, cs.RO

arXiv PDF

📄 A Real-Time Multi-Model Parametric Representation of Point Clouds

2025-09-20

Авторы:

Yuan Gao, Wei Dong

#### Контекст Актуальность исследований в области представления точечных множеств (point clouds) возросла в последние годы, благодаря применению этих данных в сферах, таких как виртуальная реальность, системы координации роботов и реалистичная моделирования трёхмерных объектов. Однако, существующие методы часто сталкиваются с проблемами недостаточной точности или высоким расходом вычислительных ресурсов. Это приводит к ограниченности их применения в реальном времени. В частности, высокоадаптивные модели, такие как spline-сурфейсы или квадрики, требуют сложной обработки, что увеличивает время расчёта. Альтернативными методами, такими как Gaussian mixture models или плоскости, является недостаточная точность и ограничение в выражении сложности объектов. Мотивируя эти проблемы, целью данной работы является разработка реалистичной, высокоточной и эффективной модели представления точечных множеств, которая объединяет высокую точность с реальностью реализации. #### Метод Предлагаемая методология представляет собой сложную структуру, в которой используется Gaussian mixture model (GMM) для разбиения точечного множества на несколько кластеров. Затем, кластеры с низким разрешением фильтруются и объединяются в плоскости с помощью метода разбиения на вокселя. Для получения сложных поверхностей с конусом, используется модель B-spline. Это позволяет достичь высокой точности и адаптивности. Также, в качестве нового подхода для описания границ поверхностей, предлагается 2D voxel-based boundary description, что обеспечивает плотный, эффективный и точный представление информации о границах. Эта структура обеспечивает реальность вычислений, необходимую для применения в системах с ограниченным вычислительным мощностью. #### Результаты Эксперименты проводились на нескольких общедоступных точечных множествах, включая KITTI и SUN RGB-D. Результаты показали, что предложенная модель обеспечивает значительно вышу точность по сравнению с состоянием технологии (state-of-the-art). Например, в тестах на KITTI, модель показала 3.78-кратное повышение эффективности и 2-кратное увеличение точности по сравнению с Gaussian mixture model. Характеристика времени отклика (fps) составила 36.4 на низкомощном оборудовании, что демонстрирует возможность использования в реальном времени на миниатюрных устройствах. Измеренные показатели показали, что предложенная модель отличается более высокой точностью и низкими затратами ресурсов, что делает её привлекательной для применения в сложных средах с ограниченными возможностями вычислительной мощности. #### Значимость Предложенная модель имеет широкие перспективы применения в различных областях, таких как системы сбора данных LiDAR, системы для самостояте

Annotation:

In recent years, parametric representations of point clouds have been widely applied in tasks such as memory-efficient mapping and multi-robot collaboration. Highly adaptive models, like spline surfaces or quadrics, are computationally expensive in detection or fitting. In contrast, real-time methods, such as Gaussian mixture models or planes, have low degrees of freedom, making high accuracy with few primitives difficult. To tackle this problem, a multi-model parametric representation with real...

ID: 2509.14773v1 cs.CV, cs.RO

arXiv PDF

📄 RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

2025-09-20

Авторы:

Yuming Jiang, Siteng Huang, Shengke Xue, Yaxi Zhao, Jun Cen, Sicong Leng, Kehan Li, Jiayan Guo, Kexiang Wang, Mingxiu Chen, Fan Wang, Deli Zhao, Xin Li

#### Контекст В последние годы наблюдается стремительный рост интереса к видению-языку-действию (VLA) моделям, которые способны учитывать визуальные сигналы, языковые команды и действия в синхронном режиме. Эта проблема становится все более актуальной в связи с развитием роботов-манипуляторов, которые должны работать в условиях реального мира. Однако существуют значимые проблемы: нехватка качественных данных для обучения, сложность моделей и неэффективность их адаптации к конкретным задачам. Данная работа нацелена на развитие модели, которая бы существенно повысила эффективность VLA-моделей, обучаясь на готовых данных из реальных сценариев манипуляций. #### Метод Методология RynnVLA-001 основывается на двух этапах гиперболического обучения. **Первый этап** — Ego-Centric Video Generative Pretraining — обучает Image-to-Video модель на многомиллионных данных 12 миллионов ego-centric видео, которая предсказывает будущие кадры на основе исходного кадра и языковых инструкций. **Второй этап** — Human-Centric Trajectory-Aware Modeling — расширяет этот подход, предсказывая не только визуальные кадры, но и специфичные для действий ключевые точки, что добавляет уровень детализации в прогнозировании действий. Для еще большей эффективности владения действиями вводится ActionVAE — вариационный автоэнкодер, сжимающий последовательности действий в компактные видео-закодированные векторы, уменьшая сложность VLA-выхода. #### Результаты Набор экспериментов проводился на основе широко известных различных датасетов, включающих обучение на данных исходных 12 миллионов видео сцен манипуляций. Показано, что RynnVLA-001 превосходит состояние техники в сравнении с другими VLA-моделями, значительно улучшая точность предсказания действий и эффективность обучения. Доказано, что два этапа предварительного обучения обеспечивают более сильное инициализированное понимание действий, что позволяет модели лучше адаптироваться к различным задачам манипуляций. #### Значимость Результаты модели RynnVLA-001 открывают новые возможности для практического применения VLA-технологий в робототехнике, автоматизации и жизненных сценариях. Модель эффективно работает в условиях ограниченного количества данных, из-за того, что ее предварительное обучение на 12 миллионах видео дает универсальные компетенции. Это повышает производительность в задачах, таких как точное контролирование роботов, управление ими благодаря языковым командам, а также интеллектуальное обнаружение и реагирование на ситуации. #### Выводы Результаты этого исследования подтверждают эффективность гибридно

Annotation:

This paper presents RynnVLA-001, a vision-language-action(VLA) model built upon large-scale video generative pretraining from human demonstrations. We propose a novel two-stage pretraining methodology. The first stage, Ego-Centric Video Generative Pretraining, trains an Image-to-Video model on 12M ego-centric manipulation videos to predict future frames conditioned on an initial frame and a language instruction. The second stage, Human-Centric Trajectory-Aware Modeling, extends this by jointly p...

ID: 2509.15212v1 cs.CV, cs.RO

arXiv PDF

📄 A Generalization of CLAP from 3D Localization to Image Processing, A Connection With RANSAC & Hough Transforms

2025-09-19

Авторы:

Ruochen Hou, Gabriel I. Fernandez, Alex Xu, Dennis W. Hong

## Контекст Проблемы локализации и обработки изображений часто связаны с значительным влиянием шума и неточностей в данных. Работа CLAP (Clustering to Localize Across $n$ Possibilities), впервые представленная в 2024 году, была признана победой в чемпионате RoboCup, где эффективность метода заключалась в устойчивости к выбросам и точности работы с неточными соотнесениями. Однако, CLAP был ограничен 2D-локализацией. Название работы отражает желание расширить применение CLAP на 3D-локализацию и изображение обработки, а также выявить связь с такими важными методами, как RANSAC и Hough transforms, улучшив надежность и широту применения метода. ## Метод Методология расширения CLAP заключается в его переработке на базе группировочных алгоритмов, применяемых в 2D, для построения 3D-локализации и изображения обработки. Используется кластеризация для выделения точных соответствий, смягчения влияния выбросов. Технический подход включает адаптированную архитектуру для работы в трехмерном пространстве и для параллельной обработки изображений. Эталонными методами являются RANSAC (Random Sample Consensus) и Hough transforms, которые также затрагиваются в работе для сравнения и интеграции. ## Результаты Используя различные данные из RoboCup и сцен 3D-локализации, авторы продемонстрировали эффективность новой версии CLAP в 3D-пространстве и в обработке изображений. Замеры ошибок и сравнение с RANSAC показали прирост точности и резилиентности к выбросам. Особое внимание было уделено обнаружению связи между CLAP, RANSAC и Hough transforms, что позволяет использовать эти методы в задачах локализации и обработки. ## Значимость Расширенный CLAP может применяться во многих областях, включая автономную локализацию, изображение обработку, контроль качества производства и т.п. Он предлагает улучшенную устойчивость к шумам и выбросам, гибкость в применении и возможность объединения с другими методами. Это делает CLAP полезным инструментом в различных прикладных задачах. ## Выводы Основными достижениями является расширение CLAP на 3D-локализацию и обработку изображений, а также выявление связи с традиционными методами RANSAC и Hough transforms. Будущие исследования будут направлены на улучшение эффективности и применение CLAP в других прикладных областях.

Annotation:

In previous work, we introduced a 2D localization algorithm called CLAP, Clustering to Localize Across $n$ Possibilities, which was used during our championship win in RoboCup 2024, an international autonomous humanoid soccer competition. CLAP is particularly recognized for its robustness against outliers, where clustering is employed to suppress noise and mitigate against erroneous feature matches. This clustering-based strategy provides an alternative to traditional outlier rejection schemes s...

ID: 2509.13605v1 cs.CV, cs.RO

arXiv PDF

1
2
16
17
18
19
20
24
25

Показано 171 - 180 из 246 записей