📚 Саммари научных статей из arXiv

Найдено 225 результатов по запросу 'cs.RO, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 MASt3R-Fusion: Integrating Feed-Forward Visual Model with IMU, GNSS for High-Functionality SLAM

2025-09-27

Авторы:

Yuxuan Zhou, Xingxing Li, Shengyu Li, Zhuohao Yan, Chunxi Xia, Shaoquan Feng

## Контекст Область виртуальной, аugmented и mixed reality (XR), а также автоматическое управление транспортом, требуют высокоточных систем визуального SLAM (Simultaneous Localization and Mapping). Традиционные методы визуального SLAM часто сталкиваются с проблемами, такими как неэффективность в низкотекстурных средах, амбигуитет текстур и нестабильность в сложных условиях. Нейросетевые модели, основанные на фидфорвардных архитектурах, показали способность регрессии точечных карт, преодолевая ограничения классических методов. Однако информационная фьюзия, основанная на мультисенсорном подходе, часто отвергается в этих системах. Наша мотивация заключается в разработке системы, которая существенно улучшает точность и надежность SLAM-систем, используя синергетические преимущества визуальной регрессии и мультисенсорной информации. ## Метод Мы предлагаем MASt3R-Fusion, совмещающую нейросетевую точечную регрессию с информационной фьюзией мультисенсоров. Проект основан на факторной графической архитектуре SE(3) с универсальным метрическим масштабом. В ней внедрены Sim(3)-based visual alignment constraints в Hessian-like форме для эффективной информационной фьюзии. Для реализации эффективного реального времени и масштабируемой оптимизации разработана иерархическая структура графа. Мы также внедрили поддержку реального времени для оптимизации слайдингового окна и многошаговой оптимизации с большим шагом. Эта архитектура позволяет обеспечить реальное времени локализации, построение метрической трёхмерной структуры и консистентную карту. ## Результаты Мы проверили нашу систему на существующих бенчмарках и самостоятельно собранных данных. Результаты показали значительные улучшения в точности и надежности по сравнению с традиционными методами визуального SLAM. В частности, мы продемонстрировали улучшение в локализации, точности оценки масштаба и консистентности карты. Эти результаты достигнуты благодаря уникальному интеграционному подходу, который объединяет в себе точечную регрессию и мультисенсорное слияние. ## Значимость Наша система может быть применена в сферах XR, робототехники и автоматизированного управления транспортом. Она обеспечивает высокую точность и надежность в сложных условиях, что делает её привлекательной для реализации в сложных приложениях. Мы также открыли возможность дальнейшего исследования, выпустив код нашей системы в открытый доступ, что позволит другим исследователям расширять и улучшать нашу работу. ## Выводы Мы представили MASt3R-Fusion, нововведя и

Annotation:

Visual SLAM is a cornerstone technique in robotics, autonomous driving and extended reality (XR), yet classical systems often struggle with low-texture environments, scale ambiguity, and degraded performance under challenging visual conditions. Recent advancements in feed-forward neural network-based pointmap regression have demonstrated the potential to recover high-fidelity 3D scene geometry directly from images, leveraging learned spatial priors to overcome limitations of traditional multi-vi...

ID: 2509.20757v1 cs.RO, cs.CV

arXiv PDF

📄 Autoregressive End-to-End Planning with Time-Invariant Spatial Alignment and Multi-Objective Policy Refinement

2025-09-27

Авторы:

Jianbo Zhao, Taiyu Ban, Xiangjie Li, Xingtai Gui, Hangning Zhou, Lei Liu, Hongwei Zhao, Bin Li

#### Контекст Автономная планировка управления в системах автономного вождения требует эффективной интеграции сенсорных данных, предсказания будущих действий и соблюдения физических ограничений. Традиционные подходы часто сталкиваются с проблемами последовательности, требуя сложного предварительного симулирования сцены. Особенностью этой области является необходимость увеличения точности и реактивности планировщика, чтобы обеспечить безопасность и эффективность в тяжелой среде потока движения. Однако существующие решения часто страдают от проблем с адекватной расстановкой спацио-временных признаков и недостаточной оптимизации поведения в условиях сложности. #### Метод Мы предлагаем **Time-Invariant Spatial Alignment (TISA)** — модуль, который изменяет ориентацию сенсорных данных к автомобилю в каждый момент времени, сохраняя консистентность в пространственных признаках. Это позволяет избежать неполадок между прошлыми и будущими действиями. Для физически возможных действий включен **kinematic action prediction head**. Для выполнения нескольких задач вместо одной целой задачи, мы представили **Multi-Objective Policy Refinement**, где Direct Preference Optimization (DPO) используется для точного корректирования поведения в зависимости от конкретных сценариев. #### Результаты Мы проводим эксперименты на NAVSIM — высокодостоверном датасете для тестирования планировщиков. Модель показала **89.8 PDMS**, став самой эффективной в своей категории. Особенно выдающимся показался TISA-модуль, который удалось уменьшить ошибки спацио-временной несовпаденности. Эксперименты со сценариями, требующими внимательной оценки поведения, такими как сложные маневры или высокоскоростные сценарии, подтвердили стабильность и точность полученных результатов. #### Значимость Наш подход может быть применен в системах автономного вождения для более точного и безопасного планирования движения. Он предлагает преимущества перед современными методами, такими как более гибкая обработка непредсказуемых сценариев и улучшенная адаптация к различным стилям вождения. Открытое применение этой модели может способствовать улучшению безопасности и эффективности в развитых системах автоматизированного управления. #### Выводы Мы установили новый переломный момент в развитии автоматизированных планировщиков, предлагая решение, которое устраняет ограничения в существующих подходах. Будущие исследования будут сфокусированы на повышении скорости вычислений, улучшении моделей в условиях реальных данных и функциональном расширении модели в различных типах транспортных средств.

Annotation:

The inherent sequential modeling capabilities of autoregressive models make them a formidable baseline for end-to-end planning in autonomous driving. Nevertheless, their performance is constrained by a spatio-temporal misalignment, as the planner must condition future actions on past sensory data. This creates an inconsistent worldview, limiting the upper bound of performance for an otherwise powerful approach. To address this, we propose a Time-Invariant Spatial Alignment (TISA) module that lea...

ID: 2509.20938v1 cs.RO, cs.CV

arXiv PDF

📄 KeyWorld: Key Frame Reasoning Enables Effective and Efficient World Models

2025-09-27

Авторы:

Sibo Li, Qianyue Hao, Yu Shang, Yong Li

## Контекст Роботические world models являются перспективным подходом для прогнозирования будущих состояний окружающей среды. Однако два основных ограничения существуют в существующих системах: неэффективность процесса оптимизации и недостаточная физическая правдоподобность полученных траекторий. Эти проблемы возникают из-за распространенного подхода frame-to-frame generation, когда модель выполняет дорогостоящие вычисления над похожими кадрами, не учитывая их семантическую важность. Это приводит к значительным затратам ресурсов на ненужные вычисления. Другой важный аспект — недостаточная учет семантической значимости ключевых моментов между кадрами, что снижает качество генерируемых траекторий. Наша мотивация заключается в разработке эффективного и эффектного метода, который устраняет эти проблемы, сделав world models более пригодными для реальных приложений. ## Метод Мы предлагаем KeyWorld, рамочную модель для текстово-зависимых world models, которая сосредотачивает вычисления трансформеров на ключевых моментах роботической траектории. Основной идеей является уменьшение затрат с помощью идентификации ключевых моментов полосы посредством итеративного упрощения динамики робота. Мы используем DiT-модель (Diffusion Transformer), которая обучается для логического вывода и генерации этих ключевых моментов из текстовых заданий. Наконец, мы применяем легковесную нейронную сеть с восстановлением информации (inpainting) для эффективной реконструкции полного видео, включая все промежуточные кадры. Эта архитектура позволяет сохранить физическую правдоподобность и существенно ускорить расчеты, делая KeyWorld более эффективным в реальном времени. ## Результаты Мы проводили эксперименты на бенчмарке LIBERO, сравнивая KeyWorld с традиционным подходом frame-to-frame generation. Наши результаты показали, что KeyWorld увеличивает скорость вычислений примерно в 5.68 раз, сильно экономя ресурсы. Благодаря фокусировке на ключевых моментах, KeyWorld также показал значительное улучшение в физической правдоподобности генерируемых траекторий, особенно при решении сложных задач. Эти результаты подтверждают, что наш подход эффективно решает проблемы неэффективности и недостаточной правдоподобности в области world models. ## Значимость KeyWorld может применяться во многих областях, в частности в real-time robotic control, где необходима высокая скорость и точность расчетов. Он также может быть оптимизирован для других задач, требующих эффективного и правдоподобного прогнозирования траекторий. Наш подход не только ускоряет процесс, но и повышает качество прогнозов, что делает его привлекательным для применения в реальных си

Annotation:

Robotic world models are a promising paradigm for forecasting future environment states, yet their inference speed and the physical plausibility of generated trajectories remain critical bottlenecks, limiting their real-world applications. This stems from the redundancy of the prevailing frame-to-frame generation approach, where the model conducts costly computation on similar frames, as well as neglecting the semantic importance of key transitions. To address this inefficiency, we propose KeyWo...

ID: 2509.21027v1 cs.RO, cs.CV

arXiv PDF

📄 HUNT: High-Speed UAV Navigation and Tracking in Unstructured Environments via Instantaneous Relative Frames

2025-09-26

Авторы:

Alessandro Saviolo, Jeffrey Mao, Giuseppe Loianno

#### Контекст Универсальная система для быстрого навигационного планирования и целевого отслеживания в неизвестных неструктурированных средах является ключевым областью исследований в робототехнике. Эта задача становится особенно сложной при необходимости выполнения отслеживания в ходе выполнения поисковых и сохранительных операций. Требования к высокой скорости, многоугольному планированию и надежной целевой отслеживаемости в таких условиях поднимают вызов для робототехники. Особенно сложность возрастает, когда объект находится вне области поля зрения, что требует разработки системы, которая может реактивно и эффективно отслеживать цели и при этом устойчиво выполняться в многоугольной модели окружающей среды. Ранее проводимые исследования главным образом направлены на одну из этих задач, но не удалось найти систему, которая могла бы решать все эти задачи в одной модели. Наша работа призвана решить эту проблему, сочетая в себе как навигацию, так и отслеживание в единой непрерывной структуре. #### Метод Мы предлагаем HUNT (High-Speed UAV Navigation and Tracking) — реалистичную систему, которая объединяет навигацию и отслеживание в рамках одной модели. HUNT определяет цели навигации на основе визуальных сенсоров, включая аттрактор-управляемую конструкцию реактивного полета. Конструкция использует доступные визуальные данные, такие как аттрактёр-управляемое целевое положение, чтобы непрерывно поддерживать навигацию и отслеживание цели в неизвестных обстановках. Мы использовали нейронные сети, чтобы обучить модель, которая может реагировать на визуальные данные в реальном времени, используя аттрактор-управляемый подход. Также мы внедрили алгоритмы планирования, чтобы обеспечить высокую скорость и точность полета во время выполнения миссии. Эта модель использовалась для разработки одной системы, которая может решать вопросы, связанные с навигацией и отслеживанием, в различных средах. #### Результаты Мы проводили эксперименты в различных средах, включая леса, контейнерные компании и поисковые операции с видеозаписью движения манекенов и транспортных средств. Наши результаты показывают, что HUNT эффективно решает проблемы, связанные с поиском и отслеживанием в сложных условиях. Мы проводили сравнение с другими системами и видим, что HUNT работает быстрее и более точно, даже при отсутствии глобальной локализации. Таким образом, наша система доказывает свою эффективность в решении проблем, связанных с поиском и отслеживанием в неизвестных средах. #### Значимость HUNT может использоваться в различных сферах, включая поисковые и сохра

Annotation:

Search and rescue operations require unmanned aerial vehicles to both traverse unknown unstructured environments at high speed and track targets once detected. Achieving both capabilities under degraded sensing and without global localization remains an open challenge. Recent works on relative navigation have shown robust tracking by anchoring planning and control to a visible detected object, but cannot address navigation when no target is in the field of view. We present HUNT (High-speed UAV N...

ID: 2509.19452v2 cs.RO, cs.CV, cs.LG

arXiv PDF

📄 Agentic Scene Policies: Unifying Space, Semantics, and Affordances for Robot Action

2025-09-26

Авторы:

Sacha Morin, Kumaraditya Gupta, Mahtab Sandhu, Charlie Gauthier, Francesco Argenziano, Kirsty Ellis, Liam Paull

## Контекст Исполнение открытых естественно-языковых запросов является центральной проблемой в робототехнике. Несмотря на успехи в имитационном обучении и видения-языка-действия (VLA) моделях, эти подходы сталкиваются с трудностями при работе с сложными инструкциями и неизвестными сценах. Одним из возможных решений является создание явной сценовой репрезентации, которая может служить переходным интерфейсом между роботом и окружающим миром. В данной работе мы предлагаем Agentic Scene Policies (ASP) — рамфаму работающую на основе улучшенных семантических, пространственных и поддержкочных возможностей современных репрезентаций сцен. Этот подход позволяет выполнять запросы в режиме zero-shot, а также решать проблемы сбора предметов и поиска путей в новых сценах. Мы демонстрируем мощь ASP на задачах роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-робото

Annotation:

Executing open-ended natural language queries is a core problem in robotics. While recent advances in imitation learning and vision-language-actions models (VLAs) have enabled promising end-to-end policies, these models struggle when faced with complex instructions and new scenes. An alternative is to design an explicit scene representation as a queryable interface between the robot and the world, using query results to guide downstream motion planning. In this work, we present Agentic Scene Pol...

ID: 2509.19571v1 cs.RO, cs.CV

arXiv PDF

📄 EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data

2025-09-26

Авторы:

Ryan Punamiya, Dhruv Patel, Patcharapong Aphiwetsa, Pranav Kuppili, Lawrence Y. Zhu, Simar Kareer, Judy Hoffman, Danfei Xu

#### Контекст Imitation learning (IL) позволяет роботам моделировать поведение человека, чтобы выполнять задачи, но значительные доменные разрывы в визуальной репрезентации, сенсорных модолях и динамике между компьютерным зрением человека и роботом ограничивают эффективность техники. Это является особенно важной проблемой для манипуляционных задач, где даже небольшие различия в поведении могут привести к серьезным проблемам. Например, в задаче "брейк-энд-грип" робот должен понять, когда нужно захватить предмет, и возможность определить это в реальном времени определяет успех. В настоящей работе мы исследуем ключевые проблемы, связанные с эту задачу, такие как круговая импедансная модель, которая позволяет роботу плавно изменять ток в реальном времени, и динамический индекс распределения, который позволяет адаптироваться к разным объектам. #### Метод Мы предлагаем EgoBridge, новый фреймворк, который учитывает эти проблемы, сфокусированный на совместной обучении пространств решений для человека и робота. Основная идея заключается в том, чтобы создать универсальный параметрический метод, позволяющий менять данные между визуальным и техническим видом, используя графический движок и алгоритмы машинного обучения. Мы используем несколько технических решений, включая оптимальный транспорт, который позволяет сопоставить одно множество с другим, и алгоритмы визуального скрытого состояния, которые позволяют учитывать как визуальные, так и динамические параметры. Мы также вводим новый подход для оценки того, насколько хорошо происходит взаимодействие между роботом и человеком в разных ситуациях. #### Результаты Мы проводили эксперименты на трех реальных датасетах, которые включают в себя как простые, так и сложные задачи манипуляции. Наши результаты показывают, что наш фреймворк EgoBridge значительно улучшает поведение робота в задачах, где существуют доменные разрывы. Например, в задаче "брейк-энд-грип" наша модель повысила успех от 38% до 82%, что является существенным улучшением. Мы также проверили нашу модель на новых задачах, для которых были доступны только данные из человеческого опыта, и установили, что она способна генерировать успешные решения, не имея предварительных знаний о новых объектах и сценариях. #### Значимость EgoBridge может использоваться в различных приложениях, включая машинное зрение, автоматизацию производственных процессов и медицинские роботы. Он предоставляет универсальный подход, обеспечивающий грубое алгоритмическое совместимость человека и робота в многообразных условиях. Одним из ключевых пре

Annotation:

Egocentric human experience data presents a vast resource for scaling up end-to-end imitation learning for robotic manipulation. However, significant domain gaps in visual appearance, sensor modalities, and kinematics between human and robot impede knowledge transfer. This paper presents EgoBridge, a unified co-training framework that explicitly aligns the policy latent spaces between human and robot data using domain adaptation. Through a measure of discrepancy on the joint policy latent featur...

ID: 2509.19626v1 cs.RO, cs.CV, cs.LG

arXiv PDF

📄 Queryable 3D Scene Representation: A Multi-Modal Framework for Semantic Reasoning and Robotic Task Planning

2025-09-26

Авторы:

Xun Li, Rodrigo Santa Cruz, Mingze Xi, Hu Zhang, Madhawa Perera, Ziwei Wang, Ahalya Ravendran, Brandon J. Matthews, Feng Xu, Matt Adcock, Dadong Wang, Jiajun Liu

## Контекст В последние годы наблюдается стремительное развитие робототехники и искусственного интеллекта, которое открыло новые возможности для интерактивного взаимодействия с трехмерными средами. Однако полноценное понимание инструкций в человеческом языке и их перевод на конкретные действия для роботов в трехмерных средах остается сложной задачей. Особенностью этой проблемы является необходимость объединения геометрической структуры окружающей среды с ее семантическим описанием. Эта связанность необходима для точного выполнения команд, включая поиск предметов, перемещения и выполнения комплексных задач. На данный момент существуют попытки объединить эти аспекты, однако они либо ограничены в объеме данных, либо недостаточно эффективны в выполнении сложных задач. ## Метод Мы предлагаем новую методологию, которая объединяет три ключевых аспекта трехмерного представления окружающей среды: 1. **3D-consistent novel view rendering and segmentation**: Эта часть позволяет построить точный трехмерный рендеринг среды с использованием методов реконструкции и сегментации. Она обеспечивает геометрическую точность и позволяет идентифицировать объекты в среде. 2. **Precise geometry from 3D point clouds**: Использование точечных облаков для построения точных геометрических моделей среды, что позволяет использовать эти модели для роботов в задачах планирования. 3. **Structured, scalable organization via 3D scene graphs**: Организация среды в виде графов с объектами, свойствами и их взаимосвязями, чтобы эффективно организовать информацию о среде. Также мы интегрировали этот фреймворк с большими моделями зрения-языка (Vision-Language Models, VLM), что позволяет выполнять семантические запросы и получать объектно-уровневую информацию о геометрии, визуальных признаках и семантических описаниях. ## Результаты Мы проверили нашу модель в двух сценариях: 1. **Simulated robotic task planning in Unity**: Мы использовали симулятор Unity и эксперименты на основе научной базы данных Replica. Здесь мы проверяли возможность нашего фреймфорка понимать и выполнять команды в симулированной среде. 2. **Wet lab environment**: Мы применили нашу модель в реальной среде лаборатории, где робот должен выполнять задачи, такие как поиск инструментов или материалов в условиях ограниченного времени. Результаты показали, что наш фреймворк эффективно объединяет геометрию и семантику, что позволяет роботу понимать и выполнять сложные задачи в трехмерных средах. Мы также наблюдали улучшение в точности выполнения задач при использовании нашей модели в сравнении с другими подходами. ## Значимость Наш фреймворк имеет широкие применения в сферах, таких как робо

Annotation:

To enable robots to comprehend high-level human instructions and perform complex tasks, a key challenge lies in achieving comprehensive scene understanding: interpreting and interacting with the 3D environment in a meaningful way. This requires a smart map that fuses accurate geometric structure with rich, human-understandable semantics. To address this, we introduce the 3D Queryable Scene Representation (3D QSR), a novel framework built on multimedia data that unifies three complementary 3D rep...

ID: 2509.20077v1 cs.RO, cs.CV, cs.HC

arXiv PDF

📄 VisualMimic: Visual Humanoid Loco-Manipulation via Motion Tracking and Generation

2025-09-26

Авторы:

Shaofeng Yin, Yanjie Ze, Hong-Xing Yu, C. Karen Liu, Jiajun Wu

## Контекст Visual humanoid loco-manipulation в неорганизованных средах требует синергетной интеграции эгацентрического визуального восприятия и целого-телакоммандования. Несмотря на развитие методологий, существующие подходы наиболее часто полагаются на внешние системы морфографического мониторинга или ограничиваются определенными типами задач. Это существенно ограничивает область применения и удобство использования современных робототехнических систем. Наша цель — разработать фреймворк, который бы стал альтернативой нынешним решениям, обеспечивая широкий спектр возможностей для решения локо-манипуляционных задач в различных условиях. ## Метод Мы предлагаем VisualMimic — визуальную симуляционную модель c целью перехода в реальную среду. Фреймворк включает две основные части: низкоуровневый трактор ключевых точек, обученный с использованием данных технологии teacher-student, и высокоуровневое управление, которое генерирует команды ключевых точек на основе визуальных и проприоцептивных данных. Для обеспечения стабильности обучения, мы вводим случайность в низкоуровневой политике и устанавливаем ограничения на действия высокоуровневой политики с помощью статистических данных о человеческих движениях. Этот подход позволяет использовать тренировочные данные из симуляционного окружения для выполнения реальных задач локо-манипуляции, таких как подъем ящика, подвижка предметов, ходьба с футбольной мячом и другие. ## Результаты Мы провести набор экспериментов, используя симуляционную модель, чтобы проверить эффективность VisualMimic. Наши политики были тестированы на различных типах локо-манипуляционных действий, включая значительно различные достижения, такие как подъем ящиков, пушкание футбольного мяча, и движение в условиях реальной среды. Результаты показали, что VisualMimic демонстрирует высокую точность в задачах визуальной мониторинга и целого-телакоммандования, обеспечивая значительное улучшение работы роботов в различных условиях. ## Значимость VisualMimic может быть применен в различных областях, включая робототехнику, роботизированные системы помощи в ситуациях неорганизованной среды, и возможность работы в сложных внешних условиях. Особенно выгодным является его применение в сфере роботов-помощников, позволяющих уменьшить нагрузку на человека в различных производственных и домашних сценариях. Визуальная система модели предоставляет значительные преимущества в ситуациях, где внешние мониторинговые системы не могут быть использованы. ## Выводы VisualMimic представляет собой новый подход к решению задач визуально

Annotation:

Humanoid loco-manipulation in unstructured environments demands tight integration of egocentric perception and whole-body control. However, existing approaches either depend on external motion capture systems or fail to generalize across diverse tasks. We introduce VisualMimic, a visual sim-to-real framework that unifies egocentric vision with hierarchical whole-body control for humanoid robots. VisualMimic combines a task-agnostic low-level keypoint tracker -- trained from human motion data via...

ID: 2509.20322v1 cs.RO, cs.CV, cs.LG

arXiv PDF

📄 Semantic-Aware Particle Filter for Reliable Vineyard Robot Localisation

2025-09-25

Авторы:

Rajitha de Silva, Jonathan Cox, James R. Heselden, Marija Popovic, Cesar Cadena, Riccardo Polvara

## Контекст В большинстве структурированных внешних сред, таких как рельефные ландшафты, возможность точной локализации мобильных роботов является критическим аспектом. Однако в виноградниках, где повторяющиеся ряды винограда и перцептивная алиазия создают сложности, традиционные методы основанные на LiDAR часто оказываются неэффективными. Особенностью этой проблемы является то, что во времена зеленого зеления винограда, когда растения еще не очень высоки, и в темноте, когда роботы должны оперировать в условиях ограниченной видимости, локализация становится еще сложнее. Мы предлагаем новый подход, основанный на семантически фильтре частиц, который использует стабильные объектно-уровневые детекции, в частности стволы виноградников и подвязки, чтобы улучшить точность. ## Метод Мы предложили метод, который включает в себя партикл-фильтр семантического уровня. Детектированные знаковые объекты, такие как стволы виноградников и подвязки, проецируются в плоскость вида сверху (bird’s eye view). Затем эти проекции объединяются с сканными данными LiDAR, чтобы формировать семантические наблюдения. Основная инновация заключается в использовании семантических стен, которые соединяют детектированные объекты в псевдо-структурные ограничения. Это позволяет устранить ситуации, когда робот может быть отклонен из расположения в строю. Для поддержки мировой консистенции в зонах скудных семантических данных, таких как головные участки, мы вводим шумной приоритетный GPS, который может адаптивно поддерживать фильтр. ## Результаты Мы провели эксперименты в реальном винограднике, чтобы протестировать нашу методику. Наши результаты показали, что наш подход позволяет роботу постоянно оставаться в правильном ряду, даже когда другие способы, например AMCL (Adaptive Monte Carlo Localization), проваливаются. Мы также проводили сравнение с другими методами, в том числе SLAM-методом RTAB-Map, и наши показатели показали выразительное улучшение в локализации. Эксперименты показывают, что наш метод эффективен даже в сложных условиях, таких как ночное время или ряды винограда с низким развитием растений. ## Значимость Наш метод имеет широкое применение в агротехнологиях, особенно в сегментах, где точная локализация критична, таких как автоматизация роботов в виноградниках. Он предоставляет значительное преимущество перед традиционными методами, такими как LiDAR-based SLAM, в условиях отсутствия семантических признаков. Этот подход может иметь потенциал для улучшения других мобильных роботов в сложных внешних средах, таких как поля,

Annotation:

Accurate localisation is critical for mobile robots in structured outdoor environments, yet LiDAR-based methods often fail in vineyards due to repetitive row geometry and perceptual aliasing. We propose a semantic particle filter that incorporates stable object-level detections, specifically vine trunks and support poles into the likelihood estimation process. Detected landmarks are projected into a birds eye view and fused with LiDAR scans to generate semantic observations. A key innovation is ...

ID: 2509.18342v1 cs.RO, cs.CV

arXiv PDF

📄 Latent Action Pretraining Through World Modeling

2025-09-25

Авторы:

Bahey Tharwat, Yara Nasser, Ali Abouzeid, Ian Reid

## Контекст Подготовка действий в контексте визуальной и языковой обработки (Vision-Language-Action, VLA) является ключевым направлением в исследованиях по управлению роботами с использованием естественного языка. Ранее популярные VLA-модели, такие как OpenVLA и $\pi_{0}$, были обучены на больших массивах ручного маркирования действий, собранных в телеоперационных условиях. Несмотря на успех этих моделей, их требования к данным и ресурсам ограничивают их применение в реальных мировых сценариях. Более поздние подходы, включая LAPA и villa-X, предлагают новые взгляды, используя латентные представления действий для неучитываемого обучения с использованием моделей визуальных изменений в кадрах. Однако эталонные модели, такие как villa-X, значительно увеличиваются в размерах, что создает сложности при их развертывании в реальных условиях. В настоящей работе предлагается новая модель-агностичная фреймворк LAWM, которая расширяет возможности обучения с помощью латентных действий, обученных с помощью моделирования мировых процессов. Это позволяет использовать видеоролики, записанные с роботов или человеком, для эффективного и самостоятельного обучения моделей видео-робот-действия к подаче языковых инструкций. ## Метод Методология LAWM включает в себя создание латентных представлений действий с помощью моделирования мировых процессов. Фреймворк использует неучитываемый подход к обучению, где видеоролики, записанные роботами или людьми, служат основой для извлечения действий. Моделирование мировых процессов позволяет извлекать латентные представления действий, которые могут быть использованы для предсказания дальнейших действий. Особенностью LAWM является его модельно-агностичный характер, что позволяет применять фреймворк к различным моделям и средам. Моделирование мировых процессов основано на автоэнкодере, который извлекает латентные действия, приведенные к сжатому представлению. Эти представления позволяют роботу распознавать действия и интерпретировать их в новых средах. ## Результаты В экспериментах LAWM был протестирован на библиотеке LIBERO и в реальном мировом условии. Модель показала существенное превосходство над моделями, обученными на ручном маркировании действий, и даже над соперничающими подходами, такими как villa-X. Особенно заметно преимущество LAWM в своей эффективности и применимости в реальном мире. Несмотря на то, что модели, такие как villa-X, показали высокую точность в управлении роботами, они требуют значительных ресурсов для работы. LAWM, в свою очередь, демонстрирует более высокую эффективность и гибкость,

Annotation:

Vision-Language-Action (VLA) models have gained popularity for learning robotic manipulation tasks that follow language instructions. State-of-the-art VLAs, such as OpenVLA and $\pi_{0}$, were trained on large-scale, manually labeled action datasets collected through teleoperation. More recent approaches, including LAPA and villa-X, introduce latent action representations that enable unsupervised pretraining on unlabeled datasets by modeling abstract visual changes between frames. Although these...

ID: 2509.18428v1 cs.RO, cs.CV

arXiv PDF

1
2
12
13
14
15
16
22
23

Показано 131 - 140 из 225 записей