📚 Саммари научных статей из arXiv

Найдено 225 результатов по запросу 'cs.RO, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning

2025-09-17

Авторы:

Jiacheng Liu, Pengxiang Ding, Qihang Zhou, Yuxuan Wu, Da Huang, Zimian Peng, Wei Xiao, Weinan Zhang, Lixin Yang, Cewu Lu, Donglin Wang

## Контекст В последние годы повышается интерес к развитию методов, позволяющих роботам вести себя в сложных средах, особенно в задачах целостной манипуляции. Одной из основных проблем в этой области является нехватка методов, которые могут эффективно обрабатывать целостные задачи, в том числе те, которые требуют высокой точности в условиях динамических изменений. Эта сложность порождается накоплением ошибок при использовании имитационных методов обучения. Эти методы, хотя и эффективны в маломасштабных задачах, часто сталкиваются с трудностями в достижении высокой точности при работе с задачами, требующими длительного просмотра и точной координации. Мы предлагаем TrajBooster, алгоритм, который использует глобальную модель динамики для более точной рефинирования траекторий движений, улучшая результаты в сложных сценариях. ## Метод TrajBooster основывается на идее резидентного управления, которая добавляет дополнительные коррекции к основной политике. Но в отличии от предыдущих подходов, TrajBooster использует теорию Коопмана для моделирования глобальных динамических свойств в задачах целостной манипуляции. Это позволяет ему учитывать глобальные изменения состояния в процессе работы, что обеспечивает более стабильное и точное движение робота. Мы используем нейронные сети для моделирования этих глобальных свойств, что делает TrajBooster гибким и эффективным для различных задач. ## Результаты Мы проводили эксперименты на сложных задачах, включающих целостную манипуляцию, таких как сборка мебели, с использованием различных моделей роботов. Результаты показали, что TrajBooster показывает значительное улучшение в сравнении с другими методами, особенно в случаях, когда требуется высокая точность и устойчивость. Мы также провели эксперименты в условиях внешних помех, и TrajBooster показал высокую резистентность и гибкость в решении этих проблем. ## Значимость TrajBooster может быть применен в различных областях, где требуется точность и устойчивость движения роботов, например, в производстве, а также в сфере робототехники домашних услуг. Опытные исследования показали, что TrajBooster не только улучшает качество исполнения задач, но и сокращает время обучения, что делает его привлекательным для реального применения. Этот подход может стать ключевым элементом в развитии будущих роботизированных систем. ## Выводы Мы представили TrajBooster, новый подход к улучшению траекторий движения роботов в задачах целостной манипуляции. Наши результаты показали, что этот подход эффективен в различных условиях и может решать проблемы с целостной манипуляцией, требующими высокой точност

Annotation:

Imitation learning (IL) enables efficient skill acquisition from demonstrations but often struggles with long-horizon tasks and high-precision control due to compounding errors. Residual policy learning offers a promising, model-agnostic solution by refining a base policy through closed-loop corrections. However, existing approaches primarily focus on local corrections to the base policy, lacking a global understanding of state evolution, which limits robustness and generalization to unseen scen...

ID: 2509.11839v1 cs.RO, cs.CV

arXiv PDF

📄 HHI-Assist: A Dataset and Benchmark of Human-Human Interaction in Physical Assistance Scenario

2025-09-16

Авторы:

Saeed Saadatnejad, Reyhaneh Hosseininejad, Jose Barreiros, Katherine M. Tsui, Alexandre Alahi

## Контекст Рост заболеваемости, старения населения и нехватка персонала в сфере здравоохранения приводят к необходимости развития ассистивных роботов, которые могли бы оказывать поддержку в физических задачах. Однако для того, чтобы эти роботы могли выполнять помощь безопасно и эффективно, необходимо точно предсказывать поведение людей во время физических взаимодействий. Это задача остается сложной из-за разнообразия ситуаций использования, вовлеченности различных динамических связей между людьми во время взаимодействия. Мы предлагаем решение на основе создания нового высококачественного датасета и инновационного моделирования с использованием трансформера. Это позволит улучшить понимание и моделирование физического взаимодействия, чтобы улучшить точность и доверие ассистивных роботов. ## Метод Мы предлагаем HHI-Assist, новый датасет, включающий моментовные съемки взаимодействий между людьми во время физических помощных потребностей. Для предсказания динамики взаимодействий мы разработали принципиально новую модель, основанную на улучшенной трансформерной архитектуре. Эта модель использует подход denoising diffusion, который позволяет эффективно предсказывать положения взаимодействующих субъектов. Мы использовали множество физических данных, чтобы обучить модель, чтобы она могла точно предсказать поведение в различных условиях. Модель также решает проблему необходимости выявления и моделирования связей между людьми, что делает ее уникальной и эффективной. ## Результаты Мы проверили нашу модель на HHI-Assist и сравнили ее с другими подходами. Результаты были захватывающими: наша модель не только выдавала более точные результаты в предсказании движений, но и показывала значительно более высокую универсальность в неизвестных сценариях. Мы провели исследования, включая различные типы помощных действий, и продемонстрировали, что модель показывает лучшие результаты в отношении точности и устойчивости. Эти результаты подтверждают, что наш подход может стать ключевым во внедрении роботов в сферу помощи в физических задачах. ## Значимость Мы видим, что наш подход может быть применен в различных сферах, включая здравоохранение, социальные услуги и роботизированные системы в жилых помещениях. Важность нашей работы заключается в том, что она не только улучшает предсказание движений, но также предоставляет новые возможности для развития роботов в сфере помощи. Мы видим возможность применения нашего решения для улучшения качества жизни, особенно для старшего поколения. Наша модель может стать основой для развития будущих

Annotation:

The increasing labor shortage and aging population underline the need for assistive robots to support human care recipients. To enable safe and responsive assistance, robots require accurate human motion prediction in physical interaction scenarios. However, this remains a challenging task due to the variability of assistive settings and the complexity of coupled dynamics in physical interactions. In this work, we address these challenges through two key contributions: (1) HHI-Assist, a dataset ...

ID: 2509.10096v1 cs.RO, cs.CV

arXiv PDF

📄 GC-VLN: Instruction as Graph Constraints for Training-free Vision-and-Language Navigation

2025-09-16

Авторы:

Hang Yin, Haoyu Wei, Xiuwei Xu, Wenxuan Guo, Jie Zhou, Jiwen Lu

## Контекст В области видения и языка (Vision-and-Language Navigation, VLN) существует значительный интерес к разработке систем, которые могут понимать и выполнять инструкции в контексте визуального окружения. Однако существующие методы сталкиваются с проблемами, такими как необходимость обширного обучения, высокая сложность моделей и ограниченная гибкость в работе с неизвестными средами. Это приводит к сложностям в реальном применении. Наша мотивация состоит в разработке простого, эффективного и универсального подхода, который может работать в неизвестных средах без дополнительного обучения, обеспечивая высокую универсальность и надежность. ## Метод Мы предлагаем фреймворк, основанный на оптимизации графа с ограничениями (GC-VLN), для VLN. Методология построена на декомпозиции инструкций на графы, где каждая инструкция представляется в виде директивного ациклического графа (Directed Acyclic Graph, DAG). Этот граф содержит три типа узлов: возможные путевые точки (waypoint nodes), объекты (object nodes) и ребра (edges). Данные узлы используются для поиска в библиотеке пространственных признаков (spatial constraint library), чтобы сформировать ограничения для графа. Затем используется констрейнт-сулвер (Constraint Solver) для оптимизации этого графа и вычисления пути к цели. Чтобы справиться с ситуациями отсутствия решений или множественных решений, мы используем навигационное дерево с алгоритмом обратного вывода (backtracking). ## Результаты Мы проводили первые эксперименты на трёх стандартных бенчмарках VLN: R2R, REVERIE и VLN-CE. Наши результаты показали значительный прирост в успешности и эффективности сравному текущим методам с использованием графов с ограничениями. Например, на R2R, наш метод показал увеличение успешности в 15% по сравнению с лучшим тренируемым методом. Также, в реальных экспериментах на роботе, мы продемонстрировали гибкость и универсальность нашиго фреймворка при работе с новыми инструкциями и неизвестными средами. ## Значимость Наш подход широко может применяться в реальных ситуациях, таких как робот-уборки, мониторинг и другие задачи видения и языка, где необходима автономная и универсальная система. Он обеспечивает высокую точность и скорость работы без необходимости в дополнительном обучении. Это делает его эффективным решением для развития автономных систем видения и языка. ## Выводы Мы представили новый фреймворк для VLN, основанный на оптимизации графов с ограничениями, который не требует дополнительного обучения и показал высокую эффективность на реальных задачах. Наши результаты открывают путь к будущим исследованиям в области высокоунив

Annotation:

In this paper, we propose a training-free framework for vision-and-language navigation (VLN). Existing zero-shot VLN methods are mainly designed for discrete environments or involve unsupervised training in continuous simulator environments, which makes it challenging to generalize and deploy them in real-world scenarios. To achieve a training-free framework in continuous environments, our framework formulates navigation guidance as graph constraint optimization by decomposing instructions into ...

ID: 2509.10454v1 cs.RO, cs.CV

arXiv PDF

📄 Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration

2025-09-13

Авторы:

Sirui Xu, Yu-Wei Chao, Liuyu Bian, Arsalan Mousavian, Yu-Xiong Wang, Liang-Yan Gui, Wei Yang

## Контекст Динамические и контакт-богатые демонстрации, доступные в хенд-обджект моушн-каптур (MoCap) репозиториях, обещают ускорить прогресс в области декстерного робототвоения. Однако в этих демонстрациях часто существуют проблемы, такие как неточности, несоответствие моделируемой системы и существующих данных, а также высокая степень комплексности. Эти характеристики ограничивают возможности использования данных в существующих методах. Методы, основанные на стадиях, таких как перетargetинг, трекинг и коррекция резидуальных ошибок, либо неэффективно используют данные, либо создают цепочку ошибок, которая ухудшает результаты. В настоящей работе предлагается Dexplore — новая система, которая объединяет ретаргетинг и трекинг в единое решение, чтобы напрямую извлекать политики управления из данных MoCap на большой шалу. ## Метод Dexplore предлагает новый подход к обучению политик управления для декстерного робототвоения. Вместо того, чтобы рассматривать демонстрации как «земляные истины», Dexplore использует их как гибкие руководства, которые подстраиваются под конкретные задачи. С помощью глубокого обучения, включая reinforcement learning, метод учитывает адаптивные пространственные скопления, что позволяет политике управления оставаться в рамках демонстрационных данных, а также минимизировать контрольный усилие. Этот подход не только позволяет избегать ошибок, связанных с точностью демонстраций, но и позволяет роботу вырабатывать свои собственные стратегии. Данный подход широко масштабируется и обеспечивает высокую устойчивость к шуму в данных. ## Результаты Для проверки Dexplore были проведены эксперименты на различных руко-объектных сценариях, включая тухлые и контакт-богатые демонстрации. Было показано, что Dexplore эффективно извлекает политики управления из данных MoCap, даже если эти данные содержат существующие ошибки. Также было показано, что полученные политики очень устойчивы к шуму и могут применяться в реальном мире. Эксперименты показали, что Dexplore не только улучшает точность, но и обеспечивает более органичное взаимодействие робота с объектами. Также были проведены эксперименты с генеративным контроллером, подтвердив, что Dexplore может хорошо справляться с большим количеством данных и выполнять различные задачи. ## Значимость Предлагаемый подход Dexplore может быть применен в различных областях, включая не только робототвоение, но и другие прикладные задачи, требующие точного управления. Он обеспечивает ряд преимуществ, включая высокую точность, устойчивость к шуму и масштабируемость. Эти п

Annotation:

Hand-object motion-capture (MoCap) repositories offer large-scale, contact-rich demonstrations and hold promise for scaling dexterous robotic manipulation. Yet demonstration inaccuracies and embodiment gaps between human and robot hands limit the straightforward use of these data. Existing methods adopt a three-stage workflow, including retargeting, tracking, and residual correction, which often leaves demonstrations underused and compound errors across stages. We introduce Dexplore, a unified s...

ID: 2509.09671v1 cs.RO, cs.CV

arXiv PDF

📄 LLaDA-VLA: Vision Language Diffusion Action Models

2025-09-11

Авторы:

Yuqing Wen, Hebei Li, Kefan Gu, Yucheng Zhao, Tiancai Wang, Xiaoyan Sun

## Контекст Область исследования, связанная с визуальными, языковыми и действительностными моделями (VLA), набирает обороты в связи с развитием робототехники и автоматизации. Необходимость эффективных систем, умеющих взаимодействовать с окружающим миром на основе визуальных и языковых сигналов, становится ключевой в развитии роботов, способных выполнять сложные задачи. Однако существуют серьезные проблемы, такие как сложность адаптации моделей к конкретной области применения, необходимость оптимальной интерпретации входных данных и выработка эффективных стратегий декодирования. Эти задачи требуют новых подходов, чтобы обеспечить создание моделей, которые были бы высокопроизводительными и применимыми в реальной жизни. ## Метод Методология LLaDA-VLA основывается на развитии архитектуры, основанной на моделях размытия текста (d-VLMs), которые были адаптированы для области визуального и языкового взаимодействия с действительными действиями. Основными инновациями являются: (1) **локализованная стратегия классификации специальных токенов**, упрощающая адаптацию модели к задачам робототехники, и (2) **иерархическая стратегия декодирования действий**, рассматривающая структуру и зависимости между действиями. Эти подходы позволяют значительно упростить процесс обучения и увеличить точность решений в задачах робототипических задач. ## Результаты В ходе экспериментов LLaDA-VLA протестировалась на широком кругу задач, включая симуляционные и реальные условия. Модель была сравнена с современными соревновательными решениями в области VLA. Результаты показали прирост эффективности, достигнутое благодаря локализованной классификации токенов и иерархической стратегии декодирования. Эти результаты привлекли внимание, поскольку LLaDA-VLA показала значительное превосходство в скорости и точности решения задач, что указывает на значительный потенциал модели в автоматизации и робототипических задачах. ## Значимость Модель LLaDA-VLA может быть применена в различных сферах, включая робототехнику, здравоохранение и домашнюю автоматизацию. Она обеспечивает значительное улучшение в обработке сложных задач, уменьшая время обучения и улучшая качество решений. Достоинства LLaDA-VLA заключаются в увеличенной точности, простоте адаптации к новым задачам и высокой скорости вывода решений. Эти преимущества открывают новые возможности для создания более удобных и эффективных систем роботов, которые могут работать в реальных условиях. ## Выводы Разработка LLaDA-VLA является первым примером модели Vision-Language-Diffusion-Action

Annotation:

The rapid progress of auto-regressive vision-language models (VLMs) has inspired growing interest in vision-language-action models (VLA) for robotic manipulation. Recently, masked diffusion models, a paradigm distinct from autoregressive models, have begun to demonstrate competitive performance in text generation and multimodal applications, leading to the development of a series of diffusion-based VLMs (d-VLMs). However, leveraging such models for robot policy learning remains largely unexplore...

ID: 2509.06932v2 cs.RO, cs.CV

arXiv PDF

📄 Foundation Models for Autonomous Driving Perception: A Survey Through Core Capabilities

2025-09-11

Авторы:

Rajendramayavan Sathyam, Yueqi Li

## Контекст Фондационные модели (foundation models) значительно преобразуют область проницательности автономного вождения, перейдя от задач-ориентированных, узкоспециализированных нейронных сетей к гибким, универсальным архитектурам. Эти модели обучаются на огромных и разнообразных наборах данных, что позволяет им эффективно решать многочисленные задачи проницательности. Тем не менее, существуют значительные проблемы, включая слабость в общеприменимости, масштабируемости и устойчивости к распределительным сдвигам. Эти ограничения приводят к необходимости разработки новых подходов, которые могут обеспечить безопасную и надёжную проницательность в динамичных средах. ## Метод Данная статья применяет подход, основанный на понимании ключевых проблем проницательности, включая ограничения общеприменимости и устойчивости к динамическим средам. Основной акцент ведётся на выявление и исследование четырёх ключевых качеств, необходимых для эффективного решения этих проблем: 1) общее знание, 2) пространственное понимание, 3) многосенсорная устойчивость, и 4) временное рассуждение. Каждое из этих качеств изучается в широком контексте, позволяя выявить существующие технологические решения и их применения. ## Результаты На основе описанной методологии проведено несколько экспериментов, включая анализ существующих моделей и их устойчивости к различным ситуациям. Данные, использованные в экспериментах, относятся к различным сценариям проницательности автомобилей, включая ситуации с плохим светлом, погодовыми условиями и высокой скоростью. Полученные результаты показали, что фондационные модели показывают значительные улучшения в общей производительности по сравнению с более узкоспециализированными моделями. Однако они также сталкиваются с проблемами, такими как высокие требования к ресурсам и проблемы с безопасностью. ## Значимость Фондационные модели имеют широкий спектр применений, включая автоматические системы управления транспортом, системы поддержки водителей и системы безопасности. Они обеспечивают значительные преимущества, включая уменьшение стоимости разработки моделей, увеличение точности и быстроту обучения. Однако, необходимо учитывать и потенциальные риски, такие как высокий потребление ресурсов и проблемы модели, связанные с халюцинациями и проблемами, связанными с выходом за диапазон данных. ## Выводы Эта статья демонстрирует значительные прогрессы в использовании фондационных моделей для решения проблем проницательности в автономном вождении. Однако, возникают задачи, связан

Annotation:

Foundation models are revolutionizing autonomous driving perception, transitioning the field from narrow, task-specific deep learning models to versatile, general-purpose architectures trained on vast, diverse datasets. This survey examines how these models address critical challenges in autonomous perception, including limitations in generalization, scalability, and robustness to distributional shifts. The survey introduces a novel taxonomy structured around four essential capabilities for robu...

ID: 2509.08302v1 cs.RO, cs.CV

arXiv PDF

📄 Good Deep Features to Track: Self-Supervised Feature Extraction and Tracking in Visual Odometry

2025-09-11

Авторы:

Sai Puneeth Reddy Gottam, Haoming Zhang, Eivydas Keras

#### Контекст Visual-based localization (VBL) широко используется в различных приложениях, включая автоматизированные системы сбора данных, беспилотные летательные аппараты (БЛА) и виртуальная реальность. Однако, несмотря на прогресс в области VBL, его производительность снижается в больших пространственных областях, таких как сети городских проезда и долгосрочные задачи оптического потока. Это приводит к замедлению вычислений и ухудшению точности определения положения. Основные проблемы, вызывающие эти снижения, включают изменения освещения, динамические сцены и зоны с низким контрастом. Такие факторы негативно сказываются на функционировании системы, а также на возможности надёжного и стабильного отслеживания. Мы стремимся решить эти проблемы с помощью продвинутого метода, который основывается на самосупервизованном обучении, чтобы обеспечить более прочные и информативные функции, чтобы повысить надежность и точность VBL в сложных средах. #### Метод Мы предлагаем метод, основанный на самосупервизованном обучении, чтобы повысить качество функций визуального отслеживания. Наш подход включает два этапа: экстракция и отслеживание. В первом этапе мы используем самосупервизованную функцию для извлечения визуальных признаков, которые направлены на создание более стабильных и информативных данных. Это позволяет значительно повысить точность и надежность в сложных условиях. Во втором этапе мы используем динамическую модель для отслеживания этих признаков в пространстве. Мы также внедряем техники, которые обеспечивают взаимодействие между этими двумя этапами, чтобы обеспечить стабильность и улучшение общей производительности. Эта архитектура позволяет нашему методу быть прочным и производительным в различных условиях, включая темные, яркие и динамические сцены. #### Результаты Мы провели ряд экспериментов для оценки нашего метода. Для этого мы использовали данные из наборов KITTI и TUM-RGBD. Наши эксперименты показали, что наш метод превосходит существующие другие технологии в области VBL по многим критериям, включая стабильность отслеживания, точность и общую производительность. Мы также проверили нашу модель на наборах данных с темными и яркими условиями, а также на сценах с низким контрастом и динамичными объектами. Результаты показывают, что наш метод обеспечивает значительное улучшение в сравнении с другими методами, что делает его более надежным и эффективным для использования в реальных ситуациях. #### Значимость Метод, представленный в нашей работе, имеет широкие перспективы применения в различных областях, включая автоматизиро

Annotation:

Visual-based localization has made significant progress, yet its performance often drops in large-scale, outdoor, and long-term settings due to factors like lighting changes, dynamic scenes, and low-texture areas. These challenges degrade feature extraction and tracking, which are critical for accurate motion estimation. While learning-based methods such as SuperPoint and SuperGlue show improved feature coverage and robustness, they still face generalization issues with out-of-distribution data....

ID: 2509.08333v1 cs.RO, cs.CV

arXiv PDF

📄 SocialNav-SUB: Benchmarking VLMs for Scene Understanding in Social Robot Navigation

2025-09-11

Авторы:

Michael J. Munje, Chen Tang, Shuijing Liu, Zichao Hu, Yifeng Zhu, Jiaxun Cui, Garrett Warnell, Joydeep Biswas, Peter Stone

## Контекст Robot navigation в динамичных, центрирующихся на человеческой активности средах требует социально комплайентных решений, основанных на надежном понимании сцены. Видение-языковые модели (VLMs) продемонстрировали большой потенциал в области обнаружения объектов, коммуникативного мышления и контекстуального понимания. Однако неясно, смогут ли эти модели корректно понимать сложные социальные сцены, включая взаимодействия между агентами и интерпретацию человеческих намерений, что необходимо для безопасного и социально корректного навигационного поведения. Несмотря на то, что недавние исследования исследовали применение VLMs в социальной навигации, на данный момент не существует систематического подхода к оценке их удовлетворения этих критериев. Мы предлагаем SocialNav-SUB, бенчмарк VQA, который оценивает VLMs для понимания сцен в сценариях социальной навигации. ## Метод SocialNav-SUB — это VQA-датасет, созданный для оценки VLMs в задачах понимания сцен в робототехнической навигации. Он содержит задачи, включающие спатиальное, спатиотременное и социальное разумение. Мы использовали современные VLMs для экспериментов и сравнили их с правилами и базовыми социальными моделями. Этапы исследования включили сбор данных, разработку бенчмарка и разработку новых подходов для оценки VLMs. ## Результаты Мы провели эксперименты с лучшими VLMs, установив их эффективность в понимании сцен, сравнив с результатами базовых моделей. Лучшая VLM показала высокую точность во многих задачах, но значительно отстала от простых правилальных подходов и социальных моделей в задачах, требующих глубокого социального понимания. Это указывает на существующие проблемы в их возможностях по социальной сцене в навигации. ## Значимость Важность SocialNav-SUB заключается в том, что он предоставляет фреймворк для оценки VLMs в реальных социальных сценариях. Он открывает путь для новых исследований по созданию базовых моделей для социальной навигации, помогая определить направления улучшения этих моделей. Эта работа может иметь значимые последствия для развития безопасной и эффективной робототехники в социальных средах. ## Выводы Мы заключаем, что хотя VLMs демонстрируют замечательные возможности в социальной навигации, они еще не достигли нужного уровня для полного удовлетворения требований. SocialNav-SUB устанавливает новый направленный подход к исследованию и усовершенствованию VLMs для социальной навигации, чтобы они могли безопасно и эффективно взаимодействовать в социальных средах. Будущие исследования будут сосредоточены на улучшении способности VLMs к социальному пониманию и их применении в реальных практических с

Annotation:

Robot navigation in dynamic, human-centered environments requires socially-compliant decisions grounded in robust scene understanding. Recent Vision-Language Models (VLMs) exhibit promising capabilities such as object recognition, common-sense reasoning, and contextual understanding-capabilities that align with the nuanced requirements of social robot navigation. However, it remains unclear whether VLMs can accurately understand complex social navigation scenes (e.g., inferring the spatial-tempo...

ID: 2509.08757v1 cs.RO, cs.CV

arXiv PDF

📄 eKalibr-Inertial: Continuous-Time Spatiotemporal Calibration for Event-Based Visual-Inertial Systems

2025-09-10

Авторы:

Shuolong Chen, Xingxing Li, Liu Yuan

## Контекст Современные биоинспирированные эвент-камеры отличаются высокой темпоральной разрешающей способностью, высокой динамической диапазоном и низким энергопотреблением. Эти особенности делают их привлекательными для мотивированных приложений, таких как оценка мотивации, роботизированная перцепция и объектное распознавание. Особенно важной является их использование в эго-мотивировании, где визуально-инерциальные системы широко применяются благодаря своим комплементарным характеристикам, таким как скалирование и малая дрёма. Однако для эффективного использования этих систем требуется точная спатиотмоporal (экстринская и темпоральная) калибровка. Несмотря на значительные усилия по развитию методов калибровки, существуют трудности в достижении высокой точности, особенно при работе с эвент-камерами. Мы предлагаем eKalibr-Inertial, новую систему для точной калибровки спатиотмоporal визуально-инерциальных систем, которая решает эти проблемы. ## Метод eKalibr-Inertial основывается на проверенных методах калибровки сетки, развитых в рамках eKalibr и eKalibr-Stereo. Оно использует сетку-шаблон для активации эвент-камеры и получения точных значений данных. Метод начинается с эффективной инициализации, которая обеспечивает точные начальные оценки всех параметров. Далее, за основу взята батч-оптимизация в непрерывном временном ряду, которая использует синхронизацию времён и геометрические ограничения для достижения точности. Этот подход позволяет обеспечить высокую точность калибровки в реальном времени и улучшить стабильность системы. ## Результаты Мы провели ряд реального мирового эксперимента, используя различные условия калибровки и движения. Результаты показали, что eKalibr-Inertial достигает высокой точности калибровки в сравнении с другими методами. Мы также проверили точность внешних и внутренних параметров системы. Эти эксперименты подтвердили, что наша система может обеспечить точную калибровку в реальном времени, что является ключевым для приложений, таких как роботизированная перцепция. ## Значимость eKalibr-Inertial может быть применено в различных областях, включая мотивированные приложения, роботизированные системы и объектное распознавание. Его основные преимущества заключаются в том, что он обеспечивает высокую точность и стабильность калибровки, что влечёт за собой улучшение производительности систем визуально-инерциального сенсорного ввода. Данная работа может повлиять на развитие технологий в перспективных областях, таких как мотивированные роботы и автономные транспортные средства. ## Выводы Мы представили eKal

Annotation:

The bioinspired event camera, distinguished by its exceptional temporal resolution, high dynamic range, and low power consumption, has been extensively studied in recent years for motion estimation, robotic perception, and object detection. In ego-motion estimation, the visual-inertial setup is commonly adopted due to complementary characteristics between sensors (e.g., scale perception and low drift). For optimal event-based visual-inertial fusion, accurate spatiotemporal (extrinsic and tempora...

ID: 2509.05923v1 cs.RO, cs.CV

arXiv PDF

📄 Learning in ImaginationLand: Omnidirectional Policies through 3D Generative Models (OP-Gen)

2025-09-10

Авторы:

Yifei Ren, Edward Johns

#### Контекст Роботизация различных процессов требует эффективного обучения моделей, позволяющих роботам выполнять широкий спектл задач с минимальным количеством демонстраций. Одной из основных проблем является необходимость многократного повторения демонстраций для точного научения роботам выполнять задачи в различных условиях. Это приводит к затратности во времени и ресурсах. Кроме того, ограниченные запуски могут привести к неполной обработке всех возможных ситуаций. Недавно развивающиеся 3D-генерирующие модели, способные получить полную форму объекта из небольшого количества изображений, могут стать ключевым решением. Однако их потенциал в области обучения моделей в ситуациях, отличающихся от демонстрации, еще не полностью исследован. #### Метод Мы предлагаем метод **OP-Gen (Omnidirectional Policies through 3D Generative Models)**, который позволяет улучшить обучение моделей в условиях ограниченных демонстраций. Работа основывается на использовании 3D-генерирующих моделей для расширения демонстрационных данных. Это достигается путем генерирования дополнительных изображений объектов из разных углов и позиций, чтобы воссоздать различные возможные конфигурации объекта. Затем эти генерируемые данные используются для обучения политики, которая может выполнять задачи в реальном мире независимо от начального положения робота. Это расширение данных позволяет роботу осуществлять задачи даже тогда, когда начальное положение находится на значительном расстоянии от того, которое было видно во время демонстрации. #### Результаты Мы проверили эффективность OP-Gen на нескольких задачах, включая захват предметов, открытие шкафа и сбор мусора. Для этого мы провели эксперименты в реальном мире, используя данные, полученные с помощью 3D-генерирующих моделей. Отметим, что наши результаты показывают, что OP-Gen демонстрирует значительный выигрыш в производительности по сравнению с другими методами, которые используют стандартные методы дата-аугментации. Мы также изучили динамику работы политик в различных условиях, включая запуск робота с очень дальней позиции от объекта, что позволило увидеть полноту и устойчивость нашего подхода. #### Значимость Метод OP-Gen может быть применен в многочисленных областях, включая автоматизацию производственных процессов, домашнюю роботизацию и улучшение роботизированных систем в сложных средах. Одним из ключевых преимуществ является снижение необходимости в повторных демонстрациях, что ускоряет и улучшает обучение моделей. Кроме того, подход позволяет роботу выполнять задачи в новых условиях, не схожих с теми, которые были доступны во время обуч

Annotation:

Recent 3D generative models, which are capable of generating full object shapes from just a few images, now open up new opportunities in robotics. In this work, we show that 3D generative models can be used to augment a dataset from a single real-world demonstration, after which an omnidirectional policy can be learned within this imagined dataset. We found that this enables a robot to perform a task when initialised from states very far from those observed during the demonstration, including st...

ID: 2509.06191v1 cs.RO, cs.CV, cs.LG

arXiv PDF

1
2
15
16
17
18
19
22
23

Показано 161 - 170 из 225 записей