📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Toward Human-Robot Teaming: Learning Handover Behaviors from 3D Scenes

2025-08-15

Авторы:

Yuekun Wu, Yik Lung Pang, Andrea Cavallaro, Changjae Oh

#### Контекст Human-robot teaming (HRT) представляет собой взаимодействие между роботами и людьми, в основном для выполнения задач в условиях близкого соприкосновения. Одна из самых важных задач в данной области — human-to-robot handover (передача предметов роботу человеком). Эта задача требует точности и надежности в поведении робота, чтобы избежать коллизий и обеспечить безопасность во время передачи. Однако, создание эффективных моделей поведения робота для такой задачи требует больших объемов данных и проведения многочисленных робото-демонстраций. Это вызывает проблему коллекции данных в реальном мире и ограничения в симуляторах из-за различий визуального пространства. Нашим целью является развитие метода, позволяющего обучать роботу для handover-задач из сырых данных, при этом исключая необходимость физической демонстрации в реальном мире. #### Метод Мы предлагаем метод обучения HRT-политик, основанный на генерации демонстрационных данных с использованием Gaussian Splatting. Мы используем RGB-камеру, установленную на роботской хватке, для получения изображений в реальном времени. Затем, мы используем метод Gaussian Splatting для реконструкции сцены, в которой робот получает предмет с человека. Этот подход позволяет генерировать данные визуального положения робота в пространстве, не используя физический симулятор. После этого мы обучаем модель распознавания действий на основе этих данных. Метод также использует детальную архитектуру для обеспечения точности и надежности в процессе обучения. #### Результаты Мы проводим эксперименты для оценки нашего метода в двух средах: сценах, полученных с помощью Gaussian Splatting, и реальном мире. Для обучения используются RGB-данные, полученные с камеры-хватки, и в реальном мире мы проводим тестирование на живых людях. Наши результаты показывают, что наш подход позволяет роботу научиться правильно получать предметы в реальных условиях, избегая коллизий и обеспечивая стабильность хватки. Это демонстрирует эффективность нашей модели в условиях близкого соприкосновения и подтверждает ее пригодность для реального применения в HRT. #### Значимость Метод, предложенный в нашей работе, имеет широкие приложения в сфере HRT, особенно в задачах, требующих близкого сотрудничества между роботом и человеком. Он предоставляет способ обучения роботов без необходимости ручных демонстраций в реальном мире, что существенно уменьшает затраты на обучение. Это особенно важно в ситуациях, когда доступ к реальному роботу ограничен. Благодаря нашей модели, роботы могут быть обучены быстрее и эффективнее, что имеет потенциал для улучшения производительности в различных

Annotation:

Human-robot teaming (HRT) systems often rely on large-scale datasets of human and robot interactions, especially for close-proximity collaboration tasks such as human-robot handovers. Learning robot manipulation policies from raw, real-world image data requires a large number of robot-action trials in the physical environment. Although simulation training offers a cost-effective alternative, the visual domain gap between simulation and robot workspace remains a major limitation. We introduce a m...

ID: 2508.09855v1 cs.RO, cs.CV, cs.HC

arXiv PDF

📄 Vibration-Based Energy Metric for Restoring Needle Alignment in Autonomous Robotic Ultrasound

2025-08-14

Авторы:

Zhongyu Chen, Chenyang Li, Xuesong Li, Dianye Huang, Zhongliang Jiang, Stefanie Speidel, Xiangyu Chu, K. W. Samuel Au

## Контекст Процедуры, требующие перкутанной инъекции с использованием ультразвукового руководства, широко применяются в медицинских операциях. Главной задачей в таких процедурах является точное выравнивание инъекционной штыря с ультразвуковым изображением, чтобы гарантировать точность и безопасность вмешательства. Однако это задача становится сложной в условиях сокрытия изображения штыря на ультразвуковых снимках из-за таких факторов, как шум, неоднородность ткани и низкое разрешение изображений. Эти проблемы могут привести к ошибкам в диагностике и лечении. В настоящей работе предлагается метод для восстановления точности выравнивания штыря при потере видимости на ультразвуковых изображениях, используя вибрационные признаки. ## Метод Метод основывается на введении вибрационного движения штыря, который позволяет создавать отличительные вибрационные признаки, не зависящие от видимости изображения штыря на ультразвуковых снимках. Для этого используется механическая система, возбуждающая штырь в периодическом режиме. Такие вибрации создают уникальные энергетические признаки, которые могут быть измерены и использованы для выравнивания штыря в двухмерном пространстве. Метод работает даже в ситуациях, когда штырь полностью выходит за пределы изображения. Для восстановления выравнивания разработана контрольная стратегия, которая позволяет управлять движением ультразвуковой пробы в пространстве с учетом трансляционных и вращательных поправок. ## Результаты Эксперименты проводились на экс-вовнумерационных тканях свиного происхождения с использованием двухручного робота с ультразвуковым руководством. Оценки показали, что система демонстрирует низкий трансляционный ошибки равными 0,41 ± 0,27 мм и малые погрешности вращения, равные 0,51 ± 0,19 градусов. Эти результаты подтверждают точность метода в восстановлении точной позиции штыря в пространстве. ## Значимость Метод может быть применен в ультразвуковых процедурах, где необходима точность выравнивания в том числе для введения лекарственных веществ или диагностических вмешательств. Преимуществом метода является его устойчивость к внешним факторам, таким как шум и неоднородность ткани. Это может существенно улучшить точность и безопасность процедур. Также, возможность использования метода при полном выходе штыря из изображения открывает новые горизонты для сложных ультразвуковых операций. ## Выводы Предложенный метод на основе вибрационных признаков демонстрирует высокую точность в восстановлении выравнивания

Annotation:

Precise needle alignment is essential for percutaneous needle insertion in robotic ultrasound-guided procedures. However, inherent challenges such as speckle noise, needle-like artifacts, and low image resolution make robust needle detection difficult, particularly when visibility is reduced or lost. In this paper, we propose a method to restore needle alignment when the ultrasound imaging plane and the needle insertion plane are misaligned. Unlike many existing approaches that rely heavily on n...

ID: 2508.06921v1 cs.RO, cs.CV

arXiv PDF

📄 Progressive Bird's Eye View Perception for Safety-Critical Autonomous Driving: A Comprehensive Survey

2025-08-13

Авторы:

Yan Gong, Naibang Wang, Jianli Lu, Xinyu Zhang, Yongsheng Gao, Jie Zhao, Zifan Huang, Haozhi Bai, Nanxin Zeng, Nayu Su, Lei Yang, Ziying Song, Xiaoxi Hu, Xinmin Jiang, Xiaojuan Zhang, Susanto Rahardja

#### Контекст Bird's-Eye-View (BEV) perception является основной парадигмой в сфере автономного вождения, обеспечивая унифицированные пространственные представления для эффективного объединения данных сенсоров и коллаборации между агентами. Однако, при переходе автономных систем из управляемых сред в реальный мир, обеспечение безопасности и надежности BEV-перцепции в условиях опасных и сложных сценариев (например, помехами, плохими погодными условиями и динамичным трафиком) остается ключевой проблемой. Настоящая статья представляет собой первую полную систематизацию BEV-перцепции с фокусом на безопасность. Она анализирует современные подходы и их использование в трех этапах развития: от моделирования на одной модели сенсоров до мультимодального и коллаборативного подхода. Также рассматриваются данные, связанные с BEV-перцепцией, из общедоступных источников, эксперименты и результаты. #### Метод Прогрессивная BEV-перцепция подразумевает три основных этапа: 1) моделирование на одной модели сенсоров, 2) мультимодальное моделирование на одной модели сенсоров, и 3) коллаборативное моделирование. Методология включает в себя внимательное изучение и анализ современных технологий, таких как многослойные перцептроны (MLPs), трансформеры и прочие сверточные сети. Она также включает в себя разработку архитектур, которые могут обрабатывать данные из различных сенсоров (радары, лидары, камеры) и объединять их в единое пространственное представление. Несколько стратегий использованы для улучшения точности, надежности и скорости вывода моделей. #### Результаты Исследование показало, что мультимодальная и коллаборативная BEV-перцепция значительно улучшают точность в сложных сценариях в сравнении с моделями на одной модели сенсоров. Эксперименты проводились на множестве общедоступных данных, таких как nuScenes, KITTI, A2D2, и др. Результаты показали, что коллаборативные модели демонстрируют наилучший результат в обнаружении объектов, при этом имеют более высокую точность и надежность в условиях помех и ограничений сенсоров. Эти модели также демонстрируют более высокую устойчивость к сенсорной деградации и сетевым задержкам. #### Значимость Данная работа имеет решающее значение для развития безопасных и надежных BEV-перцепций в автономных автомобилях, особенно при переходе с контролируемых сред к реальному миру. Она имеет широкие применения в области автоматизированных систем, включая обеспечение безопасности в транспорте, управление трафиком, а также в развитии более продвинутых технологий, таких как embodied intelligence и модели текстовых сетей. Е

Annotation:

Bird's-Eye-View (BEV) perception has become a foundational paradigm in autonomous driving, enabling unified spatial representations that support robust multi-sensor fusion and multi-agent collaboration. As autonomous vehicles transition from controlled environments to real-world deployment, ensuring the safety and reliability of BEV perception in complex scenarios - such as occlusions, adverse weather, and dynamic traffic - remains a critical challenge. This survey provides the first comprehensi...

ID: 2508.07560v1 cs.RO, cs.CV

arXiv PDF

📄 ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

2025-08-13

Авторы:

Kaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen

## Контекст Область исследования, связанная с возможностью обучения роботами выполнять долгосрочные задачи в условиях разнообразных сред, подчеркивает важность интеграции семантического рассуждения, общеупотребимого робототехнического управления и адаптивных методов перемещения. Однако существуют три ключевых проблемы, стоящие на пути построения эффективных систем робот-ассистентов. Во-первых, хотя языковые модели совершенствовались в семантических задачах, они ограничены круглосточными сценариями, не подходят для сложных технологических сред. Во-вторых, текущие стратегии манипуляции не устоят перед разнообразием конфигураций объектов в открытых средах. В-третьих, робот-ассистенты должны обеспечить гибкость движения в комплексе с точной управляемостью конечного приспособления, что требует дополнительных исследований. Целью нашей работы является разработка универсальной системы "ODYSSEY" для легких роботов-квадрупедов с манипуляторами, способной решать открытые задачи в пространстве с помощью лексико-языковых моделей. ## Метод ODYSSEY — это комбинация методологии, где интегрируется высокоуровневый планирователь семантического плана с низкоуровневым контроллером тела робота. Для решения задачи оценки ситуации в живой среде мы применяем визуально-языковую модель, которая декомпозирует длинные инструкции на подзадачи, обеспечивая точность исполнения. Для того, чтобы решить задачу жесткого прижимания в технологических средах, мы использовали новый контроллер, позволяющий роботу выполнять непрерывные действия в разнообразных территориях. Мы также разработали эталонный тестовый набор для тестирования роботов в различных средах. ## Результаты Мы провели эксперименты в симуляционной среде и на реальных роботах, тестируя возможности ODYSSEY в решении задач, включающих различные территории и предметы. Наши результаты показали, что робот может выполнять длинные задачи, выполняя многократные действия в различных условиях. Мы также проверили гибкость и точность конечного приспособления в условиях сложной технической среды. ## Значимость Система ODYSSEY может применяться в промышленном производстве, домашних условиях и в сложных технологических процессах. У нее большая гибкость и применяемость в различных сценариях. Она повышает уровень управляемости и точности, что делает ее уникальной в сравнении с традиционными ботовыми технологиями. ## Выводы Представленная система ODYSSEY демонстрирует значительные достижения в области организации сложных робототехнических задач. Она применяется в

Annotation:

Language-guided long-horizon mobile manipulation has long been a grand challenge in embodied semantic reasoning, generalizable manipulation, and adaptive locomotion. Three fundamental limitations hinder progress: First, although large language models have improved spatial reasoning and task planning through semantic priors, existing implementations remain confined to tabletop scenarios, failing to address the constrained perception and limited actuation ranges of mobile platforms. Second, curren...

ID: 2508.08240v1 cs.RO, cs.CV

arXiv PDF

📄 Affordance-R1: Reinforcement Learning for Generalizable Affordance Reasoning in Multimodal Large Language Model

2025-08-12

Авторы:

Hanqing Wang, Shaoyang Wang, Yiming Zhong, Zemin Yang, Jiamin Wang, Zhiqing Cui, Jiahao Yuan, Yifan Han, Mingyu Liu, Yuexin Ma

## Контекст Область исследования, известная как **affordance grounding**, ориентирована на определение конкретных областей объектов, связанных с действиями, которые могут быть выполнены роботом. Она играет ключевую роль в таких направлениях, как **human-robot interaction**, **human-object interaction**, **embodied manipulation** и **embodied perception**. Несмотря на значительные успехи, существующие модели часто не учитывают общие принципы, которые могут быть субъективными для разных объектов. Это приводит к ограниченной генерализации между доменами (OOD) и слабым выполнению четкой, логической рассуждения. Мотивацией для разработки Affordance-R1 является устранение этих ограничений, обеспечив модель, которая умеет четко рассуждать и одновременно обеспечивать широкий круг областей применения. ## Метод Affordance-R1 представляет собой новую архитектуру, объединяющую **Chain-of-Thought (CoT)** и **Group Relative Policy Optimization (GRPO)** в рамках парадигмы reinforcement learning. Модель использует сложную систему наград, включающую **format reward**, **perception reward** и **cognition reward**, чтобы оптимизировать поведение робота в задачах связанных с affordance. В отличие от предшествующих моделей, Affordance-R1 отказывается от явных данных для основного обучения, вместо этого основываясь на **reinforcement learning**. Дополнительно, для поддержки модели был разработан **ReasonAff** — высококачественный датасет, нацеленный на поддержку интеллектуального логического роботового поведения. ## Результаты Используя датасет ReasonAff, Affordance-R1 прошла ряд экспериментов, показав впечатляющие результаты. Модель показала **zero-shot generalization** на новых сценариях и объектах, доказав способность к логической рассуждению. Эксперименты показали, что Affordance-R1 изменяет свое поведение в зависимости от характеристик объекта и его положения, указывая на сильные возможности применения в реальном мире. Было также продемонстрировано, что Affordance-R1 не только обеспечивает генерализацию, но и устанавливает новые стандарты в области affordance reasoning. ## Значимость Модель Affordance-R1 открывает новые возможности для **human-robot interaction**, **embodied perception** и **embodied manipulation**. Один из ключевых преимуществ заключается в способности к **zero-shot generalization**, что позволяет модели применяться в разных сценариях без дополнительного обучения. Благодаря интеграции CoT и GRPO, Affordance-R1 демонстрирует новый уровень логических возможностей, открывая новые пути для **робототехники**, **виртуальных ассистентов** и **интеллектуальных систем**. ## Выводы Affordance-R1 устанавливает новые стандарты в области affordance grounding, демонстрируя впечатляющую генерализацию и логические возможности. На будущем, разработчики планируют расширить модель, включив в нее более сложные сценарии и объекты, чтобы еще лучше расширить поле применения.

Annotation:

Affordance grounding focuses on predicting the specific regions of objects that are associated with the actions to be performed by robots. It plays a vital role in the fields of human-robot interaction, human-object interaction, embodied manipulation, and embodied perception. Existing models often neglect the affordance shared among different objects because they lack the Chain-of-Thought(CoT) reasoning abilities, limiting their out-of-domain (OOD) generalization and explicit reasoning capabilit...

ID: 2508.06206v2 cs.RO, cs.CV

arXiv PDF

📄 ScrewSplat: An End-to-End Method for Articulated Object Recognition

2025-08-09

Авторы:

Seungyeon Kim, Junsu Ha, Young Hun Kim, Yonghyeon Lee, Frank C. Park

**Резюме** Распознавание интерактивных объектов, состоящих из нескольких движущихся частей (articulated objects), является ключевым для развития робототехники. Однако существующие методы часто используют жесткие предположения, требуют дополнительных входных данных (например, глубинных изображений) или включают сложные промежуточные этапы, что снижает их практичность. В данной работе предлагается ScrewSplat — простой и эффективный метод, работающий только с RGB-изображениями. Он начинает с случайного инициализации сверхзубцовых осей и итеративно оптимизирует их для восстановления кинематической структуры объекта. Используя технологию Gaussian Splatting, метод возвращает 3D-реконструкцию и сегментацию объекта на rigid и movable части. Эксперименты показали, что ScrewSplat достигает высокой точности распознавания и позволяет применять zero-shot text-guided manipulation с помощью полученного кинематического моделирования. Этот подход открывает новые возможности для интерактивного взаимодействия роботов с существующими средствами.

Annotation:

Articulated object recognition -- the task of identifying both the geometry and kinematic joints of objects with movable parts -- is essential for enabling robots to interact with everyday objects such as doors and laptops. However, existing approaches often rely on strong assumptions, such as a known number of articulated parts; require additional inputs, such as depth images; or involve complex intermediate steps that can introduce potential errors -- limiting their practicality in real-world ...

ID: 2508.02146v1 cs.RO, cs.CV

arXiv PDF

📄 A Moment Matching-Based Method for Sparse and Noisy Point Cloud Registration

2025-08-09

Авторы:

Xingyi Li, Han Zhang, Ziliang Wang, Yukai Yang, Weidong Chen

**Резюме** Point cloud registration является ключевым этапом в таких областях как Simultaneous Localization and Mapping (SLAM) для беспилотных роботов. Однако в условиях спарсе и шумных данных, методы типа Iterative Closest Point (ICP) и Normal Distributions Transform (NDT) часто сталкиваются с трудностями в достижении точной и устойчивой регистрации. В данной работе предлагается метод регистрации на основе моментного соответствия, который использует моменты гауссовского радиально-базисного типа, рассчитанные для i.i.d. примеров в исходной и целевой системах координат. Метод не требует поиска точных точек-корреспонденций и демонстрирует высокую точность и устойчивость в условиях шума и редкости точек. В экспериментах на синтетических и реальных данных метод показал себя лучше, чем существующие, а также был успешно интегрирован в 4D Radar SLAM систему. Таким образом, становится ясно, что моментное соответствие может стать эффективным средством решения проблемы регистрации в условиях спарсе и шумных данных.

Annotation:

Point cloud registration is a key step in robotic perception tasks, such as Simultaneous Localization and Mapping (SLAM). It is especially challenging in conditions with sparse points and heavy noise. Traditional registration methods, such as Iterative Closest Point (ICP) and Normal Distributions Transform (NDT), often have difficulties in achieving a robust and accurate alignment under these conditions. In this paper, we propose a registration framework based on moment matching. In particular, ...

ID: 2508.02187v1 cs.RO, cs.CV

arXiv PDF

📄 Improving Generalization of Language-Conditioned Robot Manipulation

2025-08-09

Авторы:

Chenglin Cui, Chaoran Zhu, Changjae Oh, Andrea Cavallaro

**Резюме** Управление роботами для манипуляционных задач часто основывается на визуальных данных. Несмотря на продвижение видения-языка моделей (VLMs), позволяющих использовать естественный язык для контроля роботов, текущие методы требуют больших объемов данных для адаптации к незнакомым средам. В данной работе предлагается новый подход, разделяющий задачи упорядочения объектов на две стадии: локализацию целевого объекта и определение места его размещения. Используя модуль инстанс-уровня семантического слияния, авторы удалось связать изображения с текстовыми инструкциями, чтобы робот мог точно идентифицировать целевые объекты. Метод проверен как на симуляционной, так и на реальной роботской платформе. Он показывает высокую универсальность, даже при обучении на небольших данных, и демонстрирует успех в нулевом запуске в реальных условиях манипуляции. Это доказывает повышенную гибкость и эффективность нового подхода в области управления роботами с помощью естественного языка.

Annotation:

The control of robots for manipulation tasks generally relies on visual input. Recent advances in vision-language models (VLMs) enable the use of natural language instructions to condition visual input and control robots in a wider range of environments. However, existing methods require a large amount of data to fine-tune VLMs for operating in unseen environments. In this paper, we present a framework that learns object-arrangement tasks from just a few demonstrations. We propose a two-stage fr...

ID: 2508.02405v1 cs.RO, cs.CV

arXiv PDF

📄 QuaDreamer: Controllable Panoramic Video Generation for Quadruped Robots

2025-08-09

Авторы:

Sheng Wu, Fei Teng, Hao Shi, Qi Jiang, Kai Luo, Kaiwei Wang, Kailun Yang

Многие перспективные применения роботов-купальщиков в сложных пространственных средах зависят от качественных панорамных видео, необходимых для обучения моделей визуального понимания. Однако данные для подобных задач сложно получить из-за ограничений кинематики робота и сложностей калибровки датчиков. Мы предлагаем QuaDreamer — первую систему, специально разработанную для генерации панорамных видеороликов, контролируемых в зависимости от движения робота-купальщика. Решение основывается на инновационной Vertical Jitter Encoding (VJE), фильтрующей контролируемые вертикальные колебания в ходе движения, и Scene-Object Controller (SOC), управляющем объектными движениями и контролем шума в фоновой части. Для улучшения качества полученных панорамных видео мы ввели Panoramic Enhancer (PE), который решает проблему дисторсий в широком поле зрения и обеспечивает глобальную геометрическую консистентность. Таким образом, QuaDreamer создает высококачественные панорамные видео, которые могут использоваться для обучения моделей визуального понимания, в частности для повышения эффективности трекинга объектов в 360-градусовой среде.

Annotation:

Panoramic cameras, capturing comprehensive 360-degree environmental data, are suitable for quadruped robots in surrounding perception and interaction with complex environments. However, the scarcity of high-quality panoramic training data-caused by inherent kinematic constraints and complex sensor calibration challenges-fundamentally limits the development of robust perception systems tailored to these embodied platforms. To address this issue, we propose QuaDreamer-the first panoramic data gene...

ID: 2508.02512v1 cs.RO, cs.CV, eess.IV

arXiv PDF

📄 UniFucGrasp: Human-Hand-Inspired Unified Functional Grasp Annotation Strategy and Dataset for Diverse Dexterous Hands

2025-08-09

Авторы:

Haoran Lin, Wenrui Chen, Xianchi Chen, Fan Yang, Qiang Diao, Wenxin Xie, Sijie Wu, Kailun Yang, Maojun Li, Yaonan Wang

Данные по декстерой граспировки являются ключевыми для развития интеллектуальных систем, однако подавляющее большинство таких датасетов фокусируются на стабильности граспировки, пренебрегая функциональными граспами, необходимыми для выполнения конкретных задач, например, открытия бутылочных крышек или держания ручек чашки. Большинство таких датасетов также ограничены в использовании дорогостоящих и сложно управляемых ручных систем с большим числом степеней свободы. Работающий на основе биомиметизма, UniFucGrasp предлагает новую стратегию аннотации функциональных граспировок, которая позволяет адаптировать движения человеческой руки к различным типам робототехнических рук. Используя метод геометрического клапанового замыкания, данная модель обеспечивает функциональную и устойчивую граспировку, аналогичную человеческим движениям. Также был создан первый многоручный датасет функциональных граспировок. Эксперименты показали, что UniFucGrasp улучшает точность манипуляций, увеличивает устойчивость граспировок и обеспечивает эффективное общеупотребительность на различных робототехнических руках, решая проблемы стоимости аннотации и проблему общеупотребительности в декстерой граспировке.

Annotation:

Dexterous grasp datasets are vital for embodied intelligence, but mostly emphasize grasp stability, ignoring functional grasps needed for tasks like opening bottle caps or holding cup handles. Most rely on bulky, costly, and hard-to-control high-DOF Shadow Hands. Inspired by the human hand's underactuated mechanism, we establish UniFucGrasp, a universal functional grasp annotation strategy and dataset for multiple dexterous hand types. Based on biomimicry, it maps natural human motions to divers...

ID: 2508.03339v1 cs.RO, cs.CV, eess.IV

arXiv PDF

Показано 211 - 220 из 225 записей