📚 Саммари научных статей из arXiv

Найдено 544 результатов по запросу 'cs.RO, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 PrioriTouch: Adapting to User Contact Preferences for Whole-Arm Physical Human-Robot Interaction

2025-09-25

Авторы:

Rishabh Madan, Jiawei Lin, Mahika Goel, Angchen Xie, Xiaoyu Liang, Marcus Lee, Justin Guo, Pranav N. Thakkar, Rohan Banerjee, Jose Barreiros, Kate Tsui, Tom Silver, Tapomayukh Bhattacharjee

## Контекст Физическое взаимодействие человека с роботом (pHRI) требует, чтобы робот адаптировался к индивидуальным предпочтениям контакта, таким как место и сила применяемого давления. Определение этих предпочтений затруднительно в случае одного контакта, но в случае цело-группового взаимодействия, когда несколько мест тела человека взаимодействуют одновременно с роботом, задача становится еще сложнее. Это объясняется тем, что разные части тела могут накладывать противоречивые требования к давлению. В сценариях, таких как уход за больными, где контакт частый и разнообразен, часто возникают конфликты предпочтений. Невозможно удовлетворить все цели одновременно, и приходится делать выбор. Наша работа, PrioriTouch, предлагает ранжировать и выполнять контрольные цели для нескольких контактов. Метод применим не только к задачам ухода, но и к другим многоконтактным ситуациям. ## Метод PrioriTouch использует новую аппроксимацию технике поиска решений и операционное пространство для ранжирования и выполнения контрольных целей. Метод объединяет техники обучения к рейтингу и версию операционного пространства управления, чтобы эффективно и безопасно исследовать решения. Для понимания предпочтений пользователя мы проводили исследования по физическим требованиям, извлекая личные пороговые значения комфорта. Эти пороги включены в ранжирование контрольных целей. Мы использовали симуляции в цикле для эффективного изучения возможных решений, обеспечивая сбалансированность безопасности и эффективности. ## Результаты В наших экспериментах в реальной среде и в симуляции мы показали, что PrioriTouch может эффективно приспособиться к предпочтениям пользователей в сценариях ухода, таких как портье и одевание. Мы также провели исследование пользователей для выявления личных предпочтений контакта и внедрили эти предпочтения в нашу систему. Результаты показали, что PrioriTouch обеспечивает более высокий уровень комфорта и безопасности, не ухудшая производительность задачи. Мы также продемонстрировали, что наш метод может быть решательным в сценариях, где несколько контактных точек приходят в конфликт. ## Значимость Мы видим применение PrioriTouch в широком спектре сценариев, включая уход за больными, тренировки спортсменов, взаимодействие с роботами в производстве. Наш метод предлагает значительные преимущества в удовлетворении пользовательских предпочтений, улучшении комфорта и безопасности. Мы считаем, что PrioriTouch может стать основополагающим решением для многоконтактных pHRI-задач, и мы будем работать над расширением его возможносте

Annotation:

Physical human-robot interaction (pHRI) requires robots to adapt to individual contact preferences, such as where and how much force is applied. Identifying preferences is difficult for a single contact; with whole-arm interaction involving multiple simultaneous contacts between the robot and human, the challenge is greater because different body parts can impose incompatible force requirements. In caregiving tasks, where contact is frequent and varied, such conflicts are unavoidable. With multi...

ID: 2509.18447v1 cs.RO, cs.AI

arXiv PDF

📄 LCMF: Lightweight Cross-Modality Mambaformer for Embodied Robotics VQA

2025-09-25

Авторы:

Zeyi Kang, Liang He, Yanxin Zhang, Zuheng Ming, Kaixing Zhao

## Контекст Область исследования, называемая **Embodied Robotics Visual Question Answering (EQA)**, является ключевой в области **Embodied Intelligence**. Она ставит перед собой цель развития роботов, которые могут смешивать визуальные сигналы, текстовые команды и другие сенсорные данные для умных решений. Несмотря на прогресс, существуют технические проблемы, такие как эффективное объединение разных типов данных (например, видео и текст) и высокая стоимость вычислений в ресурс-ограниченных средах. Эти проблемы становятся ключевыми ограничениями для распространенного применения таких систем в реальных условиях. Наше исследование стремится решить эти проблемы, создав эффективную модель для отображения и обработки многомодальных сигналов. ## Метод Мы предлагаем **LCMF (Lightweight Cross-Modality Mambaformer)**, основанную на модуле **Mamba**, которая включает **многоуровневый кросс-модальный механизм общего параметра**. Этот подход позволяет добиться эффективного объединения разных видов данных (например, видео и текста) благодаря параметрическому контролю. Мы также используем **Cross-Attention** и **Selective State Space Models (SSMs)**, чтобы добиться лучшего понимания и семантического синхронизации между модальностями. Эта архитектура обеспечивает высокую эффективность с выборочным параметрическим контролем, что позволяет решать задачи в ресурс-ограниченных средах. ## Результаты Мы провели эксперименты для проверки эффективности нашей модели LCMF в задачах **Visual Question Answering (VQA)** и **Embodied Question Answering (EQA)**. Данные для экспериментов были получены из наборов данных, содержащих видео и текстовые команды. Модель LCMF показала **74.29% точность в VQA** и достигла **конкурентных результатов в EQA**, особенно в сравнении с другими моделями. Заметно, что наше решение потребляет **4.35 раз меньше вычислительных ресурсов (FLOPs)** и использует **меньше параметров**, чем другие модели с одинаковыми результатами. ## Значимость Наша модель LCMF имеет широкие **применения в Human-Robot Interaction (HRI)**. Она может использоваться для развития роботов, которые взаимодействуют с людьми, понимают их команды и делают решения на основе многомодальных сигналов. Преимущества LCMF включают **высокую точность** и **низкую вычислительную стоимость**, что делает ее подходящей для ресурс-ограниченных сред, таких как мобильные роботы и умные дома. Этот подход может сильно повлиять на развитие **робототехники** и **интеллектуальных систем**. ## Выводы Мы успешно разработали **LCMF**, модель с легковесной архитектурой, которая эффективно объединяет различные виды данных для многомодальных задач. Модель показала высокую точность в **VQA** и **EQA**, при этом значитель

Annotation:

Multimodal semantic learning plays a critical role in embodied intelligence, especially when robots perceive their surroundings, understand human instructions, and make intelligent decisions. However, the field faces technical challenges such as effective fusion of heterogeneous data and computational efficiency in resource-constrained environments. To address these challenges, this study proposes the lightweight LCMF cascaded attention framework, introducing a multi-level cross-modal parameter ...

ID: 2509.18576v1 cs.RO, cs.AI

arXiv PDF

📄 VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation

2025-09-25

Авторы:

Neel P. Bhatt, Yunhao Yang, Rohan Siva, Pranay Samineni, Daniel Milan, Zhangyang Wang, Ufuk Topcu

## Контекст Полностью автоматизированная работа роботов в незнакомых средах является ключевым аспектом успешного применения интеллектуальных систем в реальном мире. Однако существующие подходы страдают от низкой скорости адаптации к новым условиям, неэффективной планировке и частых ошибках в выборе маршрутов. Эти проблемы ограничивают производительность и надежность роботов в пространстве сложных визуальных и символических задач. В статье представлен подход VLN-Zero, который стремится развить новый стандарт для эффективного и быстрого планирования в незнакомых средах. ## Метод VLN-Zero представляет собой двухфазную стратегию: фаза эксплорации и фаза деплоймента. В первой фазе используется визуально-языковая модель (Visual Language Model, VLM) для эффективного построения сценарных графов, основанных на контекстно-семантических моделях. На второй фазе внедряется гибкое тестирование новых маршрутов с помощью моделей рассуждения, которые учитывают обеспечение реального времени с помощью кэша доступных путей. Это позволяет уменьшить время работы моделей и сделать планирование более устойчивым к ошибкам. Такой подход значительно увеличивает скорость и точность взаимодействия с окружением. ## Результаты В экспериментах использовалась комбинация различных сценариев, в том числе незнакомых вариантов сред, где были протестированы различные модели навигации. Результаты показали, что VLN-Zero достигает 2 раза выше успешности в сравнении с состоянием технологии в нулевых подходах к роботовой навигации. Он также показал значительное сокращение времени в перемещениях и уменьшил количество вызовов моделей визуального распознавания. В реальных условиях навигации VLN-Zero показал выигрыш в скорости и точности в 30-50% по сравнению с предыдущими моделями. ## Значимость Подход VLN-Zero направлен на решение проблемы эффективной адаптации в незнакомых средах, что важно для широкого спектра приложений, включая домохозяйства, промышленные работы и транспортные системы. Он предлагает новую модель, которая сочетает в себе символическое планирование, эффективное использование моделей VLM и устойчивость к ошибкам. Это открывает путь к более надежной и удобной автоматизации в сложных средах. ## Выводы VLN-Zero демонстрирует потенциал для существенного улучшения навигационных систем в незнакомых средах. Он быстрее, эффективнее и надежнее существующих подходов. Будущие исследования будут сфокусированы на улучшении символического планирования, увеличении скорости реакции и увеличении модели надёжности в много

Annotation:

Rapid adaptation in unseen environments is essential for scalable real-world autonomy, yet existing approaches rely on exhaustive exploration or rigid navigation policies that fail to generalize. We present VLN-Zero, a two-phase vision-language navigation framework that leverages vision-language models to efficiently construct symbolic scene graphs and enable zero-shot neurosymbolic navigation. In the exploration phase, structured prompts guide VLM-based search toward informative and diverse tra...

ID: 2509.18592v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 End-to-End Crop Row Navigation via LiDAR-Based Deep Reinforcement Learning

2025-09-25

Авторы:

Ana Luiza Mineiro, Francisco Affonso, Marcelo Becker

## Контекст Сельскохозяйственная техника стремится сократить расходы и увеличить производительность, но при этом сталкивается с рядом проблем. Одна из них — навигация в условиях подсорняковых полей, где навигационные системы GPS могут не поддерживать точность и надёжность. Также встречаются затруднения из-за сложных геометрий подсорняков, варьирующейся освещённости и других факторов. Эти ограничения затрудняют автоматизацию сельскохозяйственных задач, что негативно сказывается на эффективности и надежности технологий. Наша мотивация — развить модель навигации, которая бы устойчиво работала в таких подвисающих условиях. ## Метод Мы предлагаем систему навигации, основанную на глубоком учении и ренджфиндинге (LiDAR), которая преобразует данные LiDAR непосредственно в команды управления. Методология включает стратегию возмущения, при которой данные LiDAR в реальном времени преобразуются в возмущения, уменьшая размер входных данных на 95.83%. Это позволяет использовать простую архитектуру сети и уменьшить объём вычислений. Мы также использовали симуляцию для обучения, чтобы избежать необходимости использования меток или ручных интерфейсов. Обучение производилось в рамках симуляционных имитаций, с последующим тестированием на реальных данных. ## Результаты Мы проверили нашу модель в симуляционной среде и реальном мире. В прямолинейных полях (с возмущениями со синусоидальной формой) модель показала 100% единичной точности. В полях с различными углами кривизны (косинусной формой), модель показала снижение точности, что соответствует реальной сложности управления. Таким образом, модель подтвердила свою эффективность в симуляционной среде, а также её устойчивость к сложностям в реальных условиях. ## Значимость Наша модель может быть применена в сельскохозяйственных технологиях для управления подсорняками, а также в других приложениях, где необходима навигация в подсорняковых условиях. Она имеет высокую точность и может уменьшить необходимость в ручном управлении, увеличивая производительность. Мы также можем применить эту модель в других областях, где навигационный мониторинг и управление требуются в условиях варьирующейся освещённости и сложной геометрии. ## Выводы Мы успешно развили метод, который использует LiDAR и глубокое учение для работы в условиях подсорняковых полей. Наши результаты показали высокую точность в симуляционных условиях и прикладной значимости в реальных сельскохозяйственных задачах. Будущие исследования будут направлены на улучшение модели

Annotation:

Reliable navigation in under-canopy agricultural environments remains a challenge due to GNSS unreliability, cluttered rows, and variable lighting. To address these limitations, we present an end-to-end learning-based navigation system that maps raw 3D LiDAR data directly to control commands using a deep reinforcement learning policy trained entirely in simulation. Our method includes a voxel-based downsampling strategy that reduces LiDAR input size by 95.83%, enabling efficient policy learning ...

ID: 2509.18608v1 cs.RO, cs.AI

arXiv PDF

📄 The Case for Negative Data: From Crash Reports to Counterfactuals for Reasonable Driving

2025-09-25

Авторы:

Jay Patrikar, Apoorva Sharma, Sushant Veer, Boyi Li, Sebastian Scherer, Marco Pavone

## Контекст Улучшение безопасности автомобилей с помощью людских водителей требует понимания ситуаций, в которых могут произойти ошибки. Реальные случаи неудач отражают работу систем в крайних условиях, но трудно использовать их без структуры. Ограничения в обработке текстовых данных, таких как отчеты о крашах, приводят к неэффективности использования полезной информации. Эти проблемы могут стать причиной неточных решений в автономных системах. Наше исследование стремится решить эти проблемы, предложив новый подход для извлечения полезной информации из негативных данных, таких как отчеты о крашах. Целью является расширение подходов к обучению, чтобы они могли выносить более адекватные решения в крайних ситуациях. ## Метод Мы предлагаем новую стратегию, основывающуюся на преобразовании текста отчетов о крашах в менее структурированную форму, которая легче позволяет проводить анализ. Данные преобразуются в сценарную активность, которая может быть использована для поиска соответствующих сценариев. Мы также предлагаем систему, которая использует эти сценарии для точных решений. Была разработана система, которая может анализировать прошлые случаи и поискать аналогичные в своем индексе. Эта система также может порождать контрфактовные сценарии, которые помогают рассмотреть варианты, которые могут быть более предпочтительны в определенных ситуациях. ## Результаты Наши эксперименты проводились на базе данных nuScenes. Мы сравнили нашу систему с другими подходами и обнаружили, что она значительно улучшает калибровку решений. Например, реколл на контекстуально предпочтительные действия вырос от 24% до 53%. Кроме того, контрфактовная версия системы способна улучшить точность решений в крайних случаях. Это показывает, что наш подход не только улучшает качество решений, но и позволяет системе действовать более осторожно в критичных ситуациях. ## Значимость Наш подход может быть применен в различных областях, где необходимо точно выносить решения на основе текстовых данных, таких как автомобильная индустрия, безопасность, юридические исследований. Он предоставляет новый способ работы с отчетами об ошибках и может помочь в развитии более безопасных автономных систем. Мы считаем, что наша работа делает видимым путь для будущих исследований в этой области и может стать основой для дальнейших разработок. ## Выводы Мы сумели доказать, что преобразование текста отчетов о крашах в сценарную активность позволяет более эффективно использовать данные. Кроме того, наш контрфактовный подход дем

Annotation:

Learning-based autonomous driving systems are trained mostly on incident-free data, offering little guidance near safety-performance boundaries. Real crash reports contain precisely the contrastive evidence needed, but they are hard to use: narratives are unstructured, third-person, and poorly grounded to sensor views. We address these challenges by normalizing crash narratives to ego-centric language and converting both logs and crashes into a unified scene-action representation suitable for re...

ID: 2509.18626v1 cs.RO, cs.AI

arXiv PDF

📄 Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

2025-09-25

Авторы:

Shuo Cheng, Liqian Ma, Zhenyang Chen, Ajay Mandlekar, Caelan Garrett, Danfei Xu

#### Контекст Научное исследование посвящено области робототехники и управления, в частности, развитию методов обучения политик манипулирования. Одна из основных проблем в этой области заключается в том, что получение реальных демонстраций манипуляций требует значительных финансовых и временных затрат. Моделирование в симуляторе предлагается как более сложный, но стоительный вариант. Однако существуют значительные различия между моделированием и реальным миром, что затрудняет передачу политик из симулятора в реальный мир. Данная работа адресует эту проблему, предлагая универсальный подход к обучению общих политик манипулирования, основанный на симуляции, но использующий только небольшое количество реальных демонстраций. #### Метод Предлагаемая методология основывается на координированном обучении в симуляции и реальном мире (sim-and-real co-training). Главным инсайтом является то, что обучение должно стремиться к созданию доменно-независимого и задачеподходящего пространства признаков. Для этого используется подход, основанный на Оптимальном Транспорте (Optimal Transport, OT). Оптимальный транспорт используется для выравнивания распределений наблюдений и действий в двух доменах — симуляции и реального мира. Для учета неравенства между обилием симуляционных данных и ограниченным числом реальных демонстраций, расширяется модель Unbalanced OT. Это позволяет добиться более эффективного обучения, учитывая неоднаковую количественную загрузку данных. #### Результаты На различных сложных задачах манипулирования показаны эксперименты, продемонстрировав выигрыш от применения предлагаемой модели. Например, в некоторых случаях удалось получить улучшение успешности манипуляций в реальном мире на 30%, сравниваясь с базовыми методами. Далее, показана возможность общеучительности политик — их успешное применение на сценариях, описанных только в симуляции, но не имеющих реального аналога. #### Значимость Предлагаемый подход имеет широкие возможности применения в сферах, где требуется обучение политик манипулирования со скромными затратами на реальные данные. Например, в производственных цепочках, в сфере охраны здоровья или в сервисных роботах. Особые преимущества открываются в области генерализируемости политик — возможности их использования в различных, даже неизвестных заранее, реальных сценариях, если они были протестированы в симуляции. #### Выводы Основным достижением является разработка метода обучения политик манипулирования, который успешно комбинирует симуляционные и реальные данные, чтобы обеспечить общеучительность и стабильность. Дальнейшие исследования б

Annotation:

Behavior cloning has shown promise for robot manipulation, but real-world demonstrations are costly to acquire at scale. While simulated data offers a scalable alternative, particularly with advances in automated demonstration generation, transferring policies to the real world is hampered by various simulation and real domain gaps. In this work, we propose a unified sim-and-real co-training framework for learning generalizable manipulation policies that primarily leverages simulation and only r...

ID: 2509.18631v1 cs.RO, cs.AI

arXiv PDF

📄 Do You Need Proprioceptive States in Visuomotor Policies?

2025-09-25

Авторы:

Juntu Zhao, Wenbo Lu, Di Zhang, Yufeng Liu, Yushen Liang, Tianluo Zhang, Yifeng Cao, Junyuan Xie, Yingdong Hu, Shengjie Wang, Junliang Guo, Dequan Wang, Yang Gao

################################# ## Контекст ################################# Имитационно-обучаемые визуально-моторные политики широко применяются в робототехнике, где используются визуальные наблюдения и проприоцептивные состояния для точного управления. Однако в данном исследовании авторы отмечают, что объединение этих двух источников информации приводит к переобучению политики к тренировочным данным, что приводит к ограниченной общей логичности. Для решения этой проблемы предлагается State-free Policy, которая отказывается от проприоцептивных состояний и основывается только на визуальных наблюдениях. Эта политика работает в пространстве относительных конечных действий, полагаясь на расширенные визуальные данные с двумя широкоугольными камерами на запястье робота. Это решение адресует ожидания в отношении обобщения и робототехнической практичности. ################################# ## Метод ################################# State-free Policy определяется в относительном пространстве конечных действий, что позволяет роботу сфокусироваться только на визуальных наблюдениях. Для того, чтобы обеспечить эффективность, используется сверхушечный робот, оснащенный двумя широкоугольными камерами на запястьях. Эти камеры обеспечивают полный набор визуальных данных, необходимых для осуществления задач. Основной идеей заключается в том, чтобы уменьшить зависимость от проприоцептивных данных, чтобы улучшить общую универсальность и практическую полезность политики. ################################# ## Результаты ################################# Результаты экспериментов показывают, что State-free Policy эффективно работает в реальной среде и применении. На задачах, таких как вскрытие, складывание футболки и целостные манипуляции с телом робота, политика достигает улучшений в производительности. Например, успешность выполнения задач повышается от 0% до 85% в тестах на высоту и от 6% до 64% в тестах на горизонтальное распространение. Кроме того, State-free Policy оказывается более эффективной в обучении и адаптации к разным роботским корпусам, что делает ее более привлекательной для реальных применений. ################################# ## Значимость ################################# Предложенная политика State-free Policy обладает значительным потенциалом для применения в реальных роботских задачах. Она обеспечивает улучшенную общую логичность, эффективность и адаптивность. Эти достижения имеют значимый потенциал для улучшения применения в индустрии, где роботы должны реагировать на различные условия и задачи без предварительной настройки. Также, это решение открывает новые возможности для обучения роботов, используя только визуальные наблюдения, что упрощает процесс настройки и увеличивает надежность. ################################# ## Выводы ################################# В результате, State-free Policy доказывает свою эффективность и практичность в робототехнических задачах. Решение удалось значитель

Annotation:

Imitation-learning-based visuomotor policies have been widely used in robot manipulation, where both visual observations and proprioceptive states are typically adopted together for precise control. However, in this study, we find that this common practice makes the policy overly reliant on the proprioceptive state input, which causes overfitting to the training trajectories and results in poor spatial generalization. On the contrary, we propose the State-free Policy, removing the proprioceptive...

ID: 2509.18644v2 cs.RO, cs.AI

arXiv PDF

📄 SPiDR: A Simple Approach for Zero-Shot Safety in Sim-to-Real Transfer

2025-09-25

Авторы:

Yarden As, Chengrui Qu, Benjamin Unger, Dongho Kang, Max van der Hart, Laixi Shi, Stelian Coros, Adam Wierman, Andreas Krause

## Контекст Одной из основных проблем при развертывании рабочих систем на основе искусственного интеллекта в реальном мире является гарантия безопасности. Решения, развитые в симуляторах, могут быть небезопасными в реальной среде из-за сильной разницы в условиях. Это приводит к необходимости в методах, обеспечивающих безопасность при переводе симуляторного опыта в реальный мир. Однако методы, обеспечивающие безопасность, часто неэффективны в больших, распределенных средах. Методы, основанные на доменной рандомизации, широко применяются в сим-к-реал-трансфер, но часто не могут гарантировать безопасность. SPiDR (Sim-to-real via Pessimistic Domain Randomization) представляет собой простой и эффективный подход, который использует доменную рандомизацию, чтобы учесть неопределенность сим-к-реал-трансфера и обеспечить безопасный трансфер в реальном мире. ## Метод SPiDR основывается на принципе доменной рандомизации, но включает новую методику, называемую пессимистичной доменной рандомизацией. Этот подход добавляет дополнительные ограничения на агента, учитывая возможность негативного влияния рандомизации на безопасность. Агенту предлагается выбрать действия, которые будут безопасными в любой ситуации, даже при высокой рандомизации. Метод интегрируется с существующими системами обучения, не требуя существенных изменений. Он также включает нейросетевые модели, которые могут предсказывать поведение в рандомизированных условиях и учитывать это в выборе действий. ## Результаты Исследования проводились на двух реальных роботах и нескольких симуляторных средах. Сравнивались результаты SPiDR с различными методами, в том числе стандартной доменной рандомизацией и методами с гарантиями безопасности. Результаты показали, что SPiDR обеспечивает безопасность лучше всего в условиях высокой рандомизации. Также была проведена эмпирическая оценка скорости обучения и эффективности решений. SPiDR показал низкий порог вхождения и высокую скорость обучения, что делает его привлекательным для реальных приложений. ## Значимость SPiDR может применяться в различных областях, где требуется безопасное и эффективное использование методов обучения с подкреплением в реальном мире. Это включает в себя робототехнику, автоматизацию производств, а также приложения в автомобильной индустрии. Преимущества SPiDR заключаются в том, что он обеспечивает безопасность без существенных изменений в существующих тренировочных системах. Его потенциалом является создание безопасных систем, которые могут быть легко перенесены из симуляторной среды в ре

Annotation:

Safety remains a major concern for deploying reinforcement learning (RL) in real-world applications. Simulators provide safe, scalable training environments, but the inevitable sim-to-real gap introduces additional safety concerns, as policies must satisfy constraints in real-world conditions that differ from simulation. To address this challenge, robust safe RL techniques offer principled methods, but are often incompatible with standard scalable training pipelines. In contrast, domain randomiz...

ID: 2509.18648v1 cs.RO, cs.AI

arXiv PDF

📄 MV-UMI: A Scalable Multi-View Interface for Cross-Embodiment Learning

2025-09-25

Авторы:

Omar Rayyan, John Abanes, Mahmoud Hafez, Anthony Tzes, Fares Abu-Dakka

## Контекст Развитие имитационного обучения позволило создавать прочные политики манипуляций роботов на основе демонстраций. Однако это возможно только при наличии разнообразных и качественных данных, которые трудно и дорого собираются, а также часто ограничены одним конкретным оборудованием. Мобильные портативные грипперы стали альтернативой традиционным методам телеоперации за счет интуитивности и масштабируемости. Однако они ограничены односторонним фокусом на первого лица, что существенно ограничивает контекстные сцены. Мы предлагаем MV-UMI (Multi-View Universal Manipulation Interface), фреймворк, который объединяет третьего лица и первого лица виды для улучшения понимания сцены. ## Метод MV-UMI (Multi-View Universal Manipulation Interface) интегрирует виды из третьего лица и первого лица для расширения контекста. Он использует технологии синтеза вида с нескольких камер, чтобы обеспечить полностью подвижное изображение. Это позволяет уточнить контекстные детали в рамках одного изображения, улучшая удобство и точность. Метод основывается на данных, собранных с помощью портативных грипперов, и использует универсальный подход для обработки сцен. ## Результаты Для измерения эффективности были проведены эксперименты на 3 задачах, включая передвижение и работу с предметами. Результаты показали улучшение подсубзадач, требующих широкого понимания сцены, на 47% по сравнению с базовым подходом. Это подтверждает эффективность фреймворка в расширении области задач, которые могут быть выполнены с помощью грипперов, не уменьшая преимуществ подхода. ## Значимость Наша работа может быть применена в различных областях, включая автоматизацию, упаковку и производство. Она экономична и масштабируема, а её интеграция с портативными грипперами открывает новые возможности для обучения роботу. Это может привести к более эффективному использованию технологий в различных сферах. ## Выводы Наш фреймворк MV-UMI демонстрирует улучшение качества и мощности систем имитационного обучения. Мы призываем к дальнейшим исследованиям в области расширения карты контекста и созданию более универсальных моделей для повышения точности и производительности роботов.

Annotation:

Recent advances in imitation learning have shown great promise for developing robust robot manipulation policies from demonstrations. However, this promise is contingent on the availability of diverse, high-quality datasets, which are not only challenging and costly to collect but are often constrained to a specific robot embodiment. Portable handheld grippers have recently emerged as intuitive and scalable alternatives to traditional robotic teleoperation methods for data collection. However, t...

ID: 2509.18757v1 cs.RO, cs.AI

arXiv PDF

📄 VGGT-DP: Generalizable Robot Control via Vision Foundation Models

2025-09-25

Авторы:

Shijia Ge, Yinxin Zhang, Shuzhao Xie, Weixiang Zhang, Mingcai Zhou, Zhi Wang

#### Контекст В последние годы было сделано много усилий для создания алгоритмов, позволяющих роботам учиться выполнять манипуляционные задачи с помощью визуальной имитации обучения. Тем не менее, готовые решения часто страдают от недостатка в области способности к общей логике и генерализуемости. Это происходит в основном из-за ограниченного внимания, уделяемого структуре и мощности визуальных сетей. Одновременно, в биологических системах визуальная и проприоцептивная информация объединяются для обеспечения устойчивого контроля движений. Наша мотивация заключалась в разработке подхода, который бы оптимально использовал эти два источника информации для повышения степени общей логики и генерализуемости. #### Метод Мы предлагаем VGGT-DP — рамформу visuomotor policy, которая использует 3D-перспективу, полученную с помощью предобученной модели деперспективации. В качестве визуального энкодера используется Visual Geometry Grounded Transformer (VGGT), который позволяет захватывать подробную информацию о сцене. Для улучшения способности к общей логике мы применяем проприоцептивное руководство визуальным обучением, что позволяет роботу адаптироваться к различным локальным условиям. Для эффективного инференса мы разработали механизм повторного использования токенов разреза на кадры, связывающий несколько визуальных токенов в единое значение. Для улучшения политики мы используем случайное усечение токенов, что позволяет отвлечься от локальных минимумов и повысить устойчивость. #### Результаты Мы проводили эксперименты на сложных задачах MetaWorld, где VGGT-DP показал значительное превосходство по сравнению с такими моделями, как DP и DP3. Мы протестировали модель на задачах, требующих высокой точности и лонг-хорнзона, где робот должен выполнять целенаправленные действия на протяжении длительного времени. Результаты показали, что VGGT-DP обеспечивает более высокую точность и стабильность в этих ситуациях. #### Значимость VGGT-DP может быть применим в различных сферах, включая автоматизацию производственных процессов, роботизированные транспортные системы и интеллектуальные дома. Наш подход позволяет роботам быть более уверенными в своих действиях, делая их более универсальными и гибкими. Это может привести к улучшению производительности и уменьшению необходимости в ручном вмешательстве. #### Выводы Мы доказали, что VGGT-DP значительно повышает генерализуемость и точность решения в задачах манипуляции. Наша работа открывает новые пути для исследований в области визуального обучения и генерализуемости роботов, а такж

Annotation:

Visual imitation learning frameworks allow robots to learn manipulation skills from expert demonstrations. While existing approaches mainly focus on policy design, they often neglect the structure and capacity of visual encoders, limiting spatial understanding and generalization. Inspired by biological vision systems, which rely on both visual and proprioceptive cues for robust control, we propose VGGT-DP, a visuomotor policy framework that integrates geometric priors from a pretrained 3D percep...

ID: 2509.18778v1 cs.RO, cs.AI

arXiv PDF

1
2
32
33
34
35
36
54
55

Показано 331 - 340 из 544 записей