📚 Саммари научных статей из arXiv

Найдено 544 результатов по запросу 'cs.RO, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance

2025-09-05

Авторы:

Yang Zhang, Chenwei Wang, Ouyang Lu, Yuan Zhao, Yunfei Ge, Zhenglong Sun, Xiu Li, Chi Zhang, Chenjia Bai, Xuelong Li

#################### ## Контекст #################### Vision-Language-Action (VLA) модели, обученные на больших и разнообразных данных, продемонстрировали великолепный потенциал для общего применения в робототехнической манипуляции. Однако основной бутылгейский нок вызывает адаптация этих моделей к даунстирим-задачам, особенно когда используемая робот-платформа или задача существенно отличаются от данных подготовки. Этот зоознак возбуждает значительное несоответствие распределений действий, требующее огромных дополнительных данных и вычислительных ресурсов для эффективной ютебинга. Чтобы устранить этот вопрос, мы предлагаем \textbf{Align-Then-stEer (\texttt{ATE})}, новую, данных-эффективную и легко внедримую фреймворк для адаптации. \texttt{ATE} сначала выравнивает различные пространства действий, построив единое латентное пространство, где вариационный автоэнкодер, ограниченный разрозненными ключевыми дивергенциями, шифрует действия адаптации в режимы предварительного обучения латентного распределения. Затем он управляет процессом диффузии или флоу-основывающего поколения VLA во время ютебинга, используя механизм гида, направляющий выходную модель к распределению целевого домена. Мы проводим обширные эксперименты на перекрестных применениях и задачах манипуляции в обоих симуляционной и реальной средах. В сравнении с прямой ютебингой представительных VLA, наш метод повышает среднюю мульти-задачную успешность на до \textbf{9.8\%} в симуляции и достигает поразительного \textbf{32\% повышения успешности} в реальном кросс-применении. Наша работа представляет целый и легкий в использовании подход, который существенно улучшает пригодность развертывания VLA-моделей на новые робот-платформы и задачи. #################### ## Метод #################### Мы предлагаем \textbf{Align-Then-stEer (\texttt{ATE})}, состоящую из двух этапов: выравнивания и направления. \textbf{Выравнивание} реализуется через построение единого латентного пространства, где \texttt{ATE} использует вариационный автоэнкодер, контролируемый разрозненными ключевыми дивергенциями, для преобразования действий адаптации в режимы латентного распределения предварительного обучения. Это позволяет нормализовать различные пространства действий и обеспечить гладкую модель поступления. \textbf{Направление} включает в себя гид-механизм, направляющий процесс генерации модели во время ютебинга. Этот механизм оптимизирует распределение модели в соответствии с целевым доменом, путем встраивания специальных терминов в loss-функцию. Мы реализуем наш метод с помощью диффузионных и флоу-основывающих VLA

Annotation:

Vision-Language-Action (VLA) models pre-trained on large, diverse datasets show remarkable potential for general-purpose robotic manipulation. However, a primary bottleneck remains in adapting these models to downstream tasks, especially when the robot's embodiment or the task itself differs from the pre-training data. This discrepancy leads to a significant mismatch in action distributions, demanding extensive data and compute for effective fine-tuning. To address this challenge, we introduce \...

ID: 2509.02055v1 cs.RO, cs.AI

arXiv PDF

📄 Learning Social Heuristics for Human-Aware Path Planning

2025-09-05

Авторы:

Andrea Eirale, Matteo Leonetti, Marcello Chiaberge

## Контекст Социальная роботизированная навигация стала темой многочисленных исследований в последние годы. Основной акцент в этих исследованиях был сделан на том, чтобы роботы передвигались по пространству, избегая препятствий и соблюдая социальное расстояние от людей, а также предсказывали их движения, чтобы оптимизировать траектории. Однако, чтобы роботы были социально приемлемы, необходимо, чтобы они приобрели определенные социальные нормы, которые невозможно получить из обычных алгоритмов навигации. Эти нормы требуют специального процесса обучения. Мы предлагаем метод Heuristic Planning with Learned Social Value (HPLSV), который учитывает значение социальной навигации в виде дополнительной хитрости (heuristic) для алгоритмов типа графа. В настоящем рабочем этапе мы применяем этот подход к обычной социальной ситуации, когда робот присоединяется к очереди людей, с целью дальнейшего расширения на другие типы социальных ситуаций. ## Метод Мы предлагаем метод Heuristic Planning with Learned Social Value (HPLSV), который объединяет социальные знания в форме значения (value function), описывающего стоимость социальной навигации. Этот метод сочетает социальные знания с обычными техническими хитростями (heuristics) в графических алгоритмах планирования траекторий. Мы используем значение, полученное с помощью машинного обучения, для оценки социальной стоимости различных траекторий. Такой подход позволяет роботу принимать решения, учитывая не только физические препятствия, но также социальные факторы, такие как соблюдение дистанции или принятие социальных норм в сценариях, где робот взаимодействует с людьми. Метод построен на структуре обучения с подкреплением и включает в себя нейронные сети для оценки социальной ценности. ## Результаты Мы проверили наш метод в сценарии, когда робот присоединяется к очереди людей. Мы использовали симуляционное окружение с различными вариантами поведения людей, чтобы протестировать различные ситуации. Наши эксперименты показали, что метод HPLSV позволяет роботу эффективно и социально присоединяться к очереди, соблюдая социальное расстояние и принимая учет движения других людей. Мы сравнили наш метод с существующими технологиями и получили значительные улучшения в социальной приемлемости движения робота. ## Значимость Метод HPLSV может быть применен в различных областях, где роботы взаимодействуют с людьми, таких как роботы-розничные помощники в магазинах, роботы-помощники в домашних условиях или роботы-наставники в центрах обучения. Этот подход не только улучшает социальную приемлемость робота, но и повышает его удо

Annotation:

Social robotic navigation has been at the center of numerous studies in recent years. Most of the research has focused on driving the robotic agent along obstacle-free trajectories, respecting social distances from humans, and predicting their movements to optimize navigation. However, in order to really be socially accepted, the robots must be able to attain certain social norms that cannot arise from conventional navigation, but require a dedicated learning process. We propose Heuristic Planni...

ID: 2509.02134v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Enhancing Reliability in LLM-Integrated Robotic Systems: A Unified Approach to Security and Safety

2025-09-05

Авторы:

Wenxiao Zhang, Xiangrui Kong, Conan Dewitt, Thomas Bräunl, Jin B. Hong

## Контекст Интеграция больших языковых моделей (LLMs) с роботизированными системами представляет собой переломный момент в развитии искусственного интеллекта, обладающий возможностями для продвинутого самостоятельного принятия решений и адаптации. Однако, несмотря на эти преимущества, существуют серьезные проблемы, связанные с обеспечением надежности таких систем. Эти вопросы включают обеспечение безопасности систем от атак, таких как привлечение внимания (prompt injection attacks), а также обеспечение безопасности в работе в условиях сложных и непредсказуемых сред. Недостаток доказательств надежности остается главной преградой для развертывания таких систем в реальном мире. Для решения этой проблемы предлагается новая, универсальная модель, которая способна обеспечить противодействие таким атакам, в то же время сохраняя высокую степень безопасности в работе в различных средах. ## Метод Разработанная модель основывается на трех ключевых компонентах: пайплайн для создания и сборки строк запросов (prompt assembling), система управления состоянием (state management) и система валидации безопасности (safety validation). Prompt assembling позволяет генерировать надёжные и универсальные запросы к модели. State management обеспечивает гармоничное взаимодействие модели с окружающей средой, контролируя поток взаимодействий. Наконец, safety validation используется для проверки всех входных данных и выходных результатов, чтобы предотвратить нежелательные результаты, включая небезопасные или неграмотные ответы. Фреймворк логически структурирован, чтобы обеспечить многоуровневую защиту, что делает его универсальным для использования в различных роботизированных системах. ## Результаты Для оценки эффективности разработанного подхода проведены подробные эксперименты в различных условиях работы системы. Эксперименты показали, что фреймворк увеличивает выполнение задач безопасности на 30.8% при атаках типа "привлечение внимания", а также увеличивает производительность в условиях работы в сложных средах на 325% по сравнению с базовыми ситуациями. Эти результаты подтверждают, что программа эффективно решает проблему безопасности и надежности LLM-интегрированных роботизированных систем, даже при сложных условиях работы. Основные метрики экспериментов включают производительность, скорость реакции и устойчивость к атакам. ## Значимость Разработанная модель имеет широкие приложения в области роботика, включая домофонов, системы автоматизации, мобильные роботы и другие системы, на которых основываются LLM-модели. Основными преимуществами являются свойство стабильности, надежности и безопасности в работе. Это делает её осо

Annotation:

Integrating large language models (LLMs) into robotic systems has revolutionised embodied artificial intelligence, enabling advanced decision-making and adaptability. However, ensuring reliability, encompassing both security against adversarial attacks and safety in complex environments, remains a critical challenge. To address this, we propose a unified framework that mitigates prompt injection attacks while enforcing operational safety through robust validation mechanisms. Our approach combine...

ID: 2509.02163v1 cs.RO, cs.AI

arXiv PDF

📄 Efficient Virtuoso: A Latent Diffusion Transformer Model for Goal-Conditioned Trajectory Planning

2025-09-05

Авторы:

Antonio Guillen-Perez

#### Контекст Автоматизированная планировка маршрутов является ключевым компонентом систем автономного управления транспортом. Одной из основных задач является генерация разнообразных и реалистичных дистрибуций будущих маршрутов, чтобы обеспечить безопасность и эффективность движения. Несмотря на прогресс в генеративных моделях, существуют трудности в достижении высокой точности, высокой эффективности и контроля над траекториями. Этот аспект является критическим для создания надежных систем планирования для автономных транспортных средств. #### Метод Мы предлагаем **Efficient Virtuoso** — усовершенствованную модель на основе трансформера, работающую в низкоразмерном латентном пространстве. Модель использует уникальную двухэтапную нормализацию для подготовки данных. В первом этапе масштабируются траектории, чтобы сохранить их геометрический аспект, а затем вторично нормализуется латентное пространство PCA для обеспечения стабильности обучения. В ходе денойсинга в этом низкоразмерном пространстве используется простая MLP-денойзер, которая принимает в качестве входа контекст сцены, обрабатываемый мощным Transformer-based StateEncoder. #### Результаты Проведенные эксперименты показали, что Efficient Virtuoso достигает состояния лидера на Waymo Open Motion Dataset, показывая минимальную ошибку по декарсиану (minADE) равную 0,25. Аблационные исследования подтвердили важность различных аспектов конструкции модели. Особое внимание было уделено репрезентации целей (goal representation). Было выявлено, что единственное место назначения (endpoint goal) может устранить стратегическую неоднозначность, но для точного и высококачественного эмулирования траекторий, подобных людскому вождению, необходим более широкий, многошаговый спарский маршрут. #### Значимость Предложенная модель обладает широкими возможностями применения в области автоматизированного управления транспортом. Она обеспечивает высокую эффективность и гибкость в генерации траекторий, что может улучшить безопасность и эффективность движения автомобилей. Благодаря своей структуре, модель может быть легко адаптирована к различным условиям движения и сценариям. Это делает ее полезной для реализации в системах самоводившихся машин и системах поддержки решений для водителей. #### Выводы Мы представили Efficient Virtuoso — мощную и эффективную модель для планирования траекторий, которая достигла высоких результатов на сложных данных о маршрутах. Наши результаты раскрывают важность точной репрезентации целей для повышения точности выполнения. Будущие исследования будут сфокусированы на расширении модели для более

Annotation:

The ability to generate a diverse and plausible distribution of future trajectories is a critical capability for autonomous vehicle planning systems. While recent generative models have shown promise, achieving high fidelity, computational efficiency, and precise control remains a significant challenge. In this paper, we present the \textbf{Efficient Virtuoso}, a conditional latent diffusion model for goal-conditioned trajectory planning. Our approach introduces a novel two-stage normalization p...

ID: 2509.03658v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots

2025-09-05

Авторы:

Minghuan Liu, Zhengbang Zhu, Xiaoshen Han, Peng Hu, Haotong Lin, Xinyao Li, Jingxiao Chen, Jiafeng Xu, Yichu Yang, Yunfeng Lin, Xinghang Li, Yong Yu, Weinan Zhang, Tao Kong, Bingyi Kang

## Контекст Робототехника, особенно манипуляции, широко используется в сферах, где требуется автоматизация задач сложного характера. Однако, нынешние роботы, оперирующие в основном в 2D-пространстве, сталкиваются с ограниченной точностью и недостаточной универсальностью в решении задач. Одной из ключевых проблем является то, что роботы, в отличие от человека, не в состоянии эффективно использовать геометрическую информацию в 3D-пространстве. Хотя такая информация доступна с помощью датчиков глубины, существуют технические и системные ограничения, которые затрудняют использование этих данных в реальном мире. Эти ограничения становятся причиной снижения надёжности и универсальности роботов в решении задач манипуляций. ## Метод В нашей работе мы предлагаем **Camera Depth Models (CDMs)**, которые используются в качестве простого плагина для существующих датчиков глубины. Эти модели принимают на вход RGB-изображение и сигналы глубины, а на выходе дают данные, корректированные от шумов и точными в метрической габаритной системе. Чтобы обучить эти модели, мы разрабатываем моделирование симуляции, которое эмулирует шум и прочие особенности работы датчиков глубины. Эта методика позволяет CDMs эффективно корректировать данные в реальном времени, выполняя детальный анализ геометрии объектов. ## Результаты Мы провели исследования, используя различные датчики глубины и наборы данных. Наши результаты показали, что CDMs позволяют осуществлять точное определение геометрии в реальном мире, близкое к точности симуляционных моделей. Мы провели эксперименты на двух сложных задачах манипуляций с объектами разных типов (артикулированные, отражающие и тонкие). Результаты показали, что политики, обученные на симуляционных данных с CDMs, могут безусловно переходить в реальный мир, сохраняя свою эффективность и точность. Это продемонстрировано на двух разных сценариях использования. ## Значимость Наши результаты имеют большое значение в сферах робототехники, виртуальной реальности и перспективных технологий. Мы показали, что использование 3D-информации может дать существенный прирост в универсальности и решении задач. CDMs могут быть широко применены для устранения проблем проникновения в мир реальных задач с помощью симуляционных моделей. Этот подход может развиваться в дальнейшем для улучшения роботов в сферах, где требуется высокая точность и общеизмерительная габаритная позиция. ## Выводы Наши исследования демонстрируют, что CDMs эффективно избавляются от шумов в данных глубины и позволяют ос

Annotation:

Modern robotic manipulation primarily relies on visual observations in a 2D color space for skill learning but suffers from poor generalization. In contrast, humans, living in a 3D world, depend more on physical properties-such as distance, size, and shape-than on texture when interacting with objects. Since such 3D geometric information can be acquired from widely available depth cameras, it appears feasible to endow robots with similar perceptual capabilities. Our pilot study found that using ...

ID: 2509.02530v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Improving the Resilience of Quadrotors in Underground Environments by Combining Learning-based and Safety Controllers

2025-09-05

Авторы:

Isaac Ronald Ward, Mark Paral, Kristopher Riordan, Mykel J. Kochenderfer

#### Контекст Одна из самых вызовов при использовании автономных роботов в подземных окружениях является обеспечение их устойчивости и безопасности в условиях неопределенности и неизвестности. Такие окружения часто имеют уникальные, непредсказуемые характеристики, которые не могут быть полностью охвачены во время обучения. Это влечет за собой риск выхода из рабочего диапазона (out-of-distribution), что может привести к нежелательным последствиям. Для практического применения, таких как поисковые и спасательные операции, окраины минеральных ресурсов и окружающая среда, необходимо создать системы, которые обладают характеристикой быстрого реагирования (liveness) и безопасностью (safety). Наша мотивация заключается в создании метода, который объединяет преимущества обучения-на-борту (learning-based) и традиционных безопасных алгоритмов. #### Метод Мы предлагаем комбинированный подход к контролю автономных квадроторов, который использует модель нормализующего потока (normalizing flow) для оценки выхода квадротора за пределы обучающей выборки. Эта модель функционирует как раннее предупреждение (runtime monitor), которое срабатывает при выходе за допустимый диапазон. В случае выхода, алгоритм переключается на безопасный контроллер, а в случае возвращения к ожидаемому диапазону — на обученный, наушный робот. Мы использовали обученную модель для контроля движения в трехмерной симуляции лабиринта, основанной на реальных данных из DARPA Subterranean Challenge. Наша архитектура включает в себя два основных модуля: модель нормализующего потока для мониторинга и выборки контроллера, и саму систему контроля. #### Результаты Мы проводили эксперименты в симуляторе, сравнивая нашу систему с отдельными моделями — только обученным и только безопасным контроллером. Наши результаты показали, что комбинированный подход обеспечивает более быструю проходимость лабиринта (liveness), чем безопасный контроллер, при этом сохраняя безопасность (невозможность выхода за пределы между двумя контроллерами). Также мы проверили способность модели выявлять и реагировать на различные типы выходов за допустимый диапазон. Наши метрики показали, что у нашей системы лучшая производительность в отношении времени отклика и точности в сравнении с конкурентными подходами. #### Значимость Наш подход может быть применен в различных подземных операциях, таких как поисковые и спасательные задачи, измерение и мониторинг подземных ресурсов, а также сбор данных в условиях ограниченной видимости. Он обеспечивает высокую точность и быстроту действия, без ущерба для безопасности. Помимо этого, наш метод может быть расширен для других видов

Annotation:

Autonomously controlling quadrotors in large-scale subterranean environments is applicable to many areas such as environmental surveying, mining operations, and search and rescue. Learning-based controllers represent an appealing approach to autonomy, but are known to not generalize well to `out-of-distribution' environments not encountered during training. In this work, we train a normalizing flow-based prior over the environment, which provides a measure of how far out-of-distribution the quad...

ID: 2509.02808v1 cs.RO, cs.AI, cs.SY, eess.SY

arXiv PDF

📄 Real-Time Instrument Planning and Perception for Novel Measurements of Dynamic Phenomena

2025-09-05

Авторы:

Itai Zilberstein, Alberto Candela, Steve Chien

## Контекст Изучение динамических научных явлений, таких как вулканические пары, представляет сложные вызовы, особенно для наблюдения и измерения, которые требуют высокого разрешения и точного совпадения времени и места. Традиционные методы часто ограничиваются разрешением и скоростью реакции, что мешает достижению точных результатов. С одной стороны, современные технологии, такие как стандартные камеры и нейросети, могут обрабатывать данные в режиме реального времени, но их применение к сложным научным задачам необходимо адаптировать. Другой стороной, технологии планирования и автоматизации позволяют наблюдательным агентам использовать эти новые возможности для получения более точных и ценных данных. Таким образом, целью данного исследования является разработка автоматизированного подхода, который объединяет детектирование динамичных явлений в реальном времени с планированием полета для повышения точности и результативности измерений. ## Метод Авторы предлагают автоматизированную рабочую процедуру, которая использует реального времени-изображения для определения динамических явлений, таких как вулканические пары, и автоматического планирования миссий для получения более точных данных. Исследования включают несколько методов классификации, включая традиционные методы машинного обучения и нейросети типа CNN. Для планирования миссий, авторы разработали несколько алгоритмов, включая техники оптимизации и обработки изображений. Эти алгоритмы используются для синтеза изображений, определения их местоположения, а также для расчета маршрутов полета, чтобы максимально точно использовать технологии высокого разрешения. Методология была проверена в симуляционных условиях, которые демонстрируют преимущества этого подхода по сравнению с базовыми методами. ## Результаты В ходе симуляционных экспериментов показано, что автоматизированный подход приводит к значительному увеличению эффективности использования высокоразрешенных технологий в сравнении с базовыми методами. Это вызвано тем, что алгоритмы классификации и планирования работают в режиме реального времени и позволяют более точно определять динамические явления. Таким образом, система позволяет получить данные с более высокого разрешения и уменьшить потери, связанные с неточным планированием. Эти результаты демонстрируют потенциал системы для получения более точных и ценных данных в области наблюдений вулканических пар. ## Значимость Полученный подход может быть применен в различных научных областях, где необходимо высокоточное измерение динамических явлений. Это могут быть области, такие как изучение климата, наблюдение

Annotation:

Advancements in onboard computing mean remote sensing agents can employ state-of-the-art computer vision and machine learning at the edge. These capabilities can be leveraged to unlock new rare, transient, and pinpoint measurements of dynamic science phenomena. In this paper, we present an automated workflow that synthesizes the detection of these dynamic events in look-ahead satellite imagery with autonomous trajectory planning for a follow-up high-resolution sensor to obtain pinpoint measureme...

ID: 2509.03500v1 cs.RO, cs.AI

arXiv PDF

📄 Can the Waymo Open Motion Dataset Support Realistic Behavioral Modeling? A Validation Study with Naturalistic Trajectories

2025-09-05

Авторы:

Yanlin Zhang, Sungyong Chung, Nachuan Li, Dana Monzer, Hani S. Mahmassani, Samer H. Hamdar, Alireza Talebpour

## Контекст Моделирование поведения автономных транспортных средств (АТС) является ключевым аспектом развития технологий автоматизированного транспорта. Одним из популярных источников данных для этого является Waymo Open Motion Dataset (WOMD). Он включает траектории движения, собранные при операциях Level 4 AV в Phoenix, Arizona. Тем не менее, WOMD имеет ограничения, такие как проприетарная обработка данных, отсутствие оценки ошибок и разбиение траекторий на отдельные клиппы 20 секунд. Эти ограничения поднимают вопросы о точности данных и возможности их использования для реалистичного моделирования поведения АТС. Целью данной работы является определение того, может ли WOMD поддерживать реалистичное моделирование поведения AV, используя сравнительный анализ с использованием данных из реальных операций. ## Метод Для проведения исследования использовалась связка из двух наборов данных: WOMD и собственно сборных данных Level 4 AV в Phoenix, Arizona. Для анализа различных сценариев движения, таких как разгрузка на светофорах, следование за автомобилем и смена полосы движения, были применены различные методы сравнения. Например, для определения расстояний между автомобилями в сценарии разгрузки были использованы видео-анализ и методы линейной интерполяции. Для сценариев следования и смены полосы применялся метод Simulation-Extrapolation (SIMEX) для учета ошибок в данных PHX, а также метод динамической войны времени (Dynamic Time Warping, DTW) для поиска различий в поведении. ## Результаты Анализ показал, что данные из WOMD не полностью соответствуют реальному поведению АТС в условиях города. Например, WOMD недостаточно представляет ситуации с короткими расстояниями между автомобилями и аварийными сценариями. Эти отклонения были выявлены во всех использованных сценариях движения. Например, в сценарии разгрузки, где использовались видео-данные для точного измерения расстояний, PHX данные показали более значительное количество кратковременных расстояний. Аналогично, в сценариях следования и смены полосы, SIMEX и DTW показали, что поведение в PHX значительно отличается от того, что зафиксировано в WOMD. ## Значимость Результаты имеют важное значение для улучшения моделей поведения AV. Недостаточная точность WOMD в представлении реального поведения транспортных средств может привести к неточным моделям, которые не учитывают реальную сложность и риск в условиях городского движения. Эта статья подчеркивает необходимость дополнительных исследований и валидации данных для повышения точности реалистичных моделей. ## Выводы Выводы исследования подтверждают, что WOMD может не полностью охватывать реальность городского транспортного поведения. Необхо

Annotation:

The Waymo Open Motion Dataset (WOMD) has become a popular resource for data-driven modeling of autonomous vehicles (AVs) behavior. However, its validity for behavioral analysis remains uncertain due to proprietary post-processing, the absence of error quantification, and the segmentation of trajectories into 20-second clips. This study examines whether WOMD accurately captures the dynamics and interactions observed in real-world AV operations. Leveraging an independently collected naturalistic d...

ID: 2509.03515v1 cs.RO, cs.AI, cs.LG, cs.SY, eess.SY, stat.AP

arXiv PDF

📄 EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

2025-09-02

Авторы:

Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang

## Контекст Область исследования рассматривает проблему развития общего-целевых роботов с интеллектуальными возможностями, полностью адаптированных к работе в сложных, многомодальных средах. На данный момент существуют модели, которые объединяют визуальные, текстовые и действительные данные (Vision-Language-Action, VLA), чтобы обеспечить контроль роботов в различных задачах. Однако они до сих пор не достигли уровня гибкости и универсальности, который можно наблюдать у человека. Это ограничение вызвано отсутствием моделей, которые могут эффективно обрабатывать взаимодействия между визуальными, текстовыми и действительными сигналами в реальном времени. Поэтому введено новое подходящее исследование, которое стремится решить эту проблему и достичь этапов, близких к человеческим возможностям. ## Метод Разработка EO-Robotics базируется на двух основных ключевых составляющих. Во-первых, это единая архитектура, которая обрабатывает разных типов входных данных, такими как изображения, текст, видео и действия, независимо от их формата. Во-вторых, это огромный и качественно высокодостоверный набор данных EO-Data1.5M, содержащий более 1.5 миллиона примеров, специально разработанный для тренировки модели на объединенном понимании визуальных, текстовых и действительных сигналов. Методология заключается в использовании синергии между декодированием последовательностей и методом денойсинга потоков, чтобы обеспечить эффективную генерацию действий и объединенное понимание в кадре эмбодьд системы. ## Результаты Для тестирования данной модели были проведены несколько экспериментов на различных длинных задачах, со сложными манипуляциями и объектами в разных средах. Модель EO-1 продемонстрировала высокую точность и гибкость в решении задач, превосходя существующие модели во времени реакции и точности выполнения задач. В частности, модель показала улучшенную возможность объединения многомодальных сигналов (визуальных и текстовых) и гибкость в гибком поведении в открытых средах. Эти результаты были подтверждены экспериментально, показав высокую производительность в различных испытаниях. ## Значимость Данная работа применима к многим областям, где требуется умение обрабатывать и интерактивно взаимодействовать с многомодальными данными, таких как автоматизация производственных процессов, управление роботами в частных домах или сельскохозяйственных работах. Особенно будет цениться в сфере создания общего-целевых моделей, которые могут осуществлять контроль над телом и сенсорными сигналами, а также решать задачи реального мира в реальном времени. Основно

Annotation:

The human ability to seamlessly perform multimodal reasoning and physical interaction in the open world is a core goal for general-purpose embodied intelligent systems. Recent vision-language-action (VLA) models, which are co-trained on large-scale robot and visual-text data, have demonstrated notable progress in general robot control. However, they still fail to achieve human-level flexibility in interleaved reasoning and interaction. In this work, introduce EO-Robotics, consists of EO-1 model ...

ID: 2508.21112v1 cs.RO, cs.AI

arXiv PDF

📄 RoboInspector: Unveiling the Unreliability of Policy Code for LLM-enabled Robotic Manipulation

2025-09-02

Авторы:

Chenduo Ying, Linkang Du, Peng Cheng, Yuanchao Shu

## Контекст Large language models (LLMs) открыли новые возможности в области робототехники, особенно в робутической манипуляции, где могут генерировать политический код для управления роботами на основе простых инструкций. Однако, несмотря на выдающиеся возможности LLMs, получение надежных политических кодов для управления роботами остается значимой проблемой. Это связано с различием в пользовательских инструкциях, сложностью реализации задач в реальном мире и субъективным пониманием инструкций. Таким образом, необходимо выявить и исследовать проблемы, связанные с недостоверностью политического кода. ## Метод Мы предлагаем **RoboInspector**, полноценную методологию для определения и анализа недостоверности политического кода в LLMs-сущностих робототехнических системах. Метод основывается на двух основных перспективах: сложности манипуляционной задачи и детализации инструкции. Для экспериментов использовались 168 различных комбинаций задач, инструкций и LLMs, протестированных в двух представительных робототехнических фреймворках. Эти эксперименты позволили выявить 4 типа недостоверности, приводящих к сбоям в манипуляциях. ## Результаты RoboInspector выявил 4 типа недостоверности: (1) **несоответствие инструкции реальным требованиям**, (2) **неполнота информации в инструкции**, (3) **непоследовательность в поведении робота**, и (4) **ошибки при определении целей**. Эти недостоверности были тщательно проанализированы с учетом своих причин и последствий. Далее, мы представили метод улучшения на основе обратной связи от неудачных политик, который улучшил надежность политического кода до 35%. Эти результаты были подтверждены как в симуляционных, так и в реальных условиях. ## Значимость Предложенная методология имеет значительное значение для развития надежных робототехнических систем. Она может быть применена в сценариях, где требуется высокая достоверность политического кода, например, в сферах автоматизированного производства, гражданской защиты и домашнего автоматизации. Выявление и устранение недостоверности политического кода не только повышают надежность, но и сокращают время разработки и тестирования. ## Выводы Результаты экспериментов показали, что RoboInspector эффективно выявляет и анализирует недостоверности в политическом коде LLMs-enabled робототехнических системах. Наша методология и рефинементный подход не только улучшают надежность, но также облегчают практическое применение LLMs в робототехнике. Будущие исследования будут сфокусированы на улучшении точности определения недостоверностей и расширении RoboInspector для разнообразных робототехничес

Annotation:

Large language models (LLMs) demonstrate remarkable capabilities in reasoning and code generation, enabling robotic manipulation to be initiated with just a single instruction. The LLM carries out various tasks by generating policy code required to control the robot. Despite advances in LLMs, achieving reliable policy code generation remains a significant challenge due to the diverse requirements of real-world tasks and the inherent complexity of user instructions. In practice, different users m...

ID: 2508.21378v1 cs.RO, cs.AI

arXiv PDF

1
2
42
43
44
45
46
54
55

Показано 431 - 440 из 544 записей