📚 Саммари научных статей из arXiv

Найдено 544 результатов по запросу 'cs.RO, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 AgriChrono: A Multi-modal Dataset Capturing Crop Growth and Lighting Variability with a Field Robot

2025-08-28

Авторы:

Jaehwan Jeong, Tuan-Anh Vu, Mohammad Jony, Shahab Ahmad, Md. Mukhlesur Rahman, Sangpil Kim, M. Khalid Jawed

## Контекст Модернизация сельского хозяйства с помощью интеллектуальных технологий требует развития систем, устойчивых к разнообразию условий реальных сельскохозяйственных сред. Несмотря на прогресс в сельскохозяйственной робототехнике, существующие данные для обучения и тестирования моделей часто генерируются в условиях статических или контролируемых сред, таких как лабораторные или теплицы. Эти условия не соответствуют динамичности настоящих полевых условий, включая изменения освещения, развитие культур и природные помехи. Это приводит к недостатку универсальности и надежности моделей при их применении в реальных полевых ситуациях. Наша мотивация заключается в создании новой платформы для сбора данных и многомодального набора данных, которые будут отражать динамику настоящих сельскохозяйственных сред, позволяя улучшить модели и их применимость. ## Метод Мы разработали AgriChrono — новую платформу для сбора данных, которая интегрирует несколько сенсоров для получения RGB, глубинных карт, LiDAR и данных IMU. Эта платформа развёрнута на борту робота, работающего в полевых условиях. Робот собирает данные в реальном времени, а многомодальность и встроенная синхронизация времени обеспечивают точность и повторяемость. Архитектура системы разработана таким образом, чтобы обеспечить эффективность и гибкость при сборе данных в зависимости от разных стадий роста культур и изменений освещения. Это позволяет получать высококачественные данные для обучения и тестирования моделей в сельскохозяйственных задачах. ## Результаты Мы провели эксперименты с использованием наших данных для оценки современных моделей 3D-реконструкции. Использовались данные, собранные в различных условиях освещения и развития культур. Результаты показали, что данные AgriChrono являются вызовом для существующих моделей, поскольку они отражают динамику реальной сельскохозяйственной среды. Мы также показали, что AgriChrono может стать мощным инструментом для улучшения универсальности моделей и их надежности в реальных полевых условиях. ## Значимость Платформа AgriChrono и её набор данных могут быть применены в различных областях, включая агроинтеллектуальные системы, моделирование растительности, оценку урожая и другие сельскохозяйственные задачи. Их значимость заключается в том, что они позволяют развитию моделей с более высокой универсальностью и надежностью при работе в динамичных сельскохозяйственных условиях. Это может привести к более эффективному использованию ресурсов в сельском хозяйстве и к повышению точности решения важных проблем в этой области. ## Выводы Платформа AgriChrono и набор

Annotation:

Existing datasets for precision agriculture have primarily been collected in static or controlled environments such as indoor labs or greenhouses, often with limited sensor diversity and restricted temporal span. These conditions fail to reflect the dynamic nature of real farmland, including illumination changes, crop growth variation, and natural disturbances. As a result, models trained on such data often lack robustness and generalization when applied to real-world field scenarios. In this pa...

ID: 2508.18694v1 cs.RO, cs.AI, cs.SY, eess.SY

arXiv PDF

📄 An LLM-powered Natural-to-Robotic Language Translation Framework with Correctness Guarantees

2025-08-28

Авторы:

ZhenDong Chen, ZhanShang Nie, ShiXing Wan, JunYi Li, YongTian Cheng, Shuai Zhao

## Контекст Роботизация становится важной частью жизненного цикла производственных процессов, а также играет ключевую роль в сфере ИТ. Использование Больших Языковых Моделей (LLM) в области робототехники позволяет генерировать программы для контроля роботов, используя задачи, описанные на натуральном языке. Это позволяет включить в роботы эмбедированный интеллект. При этом существующие методы, основанные на тренировке и конструировании подсказок для LLM, не всегда обеспечивают достаточную точность в генерации программ. Неточность в исполнении роботом полученных программ может привести к серьезным ошибкам в работе и уменьшить эффективность, особенно при работе с лёгкими лёгкими моделями. Необходимо разработать методы, обеспечивающие высокую точность генерации программ и уменьшающие риск ошибок. ## Метод Для решения проблемы точности генерации программ для контроля робота была разработана новая методология, включающая в себя следующие компоненты. Объектом исследования является новый язык программирования, называемый **Robot Skill Language (RSL)**, который абстрагирует жесткие детали контроля роботов. Была предложена методика построения **RSL-компилятора и дебаггера**, которые проверяют генерируемые программы на наличие ошибок и возвращают обратную связь для улучшения генерируемых LLM-программ. Кроме того, введена **методика обратной связи и оптимизации**, позволяющая лингвистическим моделям проводить повторные тренировки на основе результатов компиляции. ## Результаты Исследования проводились на различных тестовых страницах и задачах, используя различные модели LLM. Метод NRTrans (Natural-to-Robotic Translation) показал лучшие результаты по сравнению с другими существующими методами. Особенно высокая эффективность этого метода была отмечена при использовании лёгких моделей LLM. Было доказано, что NRTrans обеспечивает высокую точность генерации контрольных программ, снижает риск ошибок и повышает эффективность роботов в выполнении задач. ## Значимость Предложенный подход имеет большое потенциал в различных областях, таких как робототехника, автоматизация, встраиваемые системы, и ИТ-системы. Он обеспечивает высокую точность в генерации программ, снижает вероятность ошибок при выполнении, повышает эффективность лёгких лёгких моделей LLM. Благодаря этому, NRTrans может быть применён для более надежного и эффективного управления роботами в различных сферах, включая производство, домашние роботы и сервисные роботы. ## Выводы Разработанная система NRTrans доказала высокую эффективность в

Annotation:

The Large Language Models (LLM) are increasingly being deployed in robotics to generate robot control programs for specific user tasks, enabling embodied intelligence. Existing methods primarily focus on LLM training and prompt design that utilize LLMs to generate executable programs directly from user tasks in natural language. However, due to the inconsistency of the LLMs and the high complexity of the tasks, such best-effort approaches often lead to tremendous programming errors in the genera...

ID: 2508.19074v1 cs.RO, cs.AI, cs.PL

arXiv PDF

📄 ZeST: an LLM-based Zero-Shot Traversability Navigation for Unknown Environments

2025-08-28

Авторы:

Shreya Gummadi, Mateus V. Gasparino, Gianluca Capezzuto, Marcelo Becker, Girish Chowdhary

#### Контекст Исследование связано с проблемой топологической навигации в неизвестных средах, где требуется активно учитывать риски, связанные с оценкой топологии и обнаружением препятствий. Развитие безопасного и эффективного роботов, способных самостоятельно перемещаться в этих условиях, является ключевым заданием. Одним из главных рисков является традиционный подход к обучению систем навигации - подвергание роботам риску в реальных условиях. Данный подход не только повышает риски для оборудования, но и затрудняет эффективное и быстрое развитие систем навигации. Данная работа предлагает новый подход, использующий визуальную рационализацию и возможности Large Language Models (LLMs) для создания топологических карт в реальном времени. Такой подход минимизирует возможные риски для робота и позволяет быстрее развивать системы навигации. #### Метод Предлагаемый подход, ZeST (Zero-Shot Traversability), основывается на возможностях LLMs для распознавания и оценки трехмерных сред. Данная модель принимает в качестве входных данных изображения среды, а затем производит анализ и интерпретацию этих данных для построения топологических карт. Модель использует zero-shot learning, что позволяет применять ее в различных условиях без предварительного обучения на конкретных данных. Это значительно сокращает время настройки и внедрения модели. Основной целью является построение точных топологических моделей в режиме реального времени, чтобы обеспечить безопасность и эффективность навигации. #### Результаты В результате экспериментов, проведенных в различных средах, включая как управляемые внутренние пространства, так и неупорядоченные внешние среды, показано, что ZeST обеспечивает более безопасную и эффективную навигацию по сравнению с другими моделями. Модель постоянно достигает цели, сохраняя высокую точность в определении препятствий и создании топологических карт. Эксперименты показали, что технология ZeST не только меньше рисков для оборудования, но и позволяет быстрее развивать навигационные системы, сокращая время на обучение и развертывание. #### Значимость ZeST может быть применена в различных сферах, таких как промышленность, экспедиции, добыча ресурсов или развитие роботов для поиска и спасения. Этот подход позволяет эффективно обходить риски, связанные с традиционной оценкой среды, и обеспечивает быстрое и безопасное развитие навигационных систем. Благодаря использованию LLMs, данная технология обеспечивает быстрое и точное распознавание среды, что делает ее актуальной в ситуациях, где требуется быстрое решение. #### Выводы На основе экспериментов, проведенных в это

Annotation:

The advancement of robotics and autonomous navigation systems hinges on the ability to accurately predict terrain traversability. Traditional methods for generating datasets to train these prediction models often involve putting robots into potentially hazardous environments, posing risks to equipment and safety. To solve this problem, we present ZeST, a novel approach leveraging visual reasoning capabilities of Large Language Models (LLMs) to create a traversability map in real-time without exp...

ID: 2508.19131v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Uncertainty-Resilient Active Intention Recognition for Robotic Assistants

2025-08-28

Авторы:

Juan Carlos Saborío, Marc Vinci, Oscar Lima, Sebastian Stock, Lennart Niecksch, Martin Günther, Alexander Sung, Joachim Hertzberg, Martin Atzmüller

## Контекст Роботизированные помощники, предназначенные для помощи в повседневных задачах, требуют высокоуровневой автономии и точности в интерпретации человеческих намерений. Несмотря на прогресс в области распознавания намерений, существуют значительные проблемы, связанные с неопределенностью во вводимых данных. Традиционные подходы часто строятся на предположении близкой совершенности сенсорных данных или исключительно на основе входных команд. Это приводит к ограничениям в технической точности и моделировании реальности, необходимым для работы в разнообразных средах. Из-за этого есть необходимость разработать методы, которые могут устойчиво воспринимать и адаптироваться к неопределенности в задаче распознавания намерений. Наша мотивация заключается в разработке фреймворка, который мог бы устойчиво реагировать на сенсорные ошибки и неопределенность в человеческих намерениях. ## Метод Мы предлагаем фреймворк, основанный на планировании под неопределенностью (POMDP), который интегрирует реального времени сенсорные данные с компонентами управления. Наш подход применяет нейронные сети для оценки вероятности различных намерений, а также процедуры оптимизации для выбора наиболее вероятного плана. Мы разработали несколько моделей, которые заключаются в различных классах ошибок сенсоров, а также методы для уменьшения неопределенности в реальном времени. Мы также разработали архитектуру, которая может гибко реагировать на различные сценарии, включая ситуации с недостаточным вводом сенсоров или множественными планами. ## Результаты Мы провести испытания на физическом роботе, используя набор данных, содержащий различные сценарии, в том числе с зашумленными сенсорами и различными видами неопределенности. Наши результаты показали, что фреймворк может значительно улучшить точность распознавания намерений, сравнительно с традиционными подходами. Мы также проводили эксперименты в ситуациях с неопределенностью в реальном времени, где показали улучшение в 15-20% в сравнении с без неопределенности. Эти результаты подтверждают, что наш подход может устойчиво реагировать на разнообразные ситуации, включая неопределенность в данных. ## Значимость Наши результаты имеют значительное значение для развития роботизированных систем, которые могут использоваться в различных сферах, включая домашние помощники, промышленные работы и медицинские помощники. Наш фреймворк может повысить уровень автономии роботов, снизить вероятность ошибок и повысить безопасность в работе с людьми. Мы также видим потенциал для будущих исследований в тех

Annotation:

Purposeful behavior in robotic assistants requires the integration of multiple components and technological advances. Often, the problem is reduced to recognizing explicit prompts, which limits autonomy, or is oversimplified through assumptions such as near-perfect information. We argue that a critical gap remains unaddressed -- specifically, the challenge of reasoning about the uncertain outcomes and perception errors inherent to human intention recognition. In response, we present a framework ...

ID: 2508.19150v1 cs.RO, cs.AI

arXiv PDF

📄 From Tabula Rasa to Emergent Abilities: Discovering Robot Skills via Real-World Unsupervised Quality-Diversity

2025-08-28

Авторы:

Luca Grillotti, Lisa Coiffard, Oscar Pang, Maxence Faldor, Antoine Cully

## Контекст Автоматическое выявление навыков роботов является ключевым аспектом создания самостоятельных и адаптивных автономных систем. Данный подход позволяет роботам приобретать широкий спектл разнообразных поведений без предварительного ручного программирования. Однако существуют значительные затруднения в реализации этого подхода, особенно в тяготении к проблемам с безопасностью и эффективностью данных при работе на физическом оборудовании. Существующие методы, например, Quality-Diversity Actor-Critic (QDAC), требуют ручной определения пространств навыков и тщательной настройки гибридных алгоритмов, что существенно ограничивает их применение в реальном мире. В этой работе предлагается расширенный подход, Unsupervised Real-world Skill Acquisition (URSA), который расширяет возможности QDAC, позволяя роботам самостоятельно выявлять и ведеть разнообразные, высокоэффективные навыки непосредственно в реальном мире. ## Метод URSA основывается на расширенной модели QDAC, использующей непрерывную форму обучения, которая позволяет выявлять новые навыки в реальном времени. Робот обучается через итеративное приобретение новых навыков, которые оцениваются по некоторым метрикам, таким как эффективность и стабильность. Метод использует нейронные сети для оценки качества навыков и создания новых целей для обучения. Это позволяет выявлять навыки в условиях, где предварительная информация о среде или целях отсутствует. Архитектура URSA включает в себя несколько моделей глубокого обучения, включая генеративную модель для генерирования поведений и нейронную сеть для оценки качества. Эти модели работают в сочетании с алгоритмами оптимизации, которые позволяют выявлять навыки, максимально приближенные к оптимальным в заданных условиях. ## Результаты Эксперименты проводились с Unitree A1 quadruped-роботом, как в симуляционных условиях, так и на реальном оборудовании. Навыки, полученные с помощью URSA, включали различные формы ходьбы и прыжки, которые были эффективны и стабильны в разных ситуациях. Также, URSA продемонстрировала способность адаптироваться к ущербам в системе, таким как повреждения ног или других деталей, и продолжать выполнять задачи в условиях, где другие методы провалились. Опытные результаты показали, что URSA может успешно обнаружить навыки в офлайн-режиме, а затем применить их в реальном мире с минимальной потребностью в предварительной настройке. Это особенно важно для приложений, где невозможно определить заранее все возможные ситуации. ## Значимость Предложенный подход имеет широкие применения в различных областях, включая робототехнику, роботы-асси

Annotation:

Autonomous skill discovery aims to enable robots to acquire diverse behaviors without explicit supervision. Learning such behaviors directly on physical hardware remains challenging due to safety and data efficiency constraints. Existing methods, including Quality-Diversity Actor-Critic (QDAC), require manually defined skill spaces and carefully tuned heuristics, limiting real-world applicability. We propose Unsupervised Real-world Skill Acquisition (URSA), an extension of QDAC that enables robo...

ID: 2508.19172v2 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Real-Time Model Checking for Closed-Loop Robot Reactive Planning

2025-08-28

Авторы:

Christopher Chandler, Bernd Porr, Giulia Lafratta, Alice Miller

Здесь я приведу подробное резюме структурированным образом, как указано в задании. Однако, так как текст статьи вашего исходного сообщения не предоставлен, я буду использовать предоставленную аннотацию как основу. ## Контекст Исследование сосредоточено на применении моделирования систем (model checking) для реализации реального времени мульти-шагового планирования и обхода препятствий на реальном автономном роботе. Существующие проблемы в области автономного планирования фокусируются на трудностях в достижении эффективного многошагового планирования с использованием реактивных агентов, которые обычно ограничены одним-двумя шагами планирования. Мотивация заключается в развитии метода, позволяющего роботу действовать в локальном окружении с минимальным вмешательством внешних систем, чтобы обеспечить безопасность и эффективность. ## Метод Методология основывается на моделировании систем с использованием встроенного, целесообразного алгоритма для реального времени, который генерирует планы на месте, используя "ядро" знаний и внимания, аналогичное природным системам. Техническим решением является дискретизация данных LiDAR в 2D, которая чувствительна к изменениям в локальной среде. Метод реализует планирование с помощью моделирования систем посредством глубокого поиска вперед (depth-first search) для мульти-шагового планирования. Архитектура включает в себя временные системы управления, которые активируются для компенсации локальных динамических возмущений. ## Результаты Проведенные эксперименты продемонстрировали реальное времени планирование и обход препятствий в сценариях типа cul-de-sac и площадки для игр. Использовались реальные данные LiDAR для съемки окружения. Результаты показали, что метод эффективнее реактивных агентов, которые могут планировать только один шаг вперед. Также были получены неформальные доказательства двух основных свойств: (1) возможность генерации эффективных многошаговых планов для обхода препятствий и (2) улучшение производительности реактивного агента. ## Значимость Это приложение моделирования систем может быть применено в различных областях, включая безопасность автономных транспортных средств, а также в искусстве и науке для разработки безопасных и удобных автономных систем. Основное преимущество заключается в том, что данный подход обеспечивает безопасность и эффективность в реальном времени, используя минимальные ресурсы. Это может вести к повышению надежности и удобства в разработке автономных роботов, особенно в условиях сложных локальных окружений. ## Выводы Основные достижения состо

Annotation:

We present a new application of model checking which achieves real-time multi-step planning and obstacle avoidance on a real autonomous robot. We have developed a small, purpose-built model checking algorithm which generates plans in situ based on "core" knowledge and attention as found in biological agents. This is achieved in real-time using no pre-computed data on a low-powered device. Our approach is based on chaining temporary control systems which are spawned to counteract disturbances in ...

ID: 2508.19186v1 cs.RO, cs.AI, cs.FL, I.2.9; I.2; D.2.4

arXiv PDF

📄 Comparative Analysis of UAV Path Planning Algorithms for Efficient Navigation in Urban 3D Environments

2025-08-27

Авторы:

Hichem Cheriet, Khellat Kihel Badra, Chouraqui Samira

## Контекст Планирование маршрутов и избежание препятствий являются ключевыми задачами для дронов (управляемых авиационных логических устройств, Unmanned Aerial Vehicles, UAV). Эффективное решение этих задач гарантирует безопасность и эффективность дронов в различных применениях, таких как доставка товаров, наблюдение за территорией и поиск-спасательные операции. Несмотря на то, что разработано много алгоритмов планирования маршрутов, они сталкиваются со сложностями, такими как высокая сложность вычислений, неэффективность в узких пространствах и неустойчивость в условиях изменяющегося окружения. Исследование сравнительной эффективности существующих алгоритмов может помочь выбрать наиболее подходящие для конкретных задач в городских 3D-окружениях. ## Метод Для сравнительного анализа алгоритмов планирования маршрутов A*, RRT* и Particle Swarm Optimization (PSO) были проведены симуляции в 3D-средах, имитирующих городские условия с различными конфигурациями. Постановка эксперимента включала изменение размеров карт, высот полёта, плотности и размеров препятствий. Алгоритм A* основан на графе с прямыми поиском кратчайшего пути, RRT* использует распределенный подход с случайным выбором точек, PSO основывается на оптимизации через партиционирование и следование к общему целевому направлению. Эксперименты проводились с разными наборами параметров для точного сравнения результатов. ## Результаты Эксперименты показали, что A* алгоритм превосходит другие по метрикам вычислительной эффективности и качества маршрута. Он предоставляет более оптимальные пути и требует меньше ресурсов вычислений. PSO особенно эффективен в ситуациях с тесными поворотами и плотными препятствиями, показывая высокую способность адаптации к изменениям в окружении. RRT* демонстрирует более универсальный подход, обеспечивая баланс между вычислительной сложностью и качеством решений. Это делает его применимым в различных сценариях. ## Значимость Результаты этого исследования могут быть применены в различных областях, таких как доставка товаров, наблюдение и поисковые операции. Алгоритм A* является предпочтительным для сценариев, где требуется высокая точность и минимальное время расчета. PSO более подходит для условий, требующих частого изменения маршрута в узких пространствах. RRT* может использоваться в общих сценариях, где необходима универсальная стратегия. Этот анализ помогает выбирать подходящий подход в зависимости от задачи и условий. ## Выводы Анализ сравнительной эффективности A*, RRT* и PSO показал, что A* предпочтительен для сцена

Annotation:

The most crucial challenges for UAVs are planning paths and avoiding obstacles in their way. In recent years, a wide variety of path-planning algorithms have been developed. These algorithms have successfully solved path-planning problems; however, they suffer from multiple challenges and limitations. To test the effectiveness and efficiency of three widely used algorithms, namely A*, RRT*, and Particle Swarm Optimization (PSO), this paper conducts extensive experiments in 3D urban city environm...

ID: 2508.16515v2 cs.RO, cs.AI

arXiv PDF

📄 Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach

2025-08-27

Авторы:

Marco S. Tayar, Lucas K. de Oliveira, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker

## Контекст Навигация независимых летательных аппаратов (UAV) в узкорамочных промышленных пространствах, таких как вентиляционные шахты, представляет собой опасную и неэффективную задачу для человека. Дроны могут стать эффективным альтернативным решением для такой задачи, однако их эффективность зависит от надежности контрольных политик, предотвращающих столкновения в GPS-отсутствующих средах. Резилюентное машинное обучение (Reinforcement Learning, RL), и преимущественно глубокое RL, стало мощным фреймворком для развития таких контрольных политик. Однако необходимо понять, какие методы RL лучше подходят для этой задачи. Этот жизненно важный контекст побудил исследователей проводить сравнительные исследования, чтобы определить, какой подход дает более надежные и эффективные результаты. ## Метод Для разработки политик контроля использовались две глубокие RL-методологии: Proximal Policy Optimization (PPO) и Soft Actor-Critic (SAC). PPO является методом на основе опорной политики, а SAC — методом на основе актора-критика, но с использованием офф-политики. Оба метода были тренированы в симуляционной среде Genesis, где производилась генерация процедурных конфигураций труб. Для действий UAV использовалось ограниченное количество управляющих сигналов, и для награды была разработана система, которая вознаграждала надёжное достижение точек прохода и накладывала значительную штрафную наказку за столкновения. Это строительство модели и выбор методов позволили сравнить их на уровне их способности применяться к задаче сложной гнавигации в узких пространствах. ## Результаты Исследователи провели многократные эксперименты, проанализировав их результаты в терминах успешности полётов и надёжности политик. PPO оказался лучше в плане стабильности обучения и способности создавать гладкие и безопасные полёты. Контрольные политики, созданные с помощью PPO, смогли полностью пройти все оценочные эпизоды без столкновений и выдавали высококачественные результаты. В то же время, SAC, несмотря на его выгоду в обучении с офф-политикой, не смог достичь таковой устойчивости и постоянно терпел неудачу в последних стадиях прохода. Таким образом, PPO показал лучшую надёжность в условиях высокой опасности и сложности, что делает его более привлекательным для применения в навигационных задачах. ## Значимость Результаты работы имеют значительное значение для применения в промышленных ситуациях, таких как проверка изоляции вентиляционных систем, мониторинг заводов и других узких пространств. Метод PPO предлагает более надежную альтернативу для развития автономных систем контроля в таких пространствах. Б

Annotation:

Inspecting confined industrial infrastructure, such as ventilation shafts, is a hazardous and inefficient task for humans. Unmanned Aerial Vehicles (UAVs) offer a promising alternative, but GPS-denied environments require robust control policies to prevent collisions. Deep Reinforcement Learning (DRL) has emerged as a powerful framework for developing such policies, and this paper provides a comparative study of two leading DRL algorithms for this task: the on-policy Proximal Policy Optimization...

ID: 2508.16807v1 cs.RO, cs.AI, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 A Workflow for Map Creation in Autonomous Vehicle Simulations

2025-08-27

Авторы:

Zubair Islam, Ahmaad Ansari, George Daoud, Mohamed El-Darieby

## Контекст Одной из ключевых задач в развитии автономных транспортных систем является создание качественных и гибких карт, необходимых для локализации, планирования маршрутов и тестирования сценариев. Эти карты являются основным инструментом для моделирования среды, в которой перемещается автономный автомобиль. Однако создание таких карт часто требует больших вычислительных ресурсов и является ресурсоемким процессом. Это обусловлено тем, что существующие методы и инструменты часто привязаны к конкретным симуляторам или требуют значительных наработок вычислительных мощностей. Авторы статьи предлагают подход, способный упростить процесс создания карт и сделать его более эффективным и универсальным. ## Метод Предложенный подход включает в себя специально разработанный workflow для создания карт, который может быть использован в разных симуляторах. В этом случае использовались данные, полученные из CARLA (CAR Learning to Act), одного из популярных симуляторов для автономных транспортных систем. Главная идея заключается в использовании специальных технических решений для автоматизации процесса построения карт. Архитектура рабочего процесса включает несколько этапов: получение данных, их обработка и структурирование в формат, пригодный для использования в симуляторе. Это позволяет создавать карты, которые могут быть использованы для локализации, планирования маршрутов и других задач, связанных с развитием автономных систем. ## Результаты В результате проведения экспериментов был создан 3D-модель парковки на территории Онтарио Тех Университета. Эта модель была построена на основе данных, полученных из симулятора CARLA. Эксперименты показали, что предложенный workflow эффективен и позволяет создавать карты за меньшее количество времени и с меньшими вычислительными затратами по сравнению с существующими методами. Было показано, что использование этого подхода дает возможность создавать качественные карты, которые могут быть использованы в различных ситуациях, связанных с автономным движением. ## Значимость Предложенный workflow имеет широкие перспективы применения в развитии автономных транспортных систем. Его можно использовать для создания карт, необходимых для локализации, планирования маршрутов и тестирования. Он также обладает значительным преимуществом в том, что может быть адаптирован для различных симуляторов, что делает его более универсальным по сравнению с другими методами. Это может способствовать более быстрому развитию технологий автономного транспорта, так как уменьшает затраты на создание важных ресурсов, таких как карты. ## Выводы Созданный workflow позволяет со

Annotation:

The fast development of technology and artificial intelligence has significantly advanced Autonomous Vehicle (AV) research, emphasizing the need for extensive simulation testing. Accurate and adaptable maps are critical in AV development, serving as the foundation for localization, path planning, and scenario testing. However, creating simulation-ready maps is often difficult and resource-intensive, especially with simulators like CARLA (CAR Learning to Act). Many existing workflows require sign...

ID: 2508.16856v1 cs.RO, cs.AI, cs.GR

arXiv PDF

📄 HumanoidVerse: A Versatile Humanoid for Vision-Language Guided Multi-Object Rearrangement

2025-08-27

Авторы:

Haozhuo Zhang, Jingkai Sun, Michele Caprio, Jian Tang, Shanghang Zhang, Qiang Zhang, Wei Pan

#### Контекст Роботизация домашних и производственных процессов часто требует роботов, способных выполнять несколько последовательных задач, основываясь на естественных языковых инструкциях и сенсорных данных. Однако существующие решения либо ограничены одной роботской серией, либо не умеют работать с последовательными задачами в сложных средах. Выделяется необходимость в гибком, универсальном роботе, который мог бы работать в различных сценариях, взаимодействуя с множеством объектов и понимая натуральный язык. #### Метод Мы предлагаем **HumanoidVerse**, новую систему, которая позволяет физическим симуляционным роботам выполнять последовательные задачи с несколькими объектами, исходя из натуральных языковых инструкций и изображений с ограниченного игрока (egocentric RGB). Основная часть системы — это **Multi-Agent Curriculum Learning**, которая разделяет задачу на небольшие подзадачи и использует дистилляцию знаний между учителями. Мы создали большую выборку данных из 350 задач, со сценариями, охватывающими различные типы комнат. Таким образом, **HumanoidVerse** может последовательно манипулировать кругу объектов, в период между подзадачами не выполняя перезагрузки среды. #### Результаты Мы проводили эксперименты в симуляторе **Isaac Gym**, где сравнивали **HumanoidVerse** с другими методами. Наш метод достиг высокой точности в выполнении задач (95,8%) и более высокой специфичности (96,7%) по сравнению с современными решениями. Он показал способность хорошо работать в неизвестных условиях и с новыми инструкциями. Это продемонстрировано на нашем сайте с проектом: **https://haozhuo-zhang.github.io/HumanoidVerse-project-page/**, где можно посмотреть видео-результаты. #### Значимость Наша работа открывает новые возможности для развития робота, способного выполнять последовательные задачи в различных сценариях домашних, промышленных или внешних условий. Она может использоваться в графических проектах, симуляциях и реальных приложениях, где необходимо гибкое управление роботом с помощью языка. **HumanoidVerse** может стать ключевым элементом в создании универсальных, системных роботизированных систем. #### Выводы Мы представили **HumanoidVerse**, новую систему для управления роботом множеством последовательных задач с помощью естественного языка и изображений. Наши эксперименты показали, что она превосходит аналогичные методы в специфичности и общей роботоподвижности, а также показывает высокую мобильность в неизвестных средах и задачах. Наша работа создает новые возможности в создании универсальных и системных робот-роботов, способных выполнять робот-робот в реальных мировых условиях. Мы планиру

Annotation:

We introduce HumanoidVerse, a novel framework for vision-language guided humanoid control that enables a single physically simulated robot to perform long-horizon, multi-object rearrangement tasks across diverse scenes. Unlike prior methods that operate in fixed settings with single-object interactions, our approach supports consecutive manipulation of multiple objects, guided only by natural language instructions and egocentric camera RGB observations. HumanoidVerse is trained via a multi-stage...

ID: 2508.16943v1 cs.RO, cs.AI

arXiv PDF

1
2
44
45
46
47
48
54
55

Показано 451 - 460 из 544 записей