📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Bhargav Chandaka, Gloria X. Wang, Haozhe Chen, Henry Che, Albert J. Zhai, Shenlong Wang

## Контекст Манипулирование роботами в средах, разработанных для человека, часто требует эффективного навигационного поведения. Однако существующие системы навигации недостаточно эффективны в больших и сложных пространствах, так как не способны имитировать человеческие способности, такие как чтение знаков, следование инструкциям и задание вопросов. Эти ограничения приводят к высокой неэффективности в поиске маршрутов и снижению энергоэффективности. Мы предлагаем ReasonNav — расширенную систему навигации, которая включает в себя модульную архитектуру и использует визионно-языковую модель (VLM) для реализации более естественных и эффективных навигационных стратегий. ## Метод ReasonNav базируется на визионно-языковой модели, которая обрабатывает входные данные, включающие зрительные сенсоры и текстовые команды. Мы оптимизировали входные данные для модели, превратив их в абстрактные значки, такие как ориентиры и сигналы. Это позволяет модели сосредоточиться на логическом понимании и принятии решений. Благодаря этому, модель может использовать визуальные и текстовые сигналы для выполнения различных навигационных задач в больших пространствах. ## Результаты Мы проводили эксперименты в реальном мире и в симуляторе, используя данные, собранные из реальных помещений. Цель экспериментов заключалась в оценке способности ReasonNav справиться с задачами, такими как нахождение конкретных объектов, следование сложным маршрутам и эффективное взаимодействие с окружающим миром. Результаты показали, что ReasonNav менее зависит от поиска и экспериментирует с различными стратегиями, что делает его эффективным в сравнении с другими системами. ## Значимость Мы видим практическое применение ReasonNav в сферах, таких как организация поиска в огромных пространствах, включая офисы, крупные здания и купеческие центры. Эта система может упростить многие процессы, такие как доставка товаров, снабжение и управление транспортом в закрытых пространствах. Кроме того, ReasonNav может стать основой для роботов, работающих в средах, ориентированных на человека, таких как медицинские клиники, школы и дома. ## Выводы ReasonNav удалось продемонстрировать мощь высокоуровневой рассудочной модели для навигации в человеческих средах. Будущие исследования будут сфокусированы на улучшении модели рассудка, повышении скорости работы и расширении применения в сложных навигационных ситуациях. Мы также планируем расширить возможности модели для интеграции с другими системами, такими как управление транспортом и системы управления потоком людей в крупных пространствах.
Annotation:
When navigating in a man-made environment they haven't visited before--like an office building--humans employ behaviors such as reading signs and asking others for directions. These behaviors help humans reach their destinations efficiently by reducing the need to search through large areas. Existing robot navigation systems lack the ability to execute such behaviors and are thus highly inefficient at navigating within large environments. We present ReasonNav, a modular navigation system which i...
ID: 2509.21189v1 cs.RO, cs.AI, cs.CV
Авторы:

Shuo Cheng, Liqian Ma, Zhenyang Chen, Ajay Mandlekar, Caelan Garrett, Danfei Xu

## Контекст Роботские манипуляции широко применяются в различных областях, но их успешное применение часто ограничивается доступом к большим объемам качественных реальных демонстраций. Реалистичные симуляции могут стать альтернативой, но существует значительный "голодный закон" -- необходимость большого количества демонстраций в симуляции для получения достаточного качества в реальности. Это влечет за собой высокую стоимость и сложность, особенно при масштабировании. Наша мотивация заключается в разработке метода, эффективно использующего доступные симуляционные данные, чтобы обучить обобщаемые политики манипуляций с минимальным использованием реальных демонстраций. ## Метод Мы предлагаем метод **Sim-and-Real Co-Training**, основанный на обучении обобщаемых задач манипуляций. Основная идея заключается в том, чтобы учитывать взаимосвязь объектов и действий в задаче, а не только в раздельности. Для этого мы внедрили **Optimal Transport (OT)**-inspired loss в фреймворк сим-и-реального ко-тренирования. Это позволяет выравнивать распределения наблюдений и действий между симуляцией и реальностью. Для обработки неравенств между большим количеством симуляционных данных и ограниченным количеством реальных демонстраций, мы расширили фреймворк на **Unbalanced OT**. Это позволяет учитывать различия между данными симуляции и реальности, обеспечивая более точное обучение. ## Результаты Мы проводили эксперименты на различных задачах манипуляций, включая доставку предметов и обработку реальных объектов. Метод показал способность использовать доступные симуляционные данные для значительного улучшения реального успешности -- в до 30% в некоторых задачах. Далее, наши результаты показали, что полученные политики могут обобщаться на сценарии, которые не были видны во время обучения, но были симулированы. Это подтверждает эффективность нашего подхода в улучшении общей целесообразности в области манипуляций. ## Значимость Метод может быть применен в сферах, где необходимо масштабирование манипуляционных задач, таких как агротехника, доставка, или производство. Особым преимуществом является способность эффективно использовать симуляционные данные, чтобы улучшить реальные задачи. Это может привести к снижению стоимости, уменьшению потребности в реальных демонстрациях, и увеличению производительности в ситуациях, где реальная интерактивность ограничена. ## Выводы Мы проверили эффективность нашего подхода в различных сценариях и показали, что он может значительно улучшить общую эффективность политик манипуляций. Будущие исследования будут сконцентрированы на допо
Annotation:
Behavior cloning has shown promise for robot manipulation, but real-world demonstrations are costly to acquire at scale. While simulated data offers a scalable alternative, particularly with advances in automated demonstration generation, transferring policies to the real world is hampered by various simulation and real domain gaps. In this work, we propose a unified sim-and-real co-training framework for learning generalizable manipulation policies that primarily leverages simulation and only r...
ID: 2509.18631v2 cs.RO, cs.AI
Авторы:

Dapeng Zhang, Jing Sun, Chenghui Hu, Xiaoyan Wu, Zhenlong Yuan, Rui Zhou, Fei Shen, Qingguo Zhou

## Контекст Vision Language Action (VLA) модели представляют собой полностью новый подход в области робототехники и искусственного интеллекта. Они превращают Vision Language Models (VLMs) из простых систем последовательности генерации в активных агентов, предназначенных для манипуляции и принятия решений в сложных, динамических окружениях. Этот новый подход открывает новые возможности в области общего использования роботов, расширяя границы традиционных робототехнических систем в направлении более общего применения. Однако, несмотря на их перспективу, VLA модели обладают многочисленными проблемами и недостатками, включая проблемы с точностью, эффективностью, стоимостью и надежностью. Таким образом, комплексное исследование этих моделей и их приложения важно для развития робототехники. ## Метод Методология исследования VLA моделей основывается на подробном анализе существующих методов и парадигм, которые используются для их реализации. Эти методы могут быть разделены на несколько основных категорий: autoregression-based, diffusion-based, reinforcement-based и hybrid approaches. Основной подход в исследовании заключается в детальном анализе этих методов, включая их мотивацию, концептуальные стратегии и технические реализации. Разработка VLA моделей также требует основных данных, бенчмарков и симуляционных платформ, которые используются для моделирования и оценки эффективности новых моделей. Эта структурированная методология помогает в идентификации ключевых проблем и определении направлений для будущих исследований. ## Результаты Исследование включает в себя подробный анализ более чем 300 работ, которые были проведены в области VLA моделей. Эксперименты были проведены с использованием различных данных, включая как синтетические, так и реальные данные из различных сценариев. Результаты показали, что различные подходы к VLA моделям имеют свои преимущества и недостатки. Например, autoregression-based approaches сильны в обработке последовательностей, но могут иметь проблемы с реакцией на непредсказуемые ситуации. Точность, эффективность и стоимость решений варьируются в зависимости от специфики приложений и сценариев. Таким образом, результаты помогают определить основные направления для развития этих моделей. ## Значимость VLA модели имеют широкие области применения, включая робототехнику, системы телеприсутствия, интерактивные системы, игры и виртуальную реальность. Эти модели могут преобразовать текущие системы, делая их более умными, реагирующими и способными решать проблемы в реальном времени. Одним из основных преимуществ VLA моделей является их потен
Annotation:
The emergence of Vision Language Action (VLA) models marks a paradigm shift from traditional policy-based control to generalized robotics, reframing Vision Language Models (VLMs) from passive sequence generators into active agents for manipulation and decision-making in complex, dynamic environments. This survey delves into advanced VLA methods, aiming to provide a clear taxonomy and a systematic, comprehensive review of existing research. It presents a comprehensive analysis of VLA applications...
ID: 2509.19012v2 cs.RO, cs.AI
Авторы:

Jason Chen, I-Chun Arthur Liu, Gaurav Sukhatme, Daniel Seita

## Контекст Процесс обучения политик манипуляции в среде с двумя руками (bimanual manipulation) чрезвычайно зависит от качественных демонстрационных данных, представляющих различные положения рук, контакты, и контекст сцены. Однако создание таких данных в реальной среде является дорогостоящим и утомительным, что ограничивает масштабируемость. Данная проблема усиливается при использовании технологии синтеза изображений для генерации поз под несколькими углами (third-person view) с привязанным действием. Для решения этой проблемы мы предлагаем метод для генерации синтетических поз робота (Synthetic Robot Pose Generation, ROPA), который использует методы оптимизации для создания реалистичных RGB и RGB-D изображений с действиями в eye-to-hand (third-person) маннипуляции. ## Метод Метод ROPA использует Stable Diffusion, чтобы генерировать синтетические RGB и RGB-D изображения робота с различными позициями и действиями. Мы внедрили ограниченную оптимизацию для сохранения физической консистенции, контролируя контакт между крюком и предметом. Для создания новых действий в тренировочных данных мы применяем методы заданий уровня, что позволяет синтезировать данные с новыми тэгами действий. Это позволяет увеличить разнообразие данных для обучения политик манипуляции без необходимости сбора реальных данных. ## Результаты Мы проверили ROPA на 5 симулированных и 3 реальных задачах. Наши результаты показывают, что ROPA значительно улучшает стабильность и точность синтетических данных, сравниваясь с базовыми методами. Мы провели 2625 симуляционных и 300 реальных экспериментов, показав, что ROPA создает новые действия с более высоким качеством и меньшей нагрузкой на ресурсы. ## Значимость Робот, обученный с помощью ROPA, может заменить реальные данные с тем же уровнем качества. Метод также может быть применен в широком круге задач, включая сборку, перемещение предметов и общение с объектами в eye-to-hand маннипуляции. Это делает ROPA эффективным инструментом для ускорения процесса обучения и увеличения масштабируемости в системах с двумя руками. ## Выводы Мы представили ROPA, метод для генерации синтетических поз рук робота в eye-to-hand маннипуляции. Наши результаты показывают, что ROPA выполняет лучше базовых методов и может быть использована для синтеза новых действий с более высоким качеством. Будущие исследования будут направлены на улучшение физической консистенции и масштабируемости наших технологий.
Annotation:
Training robust bimanual manipulation policies via imitation learning requires demonstration data with broad coverage over robot poses, contacts, and scene contexts. However, collecting diverse and precise real-world demonstrations is costly and time-consuming, which hinders scalability. Prior works have addressed this with data augmentation, typically for either eye-in-hand (wrist camera) setups with RGB inputs or for generating novel images without paired actions, leaving augmentation for eye-...
ID: 2509.19454v1 cs.RO, cs.AI, cs.CV, cs.LG
Авторы:

Yifan Ye, Jun Cen, Jing Chen, Zhihe Lu

################################# ## Контекст ################################# Imitation learning, как метод обучения моделей, набирает обороты в современных искусственных интеллектах. Он заключается в том, чтобы подражать поведению эксперта в задачах, которые могут быть сложно выразить через подробные модели. Однако, обучение общих агентов, способных решать разнообразные задачи, часто требует больших массивов экспертных демонстраций. Эти демонстрации трудоёмки в сборе, дороги в поддержании и, возможно, ограничены в количестве. Для решения проблемы ограниченной супервайзированной информации предлагается Self-Evolved Imitation Learning (SEIL) — фреймворк, позволяющий улучшать модель с помощью имитационного обучения в симуляторе. ################################# ## Метод ################################# SEIL — это уникальный подход к обучению модели с малой супервайзированной информацией. Он включает несколько ключевых технических компонентов: 1. **Прогрессивное обучение**: Модель начинает решать задачи в симуляторе, где собираются успешные траектории. Эти траектории используются для последовательного уточнения модели. 2. **Двойное увеличение демонстрационной выборки**: - **Модельный уровень**: EMA-модель (Exponential Moving Average) генерирует дополнительные демонстрации, расширяя диапазон поведения. - **Среды уровень**: Механизм, внедряющий небольшие изменения в начальных положениями объектов, увеличивает разнообразие демонстраций. 3. **Селектор показателей**: Использование легковесного селектора, который отбирает траектории, дополняющие и достаточно релевантные для базы данных. Эти методы обеспечивают эффективное и качественное обучение, даже при небольших объёмах данных. ################################# ## Результаты ################################# Эксперименты проводились на бенчмарке LIBERO, где SEIL показал новую планку по эффективности в сценариях с малой супервайзированной информацией. Он достиг высокой точности с меньшим числом обучающих примеров по сравнению с соревнователями. Ключевые результаты: - Значительное улучшение в задачах, требующих малой супервайзированной информации. - Увеличение разнообразия демонстрационных данных благодаря использованию EMA-модели и среды изменений. - Улучшенная структура селектора, обеспечивающая качественную выборку демонстрационных данных. Код доступен на GitHub: https://github.com/Jasper-aaa/SEIL.git. ################################# ## Значимость ################################# SEIL открывает новые перспективы в области малосупервайзированного обучения. Его применения могут распространиться на разнообразные задачи, где экспертные данные сложно получить, вроде: - Научных моделей, где обучение требует дорогих и сложных экспериментов. - Реальных ситуациях, таких как управление робота
Annotation:
Imitation learning has been a trend recently, yet training a generalist agent across multiple tasks still requires large-scale expert demonstrations, which are costly and labor-intensive to collect. To address the challenge of limited supervision, we propose Self-Evolved Imitation Learning (SEIL), a framework that progressively improves a few-shot model through simulator interactions. The model first attempts tasksin the simulator, from which successful trajectories are collected as new demonstr...
ID: 2509.19460v1 cs.RO, cs.AI, cs.LG
Авторы:

Youngju Yoo, Jiaheng Hu, Yifeng Zhu, Bo Liu, Qiang Liu, Roberto Martín-Martín, Peter Stone

## Контекст В последние годы растет интерес к возможностям роботов в условиях неопределенности и нестандартных задач. Одним из актуальных подходов является **in-context imitation learning (ICIL)**, позволяющий роботам обучаться непосредственно от демонстраций, без необходимости долгих обучающих сеансов. Несмотря на преимущества, работы в этой области сталкиваются со сложностями, связанными с масштабируемостью и эффективностью. Традиционные методы, основанные на трансформерах, вынуждены тормозить при работе с большими объемами данных и длинными контекстами. Это создает требования к более производительным и гибким архитектурам. ## Метод **RoboSSM** — метод взаимодействия с роботом, построенный на **state-space models (SSM)**. В отличие от трансформеров, SSM обеспечивают **линейное время вычислений**, что делает их привлекательными для решения проблем с большими объемами данных. Метод использует Longhorn -- современный SSM — для моделирования длинных контекстов и функций, необходимых для взаимодействия с пользователем. Эта архитектура позволяет RoboSSM не только выполнять задачи, но и **интерпретировать их в новых условиях**, даже при отсутствии определенных данных во время обучения. ## Результаты В экспериментах на **LIBERO benchmark**, RoboSSM показал себя с высокой эффективностью. Он превосходит трансформерные аналоги в производительности и может **свободно масштабироваться** при работе с разным количеством демонстраций. Метод достигает высоких результатов в задачах с неизвестными условиями и показывает высокую устойчивость при работе в долгосрочных сценариях. Эти результаты подтверждают то, что **SSM могут стать эффективным инструментом** для решения задач ICIL в произвольных условиях. ## Значимость Результаты RoboSSM открывают широкие возможности для применения в **действительных условиях**. Благодаря своей масштабируемости и производительности, метод может применяться в **машинном обучении с параметрами**, **робототехнике**, **автоматизации** и даже в **медицине**, где необходимо быстрое реагирование на нестандартные задачи. Это не только улучшает эффективность роботов, но и снижает время, затрачиваемое на обучение. ## Выводы Разработка **RoboSSM** подтверждает мощь **state-space models (SSM)** в области ICIL. Они предлагают более эффективный и масштабируемый подход по сравнению с трансформерами. Будущие исследования смогут расширить перспективы RoboSSM, включая улучшение устойчивости в условиях нестабильности данных и расширение его применения в интересующих областях. Надеемся, что наша работа станет ярким примером в открытии новых возможностей в области робототехники.
Annotation:
In-context imitation learning (ICIL) enables robots to learn tasks from prompts consisting of just a handful of demonstrations. By eliminating the need for parameter updates at deployment time, this paradigm supports few-shot adaptation to novel tasks. However, recent ICIL methods rely on Transformers, which have computational limitations and tend to underperform when handling longer prompts than those seen during training. In this work, we introduce RoboSSM, a scalable recipe for in-context imi...
ID: 2509.19658v1 cs.RO, cs.AI
Авторы:

Boqi Li, Siyuan Li, Weiyi Wang, Anran Li, Zhong Cao, Henry X. Liu

## Контекст Визуально-языковое навигирование (Vision-Language Navigation, VLN) является ключевым заданием для искусственных агентов, взаимодействующих с окружающим миром. Это задача требует совмещения нескольких задач: интерпретации естественного языка, визуального восприятия и планирования низкоуровневых действий. Особенностью VLN в непрерывных пространствах является сложность восприятия среды и планирования наиболее эффективных маршрутов. Традиционные подходы часто страдают от проблем, таких как неэффективные планирования или лишние действия. Из-за этого, существуют необходимость разработки методов, позволяющих повысить точность и эффективность таких систем. ## Метод Мы предлагаем zero-shot фреймворк, который интегрирует простой, но эффективный waypoint predictor с multimodal large language model (MLLM). Основное отличие этого подхода заключается в использовании абстрактной карты препятствий, которая разбивается на достижимые точки (waypoints). Эти точки используются для построения топологической структуры, которая включает в себя историю посещений точек. Эти данные кодируются в обученное модели предложение (prompt), что позволяет модели учитывать как пространственную структуру, так и историю перемещения. Эти элементы были специально разработаны для повышения точности планирования и уменьшения ошибок во время движения. ## Результаты Мы проверили наш фреймворк на двух датасетах: R2R-CE и RxR-CE. На R2R-CE наша модель достигла успешности в 41%, что значительно превышает результаты других zero-shot подходов. На RxR-CE успешность составила 36%. Эти результаты показывают, что наше решение превосходит конкурирующие методы, демонстрируя высокую эффективность и точность в нулевом запуске. ## Значимость Предложенный подход может быть применен в различных областях, включая автоматизированные системы навигации, робототехнику и программы взаимодействия с окружающим миром. Он позволяет улучшить точность планирования маршрутов, уменьшить количество ошибок и ускорить процесс работы агента. Это может привести к повышению качества работы систем в реальном мире и увеличению их точности в трудных пространственных задачах. ## Выводы Наше исследование показало, что zero-shot VLN может быть эффективно решено с помощью топологической структуры и истории посещений. Мы показали, что наш подход превосходит существующие методы, демонстрируя высокую точность и эффективность. Будущие исследования будут сконцентрированы на улучшении динамического обновления топологических структур и улучшении быстродействия модели в реальных условиях.
Annotation:
With the rapid progress of foundation models and robotics, vision-language navigation (VLN) has emerged as a key task for embodied agents with broad practical applications. We address VLN in continuous environments, a particularly challenging setting where an agent must jointly interpret natural language instructions, perceive its surroundings, and plan low-level actions. We propose a zero-shot framework that integrates a simplified yet effective waypoint predictor with a multimodal large langua...
ID: 2509.20499v1 cs.RO, cs.AI
Авторы:

Srinidhi Kalgundi Srinivas, Yash Shukla, Adam Arnold, Sachin Chitta

#### Контекст Роботическое захватывание — ключевой аспект индустриальной автоматизации, в которой роботы должны уметь справляться с многообразием объектов. Однако, роботов иногда становится сложно обеспечить хорошую выдержку в условиях встречи с неизвестными объектами. Особенно это актуально в таких средах, как склады или производственные предприятия, где разнообразие объектов может быть очень широким. Для того, чтобы робот мог обрабатывать такое разнообразие, ему необходимо обучаться на больших, объемных данных, которые охватывают различные формы и размеры объектов. Такие данные помогают роботу более эффективно ориентироваться в новых ситуациях. #### Метод GraspFactory — это огромная объемная база данных, содержащая более 109 миллионов 6-DoF захватов. Данные генерируются для двух типов роботов-прихватующих: Franka Panda (с 14 690 объектами) и Robotiq 2F-85 (с 33 710 объектами). Эта база данных предназначена для обучения моделей, которые могут быть использованы в симуляции, а также в реальном мире. Она содержит тщательно отобранные объекты, позволяющие раскрыть разнообразие форм, размеров и поверхностных характеристик. Основная цель GraspFactory — обеспечить моделям роботов широкомасштабные данные для обучения, чтобы их можно было использовать в разных типах сред. #### Результаты В экспериментах была продемонстрирована модель GraspFactory, обученная на её частичном значении. Эта модель демонстрировала высокую гибкость и общительность во время работы с обоими симулированными и реальными ситуациями. Мы провели ряд экспериментов, использовав различные данные, и получили очень высокую точность захвата, даже в условиях сильного разнообразия элементов. Эти результаты подтверждают, что GraspFactory может быть эффективно использована для тренировки моделей, которые могут быстро адаптироваться к новым объектам в различных средах. #### Значимость GraspFactory открывает новые возможности для сферы пороботов-прихватующих, особенно в таких областях, как промышленная автоматизация, логистика и робототехнические системы. Эта база данных позволяет роботов более эффективно обучаться и учитывать разнообразие объектов в реальных условиях. Она также доступна для загрузки на официальном сайте GraspFactory, что делает её доступной для специалистов по машинному обучению и робототехнике по всему миру. Это увеличивает возможности для совместных исследований в области интеллектуальных роботов. #### Выводы Результаты GraspFactory показали, что данные широкомасштабного диапазона могут представлять собой значитель
Annotation:
Robotic grasping is a crucial task in industrial automation, where robots are increasingly expected to handle a wide range of objects. However, a significant challenge arises when robot grasping models trained on limited datasets encounter novel objects. In real-world environments such as warehouses or manufacturing plants, the diversity of objects can be vast, and grasping models need to generalize to this diversity. Training large, generalizable robot-grasping models requires geometrically div...
ID: 2509.20550v1 cs.RO, cs.AI
Авторы:

Matheus P. Angarola, Francisco Affonso, Marcelo Becker

## Контекст Легкоходные роботы широко применяются в сложных, неполностью известных ландшафтах, где успешное навигационное поведение требует высокой адаптивности и максимальной производительности. Однако, в ситуациях безупречной навигации, где информация о ландшафте недоступна, проблемы становятся еще более актуальными. Необходимость в непрерывной навигации в зонах неполного или недоступного видения делает задачу создания эффективной локомоционной стратегии актуальной и сложной. Обычно используемые общие политики, не ориентирующиеся на специфику ландшафта, проявляют узкий подход и относительную неэффективность. Мы предлагаем новый подход, основанный на изучении террана и улучшении локомоционных способностей, чтобы решить эту проблему. ## Метод Наше решение основывается на гибридной архитектуре, включающей в себя терран-специализированные политики и технологию курсивного обучения, чтобы стимулировать улучшение локомоционных поведений. Мы использовали вспомогательные политики, которые были настроены для конкретных типов ландшафтов, включая грунт, ограждающие барьеры, водные поверхности. Эти политики были обучены с помощью курсивного обучения, чтобы увеличить их производительность на определенных сценариях. Эта стратегия позволяла нам улучшить локомоционные алгоритмы под конкретные условия, а также помогала роботу выбирать наиболее подходящую политику в зависимости от ландшафта. ## Результаты Мы проверили нашу модель на симуляции, сравнив её с общей политикой. Наши результаты показали, что гибридная модель показала улучшение в успешности выполнения задач до 16%, а также снизила ошибки слежения за целью при увеличении скорости. Мы также демонстрировали, что наши политики выполняются эффективнее на сложных терранах, таких как грунт с низкой трения и непрерывные ландшафты, где они показали значительную выигрышную сторону по сравнению с общими политиками. ## Значимость Наш подход может быть применен в ситуациях необходимости локомоции в зонах недоступности или неполного видения, таких как поисковые и спасательные операции, разведка в грунтовых условиях, а также в различных технических задачах. Этот подход демонстрирует возможность создания более устойчивых и адаптивных роботов, что может положительно сказаться на их применении в различных схемах военной, исследовательской и технической деятельности. ## Выводы Мы установили, что гибридная модель политик, основанная на терран-специализированном обучении и курсивном росте, позволяет достичь высоко
Annotation:
Legged robots must exhibit robust and agile locomotion across diverse, unstructured terrains, a challenge exacerbated under blind locomotion settings where terrain information is unavailable. This work introduces a hierarchical reinforcement learning framework that leverages terrain-specialized policies and curriculum learning to enhance agility and tracking performance in complex environments. We validated our method on simulation, where our approach outperforms a generalist policy by up to 16%...
ID: 2509.20635v1 cs.RO, cs.AI
Авторы:

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi

## Контекст Искусственные нейронные нейтральные поля (Neural Implicit Surfaces, NIS) широко применяются в области робототехники для таких задач, как обход препятствий и планирование маршрутов. Однако существующие методы для построения этих полей зачастую требуют большого количества многопросмточных изображений в качестве входных данных, что приводит к долгому времени обучения и высоким ресурсам вычислительных мощностей. Более того, эти методы часто не подходят для применения в реальном времени или для задач, где доступен только небольшой набор изображений. В этой работе мы сосредоточиваемся на проблеме построения нейронных нейтральных полей на основе единственного или малого набора изображений, чтобы упростить и ускорить процесс, а также сделать его более эффективным. ## Метод Мы предлагаем новую систему построения нейронных нейтральных полей, которая основывается на методе Fast Image-to-Neural Surface (FINS). Эта система использует несколько ключевых инноваций. Во-первых, FINS использует мультирезольвентный хеш-гридный кодировщик, который позволяет эффективно обрабатывать как геометрические, так и цветовые данные. Во-вторых, мы используем легковесное геометрическое и цветовое оболочки, которые обеспечивают высокую скорость обучения и точность результатов. Третьим важным аспектом является использование предварительно обученных фундаментальных моделей для оценки геометрических особенностей изображения, что позволяет FINS устанавливать нейронные нейтральные поля на основе одного изображения. Это упрощает процесс и увеличивает скорость конвергенции. ## Результаты Мы провести эксперименты сравнивая нашу систему с трёх современных методами построения нейронных нейтральных полей. Наши эксперименты проводились на нескольких датасетах, включая как синтетические, так и реальные данные. Мы измерили скорость конвергенции, точность построения модели и потребление ресурсов. Наши результаты показали, что FINS не только быстрее других методов в процессе обучения, но и показала более высокую точность в сравнении с состоянием технологий. Мы также продемонстрировали, что FINS может использоваться для задач по следованию по поверхности роботами, а также оказалась легко масштабируемой для работы с различными датасетов. ## Значимость Наша работа имеет значительное значение для области робототехники, так как она обеспечивает более эффективную и быструю структурированность нейронных нейтральных полей на основе небольшого набора изображений. Это упрощает применение этих методов в реальном времени, таких как обход препятствий и планирование путей. Благодаря тому, что FINS использует мало ресурсов и мало времени для обучения, она может быть применена
Annotation:
Implicit representations have been widely applied in robotics for obstacle avoidance and path planning. In this paper, we explore the problem of constructing an implicit distance representation from a single image. Past methods for implicit surface reconstruction, such as \emph{NeuS} and its variants generally require a large set of multi-view images as input, and require long training times. In this work, we propose Fast Image-to-Neural Surface (FINS), a lightweight framework that can reconstru...
ID: 2509.20681v1 cs.RO, cs.AI, cs.CV
Показано 311 - 320 из 544 записей