📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Andrej Orsula, Matthieu Geist, Miguel Olivares-Mendez, Carol Martinez

Резюме научной статьи ======================= ## Контекст Навигация роботов по неизвестным планетарным террайнам является ключевым элементом для последующих космических миссий. Однако, научные исследования столкнулись с значительными проблемами при переходе от симуляционной среды к реальной (sim-to-real gap), особенно при работе с комплексными динамическими процессами, взаимодействиями колес с гравийными поверхностями. Для решения этой задачи, важно создать систему полного симуляционного и реального тестирования, которая могла бы стать основой для разработки надежного управления, например, для динамического целевого слежения на гравийной поверхности. ## Метод Предлагаемая методология включает три основных элемента: (1) массово параллельные симуляции для обучения агентов с помощью reinforcement learning; (2) процедурное сгенерирование разнообразных сред, основываясь на параметрах физического движения колес; (3) тестирование и выбор лучших агентов на физическом ровере в условиях лавовой аналогии Луны. Основным принципом является использование процедурного разнообразия в симуляции, чтобы обеспечить роботу устойчивость в неизвестных условиях. Для различения агентов были экспериментированы различные алгоритмы reinforcement learning и методы упрощения действий. ## Результаты Использование массово параллельных симуляций позволило развить устойчивые политики управления, которые были успешно переданы на физический ровер. На основе экспериментов, было установлено, что роботы, обученные в условиях процедурного разнообразия, показали лучшую производительность при нулевом переходе на реальный ровер, чем те, которые были обучены статическими разнообразиями. Также было изучено влияние методов fine-tuning с использованием высокоточных моделей физики на точность управления, особенно при низких скоростях. ## Значимость Разработанная система позволяет создавать надежные управления для динамического слежения за целью на различных гравийных поверхностях. Это открывает новые возможности для космических миссий, таких как роботизированная исследовательская исследовательских работ на Марсе и Луне. Также, этот подход может быть применен в области робототехники для развития надежных алгоритмов управления в условиях неизвестной среды. ## Выводы Результаты демонстрируют, что обучение в условиях процедурного разнообразия является ключевым фактором для создания устойчивых политик управления для гравийных поверхностей. Работа также показала, что fine-tuning на высокоточных моделях физики имеет ограниченное влияние на точность управления. Будущие исследования будут направлены на улу
Annotation:
Reliable autonomous navigation across the unstructured terrains of distant planetary surfaces is a critical enabler for future space exploration. However, the deployment of learning-based controllers is hindered by the inherent sim-to-real gap, particularly for the complex dynamics of wheel interactions with granular media. This work presents a complete sim-to-real framework for developing and validating robust control policies for dynamic waypoint tracking on such challenging surfaces. We lever...
ID: 2508.11503v1 cs.RO, cs.AI, cs.LG
Авторы:

Jakub Łucki, Jonathan Becktor, Georgios Georgakis, Rob Royce, Shehryar Khattak

## Контекст Одной из основных задач вробототехники является построение эффективных систем визуального восприятия, которые могут обрабатывать несколько задач одновременно, такие как детекция объектов, сегментация сцены и вычисление глубины, с минимальными затратами ресурсов и максимальной производительностью. Несмотря на то, что задачи визуального восприятия вробототехнике широко исследованы, существуют проблемы, связанные с высоким потреблением ресурсов, медленной скоростью выполнения и сложностью интеграции множества моделей. Эти проблемы ограничивают производительность систем визуального восприятия, особенно на устройствах с ограниченными ресурсами, таких как навигационные роботы и смарт-модели. В этом контексте возникает потребность в модульных и эффективных фреймворках, которые могут обеспечить высокую производительность, эффективное использование ресурсов и максимальную гибкость поддержки разных задач. ## Метод Visual Perception Engine (VPEngine) представляет собой модульную архитектуру, ориентированную на эффективное использование GPU для визуальных многозадачных задач. Фреймворк использует глубокую нейронную сеть в качестве фондовой модели (foundation model) с общим компонентом извлечения признаков, который выделяет общие признаки изображения. Эти признаки делятся между несколькими специализированными моделями-задачами (такими как детекция, сегментация и глубина), которые работают параллельно, без необходимости повторного вычисления признаков. Таким образом, VPEngine устраняет ненужные передачи данных между GPU и CPU. Благодаря CUDA Multi-Process Service (MPS), VPEngine обеспечивает оптимальное использование GPU и постоянный фиксированный объем памяти. Фреймворк легко интегрируется с ROS2 и предоставляет связи на языке C++ для удобства использования в различных робототехнических приложениях. ## Результаты Запуск нашего фреймворка показал важное ускорение скорости выполнения визуальных задач. Для примера с DINOv2 в качестве фондовой модели и задачами детекции, сегментации и глубины, VPEngine демонстрирует высокую эффективность, достигая до 3 раз ускорения по сравнению с последовательным выполнением моделей. Это достигается благодаря оптимальной разделяемой архитектуре и распараллеливанию задач. Мы также демонстрируем возможность реального времени с выполнением на уровне $\geq$ 50 герц на NVIDIA Jetson Orin AGX, когда используются оптимизированные TensorRT-модели. Эти результаты доказывают, что VPEngine может обеспечить высокую производительность и гибкость в реальных условиях. ## Значимость VPEngine может применяться в различных робототехнических приложениях, таких как автономная навигация, смар
Annotation:
Deploying multiple machine learning models on resource-constrained robotic platforms for different perception tasks often results in redundant computations, large memory footprints, and complex integration challenges. In response, this work presents Visual Perception Engine (VPEngine), a modular framework designed to enable efficient GPU usage for visual multitasking while maintaining extensibility and developer accessibility. Our framework architecture leverages a shared foundation model backbo...
ID: 2508.11584v2 cs.RO, cs.AI, cs.CV, cs.LG
Авторы:

Zhuoyuan Yu, Yuxing Long, Zihan Yang, Chengyan Zeng, Hongwei Fan, Jiyao Zhang, Hao Dong

#### Контекст Визионно-языковое навигационное моделирование (VLA) широко применяется в сегменте развития искусственного интеллекта. Однако существующие модели часто спотыкаются при выполнении инструкций, теряя правильный путь. У них часто недостаточно силы для корректировки ошибок, что приводит к неточности или полной неуспешности выполнения. В этой статье мы рассматриваем эту проблему, сформулируя ее как центральную задачу, и предлагаем новую модель, которая может самостоятельно исправляться в процессе работы. #### Метод Мы предлагаем **Self-correction Flywheel** — пост-тренировочный подход, использующий ошибки модели в качестве ресурса. Данный подход включает в себя методы для определения и анализа ошибочных траекторий модели, а также механизмы для генерирования самокорректирующихся данных, которые улучшают модель при последовательных циклах обучения. Мы разработали модель CorrectNav, основанную на этих принципах. Модель использует монохромные RGB-изображения и получает инструкции на языке, выполняя целевую навигационную задачу. #### Результаты Мы провели эксперименты на двух бенчмарках: R2R-CE и RxR-CE. Наши эксперименты показали, что CorrectNav показывает новые рекорды в успешном навигационном выполнении — 65.1% на R2R-CE и 69.3% на RxR-CE. Эти результаты превосходят предыдущие модели на 8.2% и 16.4% соответственно. Также мы проверили модель на реальном роботе в различных внутренних и внешних средах, где она продемонстрировала значительные достижения в корректировке ошибок, избегании динамических препятствий и долгосрочном следовании инструкциям. #### Значимость Наша модель может быть использована в различных приложениях, таких как управление роботами, автономное перемещение транспортных средств и визуально-языковые приложения. Преимущества включают высокую точность, долгосрочную навигацию и способность самостоятельно корректироваться во время работы. Это может повлиять на развитие более надежных и удобных систем навигации в различных сферах. #### Выводы Мы демонстрируем силу нашего подхода в моделировании VLA и показываем, что он может стать основой для развития будущих моделей. Будущие исследования будут сфокусированы на расширении модели CorrectNav для более сложных и полимодальных задач навигации, а также на изучении ее поведения в более сложных и реальных средах.
Annotation:
Existing vision-and-language navigation models often deviate from the correct trajectory when executing instructions. However, these models lack effective error correction capability, hindering their recovery from errors. To address this challenge, we propose Self-correction Flywheel, a novel post-training paradigm. Instead of considering the model's error trajectories on the training set as a drawback, our paradigm emphasizes their significance as a valuable data source. We have developed a met...
ID: 2508.10416v1 cs.RO, cs.AI, cs.CL, cs.CV
Авторы:

Qi Liu, Xiaopeng Zhang, Mingshan Tan, Shuaikang Ma, Jinliang Ding, Yanjie Li

#### Контекст Локомоция человеческого робота представляет одну из наиболее трудных и интересных областей исследований в области робототехники и искусственного интеллекта. Однако, существующие методы, основанные на сингл-агентных алгоритмах, часто не полностью раскрывают потенциал робота в условиях сложных локальных условий. Это приводит к узким и неэффективным решениям. Требуется новая парадигма, позволяющая улучшить локомоционные стратегии через более глубокое коллективное взаимодействие. Мотивация заключается в развитии многоагентных методов, которые могут более эффективно использовать характеристики робота в целом. #### Метод Метод MASH (Multi-Agent Reinforcement Learning for Single Humanoid Locomotion) основывается на кооперативно-гетерогенной многоагентной системе. Робот рассматривается как система, где каждая его нога и рука является отдельным агентом. Эти агенты взаимодействуют в рамках глобального системного критика, обучающегося с помощью многоагентного метода deep reinforcement learning (MARL). Отдельные агенты проводят формирование действий в своих пространствах, а критик обеспечивает коллективную оптимизацию. Данная архитектура позволяет увеличить степень взаимодействия между телом и его частями, что значительно улучшает локомоционные возможности. #### Результаты Работа проводилась на симуляционных моделях человеческих роботов, где были разработаны эксперименты для сравнения MASH с традиционными методами. Наблюдалось ускорение времени обучения и значительное улучшение глобальных локомоционных показателей, таких как стабильность и корректность движений. Данные результаты подтвердили, что MASH не только ускоряет обучение, но и повышает целостность локомоционной системы по сравнению с одноагентными системами. #### Значимость Полученные результаты открывают новые возможности применения многоагентных методов в решении задач локомоции для человеческих роботов. Этот подход может быть задействован в разработке более эффективных алгоритмов для роботов, которые оперируют в сложных трехмерных средах. Применение MASH может способствовать развитию робототехнических систем, увеличивая их скорость реакции и степень координации движений. #### Выводы MASH доказал свою эффективность в решении задач локомоции человеческого робота через кооперативно-гетерогенную многоагентную систему. Он ускоряет обучение и улучшает логичность движений по сравнению с традиционными методами. В будущем, этот подход может быть расширен для решения задач в других областях робототехники, где требуется мобильность и координация.
Annotation:
This paper proposes a novel method to enhance locomotion for a single humanoid robot through cooperative-heterogeneous multi-agent deep reinforcement learning (MARL). While most existing methods typically employ single-agent reinforcement learning algorithms for a single humanoid robot or MARL algorithms for multi-robot system tasks, we propose a distinct paradigm: applying cooperative-heterogeneous MARL to optimize locomotion for a single humanoid robot. The proposed method, multi-agent reinfor...
ID: 2508.10423v1 cs.RO, cs.AI, cs.SY, eess.SY
Авторы:

Troi Williams

## Контекст Проблемы с безопасностью и надежностью автономных систем остаются одни из наиболее актуальных в области робототехники и искусственного интеллекта. Одним из ключевых аспектов, требующих улучшения, является гарантия надежности восприятия, которое является основой для безопасного принятия решений системами-роботами. Ошибки во восприятии часто вызваны сложными, но часто встречающимися факторами окружающей среды, такими как погода, затенение и ограничения сенсорного оборудования. Такие ошибки могут привести к авариям, повлиявшим на общественное доверие к автономным системам. Авторы статьи предлагают новую модель, названную SET (Self, Environment, and Target) Perceptual Factors Framework, в качестве подхода к систематизации и моделированию этих факторов. Модель создана для улучшения понимания, моделирования и управления вызовами, связанными с восприятием, и для повышения доверия к автономным системам через прозрачность и стандартизацию. ## Метод Методология, разработанная в рамках SET Perceptual Factors Framework, основывается на двух основных компонентах: SET State Trees и SET Factor Trees. SET State Trees используются для категоризации источников возникающих проблем во восприятии, таких как внешние условия (например, погода) и ограничения сенсорного оборудования. SET Factor Trees, в свою очередь, структурируют эти факторы и описывают, как они влияют на различные задачи восприятия, такие как обнаружение объектов и определение позы. Для квантификации неоднозначности и возможных ошибок в определенных задачах восприятия разработаны Perceptual Factor Models. Модели основываются на данных, полученных из SET Trees, и предназначены для подробного анализа и моделирования возможных неблагоприятных факторов. ## Результаты Исследователи применяли разработанную модель к нескольким сценариям, включающим различные факторы, такие как разновидности погодных условий, ограничения нахождения сенсора, затенение и другие. Использовались различные типы данных, включая симуляции, лабораторные эксперименты и реальные сцены. Результаты показали, что SET Perceptual Factors Framework может эффективно моделировать и квантифицировать неоднозначность во временах восприятия, связанных с этими факторами. Эти модели демонстрируют потенциал для повышения безопасности и надежности автономных систем, обеспечивая понимание и контроль над проблемами восприятия. ## Значимость SET Perceptual Factors Framework может применяться в различных областях, где надежность восприятия критически важна, включая транспортные системы, системы поиска и спасения, а также системы-роботы для здравоохранения. Основные преимущества этой модели заключаются в ее способности предоставлять прозрачное и стандартизированно
Annotation:
Future autonomous systems promise significant societal benefits, yet their deployment raises concerns about safety and trustworthiness. A key concern is assuring the reliability of robot perception, as perception seeds safe decision-making. Failures in perception are often due to complex yet common environmental factors and can lead to accidents that erode public trust. To address this concern, we introduce the SET (Self, Environment, and Target) Perceptual Factors Framework. We designed the fra...
ID: 2508.10798v1 cs.RO, cs.AI
Авторы:

Henry Powell, Guy Laban, Emily S. Cross

## Контекст Самораскрытие является одной из ключевых особенностей человеческих социальных взаимоотношений. Оно помогает устанавливать доверительные отношения, улучшать коммуникацию и способствует пониманию друг друга. Несмотря на то, что изучение этой феномена было подробно рассмотрено в социальных и психологических исследованиях, в области развития компьютерных моделей, моделирующих это поведение, значительных успехов до сих пор не было. Это трудность усиливается при рассмотрении социальных роботов, которые должны выступать в качестве партнеров в социальных интеракциях. Исследование способности роботов опознавать самораскрытие человека становится ключевым для создания интеллектуальных социальных роботов, способных участвовать в естественных взаимоотношениях. Мы предлагаем многоканальную нейронную сеть с автоопределяемыми моделями внимания, тренированную на большой коллекции видеоматериалов, а также разработали новую функцию ошибки, позволяющую улучшить точность классификации и регрессии в этой задаче. ## Метод Мы разработали многомодальную нейронную сеть, которая использует модели внимания для определения самораскрытия. Для обучения сети мы собрали большую коллекцию видеоматериалов, позволяющих учитывать множество моментов и контекстов самораскрытия. Мы также разработали новую функцию ошибки, Scale Preserving Cross Entropy Loss, которая сочетает в себе преимущества классификации и регрессии. Эта функция позволяет сети лучше учитывать тонкости в градации ответов, что улучшает общую точность. Мы проводили эксперименты с разными модификациями сети и сравнивали результаты с базовыми моделями, использующими стандартные подходы к этой задаче. ## Результаты Наши эксперименты показали, что сеть, обученная нашим новым подходом, достигла F1-меры 0.83, что значительно превосходит лучшие результаты базовых моделей. Например, F1-мера модели, обученной стандартным подходом, составляла 0.35. Мы также показали, что применение Scale Preserving Cross Entropy Loss улучшило обработку не только классических классов (положительные и негативные ответы), но и диапазона значений в регрессионной задаче. Это демонстрирует, что наш подход эффективен в обработке данных, относящихся к самораскрытию, и может быть применен в различных моделях социальных роботов. ## Значимость Разработанный подход может быть применен для создания социальных роботов, которые способны тонко понимать и реагировать на самораскрытие человека. Это важно для использования роботов в таких областях, как уход за пожилыми людьми, обучение и сопровождение. Наш подход может также быть использован для других задач, требую
Annotation:
Subjective self-disclosure is an important feature of human social interaction. While much has been done in the social and behavioural literature to characterise the features and consequences of subjective self-disclosure, little work has been done thus far to develop computational systems that are able to accurately model it. Even less work has been done that attempts to model specifically how human interactants self-disclose with robotic partners. It is becoming more pressing as we require soc...
ID: 2508.10828v1 cs.RO, cs.AI
Авторы:

Anantha Narayanan, Battu Bhanu Teja, Pruthwik Mishra

#### Контекст В последние годы становится всё более актуальной задача управления орбитальными путями спутников, в связи с быстро растущей плотностью низкого орбитального пространства (LEO). Это приводит к усилению риска столкновений с активными спутниками и дебри. Задача оптимизации орбитальных путей, удовлетворяющих требованиям миссий и обеспечивающих максимальную безопасность, становится ключевой. На сегодняшний день, большинство методов оптимизации орбитальных путей основываются на инструментах математического программирования, таких как квадратичное программирование или методы полных скрещиваний. Однако эти подходы часто требуют больших вычислительных ресурсов и не всегда эффективны для реального времени. Решением этой проблемы может стать использование алгоритмов машинного обучения, в частности, реинфорсментного обучения (RL). #### Метод Методология предложенного подхода основывается на использовании алгоритма Advantage Actor-Critic (A2C) в рамках технологии RL. Работа проводилась в окружении OpenAI Gym, представляющем динамику орбитального движения спутника с помощью классических элементов Кеплера. Основной задачей агента является настройка пяти орбитальных параметров: полубольшая полуось, эксцентриситет, инклюзия, правый азимут возвышающегося узла и аргумент перигея. Целью является достижение целевого покрытия земли в пределах заданных радиусов. Для моделирования окружения использовалась формализация проблемы в виде Марковского Решающего Процесса (MDP). На каждом шагу, агент получал набор наблюдаемых данных, связанных с орбитальным движением, и выбирал оптимальный набор параметров в соответствии с полученными наградами. #### Результаты Для проверки эффективности предложенного подхода проведено ряд экспериментов, включающих сравнение A2C с другими алгоритмами RL, такими как Proximal Policy Optimization (PPO). Результаты показали, что A2C не только достигает более высоких наград (10.0 в сравнении с 9.263025 для PPO), но и демонстрирует более быстрое сходимость к решению. Например, для достижения оптимальных параметров, A2C требовал лишь 2,000 шагов в сравнении с 63,000 шагами для PPO. Это делает A2C более эффективным для реального времени применения в условиях того, что требования к быстродействию и высокой производительности критичны. #### Значимость Предложенный подход обладает значительным потенциалом применения в различных областях, таких как управление орбитальными миссиями, интеллектуальное управление космическим трафиком, и оптимизация глобальных сетей сп
Annotation:
The increasing congestion of Low Earth Orbit (LEO) poses persistent challenges to the efficient deployment and safe operation of Earth observation satellites. Mission planners must now account not only for mission-specific requirements but also for the increasing collision risk with active satellites and space debris. This work presents a reinforcement learning framework using the Advantage Actor-Critic (A2C) algorithm to optimize satellite orbital parameters for precise terrestrial coverage wit...
ID: 2508.10872v1 cs.RO, cs.AI
Авторы:

Reema Raval, Shalabh Gupta

## Контекст В морских и водоемных средах, полных динамически изменяющихся течений и динамических препятствий, обеспечение безопасного и эффективного преодоления маршрута для Unmanned Surface Vehicles (USV) является сложной задачей. Исследования в этой области стремятся решить проблему безопасного преодоления пути в таких условиях. Большинство существующих методов требуют серьезных ресурсов вычислений или ограничиваются статическими техниками репланирования, не учитывая динамические изменения окружения. Формирование инновационных решений, которые бы оптимизировали планирование путей в реальном времени, является ключевой мотивацией разработки SMART-OC. ## Метод SMART-OC является алгоритмом репланирования, который включает в себя моделирование динамических препятствий и течений в реальном времени. Он использует дерево replanning-tree с модулем Self-Morphing Adaptive Replanning Tree, который интегрирует персональные риски препятствий и временные затраты для достижения цели. Алгоритм работает в двух этапах: начальным планированием пути и реактивным репланированием во время движения. Он рассчитывает маршрут, минимизирующий риск и время до цели, используя текущие данные о препятствиях и течениях. ## Результаты В ходе экспериментов было продемонстрировано, что SMART-OC эффективно реагирует на динамические препятствия и течения, предоставляя лучший путь к цели с минимальным риском и временными затратами. Данные эксперименты проводились в симуляционной среде с различными уровнями сложности, в том числе с динамически меняющимися окружениями. Результаты показали, что USV, использующая SMART-OC, показывает значительное улучшение в производительности по сравнению с другими алгоритмами. ## Значимость Применение SMART-OC может быть особенно релевантно для сфер, где необходима безопасная и эффективная навигация в сложных средах, таких как морские и водоемные операции. Он может применяться в системах USV для поиска и спасения, экологических мониторинга, логистики и других применений, где необходимо оптимизировать пути в условиях динамически изменяющихся обстановки. Основное преимущество SMART-OC заключается в своей способности реагировать на изменения в реальном времени, что делает его уникальным в сравнении с другими существующими методами. ## Выводы SMART-OC достигает развития нового подхода к репланированию путей в динамически изменяющихся окружениях. Он обеспечивает эффективное и безопасное преодоление пути в сложных условиях. Будущие исследования будут сфокусированы на дальнейшем усовершенствовании алгоритмов, включая более гибкие модели риска и времени, а также интегра
Annotation:
Typical marine environments are highly complex with spatio-temporally varying currents and dynamic obstacles, presenting significant challenges to Unmanned Surface Vehicles (USVs) for safe and efficient navigation. Thus, the USVs need to continuously adapt their paths with real-time information to avoid collisions and follow the path of least resistance to the goal via exploiting ocean currents. In this regard, we introduce a novel algorithm, called Self-Morphing Adaptive Replanning Tree for dyn...
ID: 2508.09508v1 cs.RO, cs.AI
Авторы:

Jiahui Zuo, Boyang Zhang, Fumin Zhang

#### Контекст Современное производство использует широкий спектр технологий, включая автоматизацию процессов, чтобы повысить эффективность и точность работ. Одной из сложных задач в этой области является маневрирование и маршрутизация кабелей. Это сложная процедура, которая часто включает в себя многоэтапный манипулирование, требующий высокой точности. Традиционные двухпальцевые грипперы столкнутся с проблемами, такими как пережатие или трепание кабеля, что может привести к повреждению или неточности. Далее, существующие решения часто ограничены в своей точности и универсальности. В данной статье предлагается новый подход, основанный на биоинспирированном дизайне гриппера, чтобы решить эти проблемы и улучшить процесс маршрутизации кабелей. #### Метод Методология, предложенная в данной работе, включает в себя разработку инновационного гриппера, который имитирует природный дизайн крылатых птиц. Гриппер оснащен специальным "фингой", позволяющим удерживать и маневрировать кабелями более эффективно, нежели традиционные системы. Кроме того, мы предлагаем новую архитектуру, основанную на концепции полного трёхмерного маршрутизации. Эта архитектура использует визуальную систему для определения состояния задачи и онлайн-планирование траекторий на основе мотивных примитивов. Это позволяет достичь более точного и эффективного управления кабелем в трёхмерном пространстве, не ограничиваясь традиционным стратегией "подхват-и-положение". #### Результаты Для оценки эффективности предложенного подхода были проведены эксперименты с различными типами кабелей и канальными слотами. Результаты показали, что наша система превосходит традиционные методы подхвата-и-положения в терминах скорости, точности и универсальности. Мы также проанализировали данные о визуальном суждении и контроле на динамических задачах, доказав, что наше решение значительно улучшает производительность в сложных многофакторных сценариях. #### Значимость Предлагаемый подход имеет широкое применение в различных отраслях производства, включая автомобилестроение, текстильную промышленность и автоматизацию производств. Он также может быть использован для маневрирования других деформируемых материалов, таких как трубы или ткани. Одним из основных преимуществ является улучшение точности и эффективности, а также уменьшение вероятности повреждения кабеля. Это может привести к значительным экономическим выгодам и повышению качества производства. #### Выводы В ходе исследования был разработан
Annotation:
The manipulation of deformable linear flexures has a wide range of applications in industry, such as cable routing in automotive manufacturing and textile production. Cable routing, as a complex multi-stage robot manipulation scenario, is a challenging task for robot automation. Common parallel two-finger grippers have the risk of over-squeezing and over-tension when grasping and guiding cables. In this paper, a novel eagle-inspired fingernail is designed and mounted on the gripper fingers, whic...
ID: 2508.09558v1 cs.RO, cs.AI
Авторы:

Ingrid Maéva Chekam, Ines Pastor-Martinez, Ali Tourani, Jose Andres Millan-Romera, Laura Ribeiro, Pedro Miguel Bastos Soares, Holger Voos, Jose Luis Sanchez-Lopez

#### Контекст Возрастающее внедрение интеллектуальных роботов в человеческие окружения требует разработки интуитивных и надежных систем взаимодействия (Human-Robot Interaction, HRI), которые были бы модульными и естественными для взаимодействия. Традиционные методы управления роботами часто требуют от пользователей адаптироваться к различным интерфейсам или запоминать предварительно заданные команды. Это ограничивает эффективность роботов в динамичных и неструктурированных средах. Данная работа предлагает новую фреймворк, который объединяет технологии облачных языковых моделей с системами управления Behavior Trees (BTs). Эта интеграция позволяет роботам интерпретировать управляющие намерения, выраженные в натуральном языке, и конвертировать их в исполнимые действия с помощью специализированных модулей. Такая архитектура поддерживает простой и гибкий способ реализации перцепционных функций, таких как слежение за людьми и распознавание жестов рук. #### Метод Фреймворк основывается на взаимодействии двух основных компонентов. Во-первых, языковая модель (LLM) обеспечивает понимание и интерпретацию желаний пользователя, выраженных в естественном языке. Затем, данные понимания передаются в систему управления BT, где они преобразуются в выполнимые команды для отдельных модулей. Эти модули могут представлять собой различные функции, такие как распознавание лиц или обнаружение руковыдержанных предметов. Архитектура является модульной, что позволяет добавлять новые функции с помощью дополнительных плагинов. Таким образом, система может быть легко сконфигурирована для различных сценариев. Для обеспечения удобства использования, набор данных для обучения был подготовлен, и утилиты для моделирования сценариев были разработаны. #### Результаты Исследования были проведены в реальных условиях, используя различные среды и задачи. Результаты показали, что система обеспечивает высокую точность распознавания и интерпретации естественного языка, с фактическим успехом в 94%. Это показывает хорошую надёжность предложенного подхода в реальных условиях. Была продемонстрирована гибкость системы при внедрении различных модулей, включая плагины для слежения за людьми и распознавания жестов рук. В результате, разработанная система доказала свою эффективность в преодолении текущих ограничений в сфере HRI и может стать основой для будущих развитий. #### Значимость Предложенная система может быть применена в различных сферах, включая роботизированные дома, производственные цепочки и системы поддержки в сложных и непредсказуемых сценария
Annotation:
As intelligent robots become more integrated into human environments, there is a growing need for intuitive and reliable Human-Robot Interaction (HRI) interfaces that are adaptable and more natural to interact with. Traditional robot control methods often require users to adapt to interfaces or memorize predefined commands, limiting usability in dynamic, unstructured environments. This paper presents a novel framework that bridges natural language understanding and robotic execution by combining...
ID: 2508.09621v1 cs.RO, cs.AI, cs.LG
Показано 501 - 510 из 544 записей