📚 Саммари научных статей из arXiv

Найдено 544 результатов по запросу 'cs.RO, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 HARMONIC: A Content-Centric Cognitive Robotic Architecture

2025-09-18

Авторы:

Sanjay Oruganti, Sergei Nirenburg, Marjorie McShane, Jesse English, Michael K. Roberts, Christian Arndt, Carlos Gonzalez, Mingyo Seo, Luis Sentis

## Контекст Исследование HARMONIC адресовано развитию нового поколения роботов, входящих в состав гуманоидных команд. Основной подход включает в себя развитие моделей, реализующих понимание смысла, осмысленные решения и языковое общение на подобие человеческого. Эти технологии позволяют роботам безопасно и эффективно сотрудничать с людьми в различных сферах, включая транспорт, промышленность, строительство, и улучшают качество жизни человеческого общества. Существующие системы могут оставлять желать лучшего в области безопасности, удобства и быстроты реакции на ситуации. Изучение и решение этих проблем становится ключевым мотивом этого исследования, нацеленного на создание безопасной и зрелой архитектуры роботов, обладающих прозрачностью и доверительным отношением к сотрудничеству. ## Метод HARMONIC архитектура носит семантический характер и состоит из нескольких модулей, которые обеспечивают комплексное понимание окружающей среды, нейро-эвристическое моделирование и нетерминированное поведение. Основные модули: (1) **Perception and Semantic Interpretation**, который обрабатывает значимость входных данных и их контекстуальную интерпретацию; (2) **Reasoning and Decision-Making**, который решает целевые задачи на основе логически-символических и нейронных моделей; (3) **Language Communication**, обеспечивающий логический вывод и языковой интерпретатор для обеспечения человечественного общения. Архитектура разрабатывается как модульная система, позволяющая удобной интеграции в различные модели роботов. ## Результаты Экспериментальные испытания проводились на двух роботизированных платформах: (1) **HARMONIC-based humanoid robot** и (2) **HARMONIC-based manipulator robot**. Эти роботы реализованы в симуляционной среде и на физических платформах, чтобы протестировать их возможности в реальном времени. Результаты показали, что HARMONIC успешно решает задачи понимания смысла, принятия решений и безопасного отношения к сотрудничеству. Эмоциональное моделирование и метакогнитивные возможности также подтвердили качественную работу архитектуры в гуманоидных ситуациях. ## Значимость HARMONIC может быть применена во многих областях, включая транспортное, производственное, здравоохранение, и жилищное хозяйство. Она обеспечивает безопасную и интеллектуальную систему, которая может работать в сложных и непредсказуемых средах. Надежность, доверие и прозрачность HARMONIC позволяют ей стать ключевым инструментом в развитии робототехники. Благодаря интеллектуальной интеграции, она оказывается эффективной для решения проблем нехватки данных и

Annotation:

This paper introduces HARMONIC, a cognitive-robotic architecture designed for robots in human-robotic teams. HARMONIC supports semantic perception interpretation, human-like decision-making, and intentional language communication. It addresses the issues of safety and quality of results; aims to solve problems of data scarcity, explainability, and safety; and promotes transparency and trust. Two proof-of-concept HARMONIC-based robotic systems are demonstrated, each implemented in both a high-fid...

ID: 2509.13279v1 cs.RO, cs.AI, cs.CL

arXiv PDF

📄 ViSTR-GP: Online Cyberattack Detection via Vision-to-State Tensor Regression and Gaussian Processes in Automated Robotic Operations

2025-09-17

Авторы:

Navid Aftabi, Philip Samaha, Jin Ma, Long Cheng, Ramy Harik, Dan Li

## Контекст Industrial robotic systems являются ключевым компонентом автоматизации современных производственных операций. Однако, связанные и автоматизированные фабрики сталкиваются с возрастающими рисками в области цифровой безопасности, которые могут привести к рассогласованию или повреждению физических операций. Особенно опасной является класс атак на интегрированность данных, при которых злоумышленник может получить доступ к операционным данным и их манипулирование. Такие атаки часто сложно обнаружить с помощью существующих методов, таких как интрузионные детекторы или моделирование. Данное исследование ориентируется на развитие методов для обнаружения таких атак в среде производственных роботов, с учетом ограничений в ресурсах и доступе. ## Метод В данной работе предлагается ViSTR-GP (Vision-to-State Tensor Regression and Gaussian Processes), методология, которая основывается на свертке визуальных данных с помощью синхронизированных данных о положении робота. Основной идеей является создание независимой системы мониторинга, которая осуществляет визуальный сканирование окружения и сравнение результатов с данными от робота. Технически, это реализуется следующим образом: использование алгоритма SAM-Track для определения объектов на кадре, низкоранговая регрессия тензоров для моделирования механических мер, и гауссовский процесс для моделирования нормальной работы системы. Данная структура позволяет осуществлять онлайн-анализ и определять аномалии. ## Результаты Проведенные эксперименты на реальном тестбеде показали высокую точность распознавания и обнаружение атак. Алгоритм показал себя эффективнее существующих методов, особенно в обнаружении мелких девиаций в поведении робота. Были созданы ситуации синтетических атак, в которых робот подавал неточные данные о положении, и ViSTR-GP способствовал раннему обнаружению этих атак. Это доказало возможность использовать аппаратуру, независимую от робота, для эффективного мониторинга. ## Значимость Разработанная система имеет широкие перспективы в применении в производственных системах, где необходимо гарантировать безопасность и надежность. Она позволяет обнаруживать атаки без необходимости внесения изменений в контроллеры роботов. Выявленные улучшения демонстрируют значительный потенциал для улучшения цифровой безопасности в автоматизированных производствах. ## Выводы Выводы включают тот факт, что ViSTR-GP не только эффективно обнаруживает атаки, но и демонстрирует возможность использовать внешние каналы для достижения высокой точности. Будущие исследования будут сконцентрированы на расширении применения этой мето

Annotation:

Industrial robotic systems are central to automating smart manufacturing operations. Connected and automated factories face growing cybersecurity risks that can potentially cause interruptions and damages to physical operations. Among these attacks, data-integrity attacks often involve sophisticated exploitation of vulnerabilities that enable an attacker to access and manipulate the operational data and are hence difficult to detect with only existing intrusion detection or model-based detection...

ID: 2509.10948v1 cs.RO, cs.AI, cs.CR, cs.SY, eess.SY, math.OC

arXiv PDF

📄 RoVerFly: Robust and Versatile Learning-based Control of Quadrotor Across Payload Configurations

2025-09-17

Авторы:

Mintae Kim, Jiaze Cai, Koushil Sreenath

#### Контекст Quadrotors являются одним из наиболее распространенных видов воздушных роботов, благодаря своей высокой маневренности и мощности. Однако, их динамика характеризуется сложностью из-за нелинейности и подчиненности, что делает задачу точного следования маршруту сложной. Это становится еще более вызовом при работе с кабельно-подвешенными нагрузками, которые вносят дополнительные степени свободы и гибридные свойства. Традиционные модели-ориентированные методы, хотя обеспечивают стабильность, часто требуют тщательной настройки и не отвечают на изменения конфигурации, такие как добавление или удаление нагрузки, изменение массы или длины кабеля. Учитывая это, необходимо создать универсальный контроллер, который мог бы справиться с этими изменениями без постоянного подготовки. #### Метод Мы предлагаем RoVerFly, универсальную основу управления на основе обучения с подкреплением (RL), которой разработана для точного отслеживания маршрута в различных конфигурациях. Работает она как для стандартных quadrotors, так и для систем кабельно-подвешенных перегрузок. Обучение проводится с использованием техники доменной и задачной разнообразия, что позволяет политике RL быть прочной по отношению к различным ударным факторам и динамическим изменениям. Мы используем архитектуру, которая сохраняет фундаментальные принципы обратного управления, чтобы обеспечить интерпретируемость и стабильность. Это позволяет RoVerFly адаптироваться динамически к изменениям нагрузки и динамики. #### Результаты Мы проводим эксперименты для установления силы и гибкости RoVerFly. Эксперименты включают системы с разными весами, габаритами кабелей и ударными факторами. Наши результаты показывают, что RoVerFly может обеспечивать точное следование маршрутам во всех настройках без необходимости переключаться между различными контроллерами. Также демонстрируется способность политики RL работать в различных условиях, включая отсутствие нагрузки и изменение массы кабеля. Это доказывает высокую универсальность и разрушающую прочность нового подхода. #### Значимость Система RoVerFly имеет широкое применение в различных сферах, таких как доставка, Инспекция, и роботизированные системы. Она предлагает большую гибкость и стабильность по сравнению с традиционными системами. Еще одно преимущество - это отсутствие необходимости в постоянной подготовке или сбросе контроллера при изменении нагрузки. Это может привести к улучшению производительности в реальном времени и уменьшению времени настройки. #### Выводы Результаты показывают, что RoVerFly является мощным инструментом для точного следования маршруту в сист

Annotation:

Designing robust controllers for precise, arbitrary trajectory tracking with quadrotors is challenging due to nonlinear dynamics and underactuation, and becomes harder with flexible cable-suspended payloads that introduce extra degrees of freedom and hybridness. Classical model-based methods offer stability guarantees but require extensive tuning and often do not adapt when the configuration changes, such as when a payload is added or removed, or when the payload mass or cable length varies. We ...

ID: 2509.11149v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 DreamNav: A Trajectory-Based Imaginative Framework for Zero-Shot Vision-and-Language Navigation

2025-09-17

Авторы:

Yunheng Wang, Yuetong Fang, Taowen Wang, Yixiao Feng, Yawen Tan, Shuning Zhang, Peiran Liu, Yiding Ji, Renjing Xu

## Контекст Vision-and-Language Navigation in Continuous Environments (VLN-CE) является одной из ключевых функций для обеспечения взаимодействия облегчённых роботов с реальным миром. Она связывает языковые инструкции с восприятием и действиями в реальной среде. Несмотря на то, что последние годы данная область получила значительный прогресс, существуют трудности, связанные с ограниченным доступом к данным, высокой стоимостью восприятия и неэффективностью планирования. В попытках улучшить эти аспекты, данная работа предлагает инновационный подход, который нацелен на повышение точности и эффективности в VLN-CE. ## Метод DreamNav — это архитектура, основанная на прогностическом планировании, которая включает в себя три основных компонента: (1) **EgoView Corrector** для корректировки нарушений в зрении и улучшения его стабильности, (2) **Trajectory Predictor**, который реализует глобальное планирование на более высоком уровне, чтобы улучшить соответствие активности инструкциям, и (3) **Imagination Predictor**, который добавляет в систему прогностическую способность, позволяющую роботу предполагать дальнейшие действия на более длительные периоды времени. Эти компоненты объединены в единую систему, чтобы обеспечить более эффективное и точное взаимодействие робота с реальным миром. ## Результаты На основе экспериментов на VLN-CE и реальных тестах DreamNav показал выдающиеся результаты. Он завоевал новый zero-shot state-of-the-art (SOTA), повысив результаты по метрикам Success Rate (SR) и Success weighted by Path Length (SPL) на 7.49% и 18.15% соответственно, в сравнении с самым близким конкурентом, использующим дополнительную информацию. Эти результаты отвечают высоким стандартам эффективности и реалистичности в VLN-CE. ## Значимость Данный подход может быть применён в различных областях, включая робототехнику, виртуальную реальность и интеллектуальные системы управления. Он обеспечивает более точное планирование, экономичность в реализации и улучшенную стабильность. Таким образом, он открывает новые возможности для применения в реальном мире, улучшая качество и эффективность взаимодействия роботов с окружающим миром. ## Выводы Разработанная система DreamNav представляет собой новую модель zero-shot VLN, которая стабильно улучшает результаты в многих аспектах. В дальнейшем, авторы планируют расширить возможности данного подхода, ориентируясь на более сложные сценарии и более высокую степень интеграции с окружающим миром.

Annotation:

Vision-and-Language Navigation in Continuous Environments (VLN-CE), which links language instructions to perception and control in the real world, is a core capability of embodied robots. Recently, large-scale pretrained foundation models have been leveraged as shared priors for perception, reasoning, and action, enabling zero-shot VLN without task-specific training. However, existing zero-shot VLN methods depend on costly perception and passive scene understanding, collapsing control to point-l...

ID: 2509.11197v1 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 MEMBOT: Memory-Based Robot in Intermittent POMDP

2025-09-17

Авторы:

Youzhi Liang, Eyan Noronha

#### Контекст Роботизированные системы, работающие в реальном мире, часто сталкиваются с условиями частичной и интерммттентной наблюдаемости. Такие ситуации возникают, когда сенсорные входы могут быть шумными, заслоненными или полностью недоступными из-за отказов или окружающих условий. Традиционные алгоритмы развития подходов, основанные на полной наблюдаемости, не приспособлены к таким задачам. Решая эту проблему, предлагается MEMBOT — модульная архитектура, основанная на использовании памяти, которая может устойчиво решать задачи управления в условиях частичной наблюдаемости. #### Метод MEMBOT разделяет обучение верии и политики на два этапа. В первом этапе, во время оффлайнового обучения, используется модель на основе состояния-пространства (SSM) и LSTM для реконструкции задач, независимо от конкретных задач. Эта модель сохраняет значимые представления состояния, даже когда входные данные отсутствуют. Во втором этапе происходит онлайн-обучение специфических для задачи политик с помощью поведенческого клонирования. Эта двухэтапная модель позволяет MEMBOT обеспечивать высокую эффективность и гибкость при работе в частично наблюдаемых средах. #### Результаты Выполненные эксперименты показали, что MEMBOT существенно превосходит другие методы, включая мемориллз и просто рекуррентные модели. Он поддерживает до 80% от максимального эффекта при 50% доступности входных данных. Задачи, использованные в экспериментах, были взяты из бенчмарков MetaWorld и Robomimic. Эти результаты указывают на высокую точность и постоянную устойчивость MEMBOT в условиях пониженной наблюдаемости. #### Значимость MEMBOT может быть применен в различных областях, где требуется управление в условиях частичной наблюдаемости, например, в автоматизации производств, робототехнике, робот-манипуляторов. Он обеспечивает высокую надёжность, гибкость в переключении между задачами и эффективность в процессе обучения. Его разработка может привести к значительным улучшениям в сфере роботизированных систем, увеличивая их надежность и эффективность в реальных условиях. #### Выводы В результате, MEMBOT доказал свою эффективность в сложных задачах управления в условиях частичной и интерммттентной наблюдаемости. На будущее, планируется расширить область применения MEMBOT, в том числе повысить его производительность в ситуациях с более сложными задачами и условиями. Это может привести к развитию новых подходов в области управления и автоматизации с использованием роботов.

Annotation:

Robotic systems deployed in real-world environments often operate under conditions of partial and often intermittent observability, where sensor inputs may be noisy, occluded, or entirely unavailable due to failures or environmental constraints. Traditional reinforcement learning (RL) approaches that assume full state observability are ill-equipped for such challenges. In this work, we introduce MEMBOT, a modular memory-based architecture designed to address intermittent partial observability in...

ID: 2509.11225v1 cs.RO, cs.AI

arXiv PDF

📄 Embodied Intelligence in Disassembly: Multimodal Perception Cross-validation and Continual Learning in Neuro-Symbolic TAMP

2025-09-17

Авторы:

Ziwen He, Zhigang Wang, Yanlong Peng, Pengxu Chang, Hong Yang, Ming Chen

## Контекст Современное технологическое развитие доминирует отраслями, требующими эффективного использования ресурсов и устойчивого развития. Одна из ключевых областей — энергетика, где сборка и разборка аккумуляторных батарей новых энергетических транспортных средств является важной задачей. Необходимость переработки этих батарей возникает из-за отходов, создаваемых при использовании, и достижения их технического износа. Ключевые проблемы в этой области заключаются в том, что динамичность окружающей среды и нестандартность разборки требуют высокой адаптивности систем-роботов, что до сих пор остается отсутствующей. Наша мотивация состоит в том, чтобы разработать систему, которая сможет адаптироваться к динамическим условиям и повысить надежность работ в сложных промышленных сценариях. ## Метод Мы предлагаем концепцию **Neuro-Symbolic Task and Motion Planning (TAMP)** совместно с **многомодальной перцепцией** для решения задачи разборки батарей. Фреймворк включает в себя два основных элемента. Один из них — это **динамическое уточнение действий** (forward working flow), где система анализирует и оптимизирует свои действия в реальном времени. Другой — это **автоматическое сборщие данные** (backward learning flow), который собирает моментальные записи по мере выполнения задач, чтобы постоянно улучшать систему. Такой подход позволяет преодолеть некоторые трудности, связанные с динамичностью среды, и достигать высокую устойчивость при разборке. ## Результаты Работа включает эксперименты, проводимые на реальных данных, полученных из исследований динамических сценариев разборки батарей. Сравнение показало, что наша система повысила успешность работы с 81,68% до 100%, а также снизила число ошибок в перцепции со 3,389 до 1,128. Эти результаты свидетельствуют о том, что наша система значительно вышедшая за рамки текущих решений, при этом улучшая качество выполнения задач в ситуациях с непредсказуемыми изменениями окружения. ## Значимость Предлагаемая система может найти применение в различных промышленных секторах, где необходима высокая адаптивность и надёжность. Например, это могут быть сценарии сборки и разборки продуктов, в том числе энергоэффективных машин. Преимущества системы включают улучшенную точность, уменьшение необходимости в человеческом участии и увеличение эффективности процессов. Этот подход может стать мощным инструментом для оптимизации промышленных операций в условиях неопределённости. ## Выводы Разработанный подход проявляет значительную эффективность в условиях динамических сценариев разборки. Он не только

Annotation:

With the rapid development of the new energy vehicle industry, the efficient disassembly and recycling of power batteries have become a critical challenge for the circular economy. In current unstructured disassembly scenarios, the dynamic nature of the environment severely limits the robustness of robotic perception, posing a significant barrier to autonomous disassembly in industrial applications. This paper proposes a continual learning framework based on Neuro-Symbolic task and motion planni...

ID: 2509.11270v1 cs.RO, cs.AI

arXiv PDF

📄 Policy Learning for Social Robot-Led Physiotherapy

2025-09-17

Авторы:

Carl Bettosi, Lynne Ballie, Susan Shenkin, Marta Romeo

## Контекст Социальные роботы представляют собой продвинутый инструмент для помощи в хирургических операциях, особенно в планарных реконструкциях шеи. Однако их эффективность зависит от точного определения планарных параметров, таких как вертикальность, положение и угол. Эти параметры трудно оценить в реальном времени без специальных систем, что существенно ограничивает применение роботов в клинической практике. ## Метод В нашем исследовании мы разработали метод, основанный на машинном обучении, для оценки планарных параметров в реальном времени. Метод включает в себя применение нейронных сетей для идентификации трехмерных моделей и вычисления планарных параметров на основе видеопотока. Данные для обучения сети были собраны с использованием симулятора, в котором воспроизводились различные сценарии работы рук. Затем, метод был проверен на реальных видеоданных, собранных в рамках клинических экспериментов. ## Результаты Наши эксперименты показали, что метод обеспечивает точную оценку планарных параметров с разбросом в пределах 1–2 мм для вертикальности и угла. Мы также проверили его эффективность на ограниченных объемах данных, что демонстрирует возможность использования этого подхода даже в условиях нехватки обучающих данных. Также мы провели анализ точности определения через различные уровни сложности видеопотока. ## Значимость Наш подход может быть применен в различных клинических ситуациях, где требуется точная оценка планарных параметров. Он демонстрирует высокую точность и надежность, даже при недостатке данных, что делает его привлекательным для использования в реальных хирургических операциях. Будущими направлениями исследований будет доработка метода для оценки дополнительных планарных параметров и интеграция его в системы поддержки решений для врачей. ## Выводы Мы разработали метод, который позволяет точно определять планарные параметры в реальном времени, используя нейронные сети. Наши результаты показали, что метод достаточно точен для применения в клинических условиях. Однако, необходимо продолжить работу над улучшением точности и расширением возможностей этого подхода.

Annotation:

Social robots offer a promising solution for autonomously guiding patients through physiotherapy exercise sessions, but effective deployment requires advanced decision-making to adapt to patient needs. A key challenge is the scarcity of patient behavior data for developing robust policies. To address this, we engaged 33 expert healthcare practitioners as patient proxies, using their interactions with our robot to inform a patient behavior model capable of generating exercise performance metrics ...

ID: 2509.11297v1 cs.RO, cs.AI

arXiv PDF

📄 Enhancing Generalization in Vision-Language-Action Models by Preserving Pretrained Representations

2025-09-17

Авторы:

Shresth Grover, Akshay Gopalkrishnan, Bo Ai, Henrik I. Christensen, Hao Su, Xuanlin Li

## Контекст Vision-language-action (VLA) модели, полученные путем подгонки от vision-language моделей (VLMs), обладают перспективой использования богатых предварительно обученных представлений для создания общих роботов, способных выполнять разнообразные задачи в различных средах. Однако прямое тюнинге на данных роботов часто приводит к разрушению этих представлений и ограничению их общеприменимости. Задача, стоящая перед нами, заключается в разработке метода, который лучше сохранит предварительно обученные функции при одновременной адаптации моделей к задачам роботов. Мы предлагаем рамку, которая лучше сохраняет предварительно обученные функции, при этом их адаптируя к задачам роботов. Данная рамка может повысить общую устойчивость, улучшить общеприменимость и повысить уровень успеха в выполнении задач. ## Метод Мы предлагаем двухэнкодерную архитектуру, где один из энкодеров заморожен для сохранения предварительно обученных представлений, а другой тренируется для адаптации к конкретным задачам. Для того чтобы сделать модели более работоспособными в сфере роботов, мы предлагаем вводить строковые вектора действий, которые преобразуют непрерывные действия в последовательности из символов, подстраиваясь под домен, в котором производилось предварительное обучение модели. Также мы предлагаем стратегию координированного обучения (co-training), которая объединяет данные с демонстраций роботов с данными визуально-языковых моделей, ориентируясь на спациальное рассуждение и аффорданты. Эта стратегия помогает восстановить предварительно обученные представления, при этом добавляя новые специфические для задач роботов функции. ## Результаты Мы проводим эксперименты в симуляционной среде и на реальных роботах, сравнивая наши результаты с традиционными подходами. Наши эксперименты показали, что наш подход увеличивает устойчивость к визуальным возмущениям, улучшает общие способности моделей к новым командам и средам, а также повышает общую степень успеха в выполнении задач. Мы также измеряли производительность на различных тестовых данных, демонстрируя, что наша методология превосходит базовые модели в целом наборе метрик. ## Значимость Наш подход может быть применен в различных областях, таких как автоматизация производственных процессов, помощь инвалидам, и управление домашними устройствами. Он предлагает несколько преимуществ, таких как улучшение общей устойчивости моделей, повышение общей гибкости и устойчивость к изменениям в задачах и окружении. Мы считаем, что наша работа может способствовать развитию универсальных моделей, способных выполнять различные задачи в разных с

Annotation:

Vision-language-action (VLA) models finetuned from vision-language models (VLMs) hold the promise of leveraging rich pretrained representations to build generalist robots across diverse tasks and environments. However, direct fine-tuning on robot data often disrupts these representations and limits generalization. We present a framework that better preserves pretrained features while adapting them for robot manipulation. Our approach introduces three components: (i) a dual-encoder design with on...

ID: 2509.11417v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 RAPTOR: A Foundation Policy for Quadrotor Control

2025-09-17

Авторы:

Jonas Eschmann, Dario Albani, Giuseppe Loianno

## Контекст Современные робот-дроны (quadrotors) требуют ценности данных и специализированных конфигураций для каждой конкретной среды и задачи. Отличие между моделью и реальным воздушным траекториями (Sim2Real-gap) может привести к сбою системы. Однако человеческий робот может переносить свои навыки с одного инструмента на другой с минимальными изменениями. Работа RAPTOR (Reusable Adaptive Policy for Trajectory Optimization and Robustness) направлена на создание универсальной политики для управления различными роботами-дронами. ## Метод RAPTOR основывается на методе Meta-Imitation Learning, в котором для каждого из 1000 моделей дронов создается отдельный тестовый тестовый тестовый тестовый тест. Эти тестовые оценки объединяются в общую политику, которая учится внедряться в новые ситуации. Основная техника — воспользоваться повторностью в скрытой свертке, чтобы позволить политике значительно уменьшить требования к памяти и вычислительным ресурсам. Результатом является политика с 2084 параметрами, которая может адаптироваться сразу к многим дронам. ## Результаты Изучено 10 реальных моделей дронов, весом от 32 г до 2,4 кг, с разными типами двигателей (шумные vs. бесшумные), рамками (мягкие vs. жесткие), пропеллерами (2/3/4-лопастные) и контроллерами (PX4, Betaflight, Crazyflie, M5StampFly). На основе этих моделей проведены тесты по траектории слежения, работе внутри/вне зала, влазье в ветру, тыкании и использовании разных пропеллеров. Отмечено, что политика RAPTOR не только достигает нулевого-шота подготовки, но и устойчиво выполняет задачи в разных условиях. ## Значимость Работа RAPTOR открывает новые перспективы для широкого применения дронов в разных сферах. Универсальная политика RAPTOR уменьшает необходимость в пересоздании и повторном обучении под различные модели дронов, что облегчает их использование в практических задачах. Это может привести к экономии ресурсов и увеличению эффективности в робототехнических приложениях. ## Выводы Результаты показывают, что RAPTOR является эффективным методом для создания универсальной политики, основанной на нейронной сети, для контроля различных роботов-дронов. Будущие исследования будут привлечь внимание к более сложным сценариям и увеличению емкости политики, чтобы обеспечить еще большую гибкость и надежность.

Annotation:

Humans are remarkably data-efficient when adapting to new unseen conditions, like driving a new car. In contrast, modern robotic control systems, like neural network policies trained using Reinforcement Learning (RL), are highly specialized for single environments. Because of this overfitting, they are known to break down even under small differences like the Simulation-to-Reality (Sim2Real) gap and require system identification and retraining for even minimal changes to the system. In this work...

ID: 2509.11481v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 GBPP: Grasp-Aware Base Placement Prediction for Robots via Two-Stage Learning

2025-09-17

Авторы:

Jizhuo Chen, Diwen Liu, Jiaming Wang, Harold Soh

## Контекст В последние годы роботизация производственных и упаковочных цехов становится все более актуальной. Одним из ключевых аспектов повышения эффективности таких процессов является автоматизация упаковочных операций. Наиболее сложной задачей в этой области является подбор наилучшей позиции подъемного оборудования для гарантированного успешного габаритного подхода к предмету. Для решения этой задачи необходимо учитывать множество факторов, таких как совместимость габаритных размеров, доступность для оборудования и безопасность операции. Настоящая статья посвящена разработке метода для оптимального подбора позиции основного узла системы робот-упаковщика на основе учета грабежных операций. ## Метод Разработанный метод представляет собой двухэтапный подход к обучению модели для предсказания оптимальной позиции основного узла. В первом этапе используется простая алгоритмическая техника, основанная на правиле расстояния-видимости, для автоматического масштабирования базовых позиций и их автоматизированного обозначения. Это позволяет создать большую выборку данных с минимальными затратами. Второй этап включает в себя целевые симуляционные испытания, которые используются для оценки качества предсказаний модели и их калибровки в соответствии с реальными условиями. Модель основывается на архитектуре PointNet++ с вложенным модулем MLP, обрабатывающим точечные облака и оценивающим плотные гриды возможных базовых позиций. Это дает возможность быстрого онлайн-выбора оптимальной позиции без полного решения задач робот-оптимизации. ## Результаты Опытные испытания проводились на моделировании и на реальном мобильном манипуляторе. Метод GBPP сравнивался с базовыми алгоритмами, основанными только на близости и геометрии. Результаты показали, что GBPP выбирает более безопасные и достижимые позиции, даже при некоторой нарушенной точности. Также был продемонстрирован высокий уровень устойчивости метода при неполной информации о среде. GBPP показал лучший результат в сравнении с другими методами, что демонстрирует подлинность его применения в реальных упаковочных процессах. ## Значимость Разработанный метод может быть применен в автоматической упаковочной технологии, особенно для подбора оптимальных позиций основных узлов робот-упаковщика. Он обеспечивает более точную оценку видимости, позволяя выбирать более безопасные и эффективные позиции для оборудования. Кроме того, GBPP может быть использован в других областях, где требуется быстрая принятие решений на основе геометрических данных. Его внедр

Annotation:

GBPP is a fast learning based scorer that selects a robot base pose for grasping from a single RGB-D snapshot. The method uses a two stage curriculum: (1) a simple distance-visibility rule auto-labels a large dataset at low cost; and (2) a smaller set of high fidelity simulation trials refines the model to match true grasp outcomes. A PointNet++ style point cloud encoder with an MLP scores dense grids of candidate poses, enabling rapid online selection without full task-and-motion optimization. ...

ID: 2509.11594v2 cs.RO, cs.AI

arXiv PDF

1
2
37
38
39
40
41
54
55

Показано 381 - 390 из 544 записей