📚 Саммари научных статей из arXiv

Найдено 21 результатов по запросу 'cs.RO, cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 HUNT: High-Speed UAV Navigation and Tracking in Unstructured Environments via Instantaneous Relative Frames

2025-09-26

Авторы:

Alessandro Saviolo, Jeffrey Mao, Giuseppe Loianno

#### Контекст Универсальная система для быстрого навигационного планирования и целевого отслеживания в неизвестных неструктурированных средах является ключевым областью исследований в робототехнике. Эта задача становится особенно сложной при необходимости выполнения отслеживания в ходе выполнения поисковых и сохранительных операций. Требования к высокой скорости, многоугольному планированию и надежной целевой отслеживаемости в таких условиях поднимают вызов для робототехники. Особенно сложность возрастает, когда объект находится вне области поля зрения, что требует разработки системы, которая может реактивно и эффективно отслеживать цели и при этом устойчиво выполняться в многоугольной модели окружающей среды. Ранее проводимые исследования главным образом направлены на одну из этих задач, но не удалось найти систему, которая могла бы решать все эти задачи в одной модели. Наша работа призвана решить эту проблему, сочетая в себе как навигацию, так и отслеживание в единой непрерывной структуре. #### Метод Мы предлагаем HUNT (High-Speed UAV Navigation and Tracking) — реалистичную систему, которая объединяет навигацию и отслеживание в рамках одной модели. HUNT определяет цели навигации на основе визуальных сенсоров, включая аттрактор-управляемую конструкцию реактивного полета. Конструкция использует доступные визуальные данные, такие как аттрактёр-управляемое целевое положение, чтобы непрерывно поддерживать навигацию и отслеживание цели в неизвестных обстановках. Мы использовали нейронные сети, чтобы обучить модель, которая может реагировать на визуальные данные в реальном времени, используя аттрактор-управляемый подход. Также мы внедрили алгоритмы планирования, чтобы обеспечить высокую скорость и точность полета во время выполнения миссии. Эта модель использовалась для разработки одной системы, которая может решать вопросы, связанные с навигацией и отслеживанием, в различных средах. #### Результаты Мы проводили эксперименты в различных средах, включая леса, контейнерные компании и поисковые операции с видеозаписью движения манекенов и транспортных средств. Наши результаты показывают, что HUNT эффективно решает проблемы, связанные с поиском и отслеживанием в сложных условиях. Мы проводили сравнение с другими системами и видим, что HUNT работает быстрее и более точно, даже при отсутствии глобальной локализации. Таким образом, наша система доказывает свою эффективность в решении проблем, связанных с поиском и отслеживанием в неизвестных средах. #### Значимость HUNT может использоваться в различных сферах, включая поисковые и сохра

Annotation:

Search and rescue operations require unmanned aerial vehicles to both traverse unknown unstructured environments at high speed and track targets once detected. Achieving both capabilities under degraded sensing and without global localization remains an open challenge. Recent works on relative navigation have shown robust tracking by anchoring planning and control to a visible detected object, but cannot address navigation when no target is in the field of view. We present HUNT (High-speed UAV N...

ID: 2509.19452v2 cs.RO, cs.CV, cs.LG

arXiv PDF

📄 EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data

2025-09-26

Авторы:

Ryan Punamiya, Dhruv Patel, Patcharapong Aphiwetsa, Pranav Kuppili, Lawrence Y. Zhu, Simar Kareer, Judy Hoffman, Danfei Xu

#### Контекст Imitation learning (IL) позволяет роботам моделировать поведение человека, чтобы выполнять задачи, но значительные доменные разрывы в визуальной репрезентации, сенсорных модолях и динамике между компьютерным зрением человека и роботом ограничивают эффективность техники. Это является особенно важной проблемой для манипуляционных задач, где даже небольшие различия в поведении могут привести к серьезным проблемам. Например, в задаче "брейк-энд-грип" робот должен понять, когда нужно захватить предмет, и возможность определить это в реальном времени определяет успех. В настоящей работе мы исследуем ключевые проблемы, связанные с эту задачу, такие как круговая импедансная модель, которая позволяет роботу плавно изменять ток в реальном времени, и динамический индекс распределения, который позволяет адаптироваться к разным объектам. #### Метод Мы предлагаем EgoBridge, новый фреймворк, который учитывает эти проблемы, сфокусированный на совместной обучении пространств решений для человека и робота. Основная идея заключается в том, чтобы создать универсальный параметрический метод, позволяющий менять данные между визуальным и техническим видом, используя графический движок и алгоритмы машинного обучения. Мы используем несколько технических решений, включая оптимальный транспорт, который позволяет сопоставить одно множество с другим, и алгоритмы визуального скрытого состояния, которые позволяют учитывать как визуальные, так и динамические параметры. Мы также вводим новый подход для оценки того, насколько хорошо происходит взаимодействие между роботом и человеком в разных ситуациях. #### Результаты Мы проводили эксперименты на трех реальных датасетах, которые включают в себя как простые, так и сложные задачи манипуляции. Наши результаты показывают, что наш фреймворк EgoBridge значительно улучшает поведение робота в задачах, где существуют доменные разрывы. Например, в задаче "брейк-энд-грип" наша модель повысила успех от 38% до 82%, что является существенным улучшением. Мы также проверили нашу модель на новых задачах, для которых были доступны только данные из человеческого опыта, и установили, что она способна генерировать успешные решения, не имея предварительных знаний о новых объектах и сценариях. #### Значимость EgoBridge может использоваться в различных приложениях, включая машинное зрение, автоматизацию производственных процессов и медицинские роботы. Он предоставляет универсальный подход, обеспечивающий грубое алгоритмическое совместимость человека и робота в многообразных условиях. Одним из ключевых пре

Annotation:

Egocentric human experience data presents a vast resource for scaling up end-to-end imitation learning for robotic manipulation. However, significant domain gaps in visual appearance, sensor modalities, and kinematics between human and robot impede knowledge transfer. This paper presents EgoBridge, a unified co-training framework that explicitly aligns the policy latent spaces between human and robot data using domain adaptation. Through a measure of discrepancy on the joint policy latent featur...

ID: 2509.19626v1 cs.RO, cs.CV, cs.LG

arXiv PDF

📄 VisualMimic: Visual Humanoid Loco-Manipulation via Motion Tracking and Generation

2025-09-26

Авторы:

Shaofeng Yin, Yanjie Ze, Hong-Xing Yu, C. Karen Liu, Jiajun Wu

## Контекст Visual humanoid loco-manipulation в неорганизованных средах требует синергетной интеграции эгацентрического визуального восприятия и целого-телакоммандования. Несмотря на развитие методологий, существующие подходы наиболее часто полагаются на внешние системы морфографического мониторинга или ограничиваются определенными типами задач. Это существенно ограничивает область применения и удобство использования современных робототехнических систем. Наша цель — разработать фреймворк, который бы стал альтернативой нынешним решениям, обеспечивая широкий спектр возможностей для решения локо-манипуляционных задач в различных условиях. ## Метод Мы предлагаем VisualMimic — визуальную симуляционную модель c целью перехода в реальную среду. Фреймворк включает две основные части: низкоуровневый трактор ключевых точек, обученный с использованием данных технологии teacher-student, и высокоуровневое управление, которое генерирует команды ключевых точек на основе визуальных и проприоцептивных данных. Для обеспечения стабильности обучения, мы вводим случайность в низкоуровневой политике и устанавливаем ограничения на действия высокоуровневой политики с помощью статистических данных о человеческих движениях. Этот подход позволяет использовать тренировочные данные из симуляционного окружения для выполнения реальных задач локо-манипуляции, таких как подъем ящика, подвижка предметов, ходьба с футбольной мячом и другие. ## Результаты Мы провести набор экспериментов, используя симуляционную модель, чтобы проверить эффективность VisualMimic. Наши политики были тестированы на различных типах локо-манипуляционных действий, включая значительно различные достижения, такие как подъем ящиков, пушкание футбольного мяча, и движение в условиях реальной среды. Результаты показали, что VisualMimic демонстрирует высокую точность в задачах визуальной мониторинга и целого-телакоммандования, обеспечивая значительное улучшение работы роботов в различных условиях. ## Значимость VisualMimic может быть применен в различных областях, включая робототехнику, роботизированные системы помощи в ситуациях неорганизованной среды, и возможность работы в сложных внешних условиях. Особенно выгодным является его применение в сфере роботов-помощников, позволяющих уменьшить нагрузку на человека в различных производственных и домашних сценариях. Визуальная система модели предоставляет значительные преимущества в ситуациях, где внешние мониторинговые системы не могут быть использованы. ## Выводы VisualMimic представляет собой новый подход к решению задач визуально

Annotation:

Humanoid loco-manipulation in unstructured environments demands tight integration of egocentric perception and whole-body control. However, existing approaches either depend on external motion capture systems or fail to generalize across diverse tasks. We introduce VisualMimic, a visual sim-to-real framework that unifies egocentric vision with hierarchical whole-body control for humanoid robots. VisualMimic combines a task-agnostic low-level keypoint tracker -- trained from human motion data via...

ID: 2509.20322v1 cs.RO, cs.CV, cs.LG

arXiv PDF

📄 DexSkin: High-Coverage Conformable Robotic Skin for Learning Contact-Rich Manipulation

2025-09-25

Авторы:

Suzannah Wistreich, Baiyu Shi, Stephen Tian, Samuel Clarke, Michael Nath, Chengyi Xu, Zhenan Bao, Jiajun Wu

## Контекст Успешное подчинение на близких к реальности задачах манипуляции требует точного обнаружения и локализации контактных событий. Однако существующие сенсорные системы, обычно ограниченные плоскими или малыми регионами, не могут предоставить объемную обработку контактных данных, необходимую для эффективного обучения в среде с большим количеством контактов. Это недостаточство ограничивает возможность искусственных систем подражать естественному трогательному чувству человека. Целью данной работы является разработка новой технологии сенсорической обвязки, которая может охватить большие зоны роботов и обеспечить высокую конформируемость, чтобы обеспечить широкую обработку контактных данных. ## Метод Для решения этой задачи разработана **DexSkin** — современная, многослойная электронная кожа, построенная на основе многослойного капацитного материала. Она обеспечивает высокую точность контактного сенсоринга и может быть применена к любым геометрическим формам, включая сложные контуры. Данная система построена на базе сенсоров, которые используют методы многоканального давления и керамических мембран для детальной локализации контактных данных. Такая архитектура позволяет DexSkin стать модульной и гибкой в использовании для разных типов роботов и задач. ## Результаты Для проверки того, что DexSkin позволяет достигнуть высокой точности в обработке контактных данных, проведены эксперименты на роботе с двумя параллельными клешнями. Данная система была успешно сенсоризирована по всей поверхности клешней, чтобы обеспечить широкий диапазон данных о контакте. Были проведены три основных эксперимента: реориентация объектов в руке, обмотание лентой вокруг пакета и установка маленьких предметов на контурные поверхности. Результаты показали, что DexSkin не только точно обнаруживает контакты, но и позволяет эффективно обучаться в обучении с подкреплением на реальных роботах. ## Значимость Высокая конформируемость и модульность DexSkin позволяют применять ее в различных областях, включая робототехнику, транспортные системы и роботы-медики. Данная технология предоставляет необходимую объемную обработку контактных данных, недоступную стандартным сенсорным системам, что позволяет улучшить качество манипуляций и задач в средах, требующих тесного контакта. Это может привести к новым вызовам в робототехнике и искусственном интеллекте. ## Выводы Разработка DexSkin достигла значительных успехов в сфере прикладной робототехники. Она эффективно решает проблемы в области контактного сенсоринга, предоставляя детальные данные и позволяя машинам учиться на ре

Annotation:

Human skin provides a rich tactile sensing stream, localizing intentional and unintentional contact events over a large and contoured region. Replicating these tactile sensing capabilities for dexterous robotic manipulation systems remains a longstanding challenge. In this work, we take a step towards this goal by introducing DexSkin. DexSkin is a soft, conformable capacitive electronic skin that enables sensitive, localized, and calibratable tactile sensing, and can be tailored to varying geome...

ID: 2509.18830v1 cs.RO, cs.CV, cs.LG

arXiv PDF

📄 Designing Latent Safety Filters using Pre-Trained Vision Models

2025-09-20

Авторы:

Ihab Tabbara, Yuxuan Yang, Ahmad Hamzeh, Maxwell Astafyev, Hussein Sibai

#### Контекст В последние годы визуальные системы управления получили распространение во многих областях робототехники и автоматизации. Однако, обеспечение их безопасности в критических условиях остается вызовом. Безопасность визуальных систем управления часто зависит от добавления безопасности, защищающий систему от нежелательных действий в ситуациях, когда основная система управления не может обеспечить безопасность. Хотя безопасности в базовых системах уже описано, визуальные системы функционируют в значительно более сложной среде, где необходимо учитывать сложные структуры области и сложную взаимосвязь между системами. В этой работе мы исследуем возможности использования предварительно обученных визуальных моделей (PVRs) для создания эффективных безопасности визуальных систем управления. Наша мотивация заключается в том, чтобы использовать выгоды PVRs в предметных областях, не требующих полного обучения моделей, чтобы создать модели безопасности, которые могут быть успешно применены в критических средах. #### Метод Мы применяем предварительно обученные визуальные модели в качестве бэкбонов для различных задач, связанных с безопасностью визуальных систем управления. Мы рассматриваем три основных подхода: использование PVRs для классификации состояний, определяющих сети небезопасности; применение PVRs в моделях гамильтона-Джакоби (HJ) для вычисления решений безопасности; и использование PVRs для моделирования среды (world models). Для каждого подхода мы исследуем различные подходы к обучению моделей, включая обучение от начала (training from scratch), fine-tuning и заморозку моделей (freezing). Мы также проводим эксперименты, сравнивая эффективность PVRs в каждом подходе, и исследуем практические аспекты, такие как выбор модели для работы в ресурсораспределенных системах. #### Результаты Мы проводим эксперименты с популярными PVRs, такими как Vision Transformers (ViTs) и ResNet, и сравниваем их эффективность в различных задачах безопасности. Мы проверяем, насколько эффективно PVRs работают в качестве классификаторов для задач определения небезопасных состояний, а также их моделирование мировых процессов в визуальных системах управления. Мы также сравниваем результаты при использовании разных подходов к обучению (training from scratch, fine-tuning и freezing) и определяем, какая модель показывает лучший результат в каждом конкретном случае. Наши результаты показывают, что PVRs могут быть эффективными для создания безопасности визуальных систем, однако их выбор и настройка зависят от конкретных задач и ресурсов. #### Значимость Наши результаты показывают, что использование PVRs для создания б

Annotation:

Ensuring safety of vision-based control systems remains a major challenge hindering their deployment in critical settings. Safety filters have gained increased interest as effective tools for ensuring the safety of classical control systems, but their applications in vision-based control settings have so far been limited. Pre-trained vision models (PVRs) have been shown to be effective perception backbones for control in various robotics domains. In this paper, we are interested in examining the...

ID: 2509.14758v1 cs.RO, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Learning in ImaginationLand: Omnidirectional Policies through 3D Generative Models (OP-Gen)

2025-09-10

Авторы:

Yifei Ren, Edward Johns

#### Контекст Роботизация различных процессов требует эффективного обучения моделей, позволяющих роботам выполнять широкий спектл задач с минимальным количеством демонстраций. Одной из основных проблем является необходимость многократного повторения демонстраций для точного научения роботам выполнять задачи в различных условиях. Это приводит к затратности во времени и ресурсах. Кроме того, ограниченные запуски могут привести к неполной обработке всех возможных ситуаций. Недавно развивающиеся 3D-генерирующие модели, способные получить полную форму объекта из небольшого количества изображений, могут стать ключевым решением. Однако их потенциал в области обучения моделей в ситуациях, отличающихся от демонстрации, еще не полностью исследован. #### Метод Мы предлагаем метод **OP-Gen (Omnidirectional Policies through 3D Generative Models)**, который позволяет улучшить обучение моделей в условиях ограниченных демонстраций. Работа основывается на использовании 3D-генерирующих моделей для расширения демонстрационных данных. Это достигается путем генерирования дополнительных изображений объектов из разных углов и позиций, чтобы воссоздать различные возможные конфигурации объекта. Затем эти генерируемые данные используются для обучения политики, которая может выполнять задачи в реальном мире независимо от начального положения робота. Это расширение данных позволяет роботу осуществлять задачи даже тогда, когда начальное положение находится на значительном расстоянии от того, которое было видно во время демонстрации. #### Результаты Мы проверили эффективность OP-Gen на нескольких задачах, включая захват предметов, открытие шкафа и сбор мусора. Для этого мы провели эксперименты в реальном мире, используя данные, полученные с помощью 3D-генерирующих моделей. Отметим, что наши результаты показывают, что OP-Gen демонстрирует значительный выигрыш в производительности по сравнению с другими методами, которые используют стандартные методы дата-аугментации. Мы также изучили динамику работы политик в различных условиях, включая запуск робота с очень дальней позиции от объекта, что позволило увидеть полноту и устойчивость нашего подхода. #### Значимость Метод OP-Gen может быть применен в многочисленных областях, включая автоматизацию производственных процессов, домашнюю роботизацию и улучшение роботизированных систем в сложных средах. Одним из ключевых преимуществ является снижение необходимости в повторных демонстрациях, что ускоряет и улучшает обучение моделей. Кроме того, подход позволяет роботу выполнять задачи в новых условиях, не схожих с теми, которые были доступны во время обуч

Annotation:

Recent 3D generative models, which are capable of generating full object shapes from just a few images, now open up new opportunities in robotics. In this work, we show that 3D generative models can be used to augment a dataset from a single real-world demonstration, after which an omnidirectional policy can be learned within this imagined dataset. We found that this enables a robot to perform a task when initialised from states very far from those observed during the demonstration, including st...

ID: 2509.06191v1 cs.RO, cs.CV, cs.LG

arXiv PDF

📄 Robust Model Predictive Control Design for Autonomous Vehicles with Perception-based Observers

2025-09-09

Авторы:

Nariman Niknejad, Gokul S. Sankar, Bahare Kiumarsi, Hamidreza Modares

## Контекст Одна из основных задач в области автономного вождения — обеспечение безопасности и адекватности динамического поведения автомобилей в условиях нестандартных и ненормальных затруднений. Активное развитие глубокого обучения позволяет эффективно использовать сети научного предсказания, однако эти модели чувствительны к шуму и ошибкам в реальных условиях. Это приводит к неточностям в оценке состояния, которые могут привести к потере стабильности и травматическим ситуациям. Недостаток надежных методов для контроля систем с глубоким обучением в центре внимания научных исследований. Кроме того, существуют проблемы с поддержкой вычислительной эффективности и гарантиями стабильности в системах моделирующих прогнозируемые действия. ## Метод Разработанная методология основывается на моделирующем прогностическом контроле (MPC), учитывающем влияние шума в модулях основанных на глубоком обучении. Метод использует констрейнтированные зонотопы для оценки возможных расхождений в прогнозах, что позволяет учесть ненормальные и тяжеловатые распределения шума. Для уменьшения вычислительных затрат прогнозная модель преобразуется в линейную программу, включающую минковский-ляпуновскую функцию, а также добавляется смещение для предотвращения нестабильных решений. Для стабильности используются ляпуновские неравенства и зонотопные вычисления, охватывающие области возможных состояний. ## Результаты Проведены симуляции и эксперименты на виртуальных и реальных системах. На основе реальных данных о сенсорном восприятии водителя проводились эксперименты на мобильном роботе с данными от зеркала-контроллера и аппаратуры распознавания объектов. Результаты показали, что разработанный подход эффективно контролирует систему, даже при ненормальных шумах, обеспечивая высокую точность и стабильность динамики. За счет использования констрейнтов зонотопов получены более точные оценки состояния водителя, что положительно сказывается на стабильности системы. ## Значимость Разработанный подход успешно применяется в автономных транспортных системах, предоставляя более точные прогнозы в условиях ненормальных шумов. Он может использоваться в робототехнике и системах поддержки решений в транспортных сетях. Работа показывает, что системы на основе зонотопов могут предсказать тяжеловатые распределения шума и латентные сигналы, что значительно повышает безопасность и точность объектной оценки в условиях реальных условий. ## Выводы Разработанный метод MPC предлагает сильный фундамент для надежного контроля автоно

Annotation:

This paper presents a robust model predictive control (MPC) framework that explicitly addresses the non-Gaussian noise inherent in deep learning-based perception modules used for state estimation. Recognizing that accurate uncertainty quantification of the perception module is essential for safe feedback control, our approach departs from the conventional assumption of zero-mean noise quantification of the perception error. Instead, it employs set-based state estimation with constrained zonotope...

ID: 2509.05201v1 cs.RO, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 AI-Driven Marine Robotics: Emerging Trends in Underwater Perception and Ecosystem Monitoring

2025-09-05

Авторы:

Scarlett Raine, Tobias Fischer

## Контекст Объемами возрастающих нагрузок на морские экосистемы, вызванные климатическими изменениями, подчеркивают необходимость в эффективных, сценарий-адаптивных системах мониторинга. Масштабируемость и доступность технологий в области искусственного интеллекта (ИИ) открыли новые пути для решения этих проблем. Особенно заметно это в сфере подводного видения и океанического мониторинга, где ИИ уже превратился в главный двигатель нового поколения решений. Ранее, эти области оставались во многом закрытыми, но сейчас они развиваются с ускоренным темпом, становясь новым центром инноваций в области компьютерного зрения и робототехники. Несколько ключевых факторов способствовали этому росту: угрозы для экосистем, рост необходимости в объемных и широкомасштабных мониторингных системах, прирост доступности подводных данных благодаря внедрению платформ для участия гражданского населения в научных исследованиях, а также перемещение ученых из затянутых изобретением земных компьютерно-визуальных исследований в сферу морских исследований. В настоящей статье мы разбираем эти факторы, а также проблемы и преимущества, с которыми сталкиваются разработчики ИИ, работающие в подводной сфере. ## Метод Методология, применяемая в этом исследовании, основывается на использовании методов машинного обучения, специально адаптированных для морских применений. Изучение этих методов включает в себя разработку алгоритмов для улучшения обобщаемости в условиях подводного зрения, включая учет характеристик, таких как неоднородность воды и низкий разрешающий канал видимости. Мы также рассматриваем развитие систем самостоятельного обучения и инструментов, позволяющих улучшить решения в области визуального понимания подводных экосистем. Для решения проблемы отсутствия достаточных меток данных, которая характерна для подводных мониторинговых задач, использовались модели слабо направленного обучения (weakly supervised learning), которые позволяют обучаться на неполных данных. Также мы рассматриваем развитие трехмерной реконструкции подводных сцен с помощью современных методов самостоятельного обучения. ## Результаты В ходе работы были проведены эксперименты с использованием высококачественных подводных данных, которые были собраны в различных экосистемах. Мы протестировали различные модели, в том числе модели, основанные на слабо направленном обучении и самостоятельном обучении. Эти модели были применены к задачам, таким как определение разнообразия видов, распознавание объектов под водой, а также к задачам трехмерной реконструкции подводных сцен. Результаты показали, что моде

Annotation:

Marine ecosystems face increasing pressure due to climate change, driving the need for scalable, AI-powered monitoring solutions. This paper examines the rapid emergence of underwater AI as a major research frontier and analyzes the factors that have transformed marine perception from a niche application into a catalyst for AI innovation. We identify three convergent drivers: environmental necessity for ecosystem-scale monitoring, democratization of underwater datasets through citizen science pl...

ID: 2509.01878v1 cs.RO, cs.CV, cs.LG

arXiv PDF

📄 ActLoc: Learning to Localize on the Move via Active Viewpoint Selection

2025-08-29

Авторы:

Jiajie Li, Boyang Sun, Luca Di Giammarino, Hermann Blum, Marc Pollefeys

## Контекст Локализация робота является критическим аспектом робототехнических систем, особенно для навигации в неизвестной среде. Однако большинство существующих систем предполагают, что все направления взгляда из определенного места одинаково информативны. В реальных условиях это предположение может оказаться недостоверным, так как робот может встретить неизвестные, неоднозначные или неинформативные области, что снижает точность локализации. Для улучшения этой ситуации была предложена ActLoc, методология, которая активно выбирает точки полярного просмотра, оптимизируя точность локализации во время движения. ActLoc представляет собой не только новую архитектуру, но и целостный подход к решению проблемы неточной локализации в технических системах. ## Метод ActLoc основывается на активном выборе точек просмотра, который осуществляется с помощью внутритренированной нейронной сети с аттенцией. Эта сеть анализирует метрический сетка и позиции камеры, используемые при построении карты. Она предсказывает точность локализации в разных направлениях (yaw и pitch) для каждой точки в пространстве. Эти предсказания используются в планировщике пути, чтобы выбирать наиболее подходящие направления для просмотра, чтобы оптимизировать локализацию. Также, ActLoc позволяет учитывать ограничения задачи и движения во время планирования. Этот комплексный подход позволяет ActLoc эффективно применяться в различных сценариях навигации и исследований. ## Результаты После обучения ActLoc были проведены эксперименты, в которых она была протестирована на различных сценариях локализации. Для этого использовались разные метрические карты и наборы данных позиций камеры. Результаты показали, что ActLoc превосходит существующие методы, предлагая значительно более высокую точность локализации в разных условиях. Например, она достигла более высокой точности во время полного цикла навигации, по сравнению с другими системами. Эти результаты были получены с помощью заданных метрик и данных, что дает оценку качества решения в реальных условиях. ## Значимость ActLoc может применяться в различных сферах, где необходима точная локализация робота. Например, в промышленной автоматизации, где роботы должны перемещаться в крупных производственных зонах, или в сфере технического обслуживания, где роботы должны перемещаться в ограниченных пространствах, таких как здания. Одним из основных преимуществ ActLoc является её модульность и эффективность в разных условиях. Это делает её привлекательной для разработчиков, которые ищут решения для улучшения локализации в своих системах. Будущие исследования могут сос

Annotation:

Reliable localization is critical for robot navigation, yet most existing systems implicitly assume that all viewing directions at a location are equally informative. In practice, localization becomes unreliable when the robot observes unmapped, ambiguous, or uninformative regions. To address this, we present ActLoc, an active viewpoint-aware planning framework for enhancing localization accuracy for general robot navigation tasks. At its core, ActLoc employs a largescale trained attention-based...

ID: 2508.20981v1 cs.RO, cs.CV, cs.LG

arXiv PDF

📄 A Vision-Based Shared-Control Teleoperation Scheme for Controlling the Robotic Arm of a Four-Legged Robot

2025-08-23

Авторы:

Murilo Vinicius da Silva, Matheus Hipolito Carvalho, Juliano Negri, Thiago Segreto, Gustavo J. G. Lahr, Ricardo V. Godoy, Marcelo Becker

#### Контекст Роботизированные системы играют ключевую роль в решении задач в опасных и удаленных окружениях, где требуется высокая точность и безопасность. Одним из таких систем являются роботы-четвероногие роботы с кинематическими руками, обладающие мобильностью и гибкостью для выполнения сложных операций. Однако, управление такими системами во время телеоперации сопряжено с рядом трудностей. В частности, недостаток интегрированных систем детектирования препятствий и неудобство интуитивного управления роботской рукой чревато увеличением риска коллизий в узких или динамически изменяющихся рабочих местах. Это вынуждает операторов использовать квалифицированные системы управления, которые требуют высоких навыков и имеют высокий когнитивный нагрузку. #### Метод Для решения этих проблем предлагается инновационный взгляд на телеоперацию, основанный на визуальной оценке положения руки оператора, преобразованной в команды для роботской руки. Алгоритм построения траектории обеспечивает безопасность, предотвращая коллизии с препятствиями и самой рукой. Модель визуального определения положения воспользовалась методами машинного обучения для точного выявления положения руки. Этот подход позволяет реализовать интуитивное управление, уменьшив когнитивный нагрузку на оператора и улучшив эффективность процесса. #### Результаты Набор экспериментов был проведен с использованием реального робота в условиях удаленного управления. Результаты показали, что система обеспечивает точную и быструю реагирование на команды оператора, даже в условиях жесткого временного ограничения. Особое внимание уделено избежанию коллизий и сохранению безопасности во время операций. Эксперименты подтвердили, что подход хорошо подходит для индустриальных приложений, где необходима обеспеченность, точность и простота управления. #### Значимость Предложенный подход может быть использован в различных областях, включая промышленность, где требуется безопасность и точность, а также в сфере медицины и поисковых операций в пушечных пространствах. Он обеспечивает удобство в управлении, повышает точность и сокращает риск коллизий. Будущие исследования будут направлены на улучшение модели положения руки и расширение функций для более сложных сред. #### Выводы Предложенная система телеоперации, основанная на визуальном определении положения руки, является эффективным решением для управления роботской рукой в реальном времени. Она обеспечивает безопасность и точность, упрощает управление и может быть использована в различных ин

Annotation:

In hazardous and remote environments, robotic systems perform critical tasks demanding improved safety and efficiency. Among these, quadruped robots with manipulator arms offer mobility and versatility for complex operations. However, teleoperating quadruped robots is challenging due to the lack of integrated obstacle detection and intuitive control methods for the robotic arm, increasing collision risks in confined or dynamically changing workspaces. Teleoperation via joysticks or pads can be n...

ID: 2508.14994v1 cs.RO, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

1
2
3

Показано 11 - 20 из 21 записей