📚 Саммари научных статей из arXiv

Найдено 225 результатов по запросу 'cs.RO, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 DUViN: Diffusion-Based Underwater Visual Navigation via Knowledge-Transferred Depth Features

2025-09-05

Авторы:

Jinghe Yang, Minh-Quan Le, Mingming Gong, Ye Pu

#### Контекст Autonomous underwater navigation представляет собой весьма сложное задание из-за ограниченных способностей восприятия и сложности построения точных карт в подводных условиях. Несмотря на развитие технологий, на данный момент невозможно полностью заменить визуальную ориентацию, что ограничивает возможности автономных подводных роботов. В этой работе мы предлагаем DUViN — политику по Диффузионному Управлению Визуальной Навигацией с использованием знаний, передаваемых из глубинных признаков. Это система визуального контроля 4-DoF подвижности подводных роботов, которая позволяет им преодолевать препятствия и сохранять безопасный расстояний до земли. #### Метод DUViN использует diffusion-based модель для визуального управления подводным роботом, которая позволяет ему ориентироваться в неизвестных подводных средах. Основная идея заключается в передаче знаний из глубинных признаков, чтобы обеспечить безопасность и эффективность. Метод представляет собой две фазы. В первой фазе тренируется модель на основе данных в воздухе с использованием предобученного экстрактора глубинных признаков. Во второй фазе экстрактор переобучен на задаче оценки подводных глубин, после чего интегрируется в модель визуального управления. Это позволяет достичь точности и устойчивости в разных условиях. #### Результаты В экспериментах DUViN продемонстрировала высокую точность и устойчивость в симуляционных и реальных подводных условиях. Мы проводили тестирование на различных сценах, включая сложные обстановки с препятствиями. Наши результаты показали, что DUViN способна обнаруживать препятствия и управлять роботом без зависимости от карт. Эксперименты показали, что модель обладает робастностью при переходах между данными в воздухе и под водой. Видео результатов доступны по ссылке: https://www.youtube.com/playlist?list=PLqt2s-RyCf1gfXJgFzKjmwIqYhrP4I-7Y. #### Значимость Предложенная модель может быть применена в различных прикладных областях, таких как поиск и спасение, океанографические исследования и подводные добычи. Одним из основных преимуществ DUViN является возможность ориентироваться в реальном времени без необходимости использования дорогостоящих карт или данных о глубине. Это делает ее привлекательной для задач, где сбор карт сложно или невозможно. #### Выводы Результаты нашего исследования демонстрируют значительную улучшенную точность и устойчивость в подводной визуальной навигации. Будущие исследования будут сконцентрированы на улучшении модели, увеличении точности оценки глубины и расширении приложений в различных подводных средах.

Annotation:

Autonomous underwater navigation remains a challenging problem due to limited sensing capabilities and the difficulty of constructing accurate maps in underwater environments. In this paper, we propose a Diffusion-based Underwater Visual Navigation policy via knowledge-transferred depth features, named DUViN, which enables vision-based end-to-end 4-DoF motion control for underwater vehicles in unknown environments. DUViN guides the vehicle to avoid obstacles and maintain a safe and perception aw...

ID: 2509.02983v1 cs.RO, cs.CV

arXiv PDF

📄 Uncertainty-aware Test-Time Training (UT$^3$) for Efficient On-the-fly Domain Adaptive Dense Regression

2025-09-05

Авторы:

Uddeshya Upadhyay

## Контекст Глубокие нейронные сети (DNNs) становятся все более популярными в автономных системах, однако они сталкиваются с проблемой плохого генерализационного качества при возникновении изменений домена. Это является особенно критической проблемой для автономных систем, развернутых в реальном мире, которые должны адаптироваться к непредсказуемому и продолжительному временному диапазону изменений окружения. Недавние исследования посвящены тестированию во время выполнения (test-time training), которое предлагает адаптировать модель нейронных сетей к новой тестовой распределению в реальном времени, используя самостоятельное супервизирование. Тем не менее, эти технологии приводят к существенному увеличению времени выполнения ввиду того, что необходимо выполнить несколько проходов перед и после оптимизации модели для каждого тестового примера. Это нежелательно для реальных проблем в области робототехники, где модели должны работать на ограниченных ресурсах и быстро отвечать. Наша работа предлагает рамку (UT$^3$), которая использует test-time training для повышения производительности в условиях непредсказуемых изменений домена, при этом существенно сокращая время выполнения и делая модели пригодными для применения в реальном мире. ## Метод Мы предлагаем новую архитектуру UT$^3$, которая использует некоторые особенности test-time training, но с учетом уровня неопределенности в данных. Мы используем методы независимого от тестовых данных (task-agnostic), которые используют представления сети до выхода, чтобы сделать процесс оптимизации более эффективным. В частности, мы предлагаем адаптивную стратегию, которая определяет, какие ключевые кадры (keyframes) должны быть использованы для обучения в течение определенного времени. Эта стратегия позволяет снизить частоту обновления модели, например, в случаях, когда изменения домена менее значительны. Мы также вводим новую многоугольниковую структуру для селективной оптимизации, которая позволяет гибко регулировать процесс обучения. Это расширяет возможности test-time training, делая его более производительным в реальных условиях. ## Результаты Мы проверили нашу модель на задаче монокулярной оценки глубины (monocular depth estimation). Мы использовали стандартные датасеты для этих задач, такие как KITTI и NYU Depth V2. Выполнялись эксперименты с различными уровнями непредсказуемости в данных. Наши результаты показали, что UT$^3$ сокращает время выполнения на 40-50% по сравнению с традиционным test-time training, при этом сохраняя высокую точность на тестах. Кроме того, мы показали, что наша модель устойчива к изменениям домена и показывает более равномерный поток вывода при изменении условий. ## Значимость UT$^3$

Annotation:

Deep neural networks (DNNs) are increasingly being used in autonomous systems. However, DNNs do not generalize well to domain shift. Adapting to a continuously evolving environment is a safety-critical challenge inevitably faced by all autonomous systems deployed to the real world. Recent work on test-time training proposes methods that adapt to a new test distribution on the fly by optimizing the DNN model for each test input using self-supervision. However, these techniques result in a sharp i...

ID: 2509.03012v1 cs.RO, cs.CV

arXiv PDF

📄 Efficient Active Training for Deep LiDAR Odometry

2025-09-05

Авторы:

Beibei Zhou, Zhiyuan Zhang, Zhenbo Song, Jianhui Guo, Hui Kong

## Контекст Глубокие нейросетевые модели для лидарной одометрии (LiDAR odometry) являются ключевыми для точной локализации и трёхмерного моделирования во время движения. Однако эти модели требуют значительных объёмов и разнообразных данных для обучения, чтобы адаптироваться к различным условиям окружения. Такое требование к данным приводит к неэффективности в процессе обучения. Для решения этой проблемы предлагается активный фреймворк обучения, который стремится оптимизировать выбор данных для обучения, сократив объём данных и повысив общую точность модели. ## Метод Фреймворк предлагает две основные стратегии: **Initial Training Set Selection (ITSS)** и **Active Incremental Selection (AIS)**. ITSS начинает с разбиения последовательностей движения на узлы и ребра для подробного анализа траектории, отбора наиболее разнообразных последовательностей для формирования базового набора данных для обучения. Далее, AIS использует сценное воссоздание и несоответствия прогнозами для итеративного выбора дополнительных данных, улучшая модель для работы в сложных условиях реального мира, таких как снегопад. ## Результаты Эксперименты проводились на различных датасетах и под разными условиями погоды, включая снегопад. Наши результаты показали, что модель, обученная с помощью нашего активного фреймворка, достигает той же точности, что и модель, обученная на полном наборе данных, но используя только 52% объёма данных. Это доказывает эффективность и надежность нашего подхода в повышении скорости обучения и улучшении жизнеспособности модели в реальных условиях. ## Значимость Предлагаемый подход имеет широкие возможности применения в системах локализации и ориентирования, особенно в автомобильных роботах и дронах. Он обеспечивает высокую точность и устойчивость в работе с различными условиями окружения. Это упрощает развитие более удобных и надежных систем одометрии, которые могут быть использованы в приложениях, требующих высокой точности и реагирования в реальном времени. ## Выводы Наш принцип активного обучения для лидарной одометрии демонстрирует высокую эффективность и надежность. Он способствует сокращению объёма данных для обучения, улучшению модели и расширению её применимости в различных средах. Будущие исследования будут сконцентрированы на расширении этой методики для других типов данных и задач, чтобы улучшить её общую гибкость и применимость.

Annotation:

Robust and efficient deep LiDAR odometry models are crucial for accurate localization and 3D reconstruction, but typically require extensive and diverse training data to adapt to diverse environments, leading to inefficiencies. To tackle this, we introduce an active training framework designed to selectively extract training data from diverse environments, thereby reducing the training load and enhancing model generalization. Our framework is based on two key strategies: Initial Training Set Sel...

ID: 2509.03211v1 cs.RO, cs.CV

arXiv PDF

📄 Mini Autonomous Car Driving based on 3D Convolutional Neural Networks

2025-09-02

Авторы:

Pablo Moraes, Monica Rodriguez, Kristofer S. Kappel, Hiago Sodre, Santiago Fernandez, Igor Nunes, Bruna Guterres, Ricardo Grando

## Контекст В последние годы автономная техника, особенно автомобили, приобрела важную роль в автомобильной отрасли. Данная технология способствует повышению безопасности, эффективности и удобства вождения, удовлетворяя росту спроса на расширенные функции помощи водителям. Однако развитие надежных и достоверных систем автономного управления сталкивается с рядом трудностей, включая высокую сложность, длительные периоды обучения и наличие неопределенности во вводимых данных. Малые автономные машины (Mini Autonomous Cars, MAC) широко используются в качестве испытательных площадок для проверки методологий управления автономными системами. Это простое и экономически выгодное решение позволяет быстро экспериментировать с различными моделями машинного обучения, особенно теми, которые требуют онлайн-обучения. В данной работе предлагается методология, основанная на RGB-D данных и трехмерных конволюционных нейронных сетях (3D CNN), для решения задачи автономного управления MAC в симуляционных условиях. ## Метод Методология основывается на использовании трехмерных конволюционных нейронных сетей (3D CNN) для обработки RGB-D данных, полученных от сенсоров машины. Архитектура сети спроектирована для эффективной обработки изображений и глубинных карт, чтобы предоставить точные признаки для управления машиной. Модель обучается на данных, собранных из симулятора, что позволяет эмулировать различные сценарии и условия. Для сравнения работы 3D CNN проводились эксперименты с рекуррентными нейронными сетями (RNN), которые также обучались на одних и тех же данных. Эксперименты проводились на двух симуляционных треках с разными условиями окружения, чтобы оценить устойчивость и общую способность моделей. Использовались такие метрики, как успешность выполнения задачи, время оборота, и постоянство поведения водителя. ## Результаты Эксперименты показали, что модель 3D CNN показала существенное преимущество по сравнению с RNN. Она демонстрировала более высокую точность в задаче управления, более консистентное поведение водителя и быстрее реагировала на изменения окружения. Метрики показали, что 3D CNN обеспечила более высокую успешность выполнения задачи и более низкое время оборота. Также было выявлено, что 3D CNN более устойчива к различным условиям окружения, чем RNN. Эти результаты указывают на более высокую способность модели 3D CNN к общезначимости и ее более эффективному использованию в реальных условиях. ## Значимость Результаты этой работы могут быть применены в различных областях, таких как автономная техника, виртуальная реальность и симуляции для тренировки моделей машинного

Annotation:

Autonomous driving applications have become increasingly relevant in the automotive industry due to their potential to enhance vehicle safety, efficiency, and user experience, thereby meeting the growing demand for sophisticated driving assistance features. However, the development of reliable and trustworthy autonomous systems poses challenges such as high complexity, prolonged training periods, and intrinsic levels of uncertainty. Mini Autonomous Cars (MACs) are used as a practical testbed, en...

ID: 2508.21271v1 cs.RO, cs.CV

arXiv PDF

📄 The Rosario Dataset v2: Multimodal Dataset for Agricultural Robotics

2025-09-02

Авторы:

Nicolas Soncini, Javier Cremona, Erica Vidal, Maximiliano García, Gastón Castro, Taihú Pire

## Контекст Исследования в области агротехнологий направлены на развитие систем автоматизации и роботизированных технологий в сельском хозяйстве. Одной из ключевых проблем является развитие систем многомодальной ориентированности в работе над земледельческими технологиями. Эти системы должны работать в условиях трудной природной среды, включая нестабильное освещение, шумы, грубое relief, и длительные траектории. Для подтверждения и испытания новых алгоритмов локализации, генерации карт, ориентированности и навигации необходима богатая выборка данных, соответствующая реальным условиям сельского хозяйства. ## Метод Для получения данных использовался специально разработанный платформы с широким спектром сенсоров. Эти сенсоры включают stereo infrared камеру, color камеру, акселерометр, гироскоп, магнитометр, GNSS (Single Point Positioning, Real-Time Kinematic и Post-Processed Kinematic), а также систему одометрии колес. Данные собраны в поле соедиды, при этом была обеспечена горизонтальная и вертикальная синхронизация сенсоров, а также получен 6-DOF граунд-трут. Использовались различные режимы GNSS, включая Real-Time Kinematic и Post-Processed Kinematic, для точного определения положения. Эти данные позволяют анализировать сложные сценарии, включая труднопроницаемые земли и длительные траектории. ## Результаты На основе сбора данных была создана выборка под названием Rosario Dataset v2. Эта выборка включает в себя более двух часов записанных данных с различных сенсоров. Она позволяет эффективно использовать многомодальные методы SLAM для разработки и оценки алгоритмов, которые могут работать в тяжелых условиях. Особенностью данных является их сложность, включая многоугольный relief, шумы и длительные траектории. Эти свойства делают данные полезными для развития новых алгоритмов, которые могут справляться с этими трудностями. ## Значимость Данный ресурс имеет большое значение для развития роботизированных систем в сельском хозяйстве. Он может быть использован для тестирования и оценки различных алгоритмов локализации, картографирования, и навигации. Его преимущество в том, что он позволяет не только проверить существующие методы, но и развивать новые, более эффективные решения для сложных природных условий. Это может привести к улучшению производительности роботов в сельском хозяйстве и уменьшению трудозатрат. ## Выводы Работа по созданию и открытому распространению Rosario Dataset v2 является важной шагом в развитии роботизированных систем для сельского хозяйства. Она позволяет получить богатую выборку данных для тестирования различных технологий. Будущие исследова

Annotation:

We present a multi-modal dataset collected in a soybean crop field, comprising over two hours of recorded data from sensors such as stereo infrared camera, color camera, accelerometer, gyroscope, magnetometer, GNSS (Single Point Positioning, Real-Time Kinematic and Post-Processed Kinematic), and wheel odometry. This dataset captures key challenges inherent to robotics in agricultural environments, including variations in natural lighting, motion blur, rough terrain, and long, perceptually aliase...

ID: 2508.21635v1 cs.RO, cs.CV, cs.SY, eess.SY, I.2.9

arXiv PDF

📄 ActLoc: Learning to Localize on the Move via Active Viewpoint Selection

2025-08-29

Авторы:

Jiajie Li, Boyang Sun, Luca Di Giammarino, Hermann Blum, Marc Pollefeys

## Контекст Локализация робота является критическим аспектом робототехнических систем, особенно для навигации в неизвестной среде. Однако большинство существующих систем предполагают, что все направления взгляда из определенного места одинаково информативны. В реальных условиях это предположение может оказаться недостоверным, так как робот может встретить неизвестные, неоднозначные или неинформативные области, что снижает точность локализации. Для улучшения этой ситуации была предложена ActLoc, методология, которая активно выбирает точки полярного просмотра, оптимизируя точность локализации во время движения. ActLoc представляет собой не только новую архитектуру, но и целостный подход к решению проблемы неточной локализации в технических системах. ## Метод ActLoc основывается на активном выборе точек просмотра, который осуществляется с помощью внутритренированной нейронной сети с аттенцией. Эта сеть анализирует метрический сетка и позиции камеры, используемые при построении карты. Она предсказывает точность локализации в разных направлениях (yaw и pitch) для каждой точки в пространстве. Эти предсказания используются в планировщике пути, чтобы выбирать наиболее подходящие направления для просмотра, чтобы оптимизировать локализацию. Также, ActLoc позволяет учитывать ограничения задачи и движения во время планирования. Этот комплексный подход позволяет ActLoc эффективно применяться в различных сценариях навигации и исследований. ## Результаты После обучения ActLoc были проведены эксперименты, в которых она была протестирована на различных сценариях локализации. Для этого использовались разные метрические карты и наборы данных позиций камеры. Результаты показали, что ActLoc превосходит существующие методы, предлагая значительно более высокую точность локализации в разных условиях. Например, она достигла более высокой точности во время полного цикла навигации, по сравнению с другими системами. Эти результаты были получены с помощью заданных метрик и данных, что дает оценку качества решения в реальных условиях. ## Значимость ActLoc может применяться в различных сферах, где необходима точная локализация робота. Например, в промышленной автоматизации, где роботы должны перемещаться в крупных производственных зонах, или в сфере технического обслуживания, где роботы должны перемещаться в ограниченных пространствах, таких как здания. Одним из основных преимуществ ActLoc является её модульность и эффективность в разных условиях. Это делает её привлекательной для разработчиков, которые ищут решения для улучшения локализации в своих системах. Будущие исследования могут сос

Annotation:

Reliable localization is critical for robot navigation, yet most existing systems implicitly assume that all viewing directions at a location are equally informative. In practice, localization becomes unreliable when the robot observes unmapped, ambiguous, or uninformative regions. To address this, we present ActLoc, an active viewpoint-aware planning framework for enhancing localization accuracy for general robot navigation tasks. At its core, ActLoc employs a largescale trained attention-based...

ID: 2508.20981v1 cs.RO, cs.CV, cs.LG

arXiv PDF

📄 DATR: Diffusion-based 3D Apple Tree Reconstruction Framework with Sparse-View

2025-08-29

Авторы:

Tian Qiu, Alan Zoubi, Yiyuan Lin, Ruiming Du, Lailiang Cheng, Yu Jiang

#### Контекст Цифровые копии в реальном времени (digital twin) предлагают перспективы трансформации для мониторинга в реальном времени и симуляции роботов, используя точные виртуальные двойники физических объектов. Основой этих систем является 3D-реконструкция с высокой геометрической точностью. Однако существующие методики сталкиваются с трудностями при работе под полярными условиями, особенно при наличии скудных и затененных обзоров. Данное исследование разрабатывает рамформу DATR (Diffusion-based 3D Apple Tree Reconstruction) для 3D-реконструкции деревьев яблони из скудных обзоров. Фреймворк работает в двух стадиях: первая стадия применяет бортовые сенсоры и базовые модели для получения масок деревьев, которые исключают фоновую информацию. Вторая стадия включает в себя диффузионную модель и модель общего реконструктора для генерирования трехмерных моделей и нейронных полей. Эта рамформа была протестирована как на реальных, так и на синтетических данных. #### Метод DATR состоит из двух стадий. В первой стадии используется комбинация бортовых сенсоров и базовых моделей для получения масок деревьев в сложных полярных условиях. Эти маски используются для отфильтрования фоновых данных в многомодальных изображениях. Во второй стадии применяются диффузионная модель для построения трехмерных моделей и модель общего реконструктора для генерирования нейронных полей. Обучение диффузионной модели и модели общего реконструктора проводилось на синтетических данных, сгенерированных Real2Sim. Набор реальных данных включал шесть деревьев с измеренными территориальными значениями, а синтетический набор представлял собой структурно разнообразные деревья. #### Результаты DATR показал высокую точность реконструкции в сравнении с существующими методами на двух наборах данных. Он предоставил трехмерные модели деревьев с уровнем детализации, приближающимся к результатам промышленных лазерных сканеров, но с значительно нижей стоимостью и более высокой скоростью. Для оценки характеристик деревьев (например, ширины и высоты), DATR достиг результатов, приближающихся к промышленным сканерам, с повышенной производительностью примерно в 360 раз. #### Значимость DATR может применяться в сельскохозяйственных системах для получения цифровых двойников для мониторинга, оценки здоровья растений и оптимизации управления фермы. Он предлагает преимущества в скорости, стоимости и удобстве в использовании по сравнению с традиционными лазерными сканерами. Этот подход может также иметь значимые приложения в других областях, таких как транспорт, жилищное строитель

Annotation:

Digital twin applications offered transformative potential by enabling real-time monitoring and robotic simulation through accurate virtual replicas of physical assets. The key to these systems is 3D reconstruction with high geometrical fidelity. However, existing methods struggled under field conditions, especially with sparse and occluded views. This study developed a two-stage framework (DATR) for the reconstruction of apple trees from sparse views. The first stage leverages onboard sensors a...

ID: 2508.19508v1 cs.RO, cs.CV

arXiv PDF

📄 Context-Aware Risk Estimation in Home Environments: A Probabilistic Framework for Service Robots

2025-08-29

Авторы:

Sena Ishii, Akash Chikhalikar, Ankit A. Ravankar, Jose Victorio Salazar Luces, Yasuhisa Hirata

## Контекст Современные сервисные роботы находятся все более распространенными в повседневных интерьерах, где они предоставляют помощь в различных задачах. Однако ограниченная способность этих роботов распознавать и адаптироваться к опасным ситуациям ограничивает их эффективность и безопасность во взаимодействии с людьми. Особенно важной проблемой является оценка риска в домашних условиях, где возможны события, такие как подреживания, сколы или осколочные травмы. Для решения этой проблемы необходимо разработать систему, которая моделирует риск на уровне предметов и использует контекст для прогнозирования потенциальных аварийных ситуаций. Такое решение позволит роботам активно отреагировать на опасности и улучшить надежность и безопасность взаимодействия в домашних условиях. ## Метод Для распознавания риска используется проблематично-распространяющаяся алгоритм семантических графов. Каждый предмет в интерьере представлен в виде узла в графе, связанном с определенным скоростным опасным скором. Риск асимметрично распространяется с самых высокопроблемных предметов на менее опасные, в зависимости от их расположения и влияния друг на друга. Моделирование использует не только геометрическую информацию, но и контекст, что позволяет роботу оценивать риск даже при недоступности прямого видения опасного предмета. Данная методология легко реализуется на борту робота и предназначена для интерпретируемости. ## Результаты На основе датасета с ручной оценкой риска подтверждена эффективность метода. Он достиг точности бинарной оценки риска в 75%, аккуратно распознавший опасные и неопасные области в домашних интерьерах. Особое внимание уделяется сценам с острыми и нестабильными предметами, где робот способен определять повышенный риск с большой точностью. Этот подход показал сильную связь с человеческим распознаванием риска, что подтверждает его пригодность для реализации в системах сервисных роботов. ## Значимость Наш фреймворк может быть применен в различных задачах, связанных с анализом домашних сцен и принятием контекстно-ориентированных решений. Он может предоставлять реальному времени анализ риска, обеспечивать роботу возможность прогнозировать и устранять опасности, а также помогать пользователям избегать травм и повреждений. Благодаря своей простоте и эффективности, данный метод может быть внедрен в различные системы, включая беспилотники, автоматизированные системы домашней безопасности и системы оповещения о потенциальных рисках. ## Выводы М

Annotation:

We present a novel framework for estimating accident-prone regions in everyday indoor scenes, aimed at improving real-time risk awareness in service robots operating in human-centric environments. As robots become integrated into daily life, particularly in homes, the ability to anticipate and respond to environmental hazards is crucial for ensuring user safety, trust, and effective human-robot interaction. Our approach models object-level risk and context through a semantic graph-based propagat...

ID: 2508.19788v1 cs.RO, cs.CV

arXiv PDF

📄 Enhancing Video-Based Robot Failure Detection Using Task Knowledge

2025-08-28

Авторы:

Santosh Thoduka, Sebastian Houben, Juergen Gall, Paul G. Plöger

## Контекст Modern robotics relies heavily on the ability to detect and respond to task failures to ensure safe operation and efficient task completion. Despite significant advancements, many existing failure detection methods face challenges in real-world scenarios due to limited generalizability and insufficient contextual understanding. Traditional approaches often rely on low-level sensory data, neglecting task-specific knowledge that could enhance detection accuracy. This limitation underscores the need for integrative methods that leverage both visual and semantic information to improve robustness and reliability in failure detection. ## Метод Our approach introduces a video-based failure detection system that incorporates spatio-temporal knowledge derived from the robot's actions and the task-relevant objects in its field of view. By leveraging these elements, the method enhances the interpretability and accuracy of failure detection. The architecture includes a spatio-temporal feature extraction module, which processes video frames to identify actions and objects. This information is then combined with a failure detection model, enabling the system to reason about task execution and identify deviations indicative of failures. The approach is designed to be adaptable, utilizing existing datasets with additional annotations for task-relevant knowledge. ## Результаты To evaluate the method, we conducted experiments on three datasets: ARMBench, EPIC-KITCHENS, and a custom robotic dataset. These datasets were augmented with annotations for actions and objects relevant to the tasks being performed. The results demonstrate a substantial improvement in performance, with the F1 score increasing from 77.9 to 80.0 on the ARMBench dataset using variable frame rates. Test-time augmentation further enhanced the score to 81.4. These findings highlight the significant impact of spatio-temporal information on failure detection and validate the proposed data augmentation strategy as an effective means to improve model performance. ## Значимость The proposed approach has broad applications in robotic task execution, particularly in domains requiring high reliability, such as healthcare, manufacturing, and domestic service robots. By integrating task-relevant knowledge, the method offers enhanced robustness and adaptability to real-world variations. Its ability to improve failure detection performance without significant computational overhead underscores its practical value. Furthermore, the proposed data augmentation technique provides a novel approach to optimizing model training, paving the way for future research into heuristic-driven enhancements for robotic vision systems. ## Выводы The study underscores the critical role of spatio-temporal knowledge in improving video-based failure detection. The proposed method demonstrates marked improvements in detection accuracy across diverse datasets, highlighting its potential for real-world deployment. Future research will focus on refining heuristics, exploring additional task-relevant features, and extending the approach to more complex robotic tasks. The availability of code and annotations ensures transparency and facilitates further advancements in this field.

Annotation:

Robust robotic task execution hinges on the reliable detection of execution failures in order to trigger safe operation modes, recovery strategies, or task replanning. However, many failure detection methods struggle to provide meaningful performance when applied to a variety of real-world scenarios. In this paper, we propose a video-based failure detection approach that uses spatio-temporal knowledge in the form of the actions the robot performs and task-relevant objects within the field of vie...

ID: 2508.18705v1 cs.RO, cs.CV

arXiv PDF

📄 Enhanced UAV Path Planning Using the Tangent Intersection Guidance (TIG) Algorithm

2025-08-28

Авторы:

Hichem Cheriet, Khellat Kihel Badra, Chouraqui Samira

## Контекст В настоящее время воздушные роботы (УАВы) играют ключевую роль в различных областях, включая боевую поддержку, доставку посылок и операции спасения. Однако эффективная и безопасная навигация УАВов остается вызовом, особенно в сложных и динамичных средах. Доминирующие методы планирования маршрутов часто не удовлетворяют требованиям к скорости и точности. В этой статье предлагается Tangent Intersection Guidance (TIG) — новый подход к планированию маршрутов УАВов, который учитывает такие факторы, как ограничения кинематики, динамика и безопасность. TIG использует метод пересечения эллиптических тангентов для генерации маршрутов и адаптирует их в реальном времени для обеспечения коллизионного минимума. ## Метод TIG оптимизирует маршрут, используя метод пересечения эллиптических тангентов для структурирования двух подмаршрутов, каждый из которых соответствует отдельному угрозу. Оптимальный маршрут выбирается с помощью геометрического правила, после чего производится итеративное оптимизация с учетом ограничений УАВа. Решение заключается в сочетании этих подмаршрутов и их сглаживании с помощью модифицированных квадратичных кривых Безье. Эта методика позволяет генерировать плавные и эффективные маршруты, учитывая ограничения УАВа, включая скорость, ускорение и геометрические ограничения. ## Результаты Эксперименты проводились на статических и динамических средах с различными уровнями сложности. TIG сравнивался с такими алгоритмами, как A*, PRM, RRT*, Tangent Graph и APPATT. В статических условиях TIG демонстрировал самые короткие маршруты за меньше времени и с меньшим числом поворотных углов. Например, время генерации маршрута начиналось от 0.01 секунд. В динамических условиях TIG значительно превосходил APF и Dynamic APPATT в ситуациях, требующих быстрого коллизионного минимизации. Эти результаты подтверждают высокую эффективность TIG в реальном времени. ## Значимость TIG может применяться в различных сценариях, таких как доставка посылок, боевая поддержка и спасательные операции. Он обеспечивает более быстрое и точное планирование маршрутов в сравнении с другими методами. Его преимущество заключается в реальном времени, гибкости и гидравлической точности. Это открывает перспективы для улучшения производительности УАВов в различных приложениях, включая те, где требуется высокая быстрота реакции и минимальное рискованное поведение. ## Выводы TIG является прорывом в планировании маршрутов УАВов, обеспечивая более эффективное, быстрое и безоп

Annotation:

Efficient and safe navigation of Unmanned Aerial Vehicles (UAVs) is critical for various applications, including combat support, package delivery and Search and Rescue Operations. This paper introduces the Tangent Intersection Guidance (TIG) algorithm, an advanced approach for UAV path planning in both static and dynamic environments. The algorithm uses the elliptic tangent intersection method to generate feasible paths. It generates two sub-paths for each threat, selects the optimal route based...

ID: 2508.18967v1 cs.RO, cs.CV

arXiv PDF

1
2
17
18
19
20
21
22
23

Показано 181 - 190 из 225 записей