📚 Саммари научных статей из arXiv

Найдено 544 результатов по запросу 'cs.RO, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Self-Guided Action Diffusion

2025-08-19

Авторы:

Rhea Malhotra, Yuejiang Liu, Chelsea Finn

## Контекст Большинство современных роботизированных систем используют генерируемые политики для того, чтобы удовлетворять потребностям в быстром и точным решении проблем. Одной из ключевых задач в этой области является повышение эффективности и реактивности диффузионных политик, которые используются для управления роботами в ситуациях, требующих оперативной реакции на изменения вокруг них. Дело в том, что разнообразие действий, которые могут быть приняты в определенной ситуации, может быть очень велико, что приводит к увеличению сложности обучения и применения политик. Наша мотивация заключается в разработке более эффективного метода для повышения консистентности и реактивности диффузионных политик, не увеличивая тем самым затраты на вычисления. ## Метод Мы предлагаем **Self-Guided Action Diffusion**, новый подход к диффузионным политикам, который использует информацию о предыдущих решениях для улучшения выбора действий на каждом шаге диффузии. Наш метод основывается на принципе **self-guided proposal distribution**, что позволяет уменьшить количество вычислений, необходимых для достижения оптимального решения. Мы используем **bidirectional decoding** для повышения консистентности, но в отличие от существующих подходов, мы руководствуем самим процессом распространения действий, чтобы уменьшить издержки на вычисления и увеличить реактивность. ## Результаты Мы провели эксперименты в симуляционных задачах, где протестировали нашу модель на различных типах динамических задач. Мы сравнивали нашу реализацию с существующими методами, используя одинаковые условия и размеры выборки. Результаты показали, что **Self-Guided Action Diffusion** достигает **до 70% более высоких успешных результатов** в случаях, когда доступно ограниченное количество выборок. Это демонстрирует высокую эффективность нашего подхода в условиях, где производительность и реактивность крайне важны. ## Значимость Наш метод может быть применен в различных сферах, где требуется высокая реактивность и точность управления. Например, в современных роботизированных системах, в работе с автономными транспортными средствами, в робототехнике, а также в медицинском робототехническом оборудовании. Одним из основных преимуществ нашего подхода является **низкая вычислительная сложность**, что делает его привлекательным для применения в реальном времени. Мы считаем, что наш метод может существенно повлиять на развитие робототехнических систем, улучшая их эффективность и надежность. ## Выводы Мы представили **Self-Guided Action Diffusion**, новый эффективный подход к диффузионным политикам, который позволяет достигать высоких успешных результатов с мини

Annotation:

Recent works have shown the promise of inference-time search over action samples for improving generative robot policies. In particular, optimizing cross-chunk coherence via bidirectional decoding has proven effective in boosting the consistency and reactivity of diffusion policies. However, this approach remains computationally expensive as the diversity of sampled actions grows. In this paper, we introduce self-guided action diffusion, a more efficient variant of bidirectional decoding tailore...

ID: 2508.12189v1 cs.RO, cs.AI

arXiv PDF

📄 Improving Pre-Trained Vision-Language-Action Policies with Model-Based Search

2025-08-19

Авторы:

Cyrus Neary, Omar G. Younis, Artur Kuramshin, Ozgur Aslan, Glen Berseth

## Контекст Предварительно обученные визионно-языковые-действительные (VLA) модели являются перспективным инструментом для создания общих политик для роботов. Однако при их применении в неизвестных средах они часто вызывают ломкие или небезопасные реакции. Эти проблемы возникают из-за отсутствия явного планирования и возможности взаимодействия с окружением в реальном времени. Наша мотивация заключается в развитии методов, которые бы улучшили точность и надежность таких моделей в сложных робототехнических задачах. ## Метод Мы предлагаем Vision-Language-Action Planning & Search (VLAPS), новую архитектуру, которая включает модельное планирование в процесс принятия решений VLA-политик. Это достигается с помощью модифицированного алгоритма Monte Carlo Tree Search (MCTS), запущенного в симуляционной среде. Абстракции и приоритеты действий, полученные из VLA-политики, используются для эффективного ограничения поиска. Эта комбинация позволяет взаимодействовать с задачами, усложненными абстрактными лексическими условиями, без того, чтобы терять в производительности. Алгоритм VLAPS также интегрирует моделирование окружения и планирование в одной структуре, обеспечивая улучшенные результаты в сложных сценариях. ## Результаты Мы провели эксперименты в среде RoboTHOR с задачами, определёнными языком, например, "переместите зелёную книгу на стол". Мы сравнили VLAPS с VLA-политикой, работающей в zero-shot режиме. Результаты показали, что VLAPS увеличивает успешность выполнения задач до 67%, что значительно превосходит базовую модель. Мы также проверили VLAPS на задачах с различными уровнями сложности и подтвердили улучшение производительности при использовании моделирования окружения. ## Значимость Предложенная методика может быть применена в широком круге робототехнических задач, включая домохозяйства, промышленность и транспорт. VLAPS обеспечивает более надежные и эффективные решения задач, уменьшая вероятность ошибок и небезопасных действий. Это расширяет возможности предварительно обученных VLA-моделей и делает их более пригодными для реального применения. ## Выводы Наше исследование показало, что внедрение модельного планирования в VLA-политики может значительно улучшить их производительность в сложных робототехнических задачах. Будущие исследования будут сфокусированы на улучшении моделирования среды, интеграции дополнительных абстракций и расширении применения VLAPS к другим типам роботов и задачам.

Annotation:

Pre-trained vision-language-action (VLA) models offer a promising foundation for generalist robot policies, but often produce brittle behaviours or unsafe failures when deployed zero-shot in out-of-distribution scenarios. We present Vision-Language-Action Planning & Search (VLAPS) -- a novel framework and accompanying algorithms that embed model-based search into the inference procedure of pre-trained VLA policies to improve their performance on robotic tasks. Specifically, our method biases a m...

ID: 2508.12211v1 cs.RO, cs.AI

arXiv PDF

📄 Tactile Gesture Recognition with Built-in Joint Sensors for Industrial Robots

2025-08-19

Авторы:

Deqing Song, Weimin Yang, Maryam Rezayati, Hans Wernher van de Venn

#### Контекст Гештурное распознавание в области Человеко-Роботного Взаимодействия (HRV) является активной областью исследований. Обычно для этого используются внешние сенсоры или роботские кожи. Однако данная работа изучает методы основанные на глубоком обучении, которые полагаются только на встроенные сенсоры робота. Это позволяет устранить необходимость дополнительных сенсорных систем, снижая стоимость и упрощая монтаж. Рассматриваются различные архитектуры нейронных сетей, в том числе конволюционные (CNN), чтобы оценить их влияние на точность распознавания. Данные эксперименты проводятся с целью изучения влияния представления данных и архитектуры модели на качество распознавания. #### Метод Для распознавания гештуров использовались две глубокие нейронные сети: STFT2DCNN и STT3DCNN. Они используют спектрограммы, полученные из сигналов встроенных сенсоров робота, как входные данные. Для сбора данных использовались два набора данных, отражающих различные сценарии взаимодействия робота с объектами. Модели обучались на этих наборах и оценивались на задачах контактного детектирования и классификации гештуров. Проведено сравнение результатов с другими архитектурами, включая традиционные CNN. #### Результаты Исследования показали, что модели, основанные на спектрограммах, демонстрируют значительное улучшение точности распознавания по сравнению с другими архитектурами. Также было проведено тестирование на новых позициях робота, где модели на основе спектрограмм показали более высокую общинность и точность. На двух задачах — контактного детектирования и классификации гештуров — STFT2DCNN и STT3DCNN достигли долей точности более 95%. Эти результаты демонстрируют возможность эффективного распознавания гештуров с использованием только встроенных сенсоров робота. #### Значимость Результаты показывают, что данный подход может быть применен в сценариях HRV, где внешние сенсоры являются ненужными или нежелательными. Избавление от дополнительных сенсоров повышает надежность, уменьшает стоимость и упрощает эксплуатацию. Этот метод может использоваться в промышленных роботах для улучшения взаимодействия с человеком, в сфере робототехнических систем, а также в любых ситуациях, где необходимо распознавание гештуров в реальном времени. #### Выводы На основе данных исследований были достигнуты следующие выводы: 1. Модели с подходом на основе спектрограмм эффективнее для гештурного распознавания по сравнению с другими архитектурами. 2. Спектрограммы являются ключевым

Annotation:

While gesture recognition using vision or robot skins is an active research area in Human-Robot Collaboration (HRC), this paper explores deep learning methods relying solely on a robot's built-in joint sensors, eliminating the need for external sensors. We evaluated various convolutional neural network (CNN) architectures and collected two datasets to study the impact of data representation and model architecture on the recognition accuracy. Our results show that spectrogram-based representation...

ID: 2508.12435v1 cs.RO, cs.AI

arXiv PDF

📄 Utilizing Vision-Language Models as Action Models for Intent Recognition and Assistance

2025-08-19

Авторы:

Cesar Alan Contreras, Manolis Chiou, Alireza Rastegarpanah, Michal Szulik, Rustam Stolkin

## Контекст В современной индустрии и жизни существуют возрастающие требования к быстрому и эффективному взаимодействию между людьми и роботами. Одним из ключевых аспектов этого взаимодействия является возможность робота быстро и точно определить намерения пользователя, предоставить прозрачную логику решения и оказать наиболее эффективную помощь. Однако на данный момент существуют значительные проблемы в этой области, включая недостаточную точность в решении задач и ограниченные возможности адаптации к изменению намерений пользователя. Данная работа направлена на развитие методов, которые позволят роботам не только быстро определять намерения, но и обеспечивать более точную и понятную помощь пользователям. ## Метод Для достижения поставленных целей в работе предлагается использовать сочетание существующей модели GUIDER для определения намерений с помощью визуально-языковых моделей (VLM) и текстовых языковых моделей (LLM). Методология включает в себя несколько ключевых этапов: 1. Использование визуального моделирования (YOLO и Segment Anything Model) для обнаружения объектов и их инстансного сегментирования. 2. Использование VLM для оценки релевантности обнаруженных объектов по отношению к заданной задаче. 3. Использование LLM для оценки релевантности объектов в текстовом виде. 4. Объединение результатов VLM и LLM для формирования вероятностного белка, который используется в GUIDER для динамического изменения намерений. 5. Автономное поведение робота, включая навигацию к объекту и его получение. ## Результаты Проведенные эксперименты показали, что сочетание VLM и LLM с GUIDER значительно повышает точность определения намерений пользователя. Использование визуальных моделей позволяет более точно определять объекты в реальном времени, тогда как текстовые модели обеспечивают дополнительную релевантность в текстовой области. Эти дополнения к GUIDER позволяют роботу быстрее адаптироваться к изменениям в намерениях пользователя и обеспечивают более точную помощь в выполнении задач. ## Значимость Разработанная система может быть применена в различных областях, включая автоматизацию производственных процессов, управление роботами в сложных средах и помощь в случае необходимости. Основное преимущество системы заключается в ее возможности быстро учитывать входные данные из разных источников и оптимизировать помощь на основе контекста. Это может привести к повышению производительности и улучшению качества взаимодействия с роботами. ## Выводы Результаты экспериментов показали, что использование VLM и LLM в сочетании с GUIDER значительно повышает точность определения намерений пользователя и улучшает общую эфф

Annotation:

Human-robot collaboration requires robots to quickly infer user intent, provide transparent reasoning, and assist users in achieving their goals. Our recent work introduced GUIDER, our framework for inferring navigation and manipulation intents. We propose augmenting GUIDER with a vision-language model (VLM) and a text-only language model (LLM) to form a semantic prior that filters objects and locations based on the mission prompt. A vision pipeline (YOLO for object detection and the Segment Any...

ID: 2508.11093v1 cs.RO, cs.AI, cs.HC

arXiv PDF

📄 Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward

2025-08-19

Авторы:

Jiarui Yang, Bin Zhu, Jingjing Chen, Yu-Gang Jiang

#### Контекст Одним из основных вызовов в области манипуляции роботов является выполнение задач с длительными горизонтами времени и редкими наградами. Традиционные методы оптимизации часто не способны эффективно справляться с такими задачами из-за нестабильности обучения и неэффективности использования данных. Методы сборки действий (action chunking) показали себя как промышленное решение, однако использование RL для устойчивого и эффективного обучения действий с переменной длиной и высокой размерностью остается затрудненным. Эта статья привносит AC3 в качестве решения этих проблем, ориентированного на построение стабильных и эффективных RL-фреймворков для манипуляции в реальных условиях. #### Метод AC3 (Actor-Critic for Continuous Chunks) — это новый RL-фреймворк, который учится формировать высокомерновые, непрерывные сегменты действий. Для обеспечения стабильности обучения и эффективного использования данных включены следующие механизмы: 1. **Асимметричное обновление актера**: Использование только успешных траекторий для обучения, чтобы избежать нестабильности. 2. **Усовершенствованная система критика**: - **Intra-chunk n-step returns**: Улучшение точности значений за счет нескольких шагов внутри сегментов действий. - **Self-supervised intrinsic rewards**: Дополнительные награды на основе анкоров, связанных с каждым сегментом, для повышения эффективности обучения. #### Результаты Исследования проводились на 25 задачах из BiGym и RLBench. AC3 показал высокую стабильность и эффективность в обучении, даже при небольшом количестве демонстраций и простом архитектуре модели. Результаты показали, что AC3 более устойчиво и эффективно по сравнению с другими RL-фреймворками на большинстве задач, демонстрируя преимущества его нового подхода к управлению с малой затратой ресурсов. #### Значимость Фреймворк AC3 может быть применен в различных робототехнических системах для выполнения задач с длительным горизонтом времени и редкими наградами. Его преимущества включают высокую стабильность и эффективность обучения, что позволяет использовать его в реальных условиях. Будущие исследования будут ориентированы на расширение AC3 на более сложные задачи и интеграцию с другими фреймворками для улучшения производительности. #### Выводы AC3 представляет собой перспективный подход к обучению RL для манипуляции с малой затратой ресурсов. Он доказал свою эффективность в решении задач с длительными горизонтами и редкими наградами, имея устойчивую архитектуру, которая может быть эффективно использована в реальных сценариях. Дальнейшие работы будут сфокусированы на расширении прикладных возможностей AC3 и его интеграции с другими методами.

Annotation:

Existing reinforcement learning (RL) methods struggle with long-horizon robotic manipulation tasks, particularly those involving sparse rewards. While action chunking is a promising paradigm for robotic manipulation, using RL to directly learn continuous action chunks in a stable and data-efficient manner remains a critical challenge. This paper introduces AC3 (Actor-Critic for Continuous Chunks), a novel RL framework that learns to generate high-dimensional, continuous action sequences. To make...

ID: 2508.11143v1 cs.RO, cs.AI

arXiv PDF

📄 Visuomotor Grasping with World Models for Surgical Robots

2025-08-19

Авторы:

Hongbin Lin, Bin Li, Kwok Wai Samuel Au

#### Контекст Гриппинг (прихватка) является основным заданием в робототехнических системах для хирургических операций (RAS). Автоматизация этой задачи позволяет снизить нагрузку на хирурга, повысить эффективность, безопасность и согласованность выполнения операций, превзойдя возможности телеоперативных систем. Основные ограничения существующих подходов заключаются в зависимости от исчерпывающих объектных моделей, работы с характеристиками визуальных сигналов, требующих ручной настройки, а также ограниченной точностью при осуществлении прихватки. Добиться более высокой универсальности, надежности и обеспечения миллиметровой точности прихватки сложнее в сложной среде хирургических операций. Этот доклад фокусируется на создании универсальной системы с визуальным мониторингом и управлением для хирургических операций. #### Метод Предлагается система Grasp Anything for Surgery V2 (GASv2), основанная на мировой модели (world-model-based). Головная идея — обеспечить визуальную обработку на основе данных окружения, включая распознавание объектов с помощью пары стероизображующих камер. Тренировка проводится в симуляторе с доменной случайностью, чтобы обеспечить максимальное покрытие в ситуациях реального действия. Для управления используется гибридный подход, который объединяет контроль визуального мониторинга с адаптивным управлением движений. Это позволяет обеспечить универсальность и увеличить надежность в сложных обстоятельствах. #### Результаты Проведены эксперименты в симуляционной и реальной среде хирургических операций. Использовались небольшие партии данных, охватывающие различные объекты и условия прихватки. Результаты показали, что GASv2 достигает успешности прихватки порядка 65% в окружениях с экзо-грипперами и новыми объектами. Была доказана способность системы обучиться только с одной парой камер в реальной среде, что подтверждает универсальность подхода. #### Значимость Предложенная система имеет широкие приложения в хирургической технике, включая автоматизированные операции в хирургии, где необходима высокая точность и безопасность. Универсальность и надежность системы позволяют применять ее в различных сценариях, включая непредсказуемые объекты и условия. Этот подход может существенно затянуть темпы развития робототехники в хирургии, уменьшив время и усилия, необходимые для прихватки объектов. #### Выводы Разработанная система GASv2 демонстрирует высокую универсальность и надежность в хирургических операциях. Она обеспечивает прихватку объекто

Annotation:

Grasping is a fundamental task in robot-assisted surgery (RAS), and automating it can reduce surgeon workload while enhancing efficiency, safety, and consistency beyond teleoperated systems. Most prior approaches rely on explicit object pose tracking or handcrafted visual features, limiting their generalization to novel objects, robustness to visual disturbances, and the ability to handle deformable objects. Visuomotor learning offers a promising alternative, but deploying it in RAS presents uni...

ID: 2508.11200v1 cs.RO, cs.AI

arXiv PDF

📄 Multi-Group Equivariant Augmentation for Reinforcement Learning in Robot Manipulation

2025-08-19

Авторы:

Hongbin Lin, Juan Rojas, Kwok Wai Samuel Au

## Контекст Использование визуально-моторных систем в реальном мире требует высокой эффективности семплинга для обучения моделей в ситуациях, где визуальные сигналы и моторные действия должны быть однозначно сопоставлены. Одной из подходящих индикуирующих моделей является симметрия задачи. Несмотря на то, что изометрические симметрии (применение одной и той же групповой трансформации ко всем объектам задачи на всех моментах времени) используются в многих работах, они не полностью учитывают неоднородные симметрии, которые могут присутствовать в реальных сценариях. Наша мотивация заключается в изучении неизометрических симметрий, которые могут улучшить эффективность обучения в системах-роботах. ## Метод Мы предлагаем новую формализацию частично наблюдаемого марковского процесса (POMDP), которая включает неизометрические симметрии. Эти симметрии учитывают различные групповые трансформации в пространственном и временном пространстве. Мы представляем метод Multi-Group Equivariance Augmentation (MEA), который использует несколько групповых трансформаций для применения разнообразия в обучающих данных. Для оценки симметрий мы предлагаем вольный вариант представления в виде ячеек, который сохраняет трансляционную эквивалентность. Метод MEA интегрируется с методом офлайн-реинфорсмента для повышения эффективности семплинга. ## Результаты Мы проводим эксперименты в двух сценариях манипуляции: доступ к железной лопате и управление робот-рукой. Для обучения используются данные симуляции с различными групповыми трансформациями. Мы сравниваем результаты MEA с существующими методами, такими как традиционные симметрии и без них. Обнаружено, что MEA позволяет улучшить эффективность семплинга и повысить точность обучения в ситуациях, где симметрии задачи неизометричны. Это достигается благодаря включению множественных групповых трансформаций и новым представлениям визуальных данных. ## Значимость Метод MEA может применяться в ситуациях, где требуется эффективное обучение визуально-моторных моделей, например, в системах-роботах, комплексных манипуляциях, где объекты имеют нестандартные симметрии. Он также может быть использован при отсутствии доступа к всеобъемлющим данным или когда требуется улучшение эффективности обучения. Наш подход может сделать системы-роботы более устойчивыми к различным условиям и увеличить их универсальность. ## Выводы Мы установили, что неизометрические симметрии могут значительно улучшить эффективност

Annotation:

Sampling efficiency is critical for deploying visuomotor learning in real-world robotic manipulation. While task symmetry has emerged as a promising inductive bias to improve efficiency, most prior work is limited to isometric symmetries -- applying the same group transformation to all task objects across all timesteps. In this work, we explore non-isometric symmetries, applying multiple independent group transformations across spatial and temporal dimensions to relax these constraints. We intro...

ID: 2508.11204v1 cs.RO, cs.AI

arXiv PDF

📄 Scene Graph-Guided Proactive Replanning for Failure-Resilient Embodied Agent

2025-08-19

Авторы:

Che Rin Yu, Daewon Chae, Dabin Seo, Sangwon Lee, Hyeongwoo Im, Jinkyu Kim

## Контекст Современные автономные системы, такие как роботы-помощники и самоуправляющиеся агенты, часто сталкиваются с проблемами при выполнении задач в реальном мире. Эти проблемы возникают из-за нехватки гибкости и адаптивности в их действиях. Например, если робот планирует положить предмет в шкаф, но не замечает, что шкаф закрыт, он может пытаться выполнить задачу, не успев отреагировать на изменение среды. Такие ситуации приводят к неудаче выполнения задачи и снижению доверия к таким системам. Эта проблема требует развития методов, позволяющих системам активно отслеживать состояние среды и корректировать планы вовремя, чтобы избежать неудач. Наша работа фокусируется на этом вопросе, предлагая проактивный метод перепланирования, который может обнаруживать и исправлять ошибки до того, как они приведут к сбою. ## Метод Мы предлагаем проактивный фреймворк перепланирования, который использует сценарные графы для отслеживания состояния среды и сравнения с референсными графами, построенными на основе успешных демонстраций. Этот подход использует RGB-D наблюдения и сравнивает текущее состояние среды с эталонными данными. Когда возникает несоответствие, активируется легковесный модуль логического анализа, который диагностирует проблему и предлагает корректировки. Метод не требует ручного проектирования правил и имеет широкое применение в различных сценариях, где требуется прочность и адаптивность. ## Результаты Мы проверили нашу модель на симуляторе AI2-THOR, используя различные сценарии, включая офисные и домашние. Наши эксперименты показали, что система может обнаруживать семантические и пространственные несоответствия до того, как они приводят к сбою, и корректировать планы, что приводит к значительному повышению успешности выполнения задач. Например, в сценарии с открытым шкафом система обнаружила планормальную несоответствие и повторно планировала действия, что привело к успешному выполнению задачи в 95% случаев. ## Значимость Наш подход может быть применен в различных областях, включая домашние роботы, ассистенты для старшего поколения, и автоматизированные системы в промышленности. Он обеспечивает улучшение устойчивости и эффективности автономных систем, уменьшая вероятность сбоев и увеличивая доверие пользователей. Это может привести к значительным практическим выгодам в различных отраслях. ## Выводы Мы представили проактивный фреймворк перепланирования, который позволяет обнаруживать и исправлять ошибки до их выполнения. Наши эксперименты показали, что данный подход значительно повышает устойчивость

Annotation:

When humans perform everyday tasks, we naturally adjust our actions based on the current state of the environment. For instance, if we intend to put something into a drawer but notice it is closed, we open it first. However, many autonomous robots lack this adaptive awareness. They often follow pre-planned actions that may overlook subtle yet critical changes in the scene, which can result in actions being executed under outdated assumptions and eventual failure. While replanning is critical for...

ID: 2508.11286v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 An Exploratory Study on Crack Detection in Concrete through Human-Robot Collaboration

2025-08-19

Авторы:

Junyeon Kim, Tianshu Ruan, Cesar Alan Contreras, Manolis Chiou

## Контекст Обследование инфраструктурных объектов, в том числе ядерных установок, является критически важной задачей для обеспечения безопасности и долговечности этих систем. Однако существующие методы ручных проверок обладают значительными недостатками, включая высокие риски для безопасности, высокую утомляемость операторов и потенциальные ошибки вследствие человеческих ограничений. На сегодняшний день недостаточно эффективности и точности таких методов приводят к необходимости развития новых подходов. Одним из таких подходов является Human-Robot Collaboration (HRC), который предполагает использование роботов, оснащенных визуальными алгоритмами детектирования. Этот подход может значительно улучшить точность исправности и эффективность работ, а также уменьшить человеческую нагрузку. ## Метод В данном исследовании использовались современные технологии, включая мобильную платформу робота Jackal и алгоритмы визуального распознавания, основанные на AI. Jackal оборудован видеокамерой для съемки видео изображений, которые анализируются в реальном времени с помощью предварительно обученного модели распознавания трещин. Эта модель была реализована с использованием компьютерного зрения и нейронных сетей. Работа робота координируется с человеком, который осуществляет управление узких местами интереса. Это сочетание человеческого зрения и роботских алгоритмов позволяет обеспечить более точное и эффективное обнаружение трещин. ## Результаты Исследование включало практические эксперименты на реальных объектах. Робот Jackal был задействован для съемки видео трещин в конкретных объектах, а затем проводился анализ изображений с помощью распознавания. Эксперименты показали, что HRC позволяет улучшить точность детектирования трещин в сравнении с ручными методами. Было также отмечено, что использование HRC позволяет сократить нагрузку на операторов, уменьшая вероятность человеческих ошибок. Эксперименты также показали, что HRC может быть применен в различных сценариях, включая операции в ядерных установках и других критичных структурах. ## Значимость Результаты исследования имеют значительное значение для различных отраслей, включая ядерную инфраструктуру, строительство и промышленность. В частности, HRC может использоваться для повышения точности и эффективности проверок в ядерных центрах, уменьшая вероятность ошибок и рисков безопасности. Этот подход также может уменьшить нагрузку на человеческое трудоустройство, позволяя операторам сосредоточиться на более сложных задачах. Таким образом, HRC может стать к

Annotation:

Structural inspection in nuclear facilities is vital for maintaining operational safety and integrity. Traditional methods of manual inspection pose significant challenges, including safety risks, high cognitive demands, and potential inaccuracies due to human limitations. Recent advancements in Artificial Intelligence (AI) and robotic technologies have opened new possibilities for safer, more efficient, and accurate inspection methodologies. Specifically, Human-Robot Collaboration (HRC), levera...

ID: 2508.11404v1 cs.RO, cs.AI, cs.HC

arXiv PDF

📄 Open, Reproducible and Trustworthy Robot-Based Experiments with Virtual Labs and Digital-Twin-Based Execution Tracing

2025-08-19

Авторы:

Benjamin Alt, Mareike Picklum, Sorin Arion, Franklin Kenghagho Kenfack, Michael Beetz

## Контекст Успехи в автоматизированном производстве и робототехнике показывают, что будущее науки может включать автономные роботы в качестве участников в научных исследованиях. Однако существуют серьезные проблемы, связанные с необходимостью гарантии открытости, повторяемости и достоверности таких исследований. Несовместимость существующих систем, трудности в повторении экспериментов и незначительное участие роботов в научных работах становятся значительными препятствиями. Это включает в себя недостаточную транспарентность в процессах экспериментов, нехватку возможности для открытого доступа к данным, а также недостаток инструментов для виртуального моделирования и трассировки. Для решения этих проблем необходимо разработать инновационные подходы, объединяющие транспарентность, открытость и достоверность в автономных научных исследованиях. ## Метод Для реализации подхода к открытой, повторяемой и достоверной робототехнике в научных исследованиях предлагается два основных компонента. Во-первых, **Semantic Execution Tracing Framework (SETF)**, который предназначен для логирования данных сенсоров вместе с семантически аннотированными состояниями веры робота. Это позволяет обеспечить прозрачность и повторяемость автоматизированных экспериментов. Во-вторых, **AICOR Virtual Research Building (VRB)**, который является облачной платформой для совместного использования, репликации и валидации научных экспериментов роботами. Он интегрирует детерминированное выполнение, семантическую память и открытые знания для поддержки автономных систем в участии в научных исследованиях. Эти компоненты обеспечивают совместимость, прозрачность и широкий доступ к данным, необходимым для достижения открытого и надежного научного робототехнического образования. ## Результаты Набор экспериментов был проведен с использованием системы AICOR VRB, где был организован виртуальный лабораторный ход с роботом-исследователем, который выполнял задачи по коллекционированию и хранению сантехнических элементов. В результате экспериментов были получены данные, показывающие, что подход SETF обеспечивает повторяемость экспериментов, а платформа VRB позволяет широкому кругу пользователей повторить эксперименты и проверить результаты. Эксперименты также показали, что интеграция семантической трассировки и открытой платформы VRB обеспечивает новый уровень открытости и доступности для научных исследований с роботами. ## Значимость Предлагаемый подход может быть применен в различных областях, таких как научные исследование, производство, технические обслуживания и строительство. Он

Annotation:

We envision a future in which autonomous robots conduct scientific experiments in ways that are not only precise and repeatable, but also open, trustworthy, and transparent. To realize this vision, we present two key contributions: a semantic execution tracing framework that logs sensor data together with semantically annotated robot belief states, ensuring that automated experimentation is transparent and replicable; and the AICOR Virtual Research Building (VRB), a cloud-based platform for shar...

ID: 2508.11406v1 cs.RO, cs.AI, 68T40, I.2.9

arXiv PDF

1
2
48
49
50
51
52
54
55

Показано 491 - 500 из 544 записей