📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Investigating Sensors and Methods in Grasp State Classification in Agricultural Manipulation

2025-08-19

Авторы:

Benjamin Walt, Jordan Westphal, Girish Krishnan

## Контекст Агротехнологии находятся в стадии активного развития, призванной повысить эффективность сельскохозяйственного производства. Одна из ключевых задач в этой области — достижение высокого качества сбора продукции с минимальными потерями и вредами для растений. Одним из сложных аспектов является точное понимание состояния захвата (grasp state) при помощи роботских рук. Это необходимо для планирования корректирующих действий в реальном времени, чтобы обеспечить эффективность и достоверность сбора. Однако сельскохозяйственная среда представляет собой уникальные вызовы, включая работу с уплотненными местностями, тесноуплотненными растениями и физически соединенными фруктами с растениями. Изучение эффективных сенсоров и методов классификации состояний захвата позволяет существенно улучшить точность и производительность сбора продукции. ## Метод Для классификации состояний захвата была разработана система, включающую несколько сенсоров: Инерциальных Мерающих Единиц (IMU), инфракрасных (IR) датчиков отражения, датчиков напряжения, сенсоров тактильного восприятия и RGB-камер. Эти сенсоры были интегрированы в совместимый клешнь, позволяющий замерять различные аспекты захвата. Для классификации использовались две модели: Random Forest и Long Short-Term Memory (LSTM) сети. Данные для обучения и тестирования были собраны в управляемой среде, а затем проверены на реальных растениях свистокетов. Методы классификации были подвергнуты сравнению, чтобы определить наиболее эффективную комбинацию сенсоров и методов моделирования. ## Результаты Эксперименты показали, что система с использованием IMU и датчиков напряжения достигла очень высокой точности в классификации состояний захвата — слипания, неудачных захватов и успешных сборов. Такая комбинация сенсоров предоставила 100% точности классификации в управляемой среде и показала результаты с высокой производительностью на реальных растениях. По сравнению с базовыми моделями, такими как Long Short-Term Memory (LSTM), Random Forest показал значительное улучшение в классификации. Это выделение минимальной комбинации датчиков, необходимой для точной классификации, позволило сократить сложность системы и улучшить её надежность. ## Значимость Результаты имеют решающее значение для сельскохозяйственных операций, включая сбор растений и фруктов. Эффективность классификации состояний захвата позволяет снизить потери продукции и повысить производительность сбора. На основе полученных результатов можно разрабатывать системы, которые будут использоваться в реальных условиях сбора, обеспечивая более точное планирование действий и меньшую вероятност

Annotation:

Effective and efficient agricultural manipulation and harvesting depend on accurately understanding the current state of the grasp. The agricultural environment presents unique challenges due to its complexity, clutter, and occlusion. Additionally, fruit is physically attached to the plant, requiring precise separation during harvesting. Selecting appropriate sensors and modeling techniques is critical for obtaining reliable feedback and correctly identifying grasp states. This work investigates...

ID: 2508.11588v1 cs.RO, cs.LG

arXiv PDF

📄 CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning

2025-08-09

Авторы:

Dongchi Huang, Zhirui Fang, Tianle Zhang, Yihang Li, Lin Zhao, Chunhe Xia

#### Контекст VLA (Vision-Language-Action) модели широко применяются в развитии универсальных политик для реального мира, включая робототехнический контроль. Однако их конечные цели, такие как улучшение общей универсальности и выполнение задач в условиях неопределенности, требуют дополнительного улучшения. Несмотря на то, что находятся в интересующей области, техники тренировки VLA моделей с помощью Reinforcement Learning (RL) сталкиваются с проблемами, такими как неэффективность при обучении, несовместимость с chunked action и нестабильность тренировочного процесса. Эти проблемы подчеркивают необходимость разработки эффективных методов, позволяющих улучшить полученные результаты VLA моделей. #### Метод Мы предлагаем Chunked RL — новую методологию для оптимизации VLA моделей, включая детальную интеграцию chunked action в темporal difference (TD) learning. Данный подход позволяет обеспечить более эффективное участие в процессе обучения, сохранив логику задач с VLA моделями. Мы также предлагаем CO-RFT — новую алгоритмическую реализацию для оптимизации VLA моделей с помощью ограниченных наборов примеров демонстрационных данных (30-60 примеров). Метод CO-RFT начинает с имитационного обучения (IL) для инициализации модели в целом и политики в частности, а затем применяет offline RL с chunked action для дополнительной оптимизации. Этот подход позволяет достичь высокой эффективности, увеличивая успешность и уменьшая цикличность задач. #### Результаты Наши результаты в реальных средах показали, что CO-RFT значительно превосходит предыдущие супервизорные методы, повышая успешность задач на 57% и уменьшая цикличность на 22.3%. Кроме того, CO-RFT доказал способность генерализоваться в новых позициях, получив 44.3% успешных результатов в неизвестных условиях. Эти результаты подтверждают мощь Chunked RL и CO-RFT в улучшении VLA моделей, демонстрируя их универсальность и эффективность в реальных условиях. #### Значимость Метод CO-RFT имеет значительное применение в предметных областях, таких как робототехническая тренировка, управление производственными процессами, искусственный интеллект в реальном мире. Он предоставляет несколько преимуществ, включая улучшенную эффективность обучения, лучшую общую универсальность и высокую ценность в условиях неопределенности. Наш подход также может иметь потенциал для расширения точности и эффективности в других RL-based моделях, позволяя ими повысить производительность в сложных реальных задачах. #### Выводы Мы достигли важных достижений в оптимизации VLA моделей, используя Chunked RL и CO-RFT. Эти открытия позволяют улучшить целостность и эффективность VLA моделей в реаль

Annotation:

Vision-Language-Action (VLA) models demonstrate significant potential for developing generalized policies in real-world robotic control. This progress inspires researchers to explore fine-tuning these models with Reinforcement Learning (RL). However, fine-tuning VLA models with RL still faces challenges related to sample efficiency, compatibility with action chunking, and training stability. To address these challenges, we explore the fine-tuning of VLA models through offline reinforcement learn...

ID: 2508.02219v1 cs.RO, cs.LG

arXiv PDF

📄 Aerobatic maneuvers in insect-scale flapping-wing aerial robots via deep-learned robust tube model predictive control

2025-08-09

Авторы:

Yi-Hsuan Hsiao, Andrea Tagliabue, Owen Matteson, Suhan Kim, Tong Zhao, Jonathan P. How, YuFeng Chen

## Контекст Летательные инсектоидные роботы, имитирующие поведение насекомых, широко используются в аэрокосмических и робототехнических исследованиях. Однако существуют значительные различия в их мобильности по сравнению с настоящими насекомыми. Насекомые способны выполнять впечатляющие маневры, такие как резкий тормоз, быстрые рефлексы и повороты, даже при воздействии внешних дисруптивных факторов. В то же время, инсектоидные роботы, особенно на масштабе инсектов, ограничены в их возможностях траектории и динамическими маневрами. Это связано с низким инерцией робота, быстрыми динамическими процессами, неоднородностью аэродинамических характеристик и восприимчивостью к внешним раздражителям. Для выполнения более сложных маневров необходимо создание агрессивных траекторий полета, которые подвергаются ограничениям железа, а также высокоточной динамической системы управления, учитывающей модельные и окружающие неопределенности. ## Метод Для достижения инсектоидной динамики и устойчивости в полете мы разработали модельный метод прогностического управления с глубоким обучением, который включает в себя контрмеры для устранения неопределенности. Мы использовали техники глубокого обучения для воспроизведения архитектуры управления насекомых, состоящей из центральной нервной системы и системы моторных нейронов. Для обеспечения высокой скорости реакции в реальном времени, необходимой для выполнения маневров, мы разрабатывали имитационное обучение для 2-уровневой полносвязной нейронной сети. Эта сеть моделирует функционал нервной системы насекомых, чтобы динамически реагировать на внешние воздействия. Мы также разработали методы управления трубным потоком, которые позволяют учитывать неопределенность в аэродинамических условиях и динамике робота. ## Результаты Мы провели эксперименты с полетным роботом, весом 750 миллиграмм, используя нашу модель управления. Маневры, которые мы смогли выполнить, включали резкие разгоны, быстрые повороты и 10 подряд выполненных поворотов в течение 11 секунд. Это представляет собой новую стандартную метрику для инсектоидных полётов. Мы также проверили устойчивость нашего робота под воздействием ветра с скоростью до 160 см/с и системными ошибками в генерации силы. Результаты показали, что наш робот выполняет маневры с увеличенной скоростью и ускорением, превышающими предыдущие показатели, в том числе 255% улучшение в ускорении и 447% в скорости. ## Значимость Наши работы открывают новые возмо

Annotation:

Aerial insects exhibit highly agile maneuvers such as sharp braking, saccades, and body flips under disturbance. In contrast, insect-scale aerial robots are limited to tracking non-aggressive trajectories with small body acceleration. This performance gap is contributed by a combination of low robot inertia, fast dynamics, uncertainty in flapping-wing aerodynamics, and high susceptibility to environmental disturbance. Executing highly dynamic maneuvers requires the generation of aggressive fligh...

ID: 2508.03043v1 cs.RO, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Residual Neural Terminal Constraint for MPC-based Collision Avoidance in Dynamic Environments

2025-08-09

Авторы:

Bojan Derajić, Mohamed-Khalil Bouzidi, Sebastian Bernhard, Wolfgang Hönig

## Контекст Планирование движения в динамических средах является ключевым задачей в робототехнике, автоматизированных системах и искусственном интеллекте. Одна из основных проблем в этой области — выживание и эффективное движение роботов в окружении движущихся объектов. Традиционные методы, основанные на моделях, часто сталкиваются с ограниченной точностью и реакцией на быстро меняющуюся среду. Задача заключается в разработке методов, которые обеспечат высокую точность и реакцию на изменения, сочетая в себе быстроту выполнения и эффективность. ## Метод Мы предлагаем гибридную локальную планировщик для моделирования движения (Model Predictive Control, MPC), который использует нейронные сети для оценки значения функции времени. Функция значения вычисляется с помощью анализа Хейвенда-Яки (HJ), но его реализация в реальном времени невозможна. Мы предлагаем структуру, где значение функции выражается как разность между сигнальным расстоянием (signed distance function, SDF) и негативной функцией резидента. Негативная функция резидента представляется в виде нейронной сети, которая гарантирует реальное время выполнения. Такая структура позволяет получить оценку значения функции, которая не менее безопасна, чем SDF. Мы также параметризуем нейронную сеть с помощью hypernetwork, чтобы увеличить скорость обучения и улучшить общие свойства. ## Результаты Мы провели эксперименты на симуляционных данных и на действительном оборудовании, сравнивая наш метод с тремя лучшими существующими методами. Результаты показывают, что наше решение позволяет повысить успешность задачи до 30% по сравнению с лучшим базовым методом. Наши результаты показали хорошую эффективность в реальном времени, не требуя значительного дополнительного ресурса. Это делает наш метод применимым в реальных ситуациях, где необходима быстрая реакция на изменения среды. ## Значимость Метод может быть применен в различных сферах, включая автомобильную индустрию, летательные аппараты, роботы-охотники в трудных условиях. В отличие от традиционных методов, наше решение обеспечивает высокую скорость и высокое качество решения задачи движения. Это делает его полезным для ситуаций, где необходима быстрая реакция на изменения окружения. Мы также отмечаем, что параметризация сети через hypernetwork может быть отправной точкой для дальнейших исследований в области улучшения скорости и точности планирования. ## Выводы Мы разработали новую модель MPC, которая использует нейронные сети для эффективного расчета значения функции времени в динамических средах. Это решение показало себя эффектив

Annotation:

In this paper, we propose a hybrid MPC local planner that uses a learning-based approximation of a time-varying safe set, derived from local observations and applied as the MPC terminal constraint. This set can be represented as a zero-superlevel set of the value function computed via Hamilton-Jacobi (HJ) reachability analysis, which is infeasible in real-time. We exploit the property that the HJ value function can be expressed as a difference of the corresponding signed distance function (SDF) ...

ID: 2508.03428v1 cs.RO, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Vision-based Perception System for Automated Delivery Robot-Pedestrians Interactions

2025-08-09

Авторы:

Ergi Tushe, Bilal Farooq

## Контекст В последние годы увеличилось интерес к использованию роботов-доставщиков (Automated Delivery Robots, ADRs) в урбанизированных пространствах, чтобы улучшить удобство и эффективность доставки товаров. Однако, интеграция этих роботов в области, где существуют сильные взаимодействия с пешеходами, порождает новые проблемы в области безопасности, эффективности и социального приемлемости движения. Авторы статьи предлагают развить полную технологическую цепь для обработки видеоданных о пешеходах, включающую обнаружение, отслеживание, определение позы и оценку глубины, используя только видеокамеру. Это решение может повысить безопасность и эффективность взаимодействия ADR с пешеходами в условиях живого города. ## Метод Предложенная модель основывается на нейросетевой архитектуре, которая объединяет несколько функций: обнаружение, отслеживание, определение позы и глубины. Используется реальный датасет MOT17, содержащий видео с пешеходами в различных условиях. Авторы применяют современные методы, такие как PoseTrack и DeepSORT, для повышения точности позиционирования и отслеживания. Особое внимание уделяется оценке глубины, что позволяет роботу понять расстояние до пешеходов и их размещение в пространстве. Модель тренируется на многочисленных примерах, чтобы обеспечить высокую точность в различных сценах, включая узкие места и деформированные поля зрения. ## Результаты Эксперименты показали, что модель обеспечивает достаточно высокую точность работы в сложных условиях. Например, IDF1-метрика (идентификация пешеходов) повысилась на 10%, MOTA (общая точность отслеживания) — на 7%, а точность обнаружения осталась выше 85% даже при большом количестве пешеходов и затрудненных условиях. Робот также показал умение распознавать группы уязвимых пешеходов (например, детей или стариков), что может помочь ADR вести себя более социально ориентированно. ## Значимость Результаты этих исследований могут быть применены в развитии безопасных и социально восприятимых роботов-доставщиков, которые могут взаимодействовать с пешеходами в условиях живого города. Известно, что модель улучшает навигационную эффективность, понимает социальные предпочтения пешеходов и может реагировать на их поведение. Это влечет за собой большую безопасность и удобство во взаимодействии. ## Выводы Исследования показали, что использование видеокамеры для обнаружения, отслеживания и оценки позы пешеходов дает результаты выше среднего. Роботы с таким подходом могут реагировать на живые сцены в городе более эффективно и социально восп

Annotation:

The integration of Automated Delivery Robots (ADRs) into pedestrian-heavy urban spaces introduces unique challenges in terms of safe, efficient, and socially acceptable navigation. We develop the complete pipeline for a single vision sensor based multi-pedestrian detection and tracking, pose estimation, and monocular depth perception. Leveraging the real-world MOT17 dataset sequences, this study demonstrates how integrating human-pose estimation and depth cues enhances pedestrian trajectory pred...

ID: 2508.03541v1 cs.RO, cs.LG

arXiv PDF

Показано 121 - 125 из 125 записей