📚 Саммари научных статей из arXiv

Найдено 225 результатов по запросу 'cs.RO, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Human-Interpretable Uncertainty Explanations for Point Cloud Registration

2025-09-25

Авторы:

Johannes A. Gaus, Loris Schneider, Yitian Shi, Jongseok Lee, Rania Rayyes, Rudolph Triebel

#### Контекст Инструменты для регистрации точечных множеств (point cloud registration) широко использваются в робототехнике, визуальной ориентации и других областях. Однако, методы, такие как ICP (Iterative Closest Point), чувствительны к неопределенности, возникающей из-за сенсорного шума, ошибок определения позы и частичного перекрытия областей из-за затенения. Эти факторы могут привести к сбоям в регистрации и, как следствие, к неточности работы роботов. Необходима методика, которая не только определит неопределенность, но и объяснит ее источники. Такая подходка позволит улучшить процесс регистрации и обеспечить более надёжные роботские системы. #### Метод Мы предлагаем новую методику, называемую Gaussian Process Concept Attribution (GP-CA). GP-CA анализирует неопределенность в регистрации точечных множеств и определяет её источники, такие как шум сенсоров или частичное перекрытие. Метод основывается на гауссовых процессах (Gaussian Processes), которые позволяют эффективно оценивать и объяснять неопределенность. Для улучшения точности и эффективности мы используем активное обучение (active learning), чтобы динамически выявлять новые источники неопределенности в реальных условиях. Это позволяет GP-CA адаптироваться к различным сценариям и обеспечивать надёжную регистрацию. #### Результаты Мы проверили GP-CA на трёх открытых наборах данных и в реальном эксперименте с роботом. Наши результаты показывают, что GP-CA превосходит другие методы по скорости работы, эффективности при использовании активного обучения и точности регистрации. Например, в реальном эксперименте мы продемонстрировали, как GP-CA позволяет роботу выявлять и корректировать неточности в регистрации в реальном времени, улучшая общую надежность системы. Эти результаты доказывают высокую эффективность GP-CA в решении проблем неопределенности в регистрации точечных множеств. #### Значимость Наш метод может применяться в различных областях, где требуется надёжная регистрация точечных множеств, такие как робототехника, визуальная ориентация и генерирование 3D-моделей. GP-CA демонстрирует высокую эффективность и универсальность, что делает его привлекательным для различных приложений. Этот подход также обеспечивает улучшенную универсальность и позволяет адаптироваться к различным сложным условиям. Будущие исследования могут сосредоточиться на расширении GP-CA для работы с другими типами данных и его интеграции с другими технологиями. #### Выводы Мы представили GP-CA, новую методику для регистрации точечных множеств с интерпретируемыми неопределенностями. Наши эксперименты показали, что GP-CA эффективно устраняет неточности, объясня

Annotation:

In this paper, we address the point cloud registration problem, where well-known methods like ICP fail under uncertainty arising from sensor noise, pose-estimation errors, and partial overlap due to occlusion. We develop a novel approach, Gaussian Process Concept Attribution (GP-CA), which not only quantifies registration uncertainty but also explains it by attributing uncertainty to well-known sources of errors in registration problems. Our approach leverages active learning to discover new unc...

ID: 2509.18786v2 cs.RO, cs.CV

arXiv PDF

📄 DexSkin: High-Coverage Conformable Robotic Skin for Learning Contact-Rich Manipulation

2025-09-25

Авторы:

Suzannah Wistreich, Baiyu Shi, Stephen Tian, Samuel Clarke, Michael Nath, Chengyi Xu, Zhenan Bao, Jiajun Wu

## Контекст Успешное подчинение на близких к реальности задачах манипуляции требует точного обнаружения и локализации контактных событий. Однако существующие сенсорные системы, обычно ограниченные плоскими или малыми регионами, не могут предоставить объемную обработку контактных данных, необходимую для эффективного обучения в среде с большим количеством контактов. Это недостаточство ограничивает возможность искусственных систем подражать естественному трогательному чувству человека. Целью данной работы является разработка новой технологии сенсорической обвязки, которая может охватить большие зоны роботов и обеспечить высокую конформируемость, чтобы обеспечить широкую обработку контактных данных. ## Метод Для решения этой задачи разработана **DexSkin** — современная, многослойная электронная кожа, построенная на основе многослойного капацитного материала. Она обеспечивает высокую точность контактного сенсоринга и может быть применена к любым геометрическим формам, включая сложные контуры. Данная система построена на базе сенсоров, которые используют методы многоканального давления и керамических мембран для детальной локализации контактных данных. Такая архитектура позволяет DexSkin стать модульной и гибкой в использовании для разных типов роботов и задач. ## Результаты Для проверки того, что DexSkin позволяет достигнуть высокой точности в обработке контактных данных, проведены эксперименты на роботе с двумя параллельными клешнями. Данная система была успешно сенсоризирована по всей поверхности клешней, чтобы обеспечить широкий диапазон данных о контакте. Были проведены три основных эксперимента: реориентация объектов в руке, обмотание лентой вокруг пакета и установка маленьких предметов на контурные поверхности. Результаты показали, что DexSkin не только точно обнаруживает контакты, но и позволяет эффективно обучаться в обучении с подкреплением на реальных роботах. ## Значимость Высокая конформируемость и модульность DexSkin позволяют применять ее в различных областях, включая робототехнику, транспортные системы и роботы-медики. Данная технология предоставляет необходимую объемную обработку контактных данных, недоступную стандартным сенсорным системам, что позволяет улучшить качество манипуляций и задач в средах, требующих тесного контакта. Это может привести к новым вызовам в робототехнике и искусственном интеллекте. ## Выводы Разработка DexSkin достигла значительных успехов в сфере прикладной робототехники. Она эффективно решает проблемы в области контактного сенсоринга, предоставляя детальные данные и позволяя машинам учиться на ре

Annotation:

Human skin provides a rich tactile sensing stream, localizing intentional and unintentional contact events over a large and contoured region. Replicating these tactile sensing capabilities for dexterous robotic manipulation systems remains a longstanding challenge. In this work, we take a step towards this goal by introducing DexSkin. DexSkin is a soft, conformable capacitive electronic skin that enables sensitive, localized, and calibratable tactile sensing, and can be tailored to varying geome...

ID: 2509.18830v1 cs.RO, cs.CV, cs.LG

arXiv PDF

📄 Towards Robust LiDAR Localization: Deep Learning-based Uncertainty Estimation

2025-09-25

Авторы:

Minoo Dolatabadi, Fardin Ayar, Ehsan Javanmardi, Manabu Tsukada, Mahdi Javanmardi

#### Контекст LiDAR-based системы локализации и SLAM (Simultaneous Localization and Mapping) широко используются в различных приложениях, включая автоматизированные транспортные системы и интеллектуальные графические процессоры. Основным методом для позиционирования в этих системах является итеративный алгоритм синхронизации столбцов (ICP, Iterative Closest Point). Однако ICP чувствителен к ошибкам в окружающих условиях, в том числе неразличимых особенностям и динамическим сценам, что приводит к неточностям в оценке позиции. Интеграция ковариации ошибки ICP в систему мониторинга как часть генератора модели внешних воздействий позволяет разграничивать влияние внешних факторов и искажений на результат локализации. Однако определение этой ковариации, особенно в пространствах с отсутствием структуры или сильным влиянием динамики, остается задачей высокой сложности. #### Метод Мы предлагаем данно-ориентированную модель, основанную на нейронных сетях, для предсказания ковариации ошибки ICP. Наша модель не требует дополнительных сведений об окружающих условиях и может работать в абсолютно пространствах. Мы обучаем модель на большом количестве данных, полученных с различных LiDAR-сенсоров, включая сцены с малой структурой и внушительным динамическим спектром. Модель учитывает геометрические отношения между многоугольными фигурами, отклонениями от средних значений, и динамические интервалы, чтобы предсказать ковариацию. Мы также внедряем модель в систему генератора модели внешних воздействий в качестве внешнего вклада, чтобы улучшить локализацию в сложных условиях. #### Результаты Мы провели эксперименты на KITTI dataset, сравнивая нашу модель с существующими техниками оценки ошибки ICP, такими как линейные модели и нейронные сети с бинарным выводом. Наши результаты показали, что модель дает более точные оценки ковариации, даже в условиях с высоким уровнем динамики и отсутствия структуры. Кроме того, мы продемонстрировали, как интеграция нашей модели в систему позиционирования улучшает точность локализации и уменьшает количество ошибок. #### Значимость Прогнозирование ковариации ошибки ICP важно для многих приложений, связанных с локализацией и SLAM. Наша модель внедряется в системы, включая автоматизированные транспортные системы, системы интеллектуального мониторинга и интеллектуальные графические процессоры. Мы также предлагаем инструменты для моделирования и оценки сложности локализации в различных условиях, что может повысить уровень надежности и точности в сложных сценах. #### Выводы Мы предложили метод для предсказания ковариации ошибки ICP, который д

Annotation:

LiDAR-based localization and SLAM often rely on iterative matching algorithms, particularly the Iterative Closest Point (ICP) algorithm, to align sensor data with pre-existing maps or previous scans. However, ICP is prone to errors in featureless environments and dynamic scenes, leading to inaccurate pose estimation. Accurately predicting the uncertainty associated with ICP is crucial for robust state estimation but remains challenging, as existing approaches often rely on handcrafted models or ...

ID: 2509.18954v1 cs.RO, cs.CV

arXiv PDF

📄 Category-Level Object Shape and Pose Estimation in Less Than a Millisecond

2025-09-25

Авторы:

Lorenzo Shaikewitz, Tim Nguyen, Luca Carlone

## Контекст Область исследования, посвященная категорийному уровню оценки формы и положения объектов, является ключевой для многих задач в области робототехники, включая манипуляции, сценарное понимание и навигацию. Одним из основных вызовов является достижение высокой скорости расчёта с минимальным потреблением ресурсов. Существующие методы, хотя и могут обеспечить точность, часто требуют долгих вычислений и неэффективно используют свойства категории объектов. Мотивация для данного исследования заключается в создании быстрого, эффективного алгоритма, который может работать на уровне категории и обеспечить высокую скорость решения задачи с минимальными затратами вычислительных ресурсов. ## Метод Предлагаемый подход включает в себя два основных этапа. В первую очередь, используется нейронная сеть для определения спарсевых, категорийных семантических ключевых точек на объекте. Эти точки используются для построения линейной активной модели формы объекта. Затем, для решения задачи оптимизации максимума вероятности (MAP), которая решает задачу поиска положения, ориентации и формы объекта, используется самостоятельная полярная итерация (self-consistent field iteration). Этот метод эффективно решает уравнения, связанные с оптимальными условиями, воспользовавшись свойствами эйнштейновского спектра. Решение для вектора положения, ориентации и формы вычисляется за один проход, что обеспечивает высокую скорость. ## Результаты Авторы провестили эксперименты на синтетических данных, а также на реальных наборах данных, включая две общедоступные базы данных. Была оценена точность и скорость работы алгоритма. Обнаружено, что система достигает решения за менее 1 миллисекунды, что значительно превосходит скорость многих современных методов. Также было продемонстрировано, что алгоритм достаточно точен для решения задач манипуляции и сценарного понимания. Данные эксперименты подтверждают высокую эффективность и скорость работы предлагаемого метода. ## Значимость Предлагаемый подход может быть применён в различных робототехнических системах, включая манипуляционные роботы, виртуальную реальность и системы поиска и слежения. Он обеспечивает высокую скорость и точность, что делает его привлекательным для отраслей, требующих реального времени решений. Кроме того, способность алгоритма работать на уровне категории объекта позволяет уменьшить нагрузку на системы, используя только примитивные категории, а не точные модели. Это делает метод эффективным в сценариях, где доступ к полной модели объекта недоступен или не требуется. ## Выводы Предлагаемый м

Annotation:

Object shape and pose estimation is a foundational robotics problem, supporting tasks from manipulation to scene understanding and navigation. We present a fast local solver for shape and pose estimation which requires only category-level object priors and admits an efficient certificate of global optimality. Given an RGB-D image of an object, we use a learned front-end to detect sparse, category-level semantic keypoints on the target object. We represent the target object's unknown shape using ...

ID: 2509.18979v1 cs.RO, cs.CV

arXiv PDF

📄 Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

2025-09-24

Авторы:

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer

## Контекст В настоящее время существуют системы визуального управления, которые позволяют роботам автономно перемещаться по заранее проделанным маршрутам. Они выполняют это с помощью сравнения текущих визуальных данных с записанными маршрутами. Однако существуют ряд ограничений при использовании стандартных кадровых камер, таких как фиксированная частота кадров (около 30-60 Гц), что приводит к подверждению системы пониженной отзывчивости. Это означает, что система не может реагировать на неожиданные изменения в окружающем пространстве в реальном времени. Было предложено использовать событийные камеры, которые работают на основе различения высвобождения электронов в сенсоре, что дает более высокую частоту данных и мощность обработки, что может решить проблему небольшой отзывчивости. Наша работа является первой попыткой создания системы визуального управления на основе событий для визуального "учить и повторять" (visual teach-and-repeat). ## Метод Мы предлагаем преобразовать проблему сопоставления событий в видеопотоке в пространство частот с помощью фундаментальных методов математической функции Фурье. Это позволяет сравнивать визуальные потоки непосредственно в формате частоты, без необходимости использования вычислительно трудоемких операций в пространстве изображений. Мы также применяем методы сжатия, чтобы уменьшить размер потоков событий, что увеличивает скорость обработки данных. Наша архитектура управления использует бинарные расширения, чтобы улучшить точность и скорость распознавания. ## Результаты Мы проверили нашу систему на видеосеансах с событийной камеры Prophesee EVK4 HD, которая была установлена на роботе AgileX Scout Mini. Мы провели эксперименты на путях длиной 4000+ метров, включающих и внутренние, и внешние условия. Наша система показала точность, измеренную с помощью метрики Absolute Trajectory Error (ATE), менее 24 сантиметров, что указывает на высокую точность и надежность. Мы также составили сравнительные тесты с существующими фрейм-ориентированными системами, которые показали, что наша система работает на порядок быстрее, достигая частоты обработки данных, превышающей 300 Гц. ## Значимость Наша работа может быть применена в сферах автоматизации, включая автономные доставки, роботы-уборщики и охранные системы. Она предоставляет преимущество в скорости обработки и точности в сравнении с фрейм-ориентированными системами. Мы считаем, что наш подход может стать основой для развития более эффективных и быстрых систем управления роботами, что может повлиять на развитие робототехники в целом. ## Выводы Мы успешно ра

Annotation:

Visual teach-and-repeat navigation enables robots to autonomously traverse previously demonstrated paths by comparing current sensory input with recorded trajectories. However, conventional frame-based cameras fundamentally limit system responsiveness: their fixed frame rates (typically 30-60 Hz) create inherent latency between environmental changes and control responses. Here we present the first event-camera-based visual teach-and-repeat system. To achieve this, we develop a frequency-domain c...

ID: 2509.17287v1 cs.RO, cs.CV

arXiv PDF

📄 Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

2025-09-24

Авторы:

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett Raine

#### Контекст Коралловые рифы играют ключевую роль в морских экосистемах, обеспечивая убежище, питание и защиту для многих видов. Однако они сталкиваются с чрезвычайно затрудненной ситуацией из-за изменений климата, глубинного отблеска, белых заболеваний и травматизма. Одним из решений, предназначенных для спасения этих экосистем, является коралловая аквакультура. Однако аквакультура вынуждена справляться с рядом затруднений, в том числе трудоемкой ручной работой, в том числе ручным подсчетом как процесса запланированной размноженности, так и естественной размноженности. Эти процессы являются критическими для корректного управления живым материалом и могут стать критическим ограничением в производственном процессе. Для автоматизации и улучшения этих процессов мы разработали Coral Spawn and Larvae Imaging Camera System (CSLICS). #### Метод CSLICS является модульным системой, состоящей из недорогих камер и объектных детекторов, обученных с помощью методов human-in-the-loop для автоматизации процесса подсчета клеток спавна в трубах с питанием. Обучение модели производится на основе ручных меток, что позволяет достичь высокой точности модели. Мы собрали разнообразный набор данных, включающий изображения как на поверхности, так и под поверхностью. В рамках методологии включены техники обучения моделей, которые могут обрабатывать разнообразные сцены спавна, чтобы повысить точность интерпретации. #### Результаты Мы провели эксперименты на данных, собранных в ходе массовых процессов спавна на Большом Барьерном Рифе. Для детекции поверхностных клеток спавна мы достигли F1-меры 82.4%, что позволяет идентифицировать спавн в разных этапах эмбрионирования. Для подпитающихся клеток мы достигли F1-меры 65.3%. Анализ показал, что CSLICS смог эффективно уменьшить время работы, сократив трудозатраты на 5,720 часов за счет замены ручных счетами. Это значительно ускоряет процесс мониторинга и управления производством клеток спавна. #### Значимость CSLICS представляет собой новый инструмент для коралловой аквакультуры, позволяя автоматизировать процесс подсчета клеток спавна и мониторинга здоровья логовов. Это решение может быть применено не только в коралловой аквакультуре, но и в других областях, где необходимо автоматизировать мониторинг и счет процессов. Улучшая точность и эффективность мониторинга, CSLICS позволяет увеличить масштаб работ по реставрации коралловых рифов, что является ключевым для защиты экосистем от угроз, связанных с изменением климата. #### Выводы Разработанная система CSLICS достигла значительных

Annotation:

Coral aquaculture for reef restoration requires accurate and continuous spawn counting for resource distribution and larval health monitoring, but current methods are labor-intensive and represent a critical bottleneck in the coral production pipeline. We propose the Coral Spawn and Larvae Imaging Camera System (CSLICS), which uses low cost modular cameras and object detectors trained using human-in-the-loop labeling approaches for automated spawn counting in larval rearing tanks. This paper det...

ID: 2509.17299v1 cs.RO, cs.CV

arXiv PDF

📄 Sight Over Site: Perception-Aware Reinforcement Learning for Efficient Robotic Inspection

2025-09-24

Авторы:

Richard Kuhlmann, Jakob Wolfram, Boyang Sun, Jiaxu Xing, Davide Scaramuzza, Marc Pollefeys, Cesar Cadena

## Контекст Автоматическое испытание — важный аспект робототехники, применяющийся во многих областях, таких как промышленное мониторинга, поиск-спасательные операции и аудит сетей. Классические подходы сфокусированы на построении маршрутов минимальной длины, без учета того, что задача испытания заключается не в том, чтобы просто добраться до цели, а в том, чтобы обеспечить детальное визуальное исследование. Эта проблема становится особенно актуальной в средах с высокой степенью запутанности или с целями, которые становятся видимыми до прибытия к ним. В данной работе мы предлагаем перспективу решения этой проблемы с помощью усовершенствованного подхода, ориентированного на визуальную ориентацию. ## Метод Мы предлагаем алгоритм **Perception-Aware Reinforcement Learning (PARL)**, который использует нейронные сети для оценки видимости цели из различных позиций робота. Работа алгоритма основывается на двух компонентах: **сенсорной сигналы** (информация о цели) и **проприоцептивных сигналах** (информация о положении и направлении движения робота). Мы использовали симулятор для тренировки модели, что дало возможность эффективно оценивать различные сценарии. Наша модель научилась строить маршруты, минимизируя время, затраченное на визуальное обнаружение цели. ## Результаты Мы провели эксперименты в симуляторе и на реальном роботе. Наши результаты показали, что PARL выполняет маршруты более эффективно, чем классические алгоритмы и другие решения на основе машинного обучения. Мы также сравнили нашу модель с алгоритмом **RRT** (Rapidly-exploring Random Tree), который строит маршрут на основе топологии среды, и показали, что PARL не только эффективнее, но и более универсален. ## Значимость Метод Sight Over Site может применяться в различных сферах, например, для автоматизации промышленных процессов, поиска-спасательных операций, мониторинга сетей и даже роботизированных аудитов. В отличие от традиционных подходов, наше решение ориентировано не только на передвижение, но и на визуальную интеракцию с целью. Это дает значительный выигрыш в эффективности и точности. ## Выводы Мы доказали, что наш подход эффективно решает задачу визуального испытания, устанавливая новый стандарт для этой области. Будущие исследования будут направлены на улучшение точности модели в условиях сложной окружающей среды и расширение её возможностей для работы в реальном времени.

Annotation:

Autonomous inspection is a central problem in robotics, with applications ranging from industrial monitoring to search-and-rescue. Traditionally, inspection has often been reduced to navigation tasks, where the objective is to reach a predefined location while avoiding obstacles. However, this formulation captures only part of the real inspection problem. In real-world environments, the inspection targets may become visible well before their exact coordinates are reached, making further movement...

ID: 2509.17877v1 cs.RO, cs.CV

arXiv PDF

📄 DriveDPO: Policy Learning via Safety DPO For End-to-End Autonomous Driving

2025-09-24

Авторы:

Shuyao Shang, Yuntao Chen, Yuqi Wang, Yingyan Li, Zhaoxiang Zhang

## Контекст Autonomous driving теперь широко распространено в технологической сфере, но по-прежнему сталкивается с затруднениями в зоне безопасности и надежности. Задача end-to-end autonomous driving, которая предполагает прямое получение будущих движений из входных данных перцепции, стала популярной. Однако существующие методы, основанные на имитационном обучении, имеют критические недостатки. Они не могут отличать логически человеческие, но потенциально опасные движения. Несмотря на то, что некоторые подходы используют регрессию для обратной возможности соблюдения правил, они остаются неэффективными, так как предпочтения по безопасности не учитываются напрямую в процессе ОП. В результате, нуждается в выделении подхода для более безопасного и надежного автономного вождения. ## Метод DriveDPO является продвинутым фреймворком, основанным на Direct Preference Optimization (DPO). Это процесс, который учитывает как правила безопасности, так и имитационную эффективность. Основная идея заключается в том, чтобы создать политическую модель, которая была оптимизирована для удовлетворения взвешенных предпочтений. Мы предлагаем инновационный подход, который использует дистилляцию для одновременного учета правил и имитации. Формально, мы используем итеративную оптимизацию предиктов предпочтений, чтобы выравнивать траектории по возможностям безопасности. Далее, мы используем универсальную архитектуру, которая включает в себя нейронные сети для предсказания движений, с учетом быстрого реагирования на внешние условия. ## Результаты Мы провели эксперименты на NAVSIM, популярной автономной платформе. Наши результаты демонстрируют, что DriveDPO показал улучшение в 20% по Performance and Durability Metrics (PDMS) на противоположности, со средним показателем 90.0. Эти результаты показали существенное улучшение в замешательстве забот и стремительности реагирования. Кроме того, DriveDPO смог продемонстрировать надежность в сценариях с высоким уровнем непредсказуемости, таких как пересечения и повороты. Отчеты показывают, что DriveDPO выполняет более безопасные действия, уменьшая риск возможных столкновений в реальном мире. ## Значимость DriveDPO может быть применен в различных сферах безопасности вождения, включая автоматизированные системы, транспортные сети и сервисы доставки. Он предлагает улучшенную эффективность и безопасность, открывая потенциал для меньшего количества столкновений и улучшения удобства вождения. Благодаря своей универсальности и гибкой структуре, DriveDPO может быть использован в различных моделях автомобилей и системах, включая ADAS и развивающиеся AV-технологии. ##

Annotation:

End-to-end autonomous driving has substantially progressed by directly predicting future trajectories from raw perception inputs, which bypasses traditional modular pipelines. However, mainstream methods trained via imitation learning suffer from critical safety limitations, as they fail to distinguish between trajectories that appear human-like but are potentially unsafe. Some recent approaches attempt to address this by regressing multiple rule-driven scores but decoupling supervision from pol...

ID: 2509.17940v1 cs.RO, cs.CV

arXiv PDF

📄 CoReVLA: A Dual-Stage End-to-End Autonomous Driving Framework for Long-Tail Scenarios via Collect-and-Refine

2025-09-23

Авторы:

Shiyu Fang, Yiming Cui, Haoyang Liang, Chen Lv, Peng Hang, Jian Sun

## Контекст Автономные системы управления транспортными средствами (Autonomous Driving, AD) стали существенно продвинуться в последние годы, но их производительность в редких, возможно опасных сценариях (long-tail scenarios) остается недостаточной. Эти сценарии часто приводят к авариям, но традиционные методы трудно применяются для их эффективного решения. Функциональность Vision-Language Action (VLA) моделей, включающих мощные способности разума, остается недостаточно эффективной из-за ограниченности качественных данных и неэффективности обучения в трудных условиях. Чтобы улучшить поведение моделей в таких сценариях, необходимо разработать методы, позволяющие моделям учиться непосредственно от опыта взаимодействия с человеком. В этой статье предлагается CoReVLA, современная система, решающая проблему научного и практического значения в сфере AD. ## Метод CoReVLA представляет собой современную систему с двухступенчатой архитектурой, основанной на коллекции и оптимизации. На первом этапе, модель обучается на смеси открытых наборов данных водительских QA-задач, чтобы получить базовое понимание проблем вождения. На втором этапе, данные, собираемые в симуляционной среде Cave Automatic Virtual Environment (CAVE), используются для сбора реального данных, связанных с водительскими толчками (driver takeovers), которые отражают редкие, нестандартные сценарии. Водительские толчки используются как образцы для рефинирования модели с помощью технологии Direct Preference Optimization (DPO). DPO позволяет модели учиться непосредственно от желаний и предпочтений человека, избегая проблем, связанных с корректировкой ручного набора наград. ## Результаты Эксперименты проводились в двух режимах: открытом цикле (open-loop) и замкнутом цикле (closed-loop). На классической бенчмарк-платформе Bench2Drive, CoReVLA показала значительный прогресс по сравнению с современными системами. Она достигла значения Driving Score (DS) в 72.18 и Success Rate (SR) в 50% при тестах в long-tail сценариях, превосходя соревнующиеся модели на 7.96 DS и 15% SR. Также, исследования показали, что CoReVLA может продолжительно улучшать свои результаты в схожих сценариях, используя прошлый опыт, собранный во время толчков водителя. ## Значимость Система CoReVLA имеет широкий спектр потенциальных применений в автономном транспорте, в том числе в улучшении решения редких и опасных сценариев. Ее преимущества заключаются в улучшении безопасности и эффективности AD-систем, а также в предотвращении аварийных ситуаций. В будущем, модель может быть расширена для работы в различных видах транспорта и интегрирована с другими технологиями для достижения более высокого уровня автоматизаци

Annotation:

Autonomous Driving (AD) systems have made notable progress, but their performance in long-tail, safety-critical scenarios remains limited. These rare cases contribute a disproportionate number of accidents. Vision-Language Action (VLA) models have strong reasoning abilities and offer a potential solution, but their effectiveness is limited by the lack of high-quality data and inefficient learning in such conditions. To address these challenges, we propose CoReVLA, a continual learning end-to-end...

ID: 2509.15968v1 cs.RO, cs.CV

arXiv PDF

📄 RLBind: Adversarial-Invariant Cross-Modal Alignment for Unified Robust Embeddings

2025-09-20

Авторы:

Yuhong Lu

## Контекст Область исследования связана с развитием универсальных многосенсорных систем перцепции, которые объединяют визуальные, аудио и другие сенсорные данные в качестве основы для безопасного и эффективного работы роботов. Несмотря на потенциал таких систем, особенно в сферах навигации, манипуляции и автономного управления, их развитие сталкивается с сильными вызовами, связанными с уязвимостью к адверсарных и естественным помехам. Наиболее распространенные подходы, такие как CLIP-стильные алгоритмы, стремятся улучшить универсальные показатели, но часто не достаточно эффективны в обеспечении устойчивости, особенно при нагрузке на жизнеобеспечение. Эта проблема требует развития систем, которые обеспечивают кросс-модальную корреляцию и улучшение обобщающих способностей, не уменьшая уровень точности. ## Метод Метод RLBind представляет собой двухступенчатый подход к созданию устойчивых кросс-модальных представлений. В первой стадии проводится неуправлянное онтономирование, целью которого является укрепление способности визуального энкодера справляться с адверсарными и естественными помехами. Во второй стадии используется кросс-модальная корреляция, где обучение стремится свести к минимуму различия между чистыми и адверсарными признаками, взаимодейстав с текстовым ядром, и применять класс-специфическую распределенную коррекцию. Это позволяет обеспечить кросс-модальный анализ, при этом сохранив гибкость и устойчивость в различных условиях. ## Результаты Разработанный подход был протестирован на обширных наборах данных, включая изображения, аудио, термические снимки и видео. Эксперименты показали, что RLBind превосходит стандартные подходы, включая LanguageBind и основные методы основанные на CLIP, как по чистым показателям, так и по методам устойчивости к адверсарным помехам. Особенно важно отметить, что RLBind показал сильный показатель увеличения точности при оставании при этом сплоченным с кросс-модальными соотношениями. Этого достигнуто благодаря использованию методов согласования распределений и минимизации разброса между чистыми и адверсарными признаками. ## Значимость Предложенный подход предлагает широкие возможности в области многосенсорных систем для безопасного и эффективного использования в автоматизированных системах, в том числе в навигации, манипуляции и других автономных действиях. Его преимущество в том, что он обеспечивает не только робастность к адверсарным и естественным помехам, но также сохраняет уровень общих способностей. Эти достижения имеют потенциал для повышения уровня б

Annotation:

Unified multi-modal encoders that bind vision, audio, and other sensors into a shared embedding space are attractive building blocks for robot perception and decision-making. However, on-robot deployment exposes the vision branch to adversarial and natural corruptions, making robustness a prerequisite for safety. Prior defenses typically align clean and adversarial features within CLIP-style encoders and overlook broader cross-modal correspondence, yielding modest gains and often degrading zero-...

ID: 2509.14383v1 cs.RO, cs.CV

arXiv PDF

1
2
13
14
15
16
17
22
23

Показано 141 - 150 из 225 записей