📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Tongxuan Tian, Xuhui Kang, Yen-Ling Kuo

## Контекст Гранд статья! Она посвящена важной проблеме в области робототехники — осуществлению гранд функциональных свойств объектов (affordances) в трёхмерном пространстве. Это ключевой элемент для успешного взаимодействия роботов с окружающим миром, так как позволяет установить связь между чувственным восприятием и действиями. Несмотря на прогресс в рамках проекта роботов-инспекторов, многие существующие подходы ограничиваются предсказанием affordance для отдельных объектов, при этом менее уделяют внимания взаимодействиям между парами объектов, которые являются главной частью реального мира. Эта работа фокусируется на развитии нового подхода для обучения знаний о взаимодействиях объектов с помощью малого объёма данных, чтобы добиться устойчивости и широкой обобщаемости. ## Метод В этой работе предлагается новая архитектура, объединяющая несколько технологий для решения проблемы одношагового аппрециации 3D-объектов. Во-первых, используется семантический контекст, полученный из базисных моделей видения, чтобы охватить широкий круг семантических характеристик объектов. Во-вторых, происходит использование геометрического представления, используя трехмерные точечные множества (point cloud) для точного понимания формы и положения объектов. Эти компоненты объединяются в единую многозадачную архитектуру, которая обучается на основе методов с небольшим количеством примеров (few-shot learning). Более того, взаимодействие с большими языковыми моделями (LLM) позволяет расширить возможности объёма используемой информации, позволяя роботу лучше понимать и выполнять задачи, основанные на логике взаимодействия. ## Результаты В ходе экспериментов были проведены испытания на нескольких стандартных наборах данных, включающих трёхмерные модели различных объектов. Результаты показали, что новая модель O$^3$Afford оказывается значительно эффективнее существующих подходов в ситуациях, когда необходимо предсказать взаимодействия между парами объектов. Она демонстрирует высокую точность в предсказании свойств объектов и их интеракций, в то же время показывает устойчивость при обучении на небольших объёмах данных. Кроме того, интеграция с LLM демонстрирует улучшение в принятии решений и логической целостности в командах робота. ## Значимость Предлагаемый подход имеет широкие перспективы в задачах робототехники, особенно в сферах, требующих точного понимания взаимодействий между объектами, например, в сферах домохозяйств и производственных процессов. Этот подход позволяет значительно расширить в
Annotation:
Grounding object affordance is fundamental to robotic manipulation as it establishes the critical link between perception and action among interacting objects. However, prior works predominantly focus on predicting single-object affordance, overlooking the fact that most real-world interactions involve relationships between pairs of objects. In this work, we address the challenge of object-to-object affordance grounding under limited data contraints. Inspired by recent advances in few-shot learn...
ID: 2509.06233v1 cs.RO, cs.CV
Авторы:

Yuqing Wen, Hebei Li, Kefan Gu, Yucheng Zhao, Tiancai Wang, Xiaoyan Sun

#### Контекст В последние годы становится все более очевидным, что визуально-языковые модели (VLMs) успешно применяются в различных областях, включая робототехнику и работу с роботами. Однако существуют значительные проблемы в применении этих моделей в реальных задачах, таких как политика управления роботами. Для применения в робототехнике необходимы модели, которые могли бы учитывать взаимодействие между визуальным входом, языковыми командами и действиями. Например, для робота, выполняющего задачи в сложных средах, требуется модель, которая бы способна была прогнозировать действия на основе визуальных сигналов и текстовых команд. Эти проблемы побудили разработчиков развивать модели, которые могли бы учитывать все эти аспекты. #### Метод Мы предлагаем LLaDA-VLA, первую модель Vision-Language-Diffusion-Action (VLA), которая основывается на предобученных моделях с использованием метода масочевой диффузии (masked diffusion models). Модель LLaDA-VLA состоит из двух ключевых компонентов: (1) стратегии классификации специальных токенов, которая заменяет полноверсийный классификатор на классификатор только для специальных токенов; (2) стратегии декодирования, которая распределяет действия в последовательности с учетом зависимостей между ними. Это позволяет решить проблему применения d-VLMs в задачах робототехники, создавая более эффективную модель для обучения политики робота. #### Результаты Мы провели многочисленные эксперименты, используя различные данные, включая симуляцию и реальные роботы. Эксперименты показали, что LLaDA-VLA значительно улучшает результаты в сравнении с другими VLAs (Vision-Language-Action) для обучения политики. Мы проверили модель на различных задачах, таких как распознавание действий, понимание текстовых команд и совершение конкретных действий в реальной среде. Результаты показали, что LLaDA-VLA обеспечивает более точное и быстрое решение задач в сравнении с другими моделями. #### Значимость Лада-VLA может быть применена в различных областях, включая робототехнику, автоматизацию производства, видеоаналитику и даже в развитии интеллектуальных систем, которые могут взаимодействовать с человеком. Одним из основных преимуществ модели является ее универсальность и мощность в обработке визуальных и текстовых данных. Это может повысить эффективность и точность в работе с роботами, а также сделать их более удобными для применения в реальных условиях. #### Выводы Мы доказали, что LLaDA-VLA является эффективной моделью для обучения политики роботов, которая может решать задачи в жирых условиях. Мы также выделили направления для дальнейших исследований, такие как улучшение точности к
Annotation:
The rapid progress of auto-regressive vision-language models (VLMs) has inspired growing interest in vision-language-action models (VLA) for robotic manipulation. Recently, masked diffusion models, a paradigm distinct from autoregressive models, have begun to demonstrate competitive performance in text generation and multimodal applications, leading to the development of a series of diffusion-based VLMs (d-VLMs). However, leveraging such models for robot policy learning remains largely unexplore...
ID: 2509.06932v1 cs.RO, cs.CV
Авторы:

Qi Lv, Weijie Kong, Hao Li, Jia Zeng, Zherui Qiu, Delin Qu, Haoming Song, Qizhi Chen, Xiang Deng, Jiangmiao Pang

#### Контекст В области эмбедидного ИИ, выполнение языковоориентированных задач в динамических визуальных окружениях остается центральной проблемой. Наиболее распространенные Vision-Language-Action (VLA) модели применяют реактивную модель, сопоставляющую состояния к действиям. Это приводит к краткосрочному мышлению и низкой устойчивости в нестабильных сценариях. Чтобы улучшить эти аспекты, необходимо выстраивать более продуманные механизмы, которые могут предсказать и адаптироваться к будущим состояниям. Цель данной работы — предложить модель, которая бы лучше справлялась с этими задачами за счет внедрения прогностической компоненты в процесс принятия решений. #### Метод Модель F1 основывается на Mixture-of-Transformers архитектуре, включающей модули для визуального восприятия, прогностической генерации и контроля. Основополагающим компонентом является механизм прогноза следующего состояния, который строит целевые визуальные сценарии для достижения классных целей. Эта технология превращает задачи управления в задачи прогностического инверсного динамического программирования. Для тренировки F1 использована большая выборка, содержащая более 330 тысяч траекторий из 136 задач. Это позволило развить устойчивые модели, которые могут обмениваться информацией между модулями и обладают трансферными способностями. #### Результаты Исследования проводились в реальных условиях и в симуляциях. Модель F1 показала значительное превосходство по отношению к существующим VLA моделям, повысив успешность выполнения задач и обеспечив лучшую общеуниверсальную производительность. Эксперименты подтверждают, что F1 может предсказывать более точные визуальные цели и реагировать на изменения в среде более эффективно, что делает ее более устойчивой и гибкой. #### Значимость F1 может применяться в различных областях, таких как автоматизация, робототехника и умные дома. Основные преимущества заключаются в улучшенной устойчивости, гибкости и общеуниверсальной модели, которая может быть адаптирована к разным ситуациям. Такая модель может существенно влиять на развитие области эмбедидного ИИ, облегчив решение задач, требующих взаимодействия с динамическими визуальными средами. #### Выводы Результаты показывают, что F1 является новой стандартной моделью для решения задач визуально-языковых действий в динамических окружениях. Будущие исследования будут сфокусированы на улучшении прогностической модели, увеличении ее скорости и снижении затрат ресурсов для еще более углубленного взаимодействия с реальным миром
Annotation:
Executing language-conditioned tasks in dynamic visual environments remains a central challenge in embodied AI. Existing Vision-Language-Action (VLA) models predominantly adopt reactive state-to-action mappings, often leading to short-sighted behaviors and poor robustness in dynamic scenes. In this paper, we introduce F1, a pretrained VLA framework which integrates the visual foresight generation into decision-making pipeline. F1 adopts a Mixture-of-Transformer architecture with dedicated module...
ID: 2509.06951v2 cs.RO, cs.CV
Авторы:

Emanuela Boros

## Контекст Topological localization является основной задачей в области мобильного робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехнического робототехничес
Annotation:
Topological localization is a fundamental problem in mobile robotics, since robots must be able to determine their position in order to accomplish tasks. Visual localization and place recognition are challenging due to perceptual ambiguity, sensor noise, and illumination variations. This work addresses topological localization in an office environment using only images acquired with a perspective color camera mounted on a robot platform, without relying on temporal continuity of image sequences....
ID: 2509.04948v1 cs.RO, cs.CV
Авторы:

Nariman Niknejad, Gokul S. Sankar, Bahare Kiumarsi, Hamidreza Modares

## Контекст Одна из основных задач в области автономного вождения — обеспечение безопасности и адекватности динамического поведения автомобилей в условиях нестандартных и ненормальных затруднений. Активное развитие глубокого обучения позволяет эффективно использовать сети научного предсказания, однако эти модели чувствительны к шуму и ошибкам в реальных условиях. Это приводит к неточностям в оценке состояния, которые могут привести к потере стабильности и травматическим ситуациям. Недостаток надежных методов для контроля систем с глубоким обучением в центре внимания научных исследований. Кроме того, существуют проблемы с поддержкой вычислительной эффективности и гарантиями стабильности в системах моделирующих прогнозируемые действия. ## Метод Разработанная методология основывается на моделирующем прогностическом контроле (MPC), учитывающем влияние шума в модулях основанных на глубоком обучении. Метод использует констрейнтированные зонотопы для оценки возможных расхождений в прогнозах, что позволяет учесть ненормальные и тяжеловатые распределения шума. Для уменьшения вычислительных затрат прогнозная модель преобразуется в линейную программу, включающую минковский-ляпуновскую функцию, а также добавляется смещение для предотвращения нестабильных решений. Для стабильности используются ляпуновские неравенства и зонотопные вычисления, охватывающие области возможных состояний. ## Результаты Проведены симуляции и эксперименты на виртуальных и реальных системах. На основе реальных данных о сенсорном восприятии водителя проводились эксперименты на мобильном роботе с данными от зеркала-контроллера и аппаратуры распознавания объектов. Результаты показали, что разработанный подход эффективно контролирует систему, даже при ненормальных шумах, обеспечивая высокую точность и стабильность динамики. За счет использования констрейнтов зонотопов получены более точные оценки состояния водителя, что положительно сказывается на стабильности системы. ## Значимость Разработанный подход успешно применяется в автономных транспортных системах, предоставляя более точные прогнозы в условиях ненормальных шумов. Он может использоваться в робототехнике и системах поддержки решений в транспортных сетях. Работа показывает, что системы на основе зонотопов могут предсказать тяжеловатые распределения шума и латентные сигналы, что значительно повышает безопасность и точность объектной оценки в условиях реальных условий. ## Выводы Разработанный метод MPC предлагает сильный фундамент для надежного контроля автоно
Annotation:
This paper presents a robust model predictive control (MPC) framework that explicitly addresses the non-Gaussian noise inherent in deep learning-based perception modules used for state estimation. Recognizing that accurate uncertainty quantification of the perception module is essential for safe feedback control, our approach departs from the conventional assumption of zero-mean noise quantification of the perception error. Instead, it employs set-based state estimation with constrained zonotope...
ID: 2509.05201v1 cs.RO, cs.CV, cs.LG, cs.SY, eess.SY
Авторы:

Chen Hu, Shan Luo, Letizia Gionfrida

## Контекст Очень важной задачей в современной медицине и технологиях помощи дисабилитетам является восстановление автономии движений у людей с моторными ограничениями. Особенно трудной областью является ситуация в неструктурированных окружениях, где объекты и поведение пользователя могут быть разнообразными и непредсказуемыми. Grasping assistance (помощь в захват) заключается в помощи изготовления захвата руки для подхвата и удержания предметов. Однако существующие системы часто ограничены возможностями распознавания конкретных категорий предметов или использования фиксированных команд. Это неэффективно в условиях неопределенности и специфики открытых пространств. Целью данного исследования является разработка нового подхода к сенсорному захвату, который может работать в различных ситуациях и не требует предварительной подготовки к распознаванию конкретных предметов. ## Метод Предлагаемая система, OVGrasp (Open-Vocabulary Grasping Assistance), использует краткие текстовые подсказки – open-vocabulary prompts – и голосовые команды, чтобы взаимодействовать с объектами в реальном времени. Основой системы является подход, основанный на визуальном анализе RGB-D изображений и текстовых описаний, что позволяет использовать расширенную модель видения-языка (Vision-Language Foundation Model). Механизм распознавания неизвестных объектов в режиме zero-shot делает систему универсальной и без необходимости повторного обучения. Для определения желаемых действий (захват или отпускание), система использует многомодальный групповой алгоритм, который объединяет визуальные и языковые сигналы для точного определения поведенческой мотивации. Такой подход позволяет использовать OVGrasp в различных ситуациях, где требуется самостоятельность в работе с неизвестными предметами. ## Результаты Оценки OVGrasp проводились на 15 различных предметах, разделенных на три категории захвата: прямой захват, подхват с выше и подхват с низу. Использовались данные 10 участников с разными уровнями опыта взаимодействия с технологией. Основной метрикой стала Grasping Ability Score (GAS), отражающая степень успешности захвата. Оценка GAS составила 87.00%, что превышает результаты существующих алгоритмов. Также была замечена повышенная точность в движениях, что является ключевым преимуществом для создания более натуральных движений. Эти результаты показывают высокую эффективность OVGrasp в условиях повседневного использования. ## Значимость Разработанная система имеет широкие возможности применения в сфере медицины, помощи немоторным людям и робототехнике. Ос
Annotation:
Grasping assistance is essential for restoring autonomy in individuals with motor impairments, particularly in unstructured environments where object categories and user intentions are diverse and unpredictable. We present OVGrasp, a hierarchical control framework for soft exoskeleton-based grasp assistance that integrates RGB-D vision, open-vocabulary prompts, and voice commands to enable robust multimodal interaction. To enhance generalization in open environments, OVGrasp incorporates a visio...
ID: 2509.04324v1 cs.RO, cs.CV
Авторы:

Thomas Jantos, Stephan Weiss, Jan Steinbrener

## Контекст Глубокое обучение (DL) значительно повышает эффективность различных роботизированных приложений, обеспечивая мощные методы обработки сырых сенсорных данных. Например, визуально-ориентированная роботизированная система может использовать DL-предиктор 6D-позы предмета для определения относительной позы объекта относительно робота. Эти меры вводятся в систему состояния робота, чтобы управлять его действиями. Однако важность точного определения неопределенности в этих мерах, особенно в раCONTEXT контексте глубокого обучения, не может быть переоценена. Для проработки таких неопределенностей возникает так называемая алеаторная неопределенность, которая определяет случайные характеристики во входных данных. Интеграция такой неопределенности в состояние робота позволяет повысить надежность и точность в объектно-ориентированном состоянии. Эта работа предлагает расширить базовый DL-предиктор поддержки алеаторной неопределенности, при этом с минимальным накладным объемом вычислительных ресурсов. ## Метод Методология работы основывается на модификации уже существующих DL-предикторов 6D-позы объекта. Вместо того, чтобы вносить изменения в основную структуру DL-предиктора, расширение включает внедрение двух отдельных моделей сети (Multi-Layer Perceptrons), которые независимо изучают транслационную и вращательную компоненты позы. Измененная архитектура позволяет получать не только оценку позы, но и статистическую оценку неопределенности, которая является ключевой для эффективных стратегий обучения. Такое расширение может быть внедрено без необходимости переобучения существующих DL-моделей, что экономит вычислительные ресурсы и позволяет применять модель на ресурс-ограниченных устройствах. ## Результаты Эксперименты проводились на двух типах данных: синтетических и реальных. На моделированных данных была проверена возможность предсказания 6D-позы с учетом неопределенности, в то время как на реальных данных продемонстрирована эффективность интеграции полученных неопределенностей в калмановский фильтр. В результате, произведенные оценки позы методом EKF на основе этого подхода показали значительную улучшенную точность по сравнению с фиксированной моделью неопределенности. Более того, полученные результаты показали, что данный подход можно легко адаптировать к различным роботизированным системам без дополнительных изменений в самой системе. ## Значимость Данный подход может быть применен в различных сферах, особенно в области объектно-ориентированной роботизированной системы, где необходимо высокоточное определение смещения и локальных изменений позы. И
Annotation:
Deep Learning (DL) has become essential in various robotics applications due to excelling at processing raw sensory data to extract task specific information from semantic objects. For example, vision-based object-relative navigation relies on a DL-based 6D object pose predictor to provide the relative pose between the object and the robot as measurements to the robot's state estimator. Accurately knowing the uncertainty inherent in such Deep Neural Network (DNN) based measurements is essential ...
ID: 2509.01583v1 cs.RO, cs.CV
Авторы:

Abdelrhman Werby, Martin Büchner, Adrian Röfer, Chenguang Huang, Wolfram Burgard, Abhinav Valada

#### Контекст Изучение трёхмерного движения и моделирование отдельных частей (articulated objects) играет ключевую роль в области робототехники, в том числе в сценарных распознаваниих, мобильном манипулировании и планировании движения. Несмотря на прогресс в области нейросетевых моделей, существующие подходы требуют стабильных камерных видов и чётко заданных объектных состояний, что ограничивает их применение в реальных, нестандартных условиях. В то же время, люди эффективно интерпретируют движение и отдельные части объектов, даже при плохом видении или изменениях положения камеры. Эта способность вдохновила разработку нового фреймворка для распознавания отдельных частей объектов в реальных условиях, учитывающих динамический ход камеры и неполные данные. #### Метод Предлагаемый фреймворк ArtiPoint основывается на сочетании глубокого анализа потока точек (deep point tracking) и оптимизации факторной сетки (factor graph optimization). Он позволяет проанализировать беспрерывные RGB-D видео и извлечь траектории частей объекта, а также параметры их отделимости (articulation axes). Данный подход предназначен для оптимизации под неидеальные условия, включая динамические перемещения камеры и полноугольные модели объектов. Таким образом, ArtiPoint имеет высокую точность и устойчивость в сценах с большим количеством движения и сложными интерфейсами. #### Результаты Эксперименты проводились на новой эгоцентрической датасете Arti4D, который включает в себя видео сцен с трёхмерными положениями объектов и их движений. ArtiPoint показал существенно более высокую точность по сравнению с классическими и нейросетевыми базлами. Он подходит для анализа сложных движений и взаимодействий, особенно в сценах с нестабильным видом или частичной информацией. Результаты показывают, что ArtiPoint превосходит в размере погрешности и стабильности другие подходы. #### Значимость Предлагаемый подход может быть применён в областях, таких как мобильное манипулирование, робототехническое планирование и сценарное распознавание. Особенно он полезен для ситуаций, когда объект неполностью виден, или при отсутствии статического расположения камеры. Это открывает новые возможности для роботов, работающих в реальных условиях, например, для роботов-мультиплексоров или роботов участвующих в сценарной работе. #### Выводы ArtiPoint ставит новый акцент на распознавание отдельных частей объектов в нестандартных условиях, используя глубокую аналогию с человеческим восприятием. Это является значительным прорывом в области робототехники и сценарного распознавания. Будущие исследования будут фокусироваться на улучшении точ
Annotation:
Understanding the 3D motion of articulated objects is essential in robotic scene understanding, mobile manipulation, and motion planning. Prior methods for articulation estimation have primarily focused on controlled settings, assuming either fixed camera viewpoints or direct observations of various object states, which tend to fail in more realistic unconstrained environments. In contrast, humans effortlessly infer articulation by watching others manipulate objects. Inspired by this, we introdu...
ID: 2509.01708v1 cs.RO, cs.CV
Авторы:

Scarlett Raine, Tobias Fischer

## Контекст Объемами возрастающих нагрузок на морские экосистемы, вызванные климатическими изменениями, подчеркивают необходимость в эффективных, сценарий-адаптивных системах мониторинга. Масштабируемость и доступность технологий в области искусственного интеллекта (ИИ) открыли новые пути для решения этих проблем. Особенно заметно это в сфере подводного видения и океанического мониторинга, где ИИ уже превратился в главный двигатель нового поколения решений. Ранее, эти области оставались во многом закрытыми, но сейчас они развиваются с ускоренным темпом, становясь новым центром инноваций в области компьютерного зрения и робототехники. Несколько ключевых факторов способствовали этому росту: угрозы для экосистем, рост необходимости в объемных и широкомасштабных мониторингных системах, прирост доступности подводных данных благодаря внедрению платформ для участия гражданского населения в научных исследованиях, а также перемещение ученых из затянутых изобретением земных компьютерно-визуальных исследований в сферу морских исследований. В настоящей статье мы разбираем эти факторы, а также проблемы и преимущества, с которыми сталкиваются разработчики ИИ, работающие в подводной сфере. ## Метод Методология, применяемая в этом исследовании, основывается на использовании методов машинного обучения, специально адаптированных для морских применений. Изучение этих методов включает в себя разработку алгоритмов для улучшения обобщаемости в условиях подводного зрения, включая учет характеристик, таких как неоднородность воды и низкий разрешающий канал видимости. Мы также рассматриваем развитие систем самостоятельного обучения и инструментов, позволяющих улучшить решения в области визуального понимания подводных экосистем. Для решения проблемы отсутствия достаточных меток данных, которая характерна для подводных мониторинговых задач, использовались модели слабо направленного обучения (weakly supervised learning), которые позволяют обучаться на неполных данных. Также мы рассматриваем развитие трехмерной реконструкции подводных сцен с помощью современных методов самостоятельного обучения. ## Результаты В ходе работы были проведены эксперименты с использованием высококачественных подводных данных, которые были собраны в различных экосистемах. Мы протестировали различные модели, в том числе модели, основанные на слабо направленном обучении и самостоятельном обучении. Эти модели были применены к задачам, таким как определение разнообразия видов, распознавание объектов под водой, а также к задачам трехмерной реконструкции подводных сцен. Результаты показали, что моде
Annotation:
Marine ecosystems face increasing pressure due to climate change, driving the need for scalable, AI-powered monitoring solutions. This paper examines the rapid emergence of underwater AI as a major research frontier and analyzes the factors that have transformed marine perception from a niche application into a catalyst for AI innovation. We identify three convergent drivers: environmental necessity for ecosystem-scale monitoring, democratization of underwater datasets through citizen science pl...
ID: 2509.01878v1 cs.RO, cs.CV, cs.LG
Авторы:

Zhenlong Yuan, Jing Tang, Jinguo Luo, Rui Chen, Chengxuan Qian, Lei Sun, Xiangxiang Chu, Yujun Cai, Dapeng Zhang, Shuo Li

## Контекст В последние годы Vision-Language-Action (VLA) модели становятся важной частью автономных систем движения, объединяя мощные способности визуального и языкового распознавания с решающими функциями. Однако, несмотря на их развитие, остаются серьезные проблемы, связанные с интерпретируемостью и сплоченностью решений, а также с надежностью описаний действий. Эти вопросы требуют надёжного решения, так как от них зависит доверие со стороны пользователей и безопасность систем. Для решения этих проблем, мы предлагаем AutoDrive-R$^2$, новую VLA-модель, которая улучшает логическое мышление и способность к самостоятельной рефлексии. Это даёт надежду на повышение разбирательства в процессе принятия решений и более реалистичного планирования движения. ## Метод Мы предлагаем AutoDrive-R$^2$, которая включает в себя два ключевых компонента. Во-первых, мы разработали специальный датасет nuScenesR$^2$-6K, который включает в себя 6000 наблюдаемых сцен, каждая из которых имеет четырёхшаговую логическую цепочку со самостоятельной рефлексией. Это позволяет создавать логические связи между входными данными и действиями. Во-вторых, мы применяем Group Relative Policy Optimization (GRPO), алгоритм усовершенствованного reinforcement learning, который оптимизирует планирование движения, используя физический фреймворк с рассмотрением пространственной выравнивания, динамики транспортных средств и гладкости движения. Это обеспечивает более реалистичные и отразительные решения. ## Результаты Мы провести многочисленные эксперименты, используя данные из двух основных наборов данных: nuScenes и Waymo. Наши результаты показывают, что AutoDrive-R$^2$ превосходит другие существующие модели в терминах точности распознавания и качества планирования движения. Мы также проверяли способность модели к логическому рассуждению и саморефлексии. Эти выводы подтверждают эффективность нашего подхода в создании более уверенных и интерпретируемых автономных систем. ## Значимость Предложенная модель может быть применена в различных областях, где необходимо высокоточное решение, включая автономные транспортные средства, робототехнику и интеллектуальные системы. Одним из основных преимуществ является улучшение уровня интерпретируемости решений и доверия к системам автоматизированного управления. В будущем мы намерены расширить сферу применения, включив в модель дополнительные факторы, такие как социальные сигналы и эмоциональные аспекты. ## Выводы Мы представили новую модель AutoDrive-R$^2$, которая улучшает логические способности и саморефлексию VLA-моделей для автономных
Annotation:
Vision-Language-Action (VLA) models in autonomous driving systems have recently demonstrated transformative potential by integrating multimodal perception with decision-making capabilities. However, the interpretability and coherence of the decision process and the plausibility of action sequences remain largely underexplored. To address these issues, we propose AutoDrive-R$^2$, a novel VLA framework that enhances both reasoning and self-reflection capabilities of autonomous driving systems thro...
ID: 2509.01944v1 cs.RO, cs.CV
Показано 171 - 180 из 225 записей