📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Yihao Lu, Hao Tang

## Контекст Современные Embodied AI (EAI) системы взаимодействуют с физическим миром, создавая огромные многомодальные потоки данных. Эти данные характеризуются своей вариативностью и связанностью, что создает вызовы для их эффективного хранения и поиска. Традиционные методы управления данными не могут удовлетворить требования EAI, включая физическое углубление, низкую задержку доступа и динамическую масштабируемость. Эти проблемы поднимают вопросы о прочности и эффективности текущих систем, а также о необходимости развития новых подходов для удовлетворения потребностей EAI. ## Метод Данная статья основывается на систематическом обзоре более чем 180 исследований, направленных на разработку новых методов управления многомодальными данными. Она разбивается на два основных аспекта: 1. **Хранилище данных**: Анализируются пять архитектур хранилища (Graph Databases, Multi-Model Databases, Data Lakes, Vector Databases, Time-Series Databases), сравнивая их с требованиями EAI. Особое внимание уделено таким аспектам, как поддержка физического углубления, высокая скорость доступа и масштабируемость. 2. **Поиск данных**: Описываются пять парадигм поиска (Fusion Strategy-Based Retrieval, Representation Alignment-Based Retrieval, Graph-Structure-Based Retrieval, Generation Model-Based Retrieval, Efficient Retrieval-Based Optimization), которые исследуются на примере различных сценариев, включая семантическую целостность и реальном времени. ## Результаты Исследование проводит предварительные эксперименты с использованием различных архитектур и методов поиска, чтобы оценить их эффективность в решении задач EAI. Эксперименты показали, что: - Архитектуры, такие как Vector Databases и Time-Series Databases, эффективно поддерживают физическое углубление и низкую задержку. - Методы, такие как Graph-Structure-Based Retrieval и Fusion Strategy-Based Retrieval, показали лучшие результаты в обеспечении семантической целостности. - Однако, существуют системные проблемы, такие как коллизии между реального времени и семантической связью, а также отклонения от нормальных распределений. ## Значимость Результаты этой статьи могут быть применены в области развития EAI-систем, включая искусственный зрение, робототехнику и системы управления. Они предлагают более эффективные способы хранения и поиска данных, что может существенно повысить производительность и надежность EAI-систем. Более того, внедрение этих подходов может привести к развитию новых технологий, таких как адаптивные системы управления и стандартизированные бенчмарки для EAI. ## Выводы Наша статья делает следующие главные выводы: - Необходимо развитие новых физически обоснованных моделей данных для решения проблем физического углубления. -
Annotation:
Embodied AI (EAI) agents continuously interact with the physical world, generating vast, heterogeneous multimodal data streams that traditional management systems are ill-equipped to handle. In this survey, we first systematically evaluate five storage architectures (Graph Databases, Multi-Model Databases, Data Lakes, Vector Databases, and Time-Series Databases), focusing on their suitability for addressing EAI's core requirements, including physical grounding, low-latency access, and dynamic sc...
ID: 2508.13901v1 cs.RO, cs.CV
Авторы:

Martijn Cramer, Yanming Wu, David De Schepper, Eric Demeester

## Контекст Sheet-metal small- and medium-sized enterprises (SMEs) often face challenges in high-mix-low-volume production, where orders vary significantly, and small series are common. Standard automation solutions frequently prove inadequate for these scenarios, leading to reliance on repetitive manual labor. This not only drives up production costs but also underutilizes the technical skills of the workforce. To address these issues, the COOCK+ ROBUST project aims to transform cobots (collaborative robots) into mobile, reconfigurable production assistants by integrating advanced technologies such as 3D object recognition and localization. This initiative seeks to enhance the flexibility and efficiency of cobotic systems, making them better suited for the dynamic demands of sheet-metal production. ## Метод The project leverages existing technologies, including 3D object recognition and localization, to augment cobotic systems. 3D object recognition enables the identification and localization of sheet-metal components in a dynamic environment, ensuring precise handling and manipulation. The localization component ensures that cobots can accurately position themselves relative to workpieces, facilitating seamless integration into existing production workflows. By combining these technologies, the methodology focuses on creating a robust and flexible system capable of adapting to varying production requirements. The integration process involves meticulous calibration, software development, and the optimization of sensor data processing to ensure real-time responsiveness and accuracy. ## Результаты Experiments conducted within the project involved the deployment of cobots equipped with 3D recognition and localization modules in real-world sheet-metal production settings. The systems were tested on a variety of tasks, including component identification, picking, and placement. Using datasets of sheet-metal components, the cobots demonstrated high accuracy in object recognition and precise localization. Key performance metrics, such as recognition time and positioning error, were measured and analyzed. The results showed significant improvements in production efficiency and flexibility compared to traditional manual methods, with error rates reduced by up to 30% and processing times decreased by 20%. ## Значимость The enhanced cobotic systems hold considerable potential across multiple industries, particularly in sheet-metal production and other sectors requiring high flexibility and precision. By automating repetitive tasks and improving operational accuracy, these systems reduce production costs and enable workforces to focus on higher-value activities. The integration of 3D recognition and localization also opens avenues for further advancements, such as adaptive manufacturing and real-time process optimization. The project's outcomes underscore the importance of leveraging cutting-edge technologies to address the unique challenges of SMEs in dynamic production environments. ## Выводы The integration of 3D object recognition and localization into cobotic systems marks a significant step toward transforming sheet-metal SMEs into more agile and efficient enterprises. The project's successes highlight the feasibility of this approach and provide a foundation for future research. Future work will focus on expanding the system's capabilities to handle more complex tasks, improving real-time adaptability, and exploring collaborative applications across different industries. These advancements aim to further solidify the role of cobots as indispensable tools in modern industrial settings.
Annotation:
Due to high-mix-low-volume production, sheet-metal workshops today are challenged by small series and varying orders. As standard automation solutions tend to fall short, SMEs resort to repetitive manual labour impacting production costs and leading to tech-skilled workforces not being used to their full potential. The COOCK+ ROBUST project aims to transform cobots into mobile and reconfigurable production assistants by integrating existing technologies, including 3D object recognition and local...
ID: 2508.13964v1 cs.RO, cs.CV
Авторы:

Abhinav Chalise, Nimesh Gopal Pradhan, Nishan Khanal, Prashant Raj Bista, Dinesh Baniya Kshatri

## Контекст Исследование посвящено развитию системы автоматизированного решения головоломки Рубика (Rubik's Cube) с использованием механической автоматизации и визуального распознавания. Основным применением является развитие устройств, обладающих навыками решения головоломок для развлечений, исследований или использования в машинном обучении. Существующие решения часто сложноверсты и требуют дорогостоящих компонентов. Также существует проблема неэффективности и неточности в решении головоломки с использованием существующих алгоритмов и аппаратных решений. Мотивацией для этого исследования является разработка более доступной, точной и эффективной системы решения головоломки, использующей механическую автоматизацию и визуальное распознавание. ## Метод Система состоит из нескольких ключевых компонентов. Механическая система использует три шаговых двигателя для физического манипулирования головоломки. Микроконтроллер обеспечивает управление этими двигателями и взаимодействие с остальными компонентами. Для распознавания состояния головоломки в реальном времени используется камера и модель распознавания YOLOv8 с прецизионным показателем 0.98443, рекуррентностью 0.98419, потерями по границам 0.42051 и классам 0.2611. Решение головоломки осуществляется с помощью Kociemba’s algorithm, ализационная часть разрабатывается на Unity. Это позволяет системе преобразовывать визуальную съемку в действия и решение головоломки. ## Результаты В ходе экспериментов система продемонстрировала среднее время решения головоломки ~2.2 минут. Алгоритм YOLOv8 оказался очень точным при распознавании состояний головоломки, что позволило системе эффективно визуализировать ин INITIAL STATE. Шаговые двигатели и микроконтроллер обеспечивают гладкий и точный физический манипулирование головоломкой. В целом, система проявила высокую эффективность и доступность, но время решения еще может быть улучшено. ## Значимость Система может быть применена в различных областях, таких как развлекательные технологии, обучение и исследования в области машинного обучения. Основное преимущество — это доступность, модульность и точность решения головоломки в реальном времени. Благодаря использованию YOLOv8, система обеспечивает высокую точность в распознавании состояний головоломки. Это может быть использовано для развития автоматизированных решений в разнообразных областях, таких как игровая индустрия, обучение алгоритмам восприятия и распознавания объектов. ## Выводы Основные достижения включают разра
Annotation:
The core mechanical system is built around three stepper motors for physical manipulation, a microcontroller for hardware control, a camera and YOLO detection model for real-time cube state detection. A significant software component is the development of a user-friendly graphical user interface (GUI) designed in Unity. The initial state after detection from real-time YOLOv8 model (Precision 0.98443, Recall 0.98419, Box Loss 0.42051, Class Loss 0.2611) is virtualized on GUI. To get the solution,...
ID: 2508.12469v1 cs.RO, cs.CV
Авторы:

Hamza El-Kebir

#### Контекст Область исследования связана с реконструкцией формы и механических свойств деформируемых объектов. Существующие методы, опирающиеся лишь на геометрические или визуальные данные, часто ограничиваются в точности и не учитывают динамические аспекты деформации. Это влечет за собой проблемы в ходе применения в сложных сценариях, где необходима точная реконструкция и анализ механических свойств. Мотивация заключается в создании более точной и универсальной модели для реконструкции деформируемых объектов, используя меру интерактивного взаимодействия, такую как давление, для повышения точности и развития потенциала в области робототехники, медицины и графики. #### Метод Методом PROD (Palpative Reconstruction of Deformables) предлагается интегрировать пальпативное взаимодействие (пробование поверхности с помощью силового контроля) с теорией эластостатических подпроцессов. Основная идея заключается в использовании elastostatic signed distance functions (SDFs) для описания формы и статических свойств объекта. Метод заключается в формировании уравнения Poissonа, основанного на данных позы и давления, и последующем использовании аппроксимации для восстановления undeformed SDF. Механические свойства, такие как стаффиренство, вычисляются через анализ динамического отклика на внедрение давления. Это позволяет улучшить точность и поддается многим практическим приложениям. #### Результаты В ходе экспериментов проводились симуляции для оценки точности восстановления SDF и механических характеристик. Использовались разнообразные данные, включая симуляции с деформируемыми объектами, подвергшимися разным силовым вмешательствам. Результаты показали, что PROD демонстрирует высокую точность восстановления и дает подтверждение к сходимости эластостатического моделирования. Наблюдалась высокая точность в определении стаффиренства, даже при неточностях в позе и применении вне-нормальных сил. #### Значимость Полученный подход имеет широкие применения, включая робототехнику (в том числе динамически ориентированные задачи), медицину (например, визуализация и характеризация тканей) и графические приложения (далее — приложения графики). Отдельно стоит отметить преимущества PROD в высокой точности и универсальности, что делает его широко применимым в сложных сценариях. Будущие исследования могут быть направлены на улучшение скорости вычислений и обобщение модели на более сложные деформируемые объекты. #### Выводы Предложенный прототип PROD обеспечивает возможность точной реконструкции деформируемых объектов, включая учет механических свойств и устойчивость к
Annotation:
We introduce PROD (Palpative Reconstruction of Deformables), a novel method for reconstructing the shape and mechanical properties of deformable objects using elastostatic signed distance functions (SDFs). Unlike traditional approaches that rely on purely geometric or visual data, PROD integrates palpative interaction -- measured through force-controlled surface probing -- to estimate both the static and dynamic response of soft materials. We model the deformation of an object as an elastostatic...
ID: 2508.12554v1 cs.RO, cs.CV
Авторы:

Jiayao Mai, Xiuyuan Lu, Kuan Dai, Shaojie Shen, Yi Zhou

## Контекст Современные многосенсорные системы, объединяющие различные виды сенсоров, широко применяются в сферах, таких как робототехника, обнаружение объектов и видеонаблюдение. Одним из ключевых аспектов этих систем является эффективная синтезированная информация с различных датчиков, что требует точной калибровки. Особенно важна калибровка для систем, использующих **event cameras** — устройства, реагирующие на изменения яркости пикселей во временной шкале, что позволяет достичь микросекундной задержки в обработке изображений. Тем не менее, калибровка между event cameras и другими датчиками, такими как импульсные датчики или оптические поток-датчики, остается затруднительной, требуя специальных целей и подверждаясь некоторым шуму. Необходимо разработать метод, который бы упростил процесс калибровки и улучшил точность и стабильность результатов. ## Метод Мы предлагаем **метод основанный на движении** для **калибровки временного и вращательного режимов** в event-centric multi-sensor systems. Наш метод основывается на использовании экстринских данных о ходе вращения, полученных непосредственно из данных event cameras, а также других типов датчиков. Мы убираем потребность в целевых элементах, которые требуются в традиционных подходах. Важным отличием нашего подхода является то, что мы используем оптический поток, полученный из спектральных данных event cameras, для вычисления ангулярной скорости. Это позволяет избежать необходимости конвертации данных event camera в кадры, что упрощает процесс. Общий подход к калибровке является двухступенчатым: сначала используется **Canonical Correlation Analysis (CCA)** для инициализации временных и вращательных параметров. Затем, вторая стадия проводит нелинейное оптимизационное решение в пространстве SO(3), чтобы добиться точности и стабильности. Эта методика обеспечивает высокую точность и кросс-платформенную универсальность. ## Результаты Мы проводили эксперименты на двух типах данных: **общедоступных** и **самосборных**. Мы сравнили наш метод с традиционными методами, основанными на CCA и целевых объектах. Результаты показали, что наша методика показала сопоставимую точность с целевыми методами, но имеет более высокую стабильность. Цифровые результаты показали, что наш метод в значительной степени снижает ошибки временной и вращательной калибровки, что демонстрирует его высокую точность и стабильность. Эти результаты подтвердили достоинства нашей подходной модели в том, что она упрощает процесс, улучшает точность и может быть применена к различным многосенсорным системам. ## Значимость Наш подход может быть применен в различных областях, таких как
Annotation:
Event cameras generate asynchronous signals in response to pixel-level brightness changes, offering a sensing paradigm with theoretically microsecond-scale latency that can significantly enhance the performance of multi-sensor systems. Extrinsic calibration is a critical prerequisite for effective sensor fusion; however, the configuration that involves event cameras remains an understudied topic. In this paper, we propose a motion-based temporal and rotational calibration framework tailored for ...
ID: 2508.12564v1 cs.RO, cs.CV, I.2.9
Авторы:

Tianyi Zhang, Haonan Duan, Haoran Hao, Yu Qiao, Jifeng Dai, Zhi Hou

## Контекст Визуально-языково-действительные (Vision-Language-Action, VLA) модели широко используются в автоматизации и робототехнике для решения задач работы с роботами в сложных средах. Однако эти модели часто сталкиваются с проблемами при попытке обобщения на реальные условия. Это происходит из-за различий между пространством наблюдений (как видит камера) и пространством действий (координаты робота), что приводит к неточностям в управлении. Исследователи стараются решить эту проблему, создавая модели, которые будут более точно и надежно работать в разных условиях. ## Метод Методология, представленная в статье, называется Observation-Centric VLA (OC-VLA). Она предлагает новый подход к решению проблемы пространственных расхождений. В этой модели действия предсказываются не в основной системе координат робота (базовой), а в пространстве камеры, то есть в той системе, в которой происходят наблюдения. Для этого используется калибровочная матрица камеры, которая позволяет преобразовывать координаты действий из основной системы в пространство камеры. Эта техника легко встраивается в существующие VLA-модели и не требует значительных изменений в их архитектуре. ## Результаты Результаты экспериментов показали, что OC-VLA значительно улучшает производительность моделей. Модель была проверена как на симуляторах, так и на реальных роботах. Она ускоряет сходимость в ходе обучения, повышает успешность выполнения задач и улучшает общую производительность при перекрестных просмотрах (cross-view generalization). Эти результаты доказывают, что OC-VLA значительно улучшает точность и надежность моделей VLA в разных условиях. ## Значимость Предложенная модель OC-VLA имеет широкие приложения в различных областях, включая автоматизацию производств, роботов-уборщиков, роботов-массажистов и других систем, которые должны работать в разных условиях. Основное преимущество системы OC-VLA заключается в ее универсальности и легкомысленности внедрения в существующие модели. Это улучшает точность работы моделей и повышает их устойчивость к переменам во внешних условиях. ## Выводы Результаты исследований показывают, что OC-VLA является эффективным подходом к решению проблем пространственных расхождений в VLA-моделях. В дальнейшем будут ведены исследования по улучшению точности модели и расширению её применения в различных сферах робототехники и автоматизации, чтобы дальше повысить качество и надежность управления роботами.
Annotation:
Vision-Language-Action (VLA) models frequently encounter challenges in generalizing to real-world environments due to inherent discrepancies between observation and action spaces. Although training data are collected from diverse camera perspectives, the models typically predict end-effector poses within the robot base coordinate frame, resulting in spatial inconsistencies. To mitigate this limitation, we introduce the Observation-Centric VLA (OC-VLA) framework, which grounds action predictions ...
ID: 2508.13103v1 cs.RO, cs.CV
Авторы:

Kelin Yu, Sheng Zhang, Harshit Soora, Furong Huang, Heng Huang, Pratap Tokekar, Ruohan Gao

#### Контекст Генеративные модели играют важную роль в обучении с подкреплением (reinforcement learning), позволяя моделировать сложные среды и оптимизировать поведение роботов. Однако существуют значимые вызовы, связанные с генерацией качественного роботопроизводящего трафика и получением достаточного количества данных для обучения моделей. Эти проблемы характерны для трудных и гибких визуальных задач, где необходимо корректно описание среды и точное выявление мотивации. Большинство существующих методов полагаются на генеративные модели, которые не всегда обеспечивают достаточную точность в ситуациях с невысокой разрешающей способностью или недостаточной детализацией. Необходимо развитие методов, которые бы устранили эти ограничения и обеспечили более эффективное использование генеративных моделей в обучении с подкреплением. #### Метод Мы предлагаем GenFlowRL, метод, который использует обучение с подкреплением с генерируемым потоком для формирования наград. Модель GenFlowRL основывается на технологии потока объектно-центричного потока (object-centric flow), которая обеспечивает точное описание среды и методы генеративного моделирования. Мы обучаем модель на высококачественных данных, полученных из различных сценариев задач. Для обучения используются данные, собранные на разных устройствах и в разных условиях, что позволяет гарантировать высокую универсальность и надежность модели. Механизмы подобие-отличие и интеграция обобщаются в обучении модели, чтобы обеспечить её эффективность и прочность в разных ситуациях. #### Результаты Мы провели эксперименты на 10 манипуляционных задачах, включая отдельные задачи в симуляторе и реальном мире. Результаты показывают, что GenFlowRL показывает высокую универсальность и надежность в различных условиях. Мы сравнивали нашу модель с другими подходами, в том числе с использованием традиционных генеративных моделей и видео-основанных подходов. Эксперименты показали, что наше решение демонстрирует значительное превосходство по метрикам качества поведения, точности и универсальности. Например, в задаче размещения предметов в контейнере генерируемый поток позволяет выделить точные цели для применения моторных действий, что влечёт улучшение в 20% по сравнению с другими подходами. #### Значимость Метод GenFlowRL имеет широкие применения в области роботов, а также в сферах, где требуется оптимальное принятие решений в сложных визуальных задачах. Он позволяет повысить точность и универсальность поведения робота в различных условиях, включая разные устройства и условия работы. Этот подход может привести к открытию новых возможностей в автоматизации производства, логисти
Annotation:
Recent advances have shown that video generation models can enhance robot learning by deriving effective robot actions through inverse dynamics. However, these methods heavily depend on the quality of generated data and struggle with fine-grained manipulation due to the lack of environment feedback. While video-based reinforcement learning improves policy robustness, it remains constrained by the uncertainty of video generation and the challenges of collecting large-scale robot datasets for trai...
ID: 2508.11049v1 cs.RO, cs.CV
Авторы:

Bozhou Zhang, Nan Song, Bingzhao Gao, Li Zhang

## Контекст Тра migrations are highly challenging due to the complexity of predicting the movements of surrounding agents and planning the actions of the ego agent in dynamic environments. Existing methods основываются на Cartesian coordinates, где позиции agent-ов и карты закодированы в прямоугольной системе координат. Однако, эта модель неэффективна для описания пространственных отношений, так как не учитывает различную значимость объектов в зависимости от их расстояния и направления относительно ego-agentа. Данная проблема требует развития новых подходов, использующих более естественные системы координат для повышения точности и структурированности решений. ## Метод Мы предлагаем Polaris — метод, основанный на Polar coordinates. В этой системе позиции представляются через radius и angle, что позволяет более наглядно и эффективно описать spatial changes и relative relationships. Polaris включает dedicated encoding и refinement modules, которые explicit modeling различных влияний сторонних элементов на ego-agentа. Это решение предлагает дистинктивные преимущества по сравнению с traditional Cartesian-based approaches, позволяя более естественно и точно решать задачи trajectory prediction и planning. ## Результаты Мы проверили Polaris на двух вызовных бенчмарках: Argoverse 2 (trajectory prediction) и nuPlan (planning). Эксперименты показали, что наше решение показывает state-of-the-art performance, outperforming existing methods. На Argoverse 2 мы достигли лучшего результата в cross-Entropy loss, а на nuPlan — в planning accuracy. Эти результаты подтверждают высокую эффективность Polaris в сложных сценариях проектирования и прогнозирования траекторий. ## Значимость Предлагаемый подход может быть применен в autonomous driving, robotics и других областях, где важно modeling relative positions и directional influences. У него есть distinct advantages, такие как лучшая ясность и точность в пространственных решениях. Данный подход может положительно влиять на development и implementation сложных прогностических и planningsystemов. ## Выводы Мы представили Polaris, novel method для trajectory prediction и planning, который основывается на Polar coordinates. Это решение позволяет лучше учитывать relative positions и directional influences, благодаря чему достигается state-of-the-art performance. Future work будет сфокусировано на расширении приложений и улучшении сложности и accuracy данного подхода.
Annotation:
Trajectory prediction and planning in autonomous driving are highly challenging due to the complexity of predicting surrounding agents' movements and planning the ego agent's actions in dynamic environments. Existing methods encode map and agent positions and decode future trajectories in Cartesian coordinates. However, modeling the relationships between the ego vehicle and surrounding traffic elements in Cartesian space can be suboptimal, as it does not naturally capture the varying influence o...
ID: 2508.11492v1 cs.RO, cs.CV
Авторы:

Wenxuan Song, Ziyang Zhou, Han Zhao, Jiayi Chen, Pengxiang Ding, Haodong Yan, Yuxin Huang, Feilong Tang, Donglin Wang, Haoang Li

## Контекст В последние годы становится все очевиднее, что визионно-языковые-действительные (Vision-Language-Action, VLA) модели являются ключевыми для решения задач, требующих сочетания моделирования смысла из визуальных и текстовых сигналов с действительным взаимодействием в реальном мире. Тем не менее, текущие VLA-модели сталкиваются с проблемой того, что визуальное внимание распространяется неточно и неконтролируемо, а не на целевые области. Это ограничивает их точность и эффективность в выполнении задач, особенно в сложных сценариях с множеством объектов. Поэтому необходимо разработать модель, которая бы могла улучшить внимание и сфокусироваться на целевых объектах. Развивая эту идею, мы предлагаем модель ReconVLA, которая использует реконструкцию для активной регулировки визуального внимания. ## Метод ReconVLA является реконструктивной моделью VLA, в которой визуальное внимание контролируется с помощью модели размытия трансформера. Модель ориентируется на то, чтобы правильно определить и сосредоточить внимание на целевых объектах. Она работает следующим образом: после получения визуального сигнала модель визионно-языкового понимания, мы используем модель размытия для восстановления целевой области в изображении, которая соответствует целевым объектам. Этот процесс возвращает модель на целевые объекты, когда она изучает изображение, и позволяет ей извлекать тонкие детали, которые могут быть иначе упущены. Мы также создали большую предварительно обученную модель на основе 100 тысяч траекторий и 2 миллиона данных из открытых баз данных, повышающих общие возможности модели в реконструкции визуальных сигналов. ## Результаты Мы проводили эксперименты как в симуляционном, так и в реальном мире, чтобы проверить эффективность ReconVLA. Наши опыты показали, что модель ReconVLA превосходит текущие VLA-модели в точности и точности внимания. Мы также проверили ее возможность общего использования, используя нашу предварительно обученную модель. Эксперименты показали, что ReconVLA не только точно определяет целевые объекты, но и восстанавливает тонкие детали, которые могут быть недоступны в представлении визуального сигнала. Это демонстрирует мощь модели в тех областях, где точность внимания к реальным целям критична. ## Значимость Мы видим широкое применение ReconVLA в различных областях, где требуется точное взаимодействие с реальным миром, такие как автоматизированные роботы в производственных процессах, медицинские системы и системы управления домашним оборудованием. Наша модель предлагает значительные преимущест
Annotation:
Recent advances in Vision-Language-Action (VLA) models have enabled robotic agents to integrate multimodal understanding with action execution. However, our empirical analysis reveals that current VLAs struggle to allocate visual attention to target regions. Instead, visual attention is always dispersed. To guide the visual attention grounding on the correct target, we propose ReconVLA, a reconstructive VLA model with an implicit grounding paradigm. Conditioned on the model's visual outputs, a d...
ID: 2508.10333v1 cs.RO, cs.CV
Авторы:

Haoxiang Shi, Xiang Deng, Zaijing Li, Gongwei Chen, Yaowei Wang, Liqiang Nie

#### Контекст Vision-Language Navigation в Continuous Environments (VLN-CE) представляет собой задачу, в которой агент должен управляться на основе естественного языка и двигаться через пространство 3D без предварительной структурированности. Эта задача требует сложных способностей, таких как интерпретация текстовых инструкций, предварительное планирование и реакция на непредвиденные обстоятельства. Традиционные подходы часто разделяют задачу на две фазы: генерация возможных точек назначения (waypoints) и последующий планирований движения. Однако данное декомпозиционное решение может приводить к потерям эффективности, ошибкам накопления и сложностям в долгосрочном планировании. Работа предлагает новый подход, который адрессирует эти проблемы, стремясь создать более жизнеспособный и точный метод для VLN-CE. #### Метод Предлагаемый подход, называемый DAgger Diffusion Navigation (DifNav), представляет собой единое, оптимизированное политическое решение, объединяющее традиционные два этапа (генерация waypoints и планирования) в одно непрерывное диффузионное решение. DifNav использует условную диффузионную политику для прямого моделирования многомодальных распределений действий в пространстве движения, заменяя необходимость внешнего предиктора точек назначения. Затем метод использует технику DAgger для онлайн-обучения с использованием агрегированных данных о профессиональных траекториях, что улучшает точность и устойчивость. Эта архитектура позволяет агенту лучше рассуждать над долгосрочными задачами, уменьшая ошибки накопления и улучшая модель пространственного разума. #### Результаты Для оценки DifNav проводились эксперименты на бенчмарк-датасетах VLN-CE. На противоположных показателях, таких как SPL (Success Rate Weighted by Path Length) и SR (Success Rate), DifNav показал значительное превосходство по сравнению с двухэтапными моделями-стандартами. Без использования внешнего предиктора точек назначения, DifNav достиг отличных результатов в сложных задачах навигации, продемонстрировав высокую надёжность в долгосрочных задачах и оптимальное управление в условиях неоднородных сред. Эти результаты подтверждают значительный прогресс в области VLN-CE. #### Значимость Предлагаемый подход имеет широкие возможности применения в свободной трехмерной навигации, видеоиграх, системах-роботах и системах помощи пользователям в пространстве. Он предлагает несколько преимуществ, включая улучшенную точность, уменьшение ошибки накопления и увеличение устойчивости. Данный подход может способствовать развитию различных интеллектуальных систем, улучшая их взаимодействие с пользователем и способность решать задачи в сложных средах.
Annotation:
Vision-Language Navigation in Continuous Environments (VLN-CE) requires agents to follow natural language instructions through free-form 3D spaces. Existing VLN-CE approaches typically use a two-stage waypoint planning framework, where a high-level waypoint predictor generates the navigable waypoints, and then a navigation planner suggests the intermediate goals in the high-level action space. However, this two-stage decomposition framework suffers from: (1) global sub-optimization due to the pr...
ID: 2508.09444v1 cs.RO, cs.CV
Показано 201 - 210 из 225 записей