📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Spatial Traces: Enhancing VLA Models with Spatial-Temporal Understanding

2025-08-14

Авторы:

Maxim A. Patratskiy, Alexey K. Kovalev, Aleksandr I. Panov

## Контекст В последнее десятилетие, визуально-языковые модели стали одним из основных направлений в искусственном интеллекте. Они позволяют агентам визуально-языковых моделей (VLA) воспринимать визуальные сигналы и текстовые команды для точного прогнозирования динамики действий в реальных и виртуальных средах. Однако существуют некоторые проблемы, связанные с недостаточным пониманием спatial и temporal аспектов. Несмотря на то, что ранее разработанные подходы привносили улучшения, они по-прежнему сталкиваются с ограничениями в данных и сложностью внедрения этих подходов для решения реальных задач. Этот факт мотивирует разработку более эффективных методов, которые могут объединить spatial и temporal с той же степенью эффективности. ## Метод Метод Spatial Traces состоит в том, чтобы проецировать ключевые точки, отслеживаемые на входных визуальных кадрах, на depth maps (глубинные карты). Это происходит с помощью технологии visual prompting, которая интегрирует spatial и temporal слои в одном процессе. Модель получает входные данные в виде глубинных карт и текстовых признаков, а затем выполняет последовательное обучение, чтобы обеспечить одновременное понимание пространственных и временных зависимостей. Была разработана архитектура, включающая convolutional layers для обработки depth maps и transformer-based encoder для обработки текстовых данных. Эта методика позволяет улучшить прогнозирование действий в пространстве и времени, объединяя их в единую модель. ## Результаты Эксперименты проводились на SimplerEnv, где использовались данные, содержащие визуальные сигналы и текстовые команды. Модель Spatial Traces показала значительное улучшение в процессе решения задач в сравнении с двумя конкурирующими моделями: SpatialVLA и TraceVLA. Для Spatial Traces, mean success rate увеличился на 4% в сравнении с SpatialVLA и на 19% в сравнении с TraceVLA. Кроме того, Spatial Traces показала высокую точность при минимальном количестве данных для обучения, что делает её привлекательной для реальных сценариев, где сбор данных может быть ограниченным. ## Значимость Этот подход может быть применен в различных областях, таких как robotics, augmented reality, и computer vision. Он позволяет улучшить точность прогнозирования динамики в средах, где spatial и temporal данные имеют важное значение. Благодаря тому, что модель показала высокую эффективность с минимальным объемом данных, она может стать ключевым инструментом для решения задач в реальном мире, где сбор данных может быть сложным. ## Выводы В ходе работы был разработан метод, который улучшает точность прогнозирования действий в пространстве и времени, объединяя spatial и temporal слои в единой модели. Этот подход продемонстрировал существенное улучшение производительности в сравнении с подходами, которые работают с spatial и temporal данными отдельно

Annotation:

Vision-Language-Action models have demonstrated remarkable capabilities in predicting agent movements within virtual environments and real-world scenarios based on visual observations and textual instructions. Although recent research has focused on enhancing spatial and temporal understanding independently, this paper presents a novel approach that integrates both aspects through visual prompting. We introduce a method that projects visual traces of key points from observations onto depth maps,...

ID: 2508.09032v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 From Imitation to Optimization: A Comparative Study of Offline Learning for Autonomous Driving

2025-08-13

Авторы:

Antonio Guillen-Perez

## Контекст Подвижность городов в настоящее время крайне зависит от инновационных технологий, способных обеспечить безопасность, эффективность и доступность транспортных систем. Одной из ключевых задач в области автономного вождения является создание надежных и устойчивых политик прохождения маршрутов с помощью обучения на основе данных. Однако использование реальных данных для обучения в реальном времени часто оказывается небезопасным и непрактичным. Большинство алгоритмов, основанных на Behavioral Cloning (BC), сталкиваются со сложностями в задаче копирования поведения эксперта, включая неустойчивость и ошибки, ускоряющиеся в замкнутых контрольных циклах. Это выделяет необходимость в разработке более устойчивых и оптимизированных подходов для обучения политик вождения. ## Метод Для развития эффективных политик вождения предлагается модель, основанная на Behavioral Cloning (BC), которая использует трансформеры для обработки структурированных, сущность-ориентированных представлений состояния. Эта модель достигает низкого уровня имитационной потери, но не справляется с длинными горизонтами симуляций. Для улучшения устойчивости используется алгоритм Conservative Q-Learning (CQL) в качестве метода Offline Reinforcement Learning (Offline RL). CQL применяется к той же структуре представления состояния, что и BC, но добавляет консервативную функцию значений, способную обеспечить более устойчивое поведение в реальных ситуациях. Эта модель также включает в себя настраиваемую функцию награды, которая помогает агенту избегать ошибок и выходов за допустимые состояния. ## Результаты В ходе экспериментов проводилась сравнительная оценка различных вариантов BC с трансформером и CQL на основе реальных данных. Результаты показали, что CQL не только увеличивает устойчивость политик, но и существенно повышает эффективность. Например, CQL демонстрирует 3.2 раза более высокую стабильность и 7.4 раз меньшую частоту столкновений по сравнению с лучшими результатами BC на 1,000 неизвестных сценах из Waymo Open Motion Dataset. Это демонстрирует, что Offline RL значительно превосходит BC в обучении политик для длинных горизонтов вождения. ## Значимость Предлагаемый подход может быть применен в различных сценариях автономного вождения, включая дорожные системы, парковки и управление транспортом. Он обеспечивает высокую устойчивость, снижает риск столкновений и повышает эффективность в различных реальных условиях. Это открывает новые возможности для безопасного и эффективного использования автономных систем в транспортных системах. ## Выводы Результаты показали, что Offline Reinforcement Learning, особенно CQL, является к

Annotation:

Learning robust driving policies from large-scale, real-world datasets is a central challenge in autonomous driving, as online data collection is often unsafe and impractical. While Behavioral Cloning (BC) offers a straightforward approach to imitation learning, policies trained with BC are notoriously brittle and suffer from compounding errors in closed-loop execution. This work presents a comprehensive pipeline and a comparative study to address this limitation. We first develop a series of in...

ID: 2508.07029v1 cs.LG, cs.AI, cs.RO, cs.SY, eess.SY

arXiv PDF

📄 Safety of Embodied Navigation: A Survey

2025-08-12

Авторы:

Zixia Wang, Jia Hu, Ronghui Mu

## Контекст Область исследования, связанная с embodied AI, занимает внимание в связи с развитием бо LLM и их применения в сценариях, требующих взаимодействия с окружением. Особое внимание уделяется сценариям навигации, где системы должны перемещаться в незнакомой среде, ориентируясь на цель. Однако эти системы встречаются с рядом проблем, в том числе техническими и безопасностными. Необходимость обеспечить безопасность таких систем поднимается из-за того, что они работают в динамичных реальных условиях, где их поведение может иметь значительное влияние. Мотивация для данного исследования лежит в том, чтобы изучить состояние знаний по безопасности embodied navigation, а также выявить главные проблемы и направления повышения эффективности и надежности таких систем. ## Метод Для изучения проблем безопасности embodied navigation был проведен разносторонний анализ, включающий в себя изучение атак, методов защиты, методов оценки и метрик. В качестве решения использовались существующие методологии, а также были включены данные и метрики, которые позволяют оценивать уровень безопасности и надежности систем. Технические решения включали в себя исследование механизмов защиты, предназначенных для обеспечения устойчивости и надежности в динамичных условиях. Также были рассмотрены различные архитектуры и модели, которые могут применяться для решения проблем в области безопасности embodied navigation. ## Результаты В ходе исследования проведены эксперименты, которые оценивали уровень безопасности различных систем навигации. Использовались различные данные, включая синтетические и реальные сцены навигации. Эксперименты позволили получить результаты, отражающие уровень устойчивости систем к различным типам атак, а также определить сильные и слабые стороны текущих методов защиты. Особое внимание было уделено оценке метрик, используемых для измерения эффективности и надежности систем. Результаты показывали, что некоторые методы обеспечения безопасности дают значительный прогресс, но некоторые проблемы все еще остаются неразрешенными. ## Значимость Результаты исследования могут быть применены в различных областях, в том числе в сфере автономных транспортных систем, в развитии систем для управления беспилотными летающими аппаратами, в сфере робототехники и в области виртуальной реальности. Основное преимущество методов, рассмотренных в исследовании, заключается в том, что они позволяют увеличить уровень надежности и безопасности, что может иметь значительное влияние на развитие индустрии. Также, найденные проблемы и пути их решения могут привести к раз

Annotation:

As large language models (LLMs) continue to advance and gain influence, the development of embodied AI has accelerated, drawing significant attention, particularly in navigation scenarios. Embodied navigation requires an agent to perceive, interact with, and adapt to its environment while moving toward a specified target in unfamiliar settings. However, the integration of embodied navigation into critical applications raises substantial safety concerns. Given their deployment in dynamic, real-wo...

ID: 2508.05855v1 cs.AI, cs.RO

arXiv PDF

📄 ME$^3$-BEV: Mamba-Enhanced Deep Reinforcement Learning for End-to-End Autonomous Driving with BEV-Perception

2025-08-12

Авторы:

Siyi Lu, Run Liu, Dongsheng Yang, Lei He

## Контекст В последние годы автономное водительство стало востребованным направлением исследований, в связи с потребностью в безопасных, эффективных и автономных транспортных системах. Однако существуют несколько проблем, связанных с модульными подходами. Они обладают высоким уровнем интерпретируемости, но часто сталкиваются с проблемами ошибок в процессе передачи данных и сложностями синхронизации различных модулей. Энд-то-энд (end-to-end) подходы, в свою очередь, упрощают дизайн системы, но часто сталкиваются с проблемами вычислительных ограничений. Методы, использующие bird's-eye view (BEV), становятся все более популярными в силу их способности предоставлять компактное представление окружающих объектов и дорожной среды, что позволяет эффективно использовать информацию. Наша мотивация заключается в создании усовершенствованного подхода, который объединяет преимущества BEV-представления с мощным аппаратом глубокого учёта на основе DRL. ## Метод Мы предлагаем **ME$^3$-BEV**, новую модель, которая использует глубокий учёт на основе DRL для управления автомобилем в реальном времени. Основной компонентом является **Mamba-BEV**, модель, основанная на BEV-представлении, которая способна эффективно извлекать и объединять спектр спектров временных признаков. Сеть **Mamba-BEV** создана для того, чтобы объединить BEV-представление с помощью Mamba-фреймворка для моделирования хронологических признаков, что позволяет системе более точно понять и моделировать длинные зависимости в окружающих объектах. Мы также интегрировали методы визуализации высокоразмерных признаков с помощью семантической сегментации, что позволяет более ясно понять, что именно модель учитывает при принятии решений. Модель **ME$^3$-BEV** использует **Mamba-BEV** в качестве входной структуры для DRL, что дает более высокую точность в динамичных ситуациях на дорогах. ## Результаты Мы проводили эксперименты на **CARLA Simulator**, где получили результаты, показывающие высокую эффективность нашего подхода. Модель **ME$^3$-BEV** демонстрирует значительное сокращение количества столкновений и улучшение точности траекторий по сравнению с существующими алгоритмами. Также было показано, что наш подход обеспечивает более высокую эффективность в обработке данных и снижение времени реакции, что важно для реального времени. Мы также показали, что визуализации с помощью семантической сегментации повышают интерпретируемость модели, что делает её более доступной для исследователей и разработчиков. ## Значимость Мы видим, что **ME$^3$-BEV** может быть применено в опе

Annotation:

Autonomous driving systems face significant challenges in perceiving complex environments and making real-time decisions. Traditional modular approaches, while offering interpretability, suffer from error propagation and coordination issues, whereas end-to-end learning systems can simplify the design but face computational bottlenecks. This paper presents a novel approach to autonomous driving using deep reinforcement learning (DRL) that integrates bird's-eye view (BEV) perception for enhanced r...

ID: 2508.06074v1 cs.AI, cs.RO

arXiv PDF

📄 mmWave Radar-Based Non-Line-of-Sight Pedestrian Localization at T-Junctions Utilizing Road Layout Extraction via Camera

2025-08-09

Авторы:

Byeonggyu Park, Hee-Yeun Kim, Byonghyok Choi, Hansang Cho, Byungkwan Kim, Soomok Lee, Mingu Jeon, Seong-Woo Kim

Детектирование пешеходов в условиях Non-Line-of-Sight (NLoS) — ключевая проблема для систем автоматизированного вождения, особенно в сложных транспортных ситуациях, таких как T-пересечения. Несмотря на то что мм-волновые радары оказываются эффективными для обнаружения объектов в таких ситуациях, их 2D-пространственная модель (PCD) часто подвержена деформациям из-за многопутных отражений, что снижает точность расположения объектов. Другой подход, основанный на использовании камер, может обеспечить высококачественные изображения, но их недостаток в глубинном видении затрудняет определение геометрии среды. Мы предлагаем новую систему, которая объединяет 2D-данные радара с интерпретацией 3D-сцены, полученной из изображений камеры. Эта система позволяет восстановить пространственную модель для точного расположения пешеходов в NLoS-регионах. Эксперименты на реальном транспортном средстве показали, что предложенный подход достаточно эффективен для решения данной задачи в реальных условиях.

Annotation:

Pedestrians Localization in Non-Line-of-Sight (NLoS) regions within urban environments poses a significant challenge for autonomous driving systems. While mmWave radar has demonstrated potential for detecting objects in such scenarios, the 2D radar point cloud (PCD) data is susceptible to distortions caused by multipath reflections, making accurate spatial inference difficult. Additionally, although camera images provide high-resolution visual information, they lack depth perception and cannot d...

ID: 2508.02348v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning

2025-08-09

Авторы:

Yutong Wang, Pengliang Ji, Kaixin Li, Baolong Bi, Tao Feng, Guillaume Sartoretti

Научная статья "Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning" рассматривает проблему применения Large Language Reasoning Models в средах с многократным взаимодействием и неполными подсказками. Основные трудности — недостаточная кредитная ассигнования в условиях дешевых наград и высокая сложность обработки длинных цепочек рассуждений. Авторы предлагают BPO — рамфркм, основанный на трех этапах: бутстрапинг, курсумлернинг и рефинирование. Он использует планирование с помощью логических кватернионов и цепочек мышления, стратегическое обучение по сложности, а также выбор опытов с помощью реварда-гейтетированной отборки. Эксперименты показали, что BPO дает новый подход к решению задач многошагового планирования в противоречивых и сложных средах, устанавливая новый стандарт в этой области.

Annotation:

Large Language Reasoning Models have demonstrated remarkable success on static tasks, yet their application to multi-round agentic planning in interactive environments faces two fundamental challenges. First, the intractable credit assignment problem renders conventional reinforcement learning ineffective in sparse-reward settings. Second, the computational overhead of verbose, step-by-step reasoning histories is prohibitive. To address these challenges, we propose BPO, a three-stage framework (...

ID: 2508.03018v1 cs.AI, cs.RO

arXiv PDF

Показано 121 - 126 из 126 записей