📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SpaRC-AD: A Baseline for Radar-Camera Fusion in End-to-End Autonomous Driving

2025-08-16

Авторы:

Philipp Wolters, Johannes Gilg, Torben Teepe, Gerhard Rigoll

## Контекст Autonomous driving системы стремятся к улучшению производительности с помощью унифицированной оптимизации перцепции, моделирования движения и планирования. Однако визуальные подходы сталкиваются с ограничениями в плохих погодных условиях, частичных заслонках и точном определении скорости, которые являются критичными для безопасности в сценариях столкновений. SpaRC-AD предлагает решение в виде фреймворка для снижения рисков, используя радиолокационные данные для улучшения съемки и методов планирования. ## Метод SpaRC-AD — это сплайн-ориентированный фреймворк, который использует запросы для синергии вида и радиолокации. Он включает 3D-спарсинг фотограмм, применяет sparse 3D feature alignment, и использует doppler-based velocity estimation для точного построения 3D сцены. Метод использует обновленные анкоры для тракторий и полилиний карты, которые способствуют точному планированию. Основные элементы: radar-camera детектирование и моделирование движения. ## Результаты SpaRC-AD показывает значительные улучшения по сравнению с визуальными базами, включая 3D detection (+4.8% mAP), multi-object tracking (+8.3% AMOTA), online mapping (+1.8% mAP), motion prediction (-4.0% mADE), and trajectory planning (-0.1m L2 and -9% TPC). Эксперименты проводились на nuScenes, T-nuScenes и Bench2Drive с помощью реальных данных и симуляторов, подтверждая высокую точность и устойчивость в сложных сценариях. ## Значимость SpaRC-AD может применяться в сценариях столкновений, требующих точного разделения объектов и планирования траектории. Он показывает преимущества в сложных условиях, таких как дождь, снег и туман. Фреймворк может улучшить безопасность и эффективность в автономном вождении, обеспечивая предсказание траекторий и столкновений. ## Выводы SpaRC-AD достигает высокой точности и стабильности в трех мерной окружающей среде, используя 3D-спарсинг и допплер-эффект. Его мощь в критичных сценариях демонстрирует потенциал для улучшения систем автономного вождения, а его исходный код доступен для дальнейших исследований.

Annotation:

End-to-end autonomous driving systems promise stronger performance through unified optimization of perception, motion forecasting, and planning. However, vision-based approaches face fundamental limitations in adverse weather conditions, partial occlusions, and precise velocity estimation - critical challenges in safety-sensitive scenarios where accurate motion understanding and long-horizon trajectory prediction are essential for collision avoidance. To address these limitations, we propose Spa...

ID: 2508.10567v1 cs.CV, cs.RO

arXiv PDF

📄 Distilling LLM Prior to Flow Model for Generalizable Agent's Imagination in Object Goal Navigation

2025-08-15

Авторы:

Badi Li, Ren-jie Lu, Yu Zhou, Jingke Meng, Wei-shi Zheng

## Контекст Объектно-целевая навигация (Object Goal Navigation, ObjectNav) — задача, в которой агент должен найти указанный объект в неизвестной среде, используя только сенсорные данные, полученные при перемещении. Для этого необходимо иметь возможность "обдумать" невидимые области сцены. Несмотря на прогресс в области обучения обратных моделей, существующие подходы часто ориентируются на детерминированные и дискриминативные модели, которые строят семантические карты. Этот подход игнорирует неопределенность в воспроизводстве внутренних структур помещения, что ограничивает общие возможности модели. Наша модель GOAL (Guided Object Goal Agent Leveraging) адресует эти ограничения, предлагая новый подход к построению общеудобных моделей для ObjectNav. ## Метод GOAL использует генерирующую модель на основе потоков (flow-based generative model) и активирует ее с помощью крупномасштабных языковых моделей (LLMs). Модель GOAL представляет сцену как потоковую модель, которая может добавлять невидимые части сцены на основе наблюдаемых. Для этого мы задействуем LLM для формирования распределения семантических полей в помещении на основе наблюдаемых данных. Эти семантические поля преобразуются в 2D-гауссоновские поля, которые вводятся в модель потоков. Это позволяет модели извлекать информацию о контексте из широкого контекста, чтобы улучшить подготовленные для обучения карты. ## Результаты Мы проверили GOAL на двух популярных наборах данных ObjectNav — MP3D и Gibson. Наши эксперименты показали, что GOAL достигает лучшего результата по сравнению с другими подходами. В частности, она показала наиболее высокую точность в поиске объектов в неизвестных помещениях. Мы также проверили модель на HM3D, где она показала сильные результаты в тестировании вне среды обучения. Эти результаты подтверждают, что модель GOAL обладает высокой общеудобностью и эффективностью в задаче ObjectNav. ## Значимость Модель GOAL может быть применена в различных сценариях, таких как виртуальные ассистенты, системы для управления домашним роботом и системы создания знаний в виртуальных средах. Одним из ключевых преимуществ является ее общеудобность, что делает ее подходящей для различных сред. Благодаря использованию LLM, GOAL может обеспечить более точное и контекстуально обоснованное воспроизведение сцен, что может оказаться ключевым для улучшения навигационных задач. Мы считаем, что наша работа открывает новые пути для дальнейшего исследования в области контекстно-обоснованных моделей для навигации. ## Выводы Мы представили GOAL, новую модель для Object Goal Navigation, которая использует генерирующие модели потоков и LLM-поenнененные семантические карты для улучшения общей обучаемости и силы обра

Annotation:

The Object Goal Navigation (ObjectNav) task challenges agents to locate a specified object in an unseen environment by imagining unobserved regions of the scene. Prior approaches rely on deterministic and discriminative models to complete semantic maps, overlooking the inherent uncertainty in indoor layouts and limiting their ability to generalize to unseen environments. In this work, we propose GOAL, a generative flow-based framework that models the semantic distribution of indoor environments ...

ID: 2508.09423v1 cs.CV, cs.RO

arXiv PDF

📄 WeatherPrompt: Multi-modality Representation Learning for All-Weather Drone Visual Geo-Localization

2025-08-15

Авторы:

Jiahao Wen, Hang Yu, Zhedong Zheng

#### Контекст Визуальная геолокализация дронов является критически важной задачей, особенно в условиях перерыжения погоды, таких как дождь и туман. Несмотря на прогресс в этой области, существующие методы сталкиваются с проблемами, связанными с нестабильностью в условиях погоды. Одна из основных проблем заключается в зависимости от ограниченных категорий погодных условий, что снижает общую гибкость и жесткость моделей. Другая проблема заключается в неэффективности разделения сцен и величин погодных условий. Недостаточное отделение этих компонентов приводит к ухудшению точности и обобщаемости. Наша мотивация состоит в том, чтобы разработать метод, который мог бы лучше справляться с этими проблемами и обеспечивать устойчивость в различных погодных условиях. #### Метод Мы предлагаем WeatherPrompt, многомодальный подход, основанный на создании weather-invariant representation в рамках двух ключевых компонентов. Во-первых, мы используем Training-free Weather Reasoning, который использует высокотехнологичные модели с мультимодальным аппаратом для генерирования мультивременных текстовых описаний. Это позволяет сделать модель более устойчивой к неизвестным или сложным погодным условиям. Во-вторых, мы предлагаем Dynamic Gating Mechanism, который позволяет адаптивно регулировать вклад каждой модальности (визуальная и текстовая) в дискретной сети. Этот механизм позволяет лучше разделять scene-weather features. Модель также оптимизируется с помощью cross-modal objectives, таких как image-text contrastive learning и image-text matching, чтобы сблизить в пространстве представлений сцены с разными погодными условиями. #### Результаты Мы проводили многочисленные эксперименты для оценки WeatherPrompt по сравнению с состоянием техники. Наши эксперименты проводились на различных датасетах, включая условия темноты, тумана и снега. Мы заметили, что наш метод достиг высокой точности, при этом повышая Recall@1 на +13.37% при темноте и +18.69% при тумане и снегу. Эти результаты показали, что WeatherPrompt способен лучше справляться с внезапными и сложными условиями, чем существующие методы. #### Значимость WeatherPrompt может быть применен в различных областях, включая автоматизированные системы для доставки товаров, поиск и спасение, а также системы мониторинга и контроля. Этот подход предлагает значительные преимущества, такие как увеличение точности и устойчивость под внезапными условиями. Мы полагаем, что он может продвинуть технологический прогресс в области визуальных геолокаций в реальном времени, повысив уровень безопасности и эффективности в скрытых или труднодоступных условиях. #### Выводы WeatherPrompt представляет собой перспективный подход к визуальной геолока

Annotation:

Visual geo-localization for drones faces critical degradation under weather perturbations, \eg, rain and fog, where existing methods struggle with two inherent limitations: 1) Heavy reliance on limited weather categories that constrain generalization, and 2) Suboptimal disentanglement of entangled scene-weather features through pseudo weather categories. We present WeatherPrompt, a multi-modality learning paradigm that establishes weather-invariant representations through fusing the image embedd...

ID: 2508.09560v2 cs.CV, cs.RO

arXiv PDF

📄 Plane Detection and Ranking via Model Information Optimization

2025-08-15

Авторы:

Daoxin Zhong, Jun Li, Meng Yee Michael Chuah

## Контекст Анализ среды и поиск объектов являются ключевыми задачами в робототехнике, в том числе для обнаружения плоскостей в трехмерных пространствах. Эти плоскости могут представлять собой различные поверхности, например, стены, половую доску или даже неровности пола. Обнаружение плоскостей не только помогает в ориентации в пространстве, но и в улучшении взаимодействия с объектами. Однако существуют значительные проблемы, связанные с обнаружением плоскостей, особенно в сложных реальных сценах, где несколько плоскостей могут пересекаться, и глубинные данные могут содержать шум. Эти факторы приводят к ошибкам в распознавании плоскостей и менее точному ранжированию их важности. Для решения этих проблем необходимо развитие более надежных методов, основанных на оптимизации моделей и учете шума датчиков. ## Метод Метод, предложенный в статье, основывается на оптимизации моделей плоскостей с использованием случайного выбора (RANSAC) в качестве основы. Однако в отличие от стандартного RANSAC, данный подход трактует данные глубины как дискретные случайные величины, сгенерированные гауссовской случайной величиной. Затем, используя повторные выборки, авторы строят модели, описывающие различные плоскости, которые могут объяснить наблюдаемые данные. Для каждой модели создается модель шума с учетом физических характеристик датчика глубины. Оптимизация проводится путем выбора модели с наименьшим количеством информации, что означает, что эта модель наиболее вероятно представляет собой настоящую плоскость. Для каждой детектированной плоскости можно рассчитать ее качество, определяемое суммой влияний всех точек, которые входят в эту плоскость. ## Результаты Исследования проводились с использованием синтетических данных, а также данных в реальных условиях. Результаты показывают, что этот метод дает более точные результаты в оценке плоскостей по сравнению с другими подходами. Например, алгоритм показал лучшие результаты в обнаружении и ранжировании плоскостей в сложных сценах. Была также проведена экспериментальная оценка скорости работы, что подтвердила то, что эталонный RANSAC метод может быть ускорен с помощью разбиения данных с помощью нейронных сетей. Это улучшает качество распознавания и ускоряет процесс. ## Значимость Предложенный подход имеет широкие приложения в робототехнике, включая системы визуальной навигации, системы помощи в планировании движений и системы управления. Одним из основных преимуществ является улучшение точности распознавания плоскостей в сложных средах. Важное дополнительное преимущество —

Annotation:

Plane detection from depth images is a crucial subtask with broad robotic applications, often accomplished by iterative methods such as Random Sample Consensus (RANSAC). While RANSAC is a robust strategy with strong probabilistic guarantees, the ambiguity of its inlier threshold criterion makes it susceptible to false positive plane detections. This issue is particularly prevalent in complex real-world scenes, where the true number of planes is unknown and multiple planes coexist. In this paper,...

ID: 2508.09625v1 cs.CV, cs.RO

arXiv PDF

📄 Predictive Uncertainty for Runtime Assurance of a Real-Time Computer Vision-Based Landing System

2025-08-15

Авторы:

Romeo Valentin, Sydney M. Katz, Artur B. Carneiro, Don Walker, Mykel J. Kochenderfer

## Контекст В последние годы данно-настоящие технологии, основанные на машинном обучении, позволили создать устойчивые и эффективные системы автономного управления в сфере гражданской авиации. Например, использование визуального распознавания для задач, таких как автоматическое приземление и обнаружение полосы посадки, стало возможным благодаря высокоинформативным моделям и сильному увеличению объемов изображений. Однако, существуют значительные проблемы, связанные с доказательством надежности и безопасности этих систем в критичных для безопасности авиационных приложениях. Одним из основных вызовов является обеспечение не только точности, но и достоверности предсказаний моделей во время исполнения. Работа представляет собой усилие по созданию реалистичной визуальной системы, определяющей положение самолета относительно полосы посадки, которая может быть защищена и использована в критичных ситуациях. ## Метод Предлагаемый подход представляет собой инновационную визуальную модель, основанную на нейронных сетях, для точного и быстрого определения положения самолета в отношении полосы посадки. Основные инновации включают: (i) эффективную и гибкую архитектуру нейросети, основанную на Soft Argmax, которая позволяет получать проблему регрессии проблем с ключевыми точками поддерживая реального времени выполнение на разных моделях распознавания символов; (ii) новшество функции потерь, которая приводит к убедительным и калиброванным оценкам неопределенности; и (iii) расширенную версию Residual-based Receiver Autonomous Integrity Monitoring (RAIM), которая позволила реализовать возможность исправления и отклонения неточных выводов на время исполнения. Весь метод нацелен на создание системы, которая была бы надежна для применения в сложных авиационных ситуациях. ## Результаты Команда проводила исследования, используя набор данных, содержащий многочисленные изображения полосы посадки. Результаты показывают, что новая модель превосходит базовые архитектуры в точности определения положения самолета. Кроме того, она производит калиброванные оценки неопределенности с чрезвычайно высокой точностью до сотых долей пикселя. Эти показатели не только свидетельствуют о том, что модель может эффективно работать в реальном времени, но и обеспечивают фундамент для уверенного использования в системах с безопасным применением. ## Значимость Предлагаемая модель может применяться в различных авиационных системах, таких как системы поддержки приема и ведения курса, а также в системах автоматического приземления. Она предлагает несколько преимуществ, таких как улучшенная точность, более достоверные оцен

Annotation:

Recent advances in data-driven computer vision have enabled robust autonomous navigation capabilities for civil aviation, including automated landing and runway detection. However, ensuring that these systems meet the robustness and safety requirements for aviation applications remains a major challenge. In this work, we present a practical vision-based pipeline for aircraft pose estimation from runway images that represents a step toward the ability to certify these systems for use in safety-cr...

ID: 2508.09732v1 cs.CV, cs.RO

arXiv PDF

📄 Multi-view Normal and Distance Guidance Gaussian Splatting for Surface Reconstruction

2025-08-14

Авторы:

Bo Jia, Yanan Guo, Ying Chang, Benkui Zhang, Ying Xie, Kangning Du, Lin Cao

## Контекст 3D Gaussian Splatting (3DGS) — это метод, получивший прекрасные результаты в области поверхностной реконструкции, особенно для небольших сцен, расположенных во внутренних пространствах или на открытом воздухе. Однако, в случае одновременного использования нескольких обзоров, проблемы, такие как несоответствие геометрии и нормалей к поверхности при переключении между видами, могут привести к ошибкам в реконструкции. Эти проблемы особенно важны для окончательного подбора геометрии и текстуры. Наша мотивация заключается в создании метода, устраняющего эти ограничения и обеспечивающего точность и согласованность между различными видами. ## Метод Мы предлагаем **Multi-view Normal and Distance-Guided Gaussian Splatting (MND-GS)**, который решает проблему несовпадения нормалей и геометрии в нескольких видах. Метод использует два основных модуля: 1. **Multi-view Distance Reprojection Regularization Module**: Этот модуль вычисляет расстояние между двумя близкими видами и пересекающейся гауссовской поверхностью, чтобы выравнивать дистанционные параметры и обеспечивать точность. 2. **Multi-view Normal Enhancement Module**: Он гарантирует согласованность нормалей гауссовской поверхности в нескольких видах, путем сравнения и выравнивания нормалей пикселей в зависимости от соседних видов, с последующим вычислением потерь. Эти модули обеспечивают глубину и геометрию, гарантируя вездесущую физическую точность и согласованность. ## Результаты Мы проверили наш метод на нескольких сценах, включая внутренние и внешние области. Наши эксперименты показали, что MND-GS превосходит базовый метод 3DGS в тестах, основанных как на цифрах, так и на качестве визуального результата. Например, улучшение погрешности в нормалях достигло 10-15% в сравнении с основным 3DGS, а восстановленные поверхности были более точными и согласованными во всех видах. ## Значимость Мы видим применение нашего подхода в различных областях, таких как виртуальная реальность, игровая индустрия и моделирование 3D. Наш метод обеспечивает более точную и консистентную реконструкцию поверхностей, что повышает качество изображений и упрощает процесс редактирования. Это может привести к повышению качества продуктов в графической индустрии и улучшению представления сцен в виртуальных и аugmented-реальностных приложениях. ## Выводы Мы представили MND-GS, метод, который решает проблему несоответствия геометрии и нормалей в нескольких видах, обеспечивая согласованность и точность в реконструкции поверхности. Мы показали, что наш метод превосходит базовый 3DGS в технических и визуальных экспериментах. В будущем мы планируем

Annotation:

3D Gaussian Splatting (3DGS) achieves remarkable results in the field of surface reconstruction. However, when Gaussian normal vectors are aligned within the single-view projection plane, while the geometry appears reasonable in the current view, biases may emerge upon switching to nearby views. To address the distance and global matching challenges in multi-view scenes, we design multi-view normal and distance-guided Gaussian splatting. This method achieves geometric depth unification and high-...

ID: 2508.07701v2 cs.CV, cs.RO

arXiv PDF

📄 DiffPhysCam: Differentiable Physics-Based Camera Simulation for Inverse Rendering and Embodied AI

2025-08-14

Авторы:

Bo-Hsun Chen, Nevindu M. Batagoda, Dan Negrut

#### Контекст Рост интереса к системам с автономным визуальным воздействием, таким как роботы и виртуальная реальность, поднимает сложности синтеза реалистичных визуальных данных. Эти компоненты значительно влияют на обучение моделей визуальных сетей и визуально-моторного обучения. Однако существующие виртуальные камеры имеют ограниченный контроль над внутренними параметрами, плохо моделируют оптические артефакты, и нередко не поддерживают калибровку с использованием реальных данных. Это снижает эффективность симуляций и снижает доверие к технологиям сим-то-реал. DiffPhysCam предлагает решение этих проблем, улучшая реалистичность и точность синтеза визуальных данных. #### Метод DiffPhysCam — это разработанный метод, основанный на дифференцируемых принципах физики, предназначенный для синтеза искусственных визуальных данных. Он включает в себя несколько этапов: начиная от построения синтетических изображений до инверсного рендеринга для восстановления меша и объектных материалов. Оптические эффекты, такие как рассеивание и defocus blur, учитываются через дифференцируемые модели. Кроме того, DiffPhysCam поддерживает вычисления градиентов для оптимизации целевых переменных, таких как глубина или материальные характеристики. Эта архитектура позволяет ему хорошо справляться с задачами, требующими точного воспроизведения затухания и гауссовского размытия. #### Результаты В ходе экспериментов DiffPhysCam показал высокую точность в синтезе изображений, особенно в задачах с фокусировкой и рассеиванием. Он был успешно применен для реконструкции трёхмерных сцен с помощью инверсного рендеринга и для тренировки роботов в симуляциях. Например, робот-грузовик смог успешно перемещаться по симулируемой обстановке, используя изображения, сгенерированные DiffPhysCam. Эти результаты показали, что DiffPhysCam превосходит существующие решения в области визуальных симуляций. #### Значимость DiffPhysCam может быть применён в различных областях, включая робототехнику, виртуальную реальность и цифровые двойники. Он предоставляет улучшенный контроль над камерой и моделями оптических эффектов, что обеспечивает более точное воспроизведение реальных условий. Это позволяет значительно повысить эффективность тестов и обучения визуальных моделей в симуляционных средах. Будущие работы будут сфокусированы на расширении функциональных возможностей DiffPhysCam и его интеграции с более сложными системами симуляций. #### Выводы DiffPhysCam представляет собой значительный шаг в области синтеза и моделирования визуальных данных. О

Annotation:

We introduce DiffPhysCam, a differentiable camera simulator designed to support robotics and embodied AI applications by enabling gradient-based optimization in visual perception pipelines. Generating synthetic images that closely mimic those from real cameras is essential for training visual models and enabling end-to-end visuomotor learning. Moreover, differentiable rendering allows inverse reconstruction of real-world scenes as digital twins, facilitating simulation-based robotics training. H...

ID: 2508.08831v1 cs.GR, cs.CV, cs.RO

arXiv PDF

📄 ForeSight: Multi-View Streaming Joint Object Detection and Trajectory Forecasting

2025-08-13

Авторы:

Sandro Papais, Letian Wang, Brian Cheong, Steven L. Waslander

## Контекст Исследование автономных транспортных систем становится все более актуальным в связи с ростом требований к безопасности и эффективности вождения. Одной из ключевых задач в этой области является объединение детекции объектов и прогнозирования их динамики в реальном времени. Существующие подходы разделяют эти задачи на отдельные этапы, что приводит к ограничениям в использовании временных сигналов и сокращению точности решений. Возникает потребность в разработке методов, позволяющих эффективно объединять эти задачи, используя многозадачный подход и сжатые архитектуры. ## Метод ForeSight представляет собой многозадачную модель, где детекция и прогнозирование взаимодействуют в режиме потоковой передачи. Она использует библиотечный курс для обмена информацией между задачами, что позволяет улучшить локальное представление объектов и сгладить прогнозы в пространственно-временном пространстве. Модель включает в себя два основных компонента: **Forecast-aware Detection Transformer**, который улучшает пространственную логику, и **Streaming Forecast Transformer**, обеспечивающий временную консистентность. Архитектура основывается на трансформерах и динамически приспосабливается к потоку данных с различной степенью детализации. ## Результаты Исследования проводились на датасете nuScenes, где ForeSight показала сверхсовременные результаты. Она достигла EPA в 54.9%, превысив предыдущие решения на 9.3%. Модель также показала лучшие показатели mAP и minADE среди моделей с многовизуальным входом. Исследования показали, что ForeSight эффективно уменьшает ошибки, связанные с ассоциацией объектов, благодаря использованию трассировочного метода, который сокращает зависимость от предыдущих ошибок. ## Значимость Модель может быть применена в различных автоматизированных системах, включая водительские ассистенты, автономные автобусы и специальные транспортные средства. Основные преимущества ForeSight заключаются в более высокой точности, мощности и эффективности в параллельном режиме, что делает ее привлекательной для реального времени. В будущем можно рассмотреть расширение модели для других задач, таких как обнаружение объектов в разных сценариях или интеграция с другими системами прогнозирования. ## Выводы ForeSight достигла состояния лучших решений в области объектной детекции и прогнозирования траекторий, установив новые стандарты для визуальной 3D-перспективы в автономных системах. Будущие исследования будут сфокусированы на улучшении модели для более сложных сценариев, включая большое количество объектов и многозадачность в разных типах сцен.

Annotation:

We introduce ForeSight, a novel joint detection and forecasting framework for vision-based 3D perception in autonomous vehicles. Traditional approaches treat detection and forecasting as separate sequential tasks, limiting their ability to leverage temporal cues. ForeSight addresses this limitation with a multi-task streaming and bidirectional learning approach, allowing detection and forecasting to share query memory and propagate information seamlessly. The forecast-aware detection transformer...

ID: 2508.07089v1 cs.CV, cs.RO

arXiv PDF

📄 AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning

2025-08-13

Авторы:

Dejie Yang, Zijing Zhao, Yang Liu

#### Контекст Visual Robot Manipulation (VRM) — это область исследований, которая ставит перед собой целью возможность управления роботом с помощью естественного языка, исходя из его текущего состояния и визуальных наблюдений. Однако возникают сложности с получением достаточного объема мультимодальных данных, необходимых для обучения эффективных моделей. Большинство существующих подходов используют предварительное обучение на больших объемах визуально-языковых данных, которые носят откровенно "веб-научный" характер, несовместимый с конкретными робототехническими задачами. Таким образом, эти модели страдают от ограниченной общеуниверсальности и слабой устойчивости при недостаточных робототехнических данных. Мы предлагаем новый подход — AR-VRM (Analogical Reasoning для Visual Robot Manipulation) — чтобы сузить расстояние между роботом и человеком через явное иммитационное обучение на основе видео с людьми. #### Метод AR-VRM основывается на процессе имитационного обучения, но с фокусом на действиях рук. Мы реализовали ключевой этап — **Keypoint Vision-Language Model (VLM) pretraining** — чтобы модель могла выучивать человеческие движения и предсказывать координаты ключевых точек рук. Это позволяет роботу не только следовать подвижным инструкциям, но и понять физические паттерны движений. Во время переквалификации на робот, мы предлагаем **Analogical Reasoning (AR) map**, которая позволяет сопоставлять человеческие ключевые точки с соответствующими компонентами робота. Этот подход дает возможность заставить роботизированную руку выполнять действия, похожие на те, что увидел человек в демонстрационных видео. Таким образом, AR-VRM предлагает более новый подход к обучению визуальной робототехнической манипуляции. #### Результаты Мы провели эксперименты на CALVIN-benchmark, а также в реальном мире. Наш подход показал значительное превосходство по сравнению с другими методами, особенно при небольших объемах робототехнических данных. В сценариях с небольшим количеством выборок, AR-VRM показал себя значительно лучше, чем предыдущие модели, что подтверждает эффективность иммитации человеческих действий в условиях нехватки данных. Это подтверждает, что мы удачно снизили зависимость от больших робототехнических данных. #### Значимость Мы предлагаем новый подход к обучению визуальной робототехнической манипуляции, который может использоваться в различных сферах, включая домашние роботы, промышленные роботы и устройства с высоким уровнем интеграции с человеком. Наш подход позволяет снизить затраты на робототехнические данные, повысить устойчивость моделей и улучшить естественность взаимодей

Annotation:

Visual Robot Manipulation (VRM) aims to enable a robot to follow natural language instructions based on robot states and visual observations, and therefore requires costly multi-modal data. To compensate for the deficiency of robot data, existing approaches have employed vision-language pretraining with large-scale data. However, they either utilize web data that differs from robotic tasks, or train the model in an implicit way (e.g., predicting future frames at the pixel level), thus showing li...

ID: 2508.07626v1 cs.CV, cs.RO

arXiv PDF

📄 Multi-view Normal and Distance Guidance Gaussian Splatting for Surface Reconstruction

2025-08-13

Авторы:

Bo Jia, Yanan Guo, Ying Chang, Benkui Zhang, Ying Xie, Kangning Du, Lin Cao

#### Контекст 3D Gaussian Splatting (3DGS) — это метод, позволяющий эффективно восстанавливать трехмерные поверхности из точечных данных. Он достигает высокой точности в локальной области, но имеет ограничения в обеспечении глобальной точности при переключении между представлениями нескольких плоскостей. Эти ограничения становятся заметными при работе с многогранными сценами, где необходима одновременная точность в плоскости и в глубине. В настоящей статье мы адресуем эти проблемы, стремясь к улучшению глобальной точности и согласованности во всем многогранном пространстве. #### Метод Мы предлагаем метод Multi-view Normal and Distance Guidance Gaussian Splatting, который сочетает в себе многогранный подход к улучшению геометрической глубины и точности поверхности. Метод включает два основных модуля: **Multi-view Distance Reprojection Regularization** и **Multi-view Normal Enhancement**. Они позволяют разрешать проблемы бессоответствия глубины и нормалей в многоплоскостных сценах. Многогранная регуляризация работает путем вычисления расстояния между представлениями и их связь с поверхностью Гаусса. Модуль улучшения нормалей обеспечивает согласованность нормалей между представлениями, что дает более точные и гладкие результаты. #### Результаты Мы проводили подробные эксперименты на множестве многогранных сцен, включая как внутренние, так и внешние объекты. Мы сравнивали наши результаты с базовым алгоритмом 3DGS и другими существующими методами. Наши эксперименты показывают, что важность нашего подхода становится очевидной: наш метод показывает значительное улучшение в точности, как в квантитативных, так и в квалитативных оценках. Мы также провели модульные эксперименты для проверки эффективности отдельных модулей. #### Значимость Наш метод может быть применен в различных областях, таких как виртуализация, моделирование, виртуальная реальность и глубокое обучение с поддержкой многогранных приложений. Он предлагает высокую точность и более гладкие результаты в сравнении с традиционными подходами. Благодаря улучшенной геометрической глубине и нормальной согласованности, наш метод открывает новые возможности для виртуальной моделирования и рендеринга. #### Выводы Мы представили систему многогранного нормального и расстояний гауссовского сплаттинга в различных многогранных сценах. Мы доказали, что наш подход может улучшить глобальную точность и согласованность во всем пространстве. В будущем мы планируем расширить нашу систему, включив более сложные сцены и другие типы данных, такие как текстуры и многоугольники, для более точного моделирования и визуализации.

Annotation:

ID: 2508.07701v1 cs.CV, cs.RO

arXiv PDF

Показано 221 - 230 из 246 записей