📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Complete Gaussian Splats from a Single Image with Denoising Diffusion Models

2025-09-02

Авторы:

Ziwei Liao, Mohamed Sayed, Steven L. Waslander, Sara Vicente, Daniyar Turmukhambetov, Michael Firman

#### Контекст Gaussian splatting, метод трехмерной реконструкции сцены на основе распределений Гаусса, широко применяется в интерактивных графике и виртуальной реальности. Однако этот метод требует полного охвата сцены с помощью сетки точек или теневых карт, что ограничивает его возможности в случаях неполного визуального доступа. Более того, оккультированные и невидные области сцены затруднены для реконструкции. Данная работа адресует эти проблемы, предлагая метод, который позволяет полностью реконструировать трёхмерную сцену с оккультированными областями по одной съёмке. #### Метод Метод основывается на диффузионных моделях для генерации трёхмерных структур. Разработанное решение, Variational AutoReconstructor, обучается в self-supervised режиме на 2D-изображениях, чтобы извлечь ло Lатентное пространство, представляющее трёхмерные сцены. Это пространство становится входным для диффузионной модели, которая поэтапно генерирует Дауссовы распределения для комплементарных (невидимых) областей сцены. Модель работает с гауссовыми распределениями, обеспечивая точность и реализм в реконструкции. Особенностью является возможность сгенерировать множество возможных вариантов реконструкции, обеспечивая гибкость в представлении невидимых областей. #### Резюлтаты Для оценки метода проводились эксперименты на различных тестовых сценах, включая реальные и виртуальные объекты. Модель была сравнена с современными подходами по качеству реконструкции и возможности генерировать различные варианты. Результаты показали, что разработанный подход позволяет генерировать более точные и разнообразные реконструкции, в том числе заполняя невидимые области. На реальных данных 360-градусных съёмок метод показал высокую точность в заполнении оккультированных областей и фидлистичность в целом. #### Значимость Метод может использоваться в областях, требующих полной трёхмерной реконструкции труднодоступных объектов, таких как виртуальная реальность, интерактивные приложения и автоматическая генерация графики. Он предлагает значительное сокращение необходимости в полным сканировании сцены, сохраняя точность и качество. Дополнительно, работа предоставляет новый подход к обучению моделей трёхмерного зрения на основе 2D-данных, что может быть применено в широком круге задач, связанных с глубоким обучением в трёхмерном пространстве. #### Выводы Разработанный подход демонстрирует высокую эффективность в реконструировании трёхмерных сцен с оккультированными областями по одной съёмке. Он позволяет генерировать разнообразные и точные рекон

Annotation:

Gaussian splatting typically requires dense observations of the scene and can fail to reconstruct occluded and unobserved areas. We propose a latent diffusion model to reconstruct a complete 3D scene with Gaussian splats, including the occluded parts, from only a single image during inference. Completing the unobserved surfaces of a scene is challenging due to the ambiguity of the plausible surfaces. Conventional methods use a regression-based formulation to predict a single "mode" for occluded ...

ID: 2508.21542v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 RynnEC: Bringing MLLMs into Embodied World

2025-08-22

Авторы:

Ronghao Dang, Yuqian Yuan, Yunxuan Mao, Kehan Li, Jiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao

#### Контекст Область исследования, связанная с embodied cognition, нацелена на развитие технологий, позволяющих системам понимать и взаимодействовать с физическим миром на более точном уровне. Однако существуют значительные проблемы в этой области, включая недостаточность данных для обучения моделей, ограниченные возможности понимания видеопоследовательностей и недостаточное развитие общих решений для обеспечения гранулярности и точности взаимодействия. Мотивация для этого исследования заключается в развитии моделей, которые могут эффективно обрабатывать видеоданные, обеспечивая глубокое понимание физического мира и поддерживая тонко настроенные взаимодействия. #### Метод RynnEC является видеомодульным большой языковой моделью, ориентированной на embodied cognition. Основной архитектурой является общего назначения модель видения и языка, дополненная региональным кодировщиком и масковым декодером. Эти компоненты позволяют модели взаимодействовать с видео на уровне регионов, обеспечивая гранулярность в обработке. Метод использует готовую модель видения и языка, улучшая ее для обработки видео с точки зрения регионов. Процесс обучения включает адаптацию модели к задачам, таким как обнаружение свойств объектов, сегментация объектов и пространственное рассуждение, используя новые данные, полученные с помощью предложенного пайплайна для генерирования 3D-данных. #### Результаты Результаты показывают, что RynnEC превосходит существующие модели по метрикам, таким как Precision, Recall и F1-score, в задачах, таких как обнаружение свойств объектов, сегментация и пространственное рассуждение. Эксперименты проводились на собственном RynnEC-Bench, специально разработанном для оценки embodied cognition. Эти результаты доказывают, что RynnEC не только эффективно обрабатывает видеоданные, но и может совершенствоваться в задачах, требующих тонкой обработки сложных визуальных и пространственных сигналов. #### Значимость Результаты RynnEC имеют широкие области применения, включая области, где требуется точная обработка видеоданных, такие как видеонаблюдение, интерактивные системы, проектирование интеллектуальных агентов. Одним из ключевых преимуществ является улучшение точности взаимодействия с физическим миром, что может повлиять на развитие робототехники, AR/VR и систем контроля. Благодаря предлагаемому подходу, модель может стать основой для развития общих центров обработки информации для embodied agents, что способствует расширению возможностей в различных областях. #### Выводы RynnEC достигает состояния лидера в области embodied cognition, демонстрируя свою эффективность в трех ключевых задачах. Она обеспечивает то

Annotation:

We introduce RynnEC, a video multimodal large language model designed for embodied cognition. Built upon a general-purpose vision-language foundation model, RynnEC incorporates a region encoder and a mask decoder, enabling flexible region-level video interaction. Despite its compact architecture, RynnEC achieves state-of-the-art performance in object property understanding, object segmentation, and spatial reasoning. Conceptually, it offers a region-centric video paradigm for the brain of embodi...

ID: 2508.14160v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 Learning Point Cloud Representations with Pose Continuity for Depth-Based Category-Level 6D Object Pose Estimation

2025-08-22

Авторы:

Zhujun Li, Shuo Zhang, Ioannis Stamos

## Контекст Category-level 6D object pose estimation является важной задачей в области зрения компьютера, нацеленной на определение 6D-позы и 3D-размеров объектов в представлении данных глубины. Данная задача находит применение в ассистированном робототводе, виртуальной реальности и других областях. Однако, существующие подходы, основанные на простых 6D-позных сигналах, часто страдают от несогласованности предсказаний и ограниченности в области новых поз, что снижает качество решения. Мотивирует нашу работу необходимость в улучшении точности и устойчивости предсказаний для универсального использования. ## Метод Мы предлагаем HRC-Pose, новую методику для выделения представлений точечных облаков, сохраняющих пределы 6D-позы. Наша методика основывается на контрастном обучении, который позволяет учитывать связанность между 6D-позами. HRC-Pose разделяет 6D-позу на компоненты поворота и перемещения, которые обрабатываются отдельно. Мы предлагаем 6D pose-aware hierarchical ranking scheme, который использует 6D-позы для сравнения точечных облаков из нескольких категорий. Для позиционирования, мы разработали модули для обработки rotation-aware и translation-aware embeddings, улучшая стабильность и точность. ## Результаты Мы проверили HRC-Pose на двух наборах данных REAL275 и CAMERA25. Выборка REAL275 включает реальные сцены, а CAMERA25 — синтетические. Наши эксперименты показали, что HRC-Pose выдает значительно улучшенную точность во всех категориях в сравнении с состоянием искусства, специально для глубинных данных. Мы также показали, что методика работает в реальном времени, что демонстрирует ее применность в реальных системах. ## Значимость Методика HRC-Pose может применяться в различных областях, таких как ассистированный робот, системы AR/VR и автоматизированная сборка. Она предлагает более точные и устойчивые предсказания 6D-позы в сравнении с состоянием искусства. Благодаря своей эффективности, она позволяет улучшить качество работы в реальных условиях. ## Выводы Мы доказали, что HRC-Pose позволяет улучшить точность 6D-позы в depth-based category-level estimation. Будущие исследования будут направлены на улучшение сложности модели и расширение ее применения к более широкой области 6D-поз.

Annotation:

Category-level object pose estimation aims to predict the 6D pose and 3D size of objects within given categories. Existing approaches for this task rely solely on 6D poses as supervisory signals without explicitly capturing the intrinsic continuity of poses, leading to inconsistencies in predictions and reduced generalization to unseen poses. To address this limitation, we propose HRC-Pose, a novel depth-only framework for category-level object pose estimation, which leverages contrastive learni...

ID: 2508.14358v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 Recent Advances in Transformer and Large Language Models for UAV Applications

2025-08-19

Авторы:

Hamza Kheddar, Yassine Habchi, Mohamed Chahine Ghanem, Mustapha Hemis, Dusit Niyato

## Контекст Управление и операция непосредственно зависят от того, насколько эффективно выполняются задачи в области производительности и автономной работы систем непосредственно в рамках функциональных моделей и новых технологий. Развитие Трансформеров и больших языковых моделей (LLM) привело к переосмыслению области Трансформеров и элементов данных в УАВ, в том числе перцепции, решениями, а также в результате устойчивой работы в разных условиях. Однако существуют проблемы, связанные с высоким расходом ресурсов, требованиями к вычислительной эффективности и вопросами реального времени, которые до сих пор не решены в области УАВ. Данная статья стремится к новым техническим решениям, которые позволяют повысить эффективность и оптимизировать использование ресурсов в системах УАВ. ## Метод Данная работа предлагает подробный сопоставительный анализ и новую структуру Трансформеров в УАВ. Она выявляет три основных технических решения: а) использование аттенционных механизмов для улучшения решений в системах непосредственного управления, b) гибридные системы, которые объединяют трансформеры и целковые нейронные сети (CNN), c) реинфорсментовые алгоритмы, сочетающие Трансформеры с алгоритмами решений для реального времени. Также рассматривается развитие больших языковых моделей (LLM) для поддержки этих моделей. Работа по визуализации и оценке решений включает в себя таблицы с результатами и конкретные кейсы из УАВ, такие как автономная навигация и операции в разных условиях. ## Результаты Работа представляет собой трехуровневый подход к сравнению Трансформеров в УАВ: сравнение архитектур, сравнение результатов, а также оценку удовлетворяемости требований к реальному времени. Были рассмотрены несколько данных, включая LLMs и датасеты, которые помогли в тестировании и оценке моделей, в том числе по УАВ. Результаты показывают, что новые гибридные модели и Трансформеры на основе визуальных сигналов позволяют повысить точность решений и работу в реальном времени. Отдельная оценка основана на симуляторах и реальных данных, что позволяет сравнить решения в разных условиях. ## Значимость Открытое применение Трансформеров и LLMs в УАВ открывает новые возможности в области автономной работы и управления, в том числе в полевых операциях, фермерском секторе, доставке и других. Трансформеры предоставляют высокую точность и устойчивость, что является ключевым преимуществом. Большие языковые модели также позволяют оптимизировать работу, умень

Annotation:

The rapid advancement of Transformer-based models has reshaped the landscape of uncrewed aerial vehicle (UAV) systems by enhancing perception, decision-making, and autonomy. This review paper systematically categorizes and evaluates recent developments in Transformer architectures applied to UAVs, including attention mechanisms, CNN-Transformer hybrids, reinforcement learning Transformers, and large language models (LLMs). Unlike previous surveys, this work presents a unified taxonomy of Transfo...

ID: 2508.11834v1 cs.CV, cs.AI, cs.RO, cs.SY, eess.IV, eess.SY

arXiv PDF

📄 Surg-InvNeRF: Invertible NeRF for 3D tracking and reconstruction in surgical vision

2025-08-15

Авторы:

Gerardo Loza, Junlei Hu, Dominic Jones, Sharib Ali, Pietro Valdastri

#### Контекст Трекинг 3D-точек — ключевой вопрос в сфере стереоскопического визуального сервинга (SVS), сложным областью в становлении искусственного зрения в хирургии. Он требует постоянного отслеживания объектов в пространстве за счет передачи соответствий между кадрами. Основная проблема в трекинге заключается в необходимости обеспечить точность, устойчивость и высокую скорость вычислений. Существующие подходы часто сталкиваются с проблемами неквалифицированного оценивания движения или ограниченности в 2D-пространстве. Наша мотивация заключается в создании метода, который объединит точность, устойчивость и многослойный анализ пространственного пространства в системах хирургического визуального сервинга. #### Метод Мы предлагаем Surg-InvNeRF — новую модель, основанную на Invertible Neural Radiance Fields (InvNeRF), для решения проблемы трекинга в 3D. Наш подход тесно интегрирует нейронные сети с деформируемым NeRF для достижения бидирекционального деформируемого канонического отображения. Surg-InvNeRF предлагает несколько ключевых усовершенствований: 1. **Инверсионная NeRF-архитектура:** Она предлагает оптимизацию в тест-тайме (TTO), которая агрегирует соответствия из существующих методов TTO. 2. **Деформируемый NeRF:** Мы используем этот подход для обеспечения бидирекционального преобразования между деформированной и канонической системой координат. 3. **HexPlanes:** Это модифицированный вариант тензорных слоёв, который позволяет достичь быстрого расчёта. 4. **Процедура выбора пикселей и критерии сходимости:** Мы предлагаем новую процедуру для улучшения точности и скорости сходимости. Эти технические решения позволяют применять нашу модель в сценариях хирургического визуального сервинга, где необходима высокая точность и устойчивость. #### Результаты Мы проводили эксперименты на двух наборах данных: STIR и SCARE. На STIR мы оценивали точность 2D-трекинга, а на SCARE — 3D-трекинг и внедрение кинематических данных. Сравнение с текущими методами показало, что наш метод превосходит них в 2D-трекинге на 50% при той же скорости работы. В 3D-трекинге мы представляем первый TTO-подход, объединяющий точность и структуру, специфичные для деформируемого NeRF-подхода. #### Значимость Наш подход может применяться в следующих областях: - Хирургическое визуальное сервинге для улучшения точности и динамического отслеживания. - Развитии искусственного зрения для 3D-моделей в реальном времени. - Обучении и анализу движения в сложных трёхмерных пространствах. Преимущ

Annotation:

We proposed a novel test-time optimisation (TTO) approach framed by a NeRF-based architecture for long-term 3D point tracking. Most current methods in point tracking struggle to obtain consistent motion or are limited to 2D motion. TTO approaches frame the solution for long-term tracking as optimising a function that aggregates correspondences from other specialised state-of-the-art methods. Unlike the state-of-the-art on TTO, we propose parametrising such a function with our new invertible Neur...

ID: 2508.09681v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 Shape Completion and Real-Time Visualization in Robotic Ultrasound Spine Acquisitions

2025-08-14

Авторы:

Miruna-Alexandra Gafencu, Reem Shaban, Yordanka Velikova, Mohammad Farid Azampour, Nassir Navab

## Контекст Ультразвуковое исследование (US) становится все более популярным при проведении процедур при позвоночнике, благодаря его реальному времени отображению и отсутствию излучений. Однако, его эффективность существенно ограничивается феноменом затемнения (shadowing artifacts), который затрудняет видимость глубинных тканей. Традиционные методы, такие как регистрация CT-to-US, используют анатомическую информацию из предварительных CT-сканов для улучшения визуализации, но они страдают от сложности регистрации, различий в кривизне позвоночника и необходимости иметь актуальные CT-сканы. Недавние методы комплексного описания формы могут предложить альтернативу, восстанавливая анатомические структуры в данных US, при этом используя предварительно обученные модели на огромных объемах публичных данных CT. Несмотря на это, эти подходы типично являются оффлайнными и имеют ограниченную воспроизводимость. Мы предлагаем новую, интегрированную систему, объединяющую роботизированный ультразвук и реальное время комплексного описания, для повышения визуализации позвоночника в ультразвуковых процедурах. ## Метод Наша система автоматически выполняет ультразвуковые сканы нижнего позвоночника с помощью роботизированного ультразвукового сканера, извлекает поверхности позвоночника из ультразвука и восстанавливает полную анатомию с помощью глубокого нейронного сетевого сетевого метода комплексного описания. Мы разрабатываем алгоритмы для точного восстановления анатомических структур и интегрируем их с роботизированной платформой для реального времени. Метод протестирован на макете и на данных волонтера, используя качественные и количественные подходы для оценки точности восстановления и визуализации. ## Результаты Мы проверяем нашу систему на макете и волонтерских данных. На макете, наши эксперименты показывают, что модель демонстрирует высокую точность восстановления глубинных анатомических структур, а также производит реальному времени визуализацию. На данных волонтера, система продемонстрировала возможность автоматического повторения сканов и интерактивной визуализации, что помогает повысить точность и понимание анатомии. Результаты показывают, что наш подход может сделать процедуры более последовательными и надежными. ## Значимость Наш подход может быть применен в различных областях медицины, включая хирургию позвоночника и другие сложные процедуры, где визуализация ключева. Он предоставляет преимущества, такие как улучшение точности, последовательности и понимания анатомии. Будущие исследования будут фоку

Annotation:

Ultrasound (US) imaging is increasingly used in spinal procedures due to its real-time, radiation-free capabilities; however, its effectiveness is hindered by shadowing artifacts that obscure deeper tissue structures. Traditional approaches, such as CT-to-US registration, incorporate anatomical information from preoperative CT scans to guide interventions, but they are limited by complex registration requirements, differences in spine curvature, and the need for recent CT imaging. Recent shape c...

ID: 2508.08923v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 Spatial Traces: Enhancing VLA Models with Spatial-Temporal Understanding

2025-08-14

Авторы:

Maxim A. Patratskiy, Alexey K. Kovalev, Aleksandr I. Panov

## Контекст В последнее десятилетие, визуально-языковые модели стали одним из основных направлений в искусственном интеллекте. Они позволяют агентам визуально-языковых моделей (VLA) воспринимать визуальные сигналы и текстовые команды для точного прогнозирования динамики действий в реальных и виртуальных средах. Однако существуют некоторые проблемы, связанные с недостаточным пониманием спatial и temporal аспектов. Несмотря на то, что ранее разработанные подходы привносили улучшения, они по-прежнему сталкиваются с ограничениями в данных и сложностью внедрения этих подходов для решения реальных задач. Этот факт мотивирует разработку более эффективных методов, которые могут объединить spatial и temporal с той же степенью эффективности. ## Метод Метод Spatial Traces состоит в том, чтобы проецировать ключевые точки, отслеживаемые на входных визуальных кадрах, на depth maps (глубинные карты). Это происходит с помощью технологии visual prompting, которая интегрирует spatial и temporal слои в одном процессе. Модель получает входные данные в виде глубинных карт и текстовых признаков, а затем выполняет последовательное обучение, чтобы обеспечить одновременное понимание пространственных и временных зависимостей. Была разработана архитектура, включающая convolutional layers для обработки depth maps и transformer-based encoder для обработки текстовых данных. Эта методика позволяет улучшить прогнозирование действий в пространстве и времени, объединяя их в единую модель. ## Результаты Эксперименты проводились на SimplerEnv, где использовались данные, содержащие визуальные сигналы и текстовые команды. Модель Spatial Traces показала значительное улучшение в процессе решения задач в сравнении с двумя конкурирующими моделями: SpatialVLA и TraceVLA. Для Spatial Traces, mean success rate увеличился на 4% в сравнении с SpatialVLA и на 19% в сравнении с TraceVLA. Кроме того, Spatial Traces показала высокую точность при минимальном количестве данных для обучения, что делает её привлекательной для реальных сценариев, где сбор данных может быть ограниченным. ## Значимость Этот подход может быть применен в различных областях, таких как robotics, augmented reality, и computer vision. Он позволяет улучшить точность прогнозирования динамики в средах, где spatial и temporal данные имеют важное значение. Благодаря тому, что модель показала высокую эффективность с минимальным объемом данных, она может стать ключевым инструментом для решения задач в реальном мире, где сбор данных может быть сложным. ## Выводы В ходе работы был разработан метод, который улучшает точность прогнозирования действий в пространстве и времени, объединяя spatial и temporal слои в единой модели. Этот подход продемонстрировал существенное улучшение производительности в сравнении с подходами, которые работают с spatial и temporal данными отдельно

Annotation:

Vision-Language-Action models have demonstrated remarkable capabilities in predicting agent movements within virtual environments and real-world scenarios based on visual observations and textual instructions. Although recent research has focused on enhancing spatial and temporal understanding independently, this paper presents a novel approach that integrates both aspects through visual prompting. We introduce a method that projects visual traces of key points from observations onto depth maps,...

ID: 2508.09032v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 mmWave Radar-Based Non-Line-of-Sight Pedestrian Localization at T-Junctions Utilizing Road Layout Extraction via Camera

2025-08-09

Авторы:

Byeonggyu Park, Hee-Yeun Kim, Byonghyok Choi, Hansang Cho, Byungkwan Kim, Soomok Lee, Mingu Jeon, Seong-Woo Kim

Детектирование пешеходов в условиях Non-Line-of-Sight (NLoS) — ключевая проблема для систем автоматизированного вождения, особенно в сложных транспортных ситуациях, таких как T-пересечения. Несмотря на то что мм-волновые радары оказываются эффективными для обнаружения объектов в таких ситуациях, их 2D-пространственная модель (PCD) часто подвержена деформациям из-за многопутных отражений, что снижает точность расположения объектов. Другой подход, основанный на использовании камер, может обеспечить высококачественные изображения, но их недостаток в глубинном видении затрудняет определение геометрии среды. Мы предлагаем новую систему, которая объединяет 2D-данные радара с интерпретацией 3D-сцены, полученной из изображений камеры. Эта система позволяет восстановить пространственную модель для точного расположения пешеходов в NLoS-регионах. Эксперименты на реальном транспортном средстве показали, что предложенный подход достаточно эффективен для решения данной задачи в реальных условиях.

Annotation:

Pedestrians Localization in Non-Line-of-Sight (NLoS) regions within urban environments poses a significant challenge for autonomous driving systems. While mmWave radar has demonstrated potential for detecting objects in such scenarios, the 2D radar point cloud (PCD) data is susceptible to distortions caused by multipath reflections, making accurate spatial inference difficult. Additionally, although camera images provide high-resolution visual information, they lack depth perception and cannot d...

ID: 2508.02348v1 cs.CV, cs.AI, cs.RO

arXiv PDF

Показано 31 - 38 из 38 записей