📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Julius Pesonen, Arno Solin, Eija Honkavaara

## Контекст Определение 3D-положения дальних объектов из последовательности камерных замеров и сегментационных последовательностей является ключевым заданием в ситуациях, требующих высокой точности и надежности, например, в мониторинге лесных пожаров при помощи дронов. Традиционные подходы, такие как дептаст методы или трехмерная реконструкция сцены, часто оказываются не эффективными в условиях нестабильного изображения, высоких требований к вычислительным ресурсам или ограниченной доступности информации о параметрах камеры. Эти ограничения поднимают вопросы о создании более универсальных и ресурс-эффективных парадигм для решения таких задач. ## Метод Предложенный подход основывается на использовании фильтра Захара при оценке частотных свойств камеры. Данная методология позволяет использовать значения изображений сегментации и положения камеры для определения 3D-положений объектов. Алгоритм работает в двух сценариях: одной и множественных целей. Основные элементы метода включают в себя интеграцию потока частиц для моделирования распределения вероятностей положения объекта в трехмерном пространстве. Эта модель гибко адаптируется к различным сценариям, включая те, которые требуют оптимизации вычислительного бюджета. ## Результаты Исследования проводились на основе симуляционных данных и реальных последовательностей изображений с дрона, полученных с использованием глобальной системы навигации по satellite (GNSS) для определения положения камеры. Результаты показали, что фильтр Захара эффективно решает задачу определения 3D-положений дальних объектов, даже при низком качестве изображений и ограниченной доступности ресурсов. Этот подход продемонстрировал высокую точность и надёжность, оказавшуюся критично важной в задачах мониторинга и слежения. ## Значимость Предлагаемый подход может быть использован в многочисленных прикладных областях, включая мониторинг лесных пожаров, обзорные задачи поиска-и-спасения, а также ситуации, требующие реального времени и эффективности в тяжёлых условиях. Он предоставляет значительные преимущества перед существующими методами, такими как высокая гибкость и независимость от определённых моделей детекции. Данный подход также открывает новые возможности для эффективного использования подходов машинного зрения в трудновыполнимых условиях. ## Выводы Результаты экспериментов подтверждают эффективность использования фильтра Захара для решения проблем 3D-локализации дальних объектов в условиях семантической сегментации и шумных камерных данных. Б
Annotation:
3D object localisation based on a sequence of camera measurements is essential for safety-critical surveillance tasks, such as drone-based wildfire monitoring. Localisation of objects detected with a camera can typically be solved with dense depth estimation or 3D scene reconstruction. However, in the context of distant objects or tasks limited by the amount of available computational resources, neither solution is feasible. In this paper, we show that the task can be solved using particle filte...
ID: 2509.20906v1 cs.CV, cs.RO, I.4.8; I.4.9
Авторы:

William L. Muckelroy III, Mohammed Alsakabi, John M. Dolan, Ozan K. Tonguz

#### Контекст LiDAR (Light Detection and Ranging) является ключевым компонентом систем автономного управления транспортным средством (AD), обеспечивая точные и детальные 3D-репрезентации окружающей среды. Однако высокая стоимость LiDAR ограничивает его широкое применение в коммерческих автомобилях. В ответ на это, альтернативные подходы, такие как использование 4D-радаров и искусственных нейронных сетей, были разработаны для создания LiDAR-подобных точечных облаков (PC) с помощью 4D-данных радаров. Эти подходы стремятся решить проблему доступности LiDAR, повысить безопасность на дорогах и улучшить сценарное понимание. Несмотря на прогресс, существуют ограничения в качестве точечных облаков, сгенерированных более простыми моделями. Это мотивирует рассмотрение более сложных моделей сегментации, которые могут повысить качество точечных облаков и, в свою очередь, улучшить производительность систем автономного управления. #### Метод Мы используем модульную архитектуру, состоящую из **твердой модулярной сети сегментации (SMS)**, которая использует 2D-сверточную нейронную сеть (CNN) как основу, и **сети временной корреляции (TCN)** для повышения временной корреляции точечных облаков. Для обучения и оценки используется набор данных RaDelft, содержащий сочетание 4D-данных радара и сверточных фичей LiDAR. Мы выполняем эксперименты с различными моделями сегментации, включая простые и более высокомощные архитектуры, чтобы определить оптимальную модель для повышения качества точечных облаков. В качестве метрик используются точность распознавания объектов (mAP) и средняя точность распознавания (mAR). #### Результаты Проведенные эксперименты показали, что сети с более высоким количеством параметров могут ухудшить качество точечных облаков из-за переобучения и неэффективного использования ресурсов. Однако оптимальные модели сегментации могут увеличить точность распознавания объектов на 23.7% в сравнении со стандартными подходами, основанными на простых моделях. Кроме того, временная сеть TCN показала существенное улучшение во временной корреляции точечных облаков, что может улучшить сценарное понимание в системах AD. #### Значимость Наши результаты показывают, что выбор оптимальной модели сегментации и использование TCN могут значительно улучшить качество точечных облаков, сгенерированных 4D-радаром, и, следовательно, повысить производительность систем AD. Этот подход может быть применен в различных сценариях, таких как сценарное понимание, обнаружение объектов и слежение за перемещением объектов, чтобы повысить безопасность и эффективность автомобилей с AD. Будущие исследования будут нап
Annotation:
LiDAR's dense, sharp point cloud (PC) representations of the surrounding environment enable accurate perception and significantly improve road safety by offering greater scene awareness and understanding. However, LiDAR's high cost continues to restrict the broad adoption of high-level Autonomous Driving (AD) systems in commercially available vehicles. Prior research has shown progress towards circumventing the need for LiDAR by training a neural network, using LiDAR point clouds as ground truth...
ID: 2509.19644v1 cs.CV, cs.RO
Авторы:

Saimouli Katragadda, Guoquan Huang

## Контекст Развитие 3D-визуальных сенсоров позволяет создавать более точные и эффективные представления о трехмерной среде, необходимым для продвижения искусственного зрения в области робототехники и виртуальной, расширенной и увеличенной реальности (XR). Однако возникают сложности в достижении точности и эффективности при оценке глубины, что требует развития новых методов. Настоящая работа посвящена розработке модели, которая оптимально объединяет в себе подходы мониторинга мобильности и оценки глубины для получения результатов с высокой точностью. ## Метод Модель VIMD (Monocular Visual-Inertial Motion and Depth Estimation) основывается на нейросетевой архитектуре, которая использует концепцию MSCKF (Multi-State Constraint Kalman Filter). Алгоритм построен на использовании многомерной информации из видеопотока и инерционных датчиков, чтобы рефинить перпексивную масштабированность кадров. Метод работает в восьми этапах: сбор видеоданных, обработка инерционных сенсоров, инициализация модели, оценка глубины, итеративное исправление масштаба, обновление модели и вычисление параметров. Эта модель может интегрироваться с различными нейросетевыми структурами для оценки глубины. ## Результаты Использовались два тренировочных набора данных: TartanAir и VOID. Эксперименты показали, что VIMD достигает высокой точности и прочности даже при оценке глубины с очень малой плотностью точек (10-20 точек на кадр). Модель показала значительную улучшенную стабильность в автономных сценах и обнаружила способность нулевого шага для адаптации к новым условиям (AR Table dataset). ## Значимость Разработанная модель VIMD может применяться в робототехнике, XR и виртуальной реальности для визуальной оценки глубины и позиционирования. Она обеспечивает более точную и ресурсосберегающую систему, которая может быть применена в реальном времени. Благодаря своей модульной структуре и высокой прочности, VIMD подходит для различных сценариев, включая сценарии с ресурсом-ограниченными устройствами. ## Выводы Выводы подтверждают высокую эффективность VIMD в точной и стабильной оценке глубины, даже при минимальных данных. Это открывает путь для применения VIMD в реальном времени в сложных и многослойных средах. Будущие исследования будут сфокусированы на повышении модели путем интеграции дополнительных сенсоров и улучшении системы обучения.
Annotation:
Accurate and efficient dense metric depth estimation is crucial for 3D visual perception in robotics and XR. In this paper, we develop a monocular visual-inertial motion and depth (VIMD) learning framework to estimate dense metric depth by leveraging accurate and efficient MSCKF-based monocular visual-inertial motion tracking. At the core the proposed VIMD is to exploit multi-view information to iteratively refine per-pixel scale, instead of globally fitting an invariant affine model as in the p...
ID: 2509.19713v1 cs.CV, cs.RO
Авторы:

Filippo Ziliotto, Jelin Raphael Akkara, Alessandro Daniele, Lamberto Ballan, Luciano Serafini, Tommaso Campari

## Контекст В последние годы, Embodied AI стали возможностью для агентов, выполняющих комплексные задачи и адаптирующихся к различным окружениям. Однако, применение таких агентов в реальных сценариях, таких как домашние окружения, по-прежнему сложным и вызовом. Одним из ключевых проблемов является моделирование индивидуальных предпочтений и поведений людей. Для решения этой проблемы, мы предлагаем PersONAL (PERSonalized Object Navigation And Localization) — комплексный бенчмарк, который рассматривает вопросы персонализации в Embodied AI. Агенты должны выполнять задачи, такие как поиск и доставка предметов, относящихся к конкретному пользователю, посредством естественного общения. ## Метод PersONAL включает более 2000 высококачественных эпизодов, размещенных в 30+ фотореалистичных домах из HM3D датасета. Каждый эпизод содержит естественно-языковую сценарную описание, связывающую предметы с их владельцами (например, "найди рюкзак Лилли"). Бенчмарк поддерживает две режима оценки: (1) активное навигирование в новых окружениях и (2) гранулярное размещение предметов в уже изученных сценах. Это позволяет изучить способность агентов различать семантику, связанную с каждым пользователем. ## Результаты Эксперименты с текущими состояниями технологий показали существенное расстояние между их результатами и поведением человека. Агенты сталкиваются с трудностями в распознавании индивидуальных предпочтений и воспроизведении пользовательской семантики. Например, агенты столкнулись с проблемами в том, чтобы распознать и привязать объекты к их владельцам в новых сценах, что демонстрирует необходимость более сложных моделей, умеющих обрабатывать индивидуальные данные. ## Значимость PersONAL открывает новые перспективы для применения в различных областях, включая робототехнику, ассистирующие роботы и интеллектуальные дома. Улучшение моделей, способных принимать решения на основе индивидуальных предпочтений, может обеспечить более эффективное взаимодействие с людьми и расширить возможности использования агентов в реальном мире. ## Выводы PersONAL показывает, что вопрос персонализации в Embodied AI все еще остается открытым и требует дальнейшего исследования. Будущие работы будут сфокусированы на развитии моделей, которые будут умеет реагировать на уникальные особенности каждого пользователя, а также на расширении вычислительных мощностей для поддержки более сложных сценариев.
Annotation:
Recent advances in Embodied AI have enabled agents to perform increasingly complex tasks and adapt to diverse environments. However, deploying such agents in realistic human-centered scenarios, such as domestic households, remains challenging, particularly due to the difficulty of modeling individual human preferences and behaviors. In this work, we introduce PersONAL (PERSonalized Object Navigation And Localization, a comprehensive benchmark designed to study personalization in Embodied AI. Age...
ID: 2509.19843v1 cs.CV, cs.RO
Авторы:

Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, Shixiang Shane Gu, Nick Matarese, Kevin Swersky, Been Kim, Priyank Jaini, Robert Geirhos

## Контекст В статье рассматривается роль видеомоделей в области общего понимания визуального мира. Несмотря на то, что Large Language Models (LLMs) стали синонимом универсального понимания языка, видеомодели оставались ограниченными в своих применениях. В последнее время видеомодели начали предпринимать похожие шаги к универсальному пониманию, воспринимая и моделируя визуальные данные. Однако их потенциал в области целенаправленного моделирования визуальных задач до сих пор остается неясным. Наша модель, Veo 3, демонстрирует замечательные возможности в решении задач, которым не было явной подготовки. Этот поиск показывает, что видеомодели могут стать генеральными моделями для визуального понимания, аналогично тому, как LLMs стали генеральными моделями для языкового понимания. ## Метод Мы использовали модель Veo 3, тренированную на данных видео, чтобы протестировать ее возможности в решении различных задач визуального понимания. Наша методика включала использование тестов, в которых модель должна была решать задачи, для которых она не была явно обучена. Тестов включали визуальное разбиение объектов, определение рельефа, редактирование изображений, понимание физических свойств, распознавание аффордансов объектов, моделирование использования инструментов и визуальную резолюцию. Мы сравнивали результаты с другими моделями и экспериментами, чтобы оценить эффективность Veo 3 в этих задачах. ## Результаты Модель Veo 3 демонстрировала возможности решения широкого спектра задач по визуальному пониманию, которые не были явно заложены в ее обучение. Например, она смогла определить объекты, определить рельеф и физические свойства, а также решать задачи, такие как мазе и симметрия. Особенно заметны явления нулевого запуска (zero-shot learning), когда модель смогла решать задачи, не имея предварительной информации об их решении. Наши результаты также показывают, что Veo 3 имеет потенциал для моделирования визуальных задач в целом, что делает её эффективной в различных визуальных исследованиях. ## Значимость Наши результаты показывают, что видеомодели, использующие глубокое обучение на видеоданных, могут быть применены во многих областях визуального понимания, основываясь на их возможности решать задачи, не будучи явно обученными к ним. Это демонстрирует рост видеомоделей как крепких, генеральных моделей для визуального понимания. Помимо этого, Veo 3 демонстрирует возможность видеомоделей для решения задач, которые требуют визуальной разборки и моделирования. Это может быть применено в различных областях, таких как поиск изображений, анализ медиа,
Annotation:
The remarkable zero-shot capabilities of Large Language Models (LLMs) have propelled natural language processing from task-specific models to unified, generalist foundation models. This transformation emerged from simple primitives: large, generative models trained on web-scale data. Curiously, the same primitives apply to today's generative video models. Could video models be on a trajectory towards general-purpose vision understanding, much like LLMs developed general-purpose language understa...
ID: 2509.20328v1 cs.LG, cs.AI, cs.CV, cs.RO
Авторы:

Oussema Dhaouadi, Riccardo Marin, Johannes Meier, Jacques Kaiser, Daniel Cremers

## Контекст Определение точной позиции с помощью визуальной системы локализации является ключевым аспектом многих приложений, включая геодезические операции, осмотр больших территорий и поисковые и спасательные операции. Однако, эти системы часто сталкиваются с ограничениями, такими как отсутствие интернета или поддержки систем навигации глобальной спутниковой системы (GNSS/GPS). Доступ к тяжелым 3D-моделям или большим базам изображений также может быть невозможен. Несмотря на это, мало уделяется внимания возможности использования ортогональной геоданных, которая представляет собой легковесное и нарастающее решение, доступное благодаря бесплатным релизам от правительственных организаций, таких как Европейский Союз. ## Метод Мы предлагаем OrthoLoC — первую большую выборку данных, содержащую 16 425 изображений с дронов из Германии и США с несколькими модальностями. Этот набор данных учитывает переходы между изображениями дронов и геоданными спутниковой системы. Двойной структурой набора данных, где каждый образ сочетается с данными геолокации, позволяет отдельно оценивать производительность локализации и калибровки. Мы исследуем влияние переходов между доменами, разрешений изображений и совисибильности на точность локализации. Кроме того, мы предлагаем новую методику AdHoP, которая может быть интегрирована с любым методитером соответствия для улучшения соответствия и сокращения ошибок трансляции. ## Результаты Мы проводим подробное тестирование нашего подхода в различных условиях, включая различные резолюции изображений и уровни совисибильности. Наши результаты показывают, что AdHoP не только улучшает соответствие изображений и геоданных, но и существенно сокращает ошибки трансляции. Это позволяет повысить точность локализации и улучшить калибровку в сложных условиях. ## Значимость Благодаря своей легковесной структуре и доступности, OrthoLoC может быть применён в области геодезии, поисковых и спасательных операций, а также в других сферах, где требуется точная локализация в режиме оффлайн. Этот подход предоставляет оптимальное соотношение между производительностью и ресурсоемкостью. Мы также показываем, что AdHoP может быть интегрирован в существующие системы, чтобы повысить их производительность. ## Выводы Мы представили большую выборку данных OrthoLoC, которая обеспечивает новый подход к визуальной локализации и калибровке в сложных средах. Мы также представили новую методику AdHoP, которая может быть интегрирована в любую систему для улуч
Annotation:
Accurate visual localization from aerial views is a fundamental problem with applications in mapping, large-area inspection, and search-and-rescue operations. In many scenarios, these systems require high-precision localization while operating with limited resources (e.g., no internet connection or GNSS/GPS support), making large image databases or heavy 3D models impractical. Surprisingly, little attention has been given to leveraging orthographic geodata as an alternative paradigm, which is li...
ID: 2509.18350v1 cs.CV, cs.RO
Авторы:

Xiaoting Yin, Hao Shi, Kailun Yang, Jiajun Zhai, Shangwei Guo, Lin Wang, Kaiwei Wang

## Контекст Проблема реконструкции динамических людей вместе с статическими сценами из монокурсорных видео остается сложной, особенно при высокой скорости движения, когда RGB-кадры страдают от модуляции скорости. В этой области событийные камеры предлагают существенные преимущества, такие как микросекундная темпоральная разрешаемость, делая их привлекательными для динамической реконструкции людей. Наша работа привлекла внимание к моделированию людей и сцен в одной модели с использованием 3D-Gaussian Splatting, чтобы объединить моделирование движущихся людей и статических сцен. Мы предлагаем фреймворк, который может легко использоваться для моделирования людей и сцен в одной модели, что выгодно отличает его от существующих подходов. ## Метод Мы предлагаем новую модель, использующую 3D-Gaussian Splatting для реконструкции людей и сцен. Мы используем 3D-Gaussians для представления как движущихся людей, так и статических сцен. Для движущихся людей Gaussians деформируются для анимации, в то время как для статических ничего не меняется. Для улучшения качества реконструкции в результате высокой скорости движения, мы предлагаем событийно-гидродинамический потерий, который сравнивает изменения яркости между последовательными визуализациями с событиями. Это позволяет улучшить локальную точность в круто движущихся областях. Наш фреймворк упрощает процесс моделирования людей и сцен в одной модели, что делает его более эффективным по сравнению с другими подходами. ## Результаты Мы проверили нашу модель на двух наборах данных: ZJU-MoCap-Blur и MMHPSD-Blur. Наши результаты показали значительные достижения в PSNR, SSIM и понижении LPIPS, особенно для высококонтрастных работ. Мы сравнили нашу модель с существующими подходами, и показали, что наша модель превосходит их во всех аспектах. Эти результаты подтверждают эффективность нашего подхода в моделировании динамических людей и сцен с использованием событийных камер. ## Значимость Наш подход может быть применен в различных областях, таких как виртуальная реальность, анимация, и динамическая реконструкция движущихся объектов. Он предлагает несколько преимуществ над существующими подходами, включая улучшенную точность, упрощенную обработку, и более эффективное моделирование движущихся людей и сцен. Это может иметь значительное влияние в развитии технологий, таких как VR/AR, системы слежения и динамическая моделирования. ## Выводы Мы представили новую модель для реконструкции людей и сцен с использованием событийных камер. Мы показали, что наш подход превосходит существующие подходы в
Annotation:
Reconstructing dynamic humans together with static scenes from monocular videos remains difficult, especially under fast motion, where RGB frames suffer from motion blur. Event cameras exhibit distinct advantages, e.g., microsecond temporal resolution, making them a superior sensing choice for dynamic human reconstruction. Accordingly, we present a novel event-guided human-scene reconstruction framework that jointly models human and scene from a single monocular event camera via 3D Gaussian Spla...
ID: 2509.18566v1 cs.CV, cs.RO, eess.IV
Авторы:

Zhengri Wu, Yiran Wang, Yu Wen, Zeyu Zhang, Biao Wu, Hao Tang

#### Контекст Underwater stereo depth estimation является ключевым инструментом для робототехнических задач, включая навигацию, инспекцию и картирование подводных объектов. Она обеспечивает точное трёхмерное геометрическое построение с использованием дешёвых пассивных камер, избегая скольжения с масштаба, которое характерно для монокулярных методов. Несмотря на эти преимущества, существующие подходы сталкиваются с двумя ключевыми проблемами: (i) эффективной адаптацией больших визуальных фундаментальных моделей к подводной среде с ограниченным количеством меток данных, и (ii) совместной интеграцией глобально гармоничных, но scale-ambiguous монокулярных приближений с локально точными, но photometrically fragile stereo-соотношениями. Исследовательская группа AIGeeks призвана развить эффективные технические решения для этих проблем. #### Метод Для решения вышеперечисленных проблем, мы предлагаем StereoAdapter - параметр-эффективный self-supervised фреймворк, который интегрирует LoRA-adapted monocular foundation encoder с рекуррентным stereo refinement module. Модель LoRA-адаптирована для эффективного выбора ранга и предварительно обучается на synthetic UW-StereoDepth-40K датасете, чтобы улучшить устойчивость к различным подводным условиям. Эта архитектура представляет собой современное решение для обеспечения точности и устойчивости в underwater stereo depth estimation. #### Результаты Мы провели эксперименты на симулированных данных TartanAir и реальных данных SQUID. Наша модель StereoAdapter показала улучшение в 6.11% на TartanAir и 5.12% на SQUID по сравнению с текущими лучшими решениями. Реализация на практике с помощью BlueROV2-робота демонстрирует высокую устойчивость нашего подхода в реальных подводных условиях. Эти результаты подтверждают эффективность StereoAdapter в решении ключевых проблем underwater stereo depth estimation. #### Значимость StereoAdapter может применяться в многообразных подводных задачах, включая навигацию, инспекцию и картирование подводных объектов. Он предоставляет эффективные, точные и устойчивые трёхмерные построения, которые могут повысить качество и надежность подводных роботов. Этот подход также открывает новые возможности для улучшения многих других технологий, таких как autonomous underwater vehicles (AUVs) и underwater mapping. #### Выводы Мы представили StereoAdapter - эффективный, self-supervised фреймворк для underwater stereo depth estimation. Мы использовали LoRA-adapted monocular foundation encoder, рекуррентный stereo refinement module и synthetic UW-StereoDepth-40K датасет для тренировки. Наши результаты показали значительные улучшения по сравнению с текущими методами. Будущие исследования будут фокусироваться на улучшении скорости работы модели и её применении в более сложных подводных средах.
Annotation:
Underwater stereo depth estimation provides accurate 3D geometry for robotics tasks such as navigation, inspection, and mapping, offering metric depth from low-cost passive cameras while avoiding the scale ambiguity of monocular methods. However, existing approaches face two critical challenges: (i) parameter-efficiently adapting large vision foundation encoders to the underwater domain without extensive labeled data, and (ii) tightly fusing globally coherent but scale-ambiguous monocular priors...
ID: 2509.16415v1 cs.CV, cs.RO
Авторы:

Xiaoyang Yan, Muleilan Pei, Shaojie Shen

#### Контекст Механизмы понимания сцены в реальном времени являются ключевым компонентом автономных систем, таких как роботы и автомобили. Одним из важных аспектов понимания сцены является прогнозирование трехмерной оккупантности (3D occupancy prediction), которое позволяет системам визуально оценивать пространство вокруг себя. Несмотря на то, что существуют методы, основанные на гауссовых представлениях для решения этой задачи, они сталкиваются с проблемами, такими как недостаточное взаимодействие между разными представлениями, а также недостаточная консистентность в процессе расчета в течение времени. Эти ограничения влияют на точность и надежность решений в сценах, где важно учитывать динамику и пространственное распределение объектов. #### Метод Мы предлагаем Spatial-Temporal Gaussian Splatting (ST-GS) — новую архитектуру для решения задачи 3D occupancy prediction. Архитектура ST-GS основывается на идеях гауссовых представлений, но включает в себя две основные усовершенствования: (1) **двухрежимный механизм внимательности**, который усиливает пространственные взаимодействия между разными представлениями, и (2) **геометрически ориентированная схема фу mergersion**, которая использует исторический контекст для улучшения продолжительности в сцене. Основой ST-GS лежит особая стратегия агрегации, которая позволяет гауссовым моделям более эффективно обрабатывать данные, имеющиеся в разных визуальных режимах. #### Результаты Мы проверили ST-GS на б BENCHMARK nuScenes для прогнозирования трехмерной оккупантности. Результаты показали, что наша модель не только превосходит существующие методы на основе гауссовых представлений, но и демонстрирует значительно более высокую консистентность в процессе временного прогнозирования. Эксперименты также доказали, что ST-GS способна эффективно решать задачи, требующие точного взаимодействия с объектами в пространстве и времени, что является ключевым для автономных систем. #### Значимость ST-GS может применяться в различных областях, в том числе в автономных системах, виртуальной реальности, и даже в играх. Особый потенциал открывается в сценах, где необходимо учитывать динамику объектов и корректно оценивать их пространственную оккупантность. Наша модель предоставляет значительные преимущества в точности и консистентности, что может улучшить качество прогнозов и снизить риски в автономных системах. #### Выводы Мы представили Spatial-Temporal Gaussian Splatting (ST-GS), продемонстрировав ее эффективность в 3D occupancy prediction. Наши результаты показали, что ST-GS превосходит существующие методы, предоставляя более высокую точность и консистентность. Мы планируем даль
Annotation:
3D occupancy prediction is critical for comprehensive scene understanding in vision-centric autonomous driving. Recent advances have explored utilizing 3D semantic Gaussians to model occupancy while reducing computational overhead, but they remain constrained by insufficient multi-view spatial interaction and limited multi-frame temporal consistency. To overcome these issues, in this paper, we propose a novel Spatial-Temporal Gaussian Splatting (ST-GS) framework to enhance both spatial and tempo...
ID: 2509.16552v1 cs.CV, cs.RO
Авторы:

Ziyang Xu, Benedikt Schwab, Yihui Yang, Thomas H. Kolbe, Christoph Holst

## Контекст Область исследования заключается в автоматизированных технологиях для создания урбанистических цифровых двойников (твиннингов). Такие цифровые модели городов являются ключевым элементом в планировании, мониторинге и управлении городами, а также в цифровой дигитализации строительства. Несмотря на развитие технологий, такие как LiDAR (Light Detection and Ranging) и 3D-семантические модели городов, аккуратная регистрация точечных облаков LiDAR с городскими 3D-моделями остается проблемой. Это особенно актуально на уровне отдельных зданий, где уточненная регистрация позволяет выполнять такие задачи, как измененность мониторинга и моделирование. Одной из проблем является возрастающая неопределенность в семантических 3D-моделях городов, особенно на уровне детализации 2 (LoD2). Люди, работающие в области цифрового моделирования городов, испытывают необходимость в методах, которые могут эффективно учитывать эту неопределенность. ## Метод Предложенный метод, L2M-Reg, является первым, который адаптивно учитывает неопределенность в семантических 3D-моделях LoD2 для точной регистрации точечных облаков LiDAR и городских моделей на уровне отдельных зданий. Он состоит из трех этапов: 1) **Установка надежных соответствий плоскостей**: Метод идентифицирует ключевые плоскости в LiDAR-облаке и модели здания, чтобы установить надежные соответствия. 2) **Псевдо-плоскость-ограниченная Gauss-Helmert-модель**: Метод использует эти соответствия для строительства разумной псевдо-плоскости, которая помогает ограничивать трансляцию вертикальной. 3) **Адаптивная оценка горизонтальной и вертикальной трансляции**: Метод выполняет адаптивную регрессию для точной регистрации облака LiDAR с моделью здания, с учетом неопределенности в модели. Эта архитектура гарантирует что L2M-Reg может справиться с неопределенностью в модели, а также обеспечить точность и эффективность регистрации. ## Результаты Завершились эксперименты на трех реальных датасетах, показав важность адаптивного подхода L2M-Reg. Метод показал более высокую точность и более низкий потребление ресурсов по сравнению с предыдущими ICP-based и plane-based методами. Эксперименты показали, что L2M-Reg существенно улучшает точность регистрации, особенно в ситуациях, когда модель здания имеет высокую неопределенность. Например, на одном из датасетов, L2M-Reg достиг точности в 98.5%, что гораздо выше, чем предыдущие решения. Эти результаты демонстрируют мощность метода в решении проблемы регистрации на уровне зданий, когда неопределенность является ключевым
Annotation:
Accurate registration between LiDAR (Light Detection and Ranging) point clouds and semantic 3D city models is a fundamental topic in urban digital twinning and a prerequisite for downstream tasks, such as digital construction, change detection and model refinement. However, achieving accurate LiDAR-to-Model registration at individual building level remains challenging, particularly due to the generalization uncertainty in semantic 3D city models at the Level of Detail 2 (LoD2). This paper addres...
ID: 2509.16832v2 cs.CV, cs.RO, eess.IV
Показано 161 - 170 из 246 записей