📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Seeing Clearly and Deeply: An RGBD Imaging Approach with a Bio-inspired Monocentric Design

2025-10-31

Авторы:

Zongxi Yu, Xiaolong Qian, Shaohua Gao, Qi Jiang, Yao Gao, Kailun Yang, Kaiwei Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Achieving high-fidelity, compact RGBD imaging presents a dual challenge: conventional compact optics struggle with RGB sharpness across the entire depth-of-field, while software-only Monocular Depth Estimation (MDE) is an ill-posed problem reliant on unreliable semantic priors. While deep optics with elements like DOEs can encode depth, they introduce trade-offs in fabrication complexity and chromatic aberrations, compromising simplicity. To address this, we first introduce a novel bio-inspired ...

ID: 2510.25314v1 cs.CV, cs.RO, eess.IV, physics.optics

arXiv PDF

📄 Event-guided 3D Gaussian Splatting for Dynamic Human and Scene Reconstruction

2025-09-25

Авторы:

Xiaoting Yin, Hao Shi, Kailun Yang, Jiajun Zhai, Shangwei Guo, Lin Wang, Kaiwei Wang

## Контекст Проблема реконструкции динамических людей вместе с статическими сценами из монокурсорных видео остается сложной, особенно при высокой скорости движения, когда RGB-кадры страдают от модуляции скорости. В этой области событийные камеры предлагают существенные преимущества, такие как микросекундная темпоральная разрешаемость, делая их привлекательными для динамической реконструкции людей. Наша работа привлекла внимание к моделированию людей и сцен в одной модели с использованием 3D-Gaussian Splatting, чтобы объединить моделирование движущихся людей и статических сцен. Мы предлагаем фреймворк, который может легко использоваться для моделирования людей и сцен в одной модели, что выгодно отличает его от существующих подходов. ## Метод Мы предлагаем новую модель, использующую 3D-Gaussian Splatting для реконструкции людей и сцен. Мы используем 3D-Gaussians для представления как движущихся людей, так и статических сцен. Для движущихся людей Gaussians деформируются для анимации, в то время как для статических ничего не меняется. Для улучшения качества реконструкции в результате высокой скорости движения, мы предлагаем событийно-гидродинамический потерий, который сравнивает изменения яркости между последовательными визуализациями с событиями. Это позволяет улучшить локальную точность в круто движущихся областях. Наш фреймворк упрощает процесс моделирования людей и сцен в одной модели, что делает его более эффективным по сравнению с другими подходами. ## Результаты Мы проверили нашу модель на двух наборах данных: ZJU-MoCap-Blur и MMHPSD-Blur. Наши результаты показали значительные достижения в PSNR, SSIM и понижении LPIPS, особенно для высококонтрастных работ. Мы сравнили нашу модель с существующими подходами, и показали, что наша модель превосходит их во всех аспектах. Эти результаты подтверждают эффективность нашего подхода в моделировании динамических людей и сцен с использованием событийных камер. ## Значимость Наш подход может быть применен в различных областях, таких как виртуальная реальность, анимация, и динамическая реконструкция движущихся объектов. Он предлагает несколько преимуществ над существующими подходами, включая улучшенную точность, упрощенную обработку, и более эффективное моделирование движущихся людей и сцен. Это может иметь значительное влияние в развитии технологий, таких как VR/AR, системы слежения и динамическая моделирования. ## Выводы Мы представили новую модель для реконструкции людей и сцен с использованием событийных камер. Мы показали, что наш подход превосходит существующие подходы в

Annotation:

Reconstructing dynamic humans together with static scenes from monocular videos remains difficult, especially under fast motion, where RGB frames suffer from motion blur. Event cameras exhibit distinct advantages, e.g., microsecond temporal resolution, making them a superior sensing choice for dynamic human reconstruction. Accordingly, we present a novel event-guided human-scene reconstruction framework that jointly models human and scene from a single monocular event camera via 3D Gaussian Spla...

ID: 2509.18566v1 cs.CV, cs.RO, eess.IV

arXiv PDF

📄 L2M-Reg: Building-level Uncertainty-aware Registration of Outdoor LiDAR Point Clouds and Semantic 3D City Models

2025-09-24

Авторы:

Ziyang Xu, Benedikt Schwab, Yihui Yang, Thomas H. Kolbe, Christoph Holst

## Контекст Область исследования заключается в автоматизированных технологиях для создания урбанистических цифровых двойников (твиннингов). Такие цифровые модели городов являются ключевым элементом в планировании, мониторинге и управлении городами, а также в цифровой дигитализации строительства. Несмотря на развитие технологий, такие как LiDAR (Light Detection and Ranging) и 3D-семантические модели городов, аккуратная регистрация точечных облаков LiDAR с городскими 3D-моделями остается проблемой. Это особенно актуально на уровне отдельных зданий, где уточненная регистрация позволяет выполнять такие задачи, как измененность мониторинга и моделирование. Одной из проблем является возрастающая неопределенность в семантических 3D-моделях городов, особенно на уровне детализации 2 (LoD2). Люди, работающие в области цифрового моделирования городов, испытывают необходимость в методах, которые могут эффективно учитывать эту неопределенность. ## Метод Предложенный метод, L2M-Reg, является первым, который адаптивно учитывает неопределенность в семантических 3D-моделях LoD2 для точной регистрации точечных облаков LiDAR и городских моделей на уровне отдельных зданий. Он состоит из трех этапов: 1) **Установка надежных соответствий плоскостей**: Метод идентифицирует ключевые плоскости в LiDAR-облаке и модели здания, чтобы установить надежные соответствия. 2) **Псевдо-плоскость-ограниченная Gauss-Helmert-модель**: Метод использует эти соответствия для строительства разумной псевдо-плоскости, которая помогает ограничивать трансляцию вертикальной. 3) **Адаптивная оценка горизонтальной и вертикальной трансляции**: Метод выполняет адаптивную регрессию для точной регистрации облака LiDAR с моделью здания, с учетом неопределенности в модели. Эта архитектура гарантирует что L2M-Reg может справиться с неопределенностью в модели, а также обеспечить точность и эффективность регистрации. ## Результаты Завершились эксперименты на трех реальных датасетах, показав важность адаптивного подхода L2M-Reg. Метод показал более высокую точность и более низкий потребление ресурсов по сравнению с предыдущими ICP-based и plane-based методами. Эксперименты показали, что L2M-Reg существенно улучшает точность регистрации, особенно в ситуациях, когда модель здания имеет высокую неопределенность. Например, на одном из датасетов, L2M-Reg достиг точности в 98.5%, что гораздо выше, чем предыдущие решения. Эти результаты демонстрируют мощность метода в решении проблемы регистрации на уровне зданий, когда неопределенность является ключевым

Annotation:

Accurate registration between LiDAR (Light Detection and Ranging) point clouds and semantic 3D city models is a fundamental topic in urban digital twinning and a prerequisite for downstream tasks, such as digital construction, change detection and model refinement. However, achieving accurate LiDAR-to-Model registration at individual building level remains challenging, particularly due to the generalization uncertainty in semantic 3D city models at the Level of Detail 2 (LoD2). This paper addres...

ID: 2509.16832v2 cs.CV, cs.RO, eess.IV

arXiv PDF

📄 CoBEVMoE: Heterogeneity-aware Feature Fusion with Dynamic Mixture-of-Experts for Collaborative Perception

2025-09-24

Авторы:

Lingzhao Kong, Jiacheng Lin, Siyu Li, Kai Luo, Zhiyong Li, Kailun Yang

#### Контекст Коллаборативное восприятие (collaborative perception) — это методика, нацеленная на расширение покрытия датчиков и повышение точности восприятия за счет обмена информацией между несколькими агентами. Однако ввиду различий в расположении и углезрениях, агенты часто получают нелинейные и гетерогенные наблюдения. Большинство существующих методов интермедиата-фьюжена (intermediate fusion) стремятся сходить похожие признаки, но недостаточно учитывают различия возможностей восприятия между агентами. Наша мотивация заключается в развитии метода, который не только улучшит данный аспект, но и использует новую архитектуру для эффективного обработки таких различий. #### Метод Мы предлагаем CoBEVMoE — новую архитектуру, ориентированную на BEV (Bird's Eye View, вид сверху), которая использует Dynamic Mixture-of-Experts (DMoE). DMoE генерирует экспертов динамически на основе входных признаков каждого агента. Каждый эксперт оптимизирует свой подход к выделению уникальных признаков, при этом поддерживая общие семантические структуры. Это решение позволяет эффективно обрабатывать различия в расположении и восприятии между агентами. Для дополнительного повышения эффективности мы предложили Dynamic Expert Metric Loss (DEML), который улучшает интер-экспертную диверсификацию и укрепляет дискриминативность полученных представлений. #### Результаты Мы проверили CoBEVMoE на двух датасетах: OPV2V и DAIR-V2X-C. На OPV2V он улучшил IoU (Intersection over Union) для камерного BEV-сегментации на +1.5%, а на DAIR-V2X-C — AP@50 для LiDAR-based 3D объектного детектирования на +3.0%. Эти результаты подтверждают эффективность DMoE в моделировании гетерогенных признаков и улучшении результатов в среде многоагентного восприятия. #### Значимость CoBEVMoE может применяться в различных сценариях, где необходимо объединить восприятие нескольких сенсоров или агентов. Он предлагает преимущества в улучшенной моделировании различий между агентами, что может применяться в системах автоматизированного управления транспортом, видеонаблюдении и других системах коллаборативного восприятия. Мы считаем, что наш предложенный подход может стать основой для новых развитий в подобных задачах. #### Выводы Мы доказали эффективность CoBEVMoE в улучшении результатов в многоагентном восприятии с использованием DMoE и DEML. Наши результаты открывают новые перспективы для развития методов коллаборативного восприятия. Будущие исследования будут сконцентрированы на расширении применений нашей модели на более широкие сценарии и оптимизации ее для реального времени.

Annotation:

Collaborative perception aims to extend sensing coverage and improve perception accuracy by sharing information among multiple agents. However, due to differences in viewpoints and spatial positions, agents often acquire heterogeneous observations. Existing intermediate fusion methods primarily focus on aligning similar features, often overlooking the perceptual diversity among agents. To address this limitation, we propose CoBEVMoE, a novel collaborative perception framework that operates in th...

ID: 2509.17107v1 cs.CV, cs.RO, eess.IV

arXiv PDF

📄 DepTR-MOT: Unveiling the Potential of Depth-Informed Trajectory Refinement for Multi-Object Tracking

2025-09-24

Авторы:

Buyin Deng, Lingxin Huang, Kai Luo, Fei Teng, Kailun Yang

## Контекст Visual Multi-Object Tracking (MOT) является кллючевым компонентом распознавания объектов в системах робототехники. Существующие Tracking-By-Detection (TBD) методы часто опираются на 2D-признаки, такие как боксы и моделирование движения. Однако эти методы становятся нестабильными в условиях плотных целей, частых прикрываний и близких взаимодействий. Эти проблемы значительно усиливаются в средах с роботами, где требуется высокая точность и устойчивость. Хотя depth-information могла бы улучшить показатели, большинство MOT-датасетов не имеют depth-annotations, что приводит к неполному использованию этого потенциала. Наша мотивация заключается в раскрытии потенциала depth-informed trajectory refinement (refinement по движению на основе depth-information) для улучшения устойчивости и точности TBD-методов. ## Метод Мы предлагаем DepTR-MOT, базирующийся на DETR-архитектуре и расширенный с помощью depth-information. Основные инновации: (i) Мы используем foundation model-based instance-level soft depth label supervision, чтобы улучшить depth-prediction. (ii) Мы внедрили методы для поддержания global depth consistency, используя distillation dense depth maps. Эти техники позволяют DepTR-MOT выдавать instance-level depth без дополнительных моделей и с низким ресурсоемкостью. Мы также реализуем depth-refinement в TBD-парадигму, чтобы улучшить устойчивость и решить проблемы, такие как occlusions и close-proximity. ## Результаты Мы проверили эффективность DepTR-MOT на двух датасетах: QuadTrack и DanceTrack. На QuadTrack, где требуется устойчивость в условиях плотных целей и частых прикрываний, DepTR-MOT достиг HOTA-score 27.59. На DanceTrack, где требуется высокая точность в условиях dense-сцен, DepTR-MOT показал HOTA-score 44.47. Эти результаты продемонстрировали значительное улучшение в обходе проблем, связанных с пропусками и близкими взаимодействиями, в сравнении с другими TBD-методами. ## Значимость Наши результаты имеют большое значение для robotic perception. DepTR-MOT может быть применен в системах с роботами, где depth-information является ключевым фактором для улучшения tracking. Высокая точность DepTR-MOT делает его привлекательным для robotic grasping, navigation и surveillance applications. Дополнительно, DepTR-MOT не требует дополнительных моделей и остается рациональным в ресурсоемкости. ## Выводы Мы представили DepTR-MOT, новый TBD-метод, который использует depth-information для улучшения точности и устойчивости. Эксперименты показали, что DepTR-MOT эффективно работает в сложных сценах с близкими взаимодействиями и occlusions. Наша работа открывает новые возможности для depth-informed trajectory refinement в MOT. Будущие исследования будут фокусироваться на расширении applicability и улучшении scalability DepTR-MOT для объемных robotic perception tasks.

Annotation:

Visual Multi-Object Tracking (MOT) is a crucial component of robotic perception, yet existing Tracking-By-Detection (TBD) methods often rely on 2D cues, such as bounding boxes and motion modeling, which struggle under occlusions and close-proximity interactions. Trackers relying on these 2D cues are particularly unreliable in robotic environments, where dense targets and frequent occlusions are common. While depth information has the potential to alleviate these issues, most existing MOT dataset...

ID: 2509.17323v1 cs.CV, cs.RO, eess.IV

arXiv PDF

📄 Efficient and Accurate Downfacing Visual Inertial Odometry

2025-09-16

Авторы:

Jonas Kühne, Christian Vogt, Michele Magno, Luca Benini

#### Контекст Visual Inertial Odometry (VIO) является одной из самых распространенных компьютерно-визуальных технологий, позволяющих определить движение агента с помощью камеры и импульсного гироскопического датчика. Однако существуют проблемы, связанные с двумя ключевыми аспектами: точностью и эффективностью. Недостаточная точность может привести к существенным ошибкам в определении расположения, в то время как высокая сложность вычислительных операций может не позволить применять VIO на микро- и ниано-управляемых авиационных транспортных средствах (micro- и nano-UAVs). Эти проблемы возникают, так как существующие VIO-процессы требуют высокой вычислительной мощности, что не допускается в микроконтроллерах с ограниченными ресурсами. Мотивацией для этого исследования является разработка эффективной и точной VIO-процессной структуры, которая может быть использована на низкоэнергоемких системах. #### Метод Предлагаемая VIO-процессная структура основывается на современных методах трекинга объектов: SuperPoint, PX4FLOW и ORB. Эти методы были оптимизированы и конвертированы в числовые представления для использования на RISC-V-основных системах на микросхемах (SoCs). Также, VIO-процесс использует модель жесткого тела для моделирования движения, что позволяет уменьшить ошибки оценки, особенно в планарных сценариях. Для реализации и эффективности процесса была выбрана система на микросхемах GAP9, известная за свои низкие энергозатраты и высокую производительность. Эта система позволяет реализовать VIO в режиме реального времени, что является ключевым для применения в UAVs. #### Результаты Проведенные эксперименты показали, что использование оптимизированной VIO-процессной структуры приводит к значительному улучшению точности. В частности, при использовании ORB feature tracker, RMSE был снижен на фактор до 3.65x в сравнении с базовой VIO-процессной структурой. Кроме того, PX4FLOW продемонстрировал почти одинаковую точность, но с низким расходом вычислительных ресурсов при движении скоростью менее 24 пикселей в кадре. Это указывает на то, что система может быть применена на устройствах с ограниченными ресурсами без потери качества. #### Значимость Предложенная VIO-структура не только улучшает точность движения, но и открывает новые возможности для использования VIO на микро- и ниано-управляемых авиационных транспортных средствах. Например, эта система может быть использована для навигации в закрытых пространствах, в том числе в пределах помещений или на земле. Благодаря своей эффективности, она также может быть применена в сегменте IoT,

Annotation:

Visual Inertial Odometry (VIO) is a widely used computer vision method that determines an agent's movement through a camera and an IMU sensor. This paper presents an efficient and accurate VIO pipeline optimized for applications on micro- and nano-UAVs. The proposed design incorporates state-of-the-art feature detection and tracking methods (SuperPoint, PX4FLOW, ORB), all optimized and quantized for emerging RISC-V-based ultra-low-power parallel systems on chips (SoCs). Furthermore, by employing...

ID: 2509.10021v1 cs.CV, cs.RO, eess.IV

arXiv PDF