📚 Саммари научных статей из arXiv

Найдено 246 результатов по запросу 'cs.CV, cs.RO' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Multi-Modal Camera-Based Detection of Vulnerable Road Users

2025-09-10

Авторы:

Penelope Brown, Julie Stephany Berrio Perez, Mao Shan, Stewart Worrall

## Контекст Современная дорожная безопасность сталкивается с значительными проблемами, связанными с опасностью для нерешительных дорожных пользователей (VRUs), включая пешеходов, велосипедистов и мотоциклистов. Эти группы составляют более половины трафических смертей в мире, но их детекция остается трудной в условиях плохого освещения, плохих погодных условий и несбалансированных данных. Недостаток эффективных методов детекции VRUs в таких условиях приводит к увеличению риска аварий. Исследователи стремятся к разработке мультимодальных систем детекции, которые бы повысили точность и надежность, особенно в сложных средах. ## Метод Мультимодальный подход к детекции VRUs включает интеграцию RGB-изображений и термальных иррадиационных изображений. Для обучения использовались данные KITTI, BDD100K и Teledyne FLIR. Для улучшения детекции редких классов, таких как VRUs, применялись класс-взвешенные потери. Оптимальная точность и эффективность достигались за счет 640-пиксельного разрешения и частичного заморозка корневых слоев модели YOLOv8. Дополнительные светловые аugmentations позволили увеличить устойчивость модели к различным условиям освещения. ## Результаты Эксперименты показали, что термальные модели демонстрируют высокую точность, в то время как RGB-to-thermal аugmentations способствуют повышению рекалла для редких классов VRUs. Модель, обученная на мультимодальных данных, показала значительное повышение точности и обнаружения в условиях низкого освещения и неблагоприятных погодных условий. Эти результаты демонстрируют мощность мультимодальных подходов в улучшении безопасности дорожного движения. ## Значимость Мультимодальная система детекции VRUs может быть применена в различных сферах, включая системы беспилотных автомобилей, системы поддержки Conclusions решений для пешеходов и мотоциклистов. Основное преимущество — повышение точности и надежности детекции в трудных условиях. Будущие исследования будут фокусироваться на улучшении эффективности и объема данных, а также на развитии моделей с меньшим потреблением ресурсов. ## Выводы Исследование успешно демонстрирует эффективность мультимодального подхода, используя RGB и термальные изображения для детекции VRUs. Отдельно выделяется высокая точность термальных моделей и положительное влияние класс-взвешенных потерь. Вывод: мультимодальные системы могут существенно повысить безопасность дорожного движения, особенно в условиях плохого освещения и негативных погодных условий. Дальнейшие исследования будут сфокусированы на улучшении моделей и их применении в реальных условиях.

Annotation:

Vulnerable road users (VRUs) such as pedestrians, cyclists, and motorcyclists represent more than half of global traffic deaths, yet their detection remains challenging in poor lighting, adverse weather, and unbalanced data sets. This paper presents a multimodal detection framework that integrates RGB and thermal infrared imaging with a fine-tuned YOLOv8 model. Training leveraged KITTI, BDD100K, and Teledyne FLIR datasets, with class re-weighting and light augmentations to improve minority-class...

ID: 2509.06333v1 cs.CV, cs.RO

arXiv PDF

📄 Investigating Location-Regularised Self-Supervised Feature Learning for Seafloor Visual Imagery

2025-09-10

Авторы:

Cailei Liang, Adrian Bodenmann, Emma J Curtis, Samuel Simmons, Kazunori Nagano, Stan Brown, Adam Riese, Blair Thornton

## Контекст Исследование активно применяет роботизированные системы для собирания данных на дне океана, что позволяет эффективно отслеживать и изучать макро- и микробиоты, а также распределение ресурсов. Однако интерпретация больших объемов роботизированно полученных сеафлор-визуальных изображений остается трудоемкой и неэффективной. Несмотря на то, что метаданные о местоположении могут улучшить самообучающиеся методы обучения (Self-Supervised Learning, SSL), их польза для различных SSL-стратегий, моделей и наборов данных остается нередко недостаточно изученной. ## Метод Работа исследует воздействие регуляризации по местоположению на шесть современных SSL-фреймворков, включая Convolutional Neural Networks (CNN) и Vision Transformers (ViT) с различным размером latent-space. Эксперименты проводились на трех разных наборах данных, содержащих изображения сеафлора. Модели были тренированы с использованием метаданных о местоположении, чтобы оценить, насколько эта информация может улучшить классификационную точность. ## Результаты Результаты показывают, что регуляризация по местоположению последовательно улучшает классификационную точность для всех исследуемых моделей и наборов данных. Для CNNs F1-score увеличивается на среднем $4.9 \pm 4.0\%$, для ViTs — $6.3 \pm 8.9\%$. Особенно выгодной оказалась регуляризация для моделей с низкой размерностью latent-space. Хотя ViTs с высокой размерностью latent-space показали внушительные результаты, они не всегда превосходят location-regularised SSL. ## Значимость Исследование открывает перспективу использования метаданных о местоположении в SSL для улучшения обработки сеафлор-визуальных изображений. Это имеет большое значение в области морских исследований, маркерных исследований и макро- и микробиотических мониторингов. Использование подобных методов позволяет существенно повысить эффективность и точность анализа. ## Выводы Работа подтверждает значимость использования метаданных о местоположении для регуляризации SSL, особенно при использовании низкоразмерных latent-space. Однако high-dimensional ViTs показали сильную общительность и могут быть эффективными даже без использования location-regularisation. На будущем изучении следует фокусироваться на расширении применений данного подхода к различным моделям и наборам данных.

Annotation:

High-throughput interpretation of robotically gathered seafloor visual imagery can increase the efficiency of marine monitoring and exploration. Although recent research has suggested that location metadata can enhance self-supervised feature learning (SSL), its benefits across different SSL strategies, models and seafloor image datasets are underexplored. This study evaluates the impact of location-based regularisation on six state-of-the-art SSL frameworks, which include Convolutional Neural N...

ID: 2509.06660v1 cs.CV, cs.RO

arXiv PDF

📄 Online Clustering of Seafloor Imagery for Interpretation during Long-Term AUV Operations

2025-09-10

Авторы:

Cailei Liang, Adrian Bodenmann, Sam Fenton, Blair Thornton

## Контекст В последние годы становится все более очевидным необходимостью повышения эффективности и адаптивности работы подводных роботов (AUV) во время долгих миссий под водой. Особенно актуальным стало написание методов для реального времени анализа изображений, получаемых с днейки, для оптимизации динамических миссий и сокращения объема данных, отправляемых на поверхность. Несмотря на то, что существуют методы анализа изображений, основанные на машинном обучении, они требуют больших объемов данных и ручного маркирования примеров, что не позволяет их использовать в реальном времени. Это ограничение может привести к неэффективной работе робота и неоптимальному использованию ресурсов. ## Метод Для решения этой проблемы предлагается онлайн-фреймворк кластеризации (OCF), работающий в реальном времени и не требующий предварительной маркировки данных. Алгоритм оперирует непрерывно поступающими данными, изменяя кластеры на лету и храня семплы, которые лучше всего описывают изменения в изображениях. За счёт этого метод эффективно работает с тремя важными аспектами: самообслуживанием, адаптивностью и скалируемостью. Кроме того, OCF может разбивать и объединять кластеры без переработки всей истории изображений, что делает его вычислительно эффективным. ## Результаты OCF был оценен на трех различных подводных наборах данных, используя различные стратегии выбора сэмплов для кластеризации. Результаты показали, что OCF достиг среднего F1-меры 0.68, что является лучшим результатом среди других систем онлайн-кластеризации. Более того, система показала очень малые колебания в производительности при увеличении объема данных, что делает её высокоскалируемой и надежной в различных условиях. ## Значимость Разработанная система может использоваться в множестве приложений, включая оптимизацию автоматических операций под водой, а также в принятии решений о динамических путях роботов. Она позволяет избежать необходимости ручного маркирования данных, что значительно упрощает работу с изображениями. Благодаря её высокой скорости и ресурсоёмкости, она может быть использована в реальном времени, что повышает эффективность автономных операций. ## Выводы Результаты оценки OCF показали, что данная система является высокоэффективной и гибкой, действуя как безупречное решение для анализа подводных изображений в реальном времени. В дальнейших исследованиях будет рассматриваться модификация системы для работы в более сложных условиях, включая переменные течения и плохо покрытые области.

Annotation:

As long-endurance and seafloor-resident AUVs become more capable, there is an increasing need for extended, real-time interpretation of seafloor imagery to enable adaptive missions and optimise communication efficiency. Although offline image analysis methods are well established, they rely on access to complete datasets and human-labelled examples to manage the strong influence of environmental and operational conditions on seafloor image appearance-requirements that cannot be met in real-time ...

ID: 2509.06678v1 cs.CV, cs.RO

arXiv PDF

📄 Event Spectroscopy: Event-based Multispectral and Depth Sensing using Structured Light

2025-09-10

Авторы:

Christian Geckeler, Niklas Neugebauer, Manasi Muglikar, Davide Scaramuzza, Stefano Mintchev

## Контекст Одна из ключевых задач, стоящих перед непосредственно воздушными транспортными средствами без экипажа (UAV) в природных условиях, состоит в том, чтобы обеспечить безопасность при полете и эффективно выполнять сбор данных в сложных средах, таких как лесные каньоны. В настоящее время используются различные системы зрения, включая многопроцессорные RGB-камеры и многоспектральные датчики, но они страдают от недостатка скорости, недостаточной точности дистанционного определения расстояния (Depth) и повышенной зависимости от освещенности окружающей среды. Эти ограничения становятся критичными при выполнении задач, таких как обнаружение и классификация растений в достаточно плотных лесах. Исследователи разработали новую методику под названием Event Spectroscopy, которая объединяет в себе высокоразрешенное зрение, низкую задержку и разрешение в глубину, полученное с помощью проекции структурированного света. Она также может одновременно замерять спектральные данные в диапазоне от 650 до 850 нм. Эта технология может существенно улучшить возможности UAV в регионах с труднопроницаемыми покровами леса. ## Метод Система Event Spectroscopy состоит в том, как структурированный свет проецируется на объект, и как отраженный свет анализируется, чтобы извлечь информацию о глубине и спектре. Основной идеей лежит в том, чтобы использовать проекцию света с разными длинами волн для получения множества спектральных каналов. Это позволяет одновременно получить очень точную информацию о глубине и спектр. Данные сигналов собираются компактным сенсором, который предназначен для быстрого и точного обработки. Эта система может использоваться в реальном времени и требует минимального вычислительного мощности, что делает ее пригодной для применения на беспилотных летательных аппаратах. ## Результаты В ходе исследования, проведенного в различных условиях, включая лабораторные и реальные леса, было показано, что Event Spectroscopy позволяет получить более точные расчеты глубины (Depth) по сравнению с традиционными методами. Например, наблюдалось до 60% снижения ошибок в оценке глубины в сравнении с коммерческими датчиками. Также было показано, что система предоставляет высококачественные спектральные данные, которые могут быть использованы для различения материалов, таких как листья и ветви деревьев. Одной из важных находок является то, что при добавлении данных о глубине, полученных с помощью этой системы, улучшается точность идентификации материалов до 30%. Эти результаты были получены как в условиях лаборатории, так и в лесу Масоалы (Масоала Рейнфорест),

Annotation:

Uncrewed aerial vehicles (UAVs) are increasingly deployed in forest environments for tasks such as environmental monitoring and search and rescue, which require safe navigation through dense foliage and precise data collection. Traditional sensing approaches, including passive multispectral and RGB imaging, suffer from latency, poor depth resolution, and strong dependence on ambient light - especially under forest canopies. In this work, we present a novel event spectroscopy system that simultan...

ID: 2509.06741v1 cs.CV, cs.RO

arXiv PDF

📄 Domain Adaptation for Different Sensor Configurations in 3D Object Detection

2025-09-09

Авторы:

Satoshi Tanaka, Kok Seang Tan, Isamu Yamashita

#### Контекст Одним из ключевых аспектов развития автономного движения является точное 3D-обнаружение объектов. Центральной ролью в этом процессе играют LiDAR-сенсоры, известные своей надежностью при различных условиях видимости. Однако разные автомобильные платформы часто используют разные конфигурации сенсоров, что приводит к снижению производительности моделей, когда они обучаются на одной конфигурации и применяются к другой. Это связано с тем, что данные, поступающие с разных конфигураций LiDAR, имеют разные распределения точек, что требует адаптации моделей. До сих пор многие исследования сосредоточились на решении изменений в ландшафте или плотности точек в рамках одного LiDAR. Более того, дефицит исследований в области адаптации моделей к различным конфигурациям сенсоров является очевидным. В нашем исследовании мы стремимся развить методы, которые позволяют достичь эффективной адаптации моделей к различным конфигурациям LiDAR-сенсоров. #### Метод Мы предлагаем два основных подхода для решения проблемы адаптации моделей 3D-обнаружения объектов к различным конфигурациям LiDAR. **Downstream Fine-tuning** предполагает совершенствование модели на конкретной конфигурации LiDAR после многодатсетного обучения. **Partial Layer Fine-tuning** заключается в обновлении только части слоев модели, чтобы повысить генерализацию между различными конфигурациями. Мы также использовали парные наборы данных, собранные в одном географическом регионе, но с различными конфигурациями LiDAR. Эти подходы позволяют улучшить производительность моделей, обеспечивая более точное и универсальное 3D-обнаружение объектов, независимо от конфигурации сенсоров. #### Результаты Мы провели эксперименты с парными наборами данных, собранными в одном регионе, но с различными конфигурациями LiDAR. Мы сравнивали результаты модели, обученной с использованием Downstream Fine-tuning и Partial Layer Fine-tuning, с результатами модели, обученной с помощью обычного многодатсетного обучения. Наши результаты показали, что оба подхода позволяют повысить производительность модели в сравнении с обычным подходом. Более того, Partial Layer Fine-tuning позволяет более эффективно адаптировать модель к различным конфигурациям, уменьшая необходимость в тщательном переобучении всех слоёв модели. #### Значимость Наша работа имеет значимые практические применения в области автономного мобильного обслуживания, где различные автомобили могут использовать различные конфигурации LiDAR-сенсоров. Мы предлагаем новый подход, который может быть применен для эффективного переноса моделей 3D-обнаружения объектов между различными конфи

Annotation:

Recent advances in autonomous driving have underscored the importance of accurate 3D object detection, with LiDAR playing a central role due to its robustness under diverse visibility conditions. However, different vehicle platforms often deploy distinct sensor configurations, causing performance degradation when models trained on one configuration are applied to another because of shifts in the point cloud distribution. Prior work on multi-dataset training and domain adaptation for 3D object de...

ID: 2509.04711v1 cs.CV, cs.RO

arXiv PDF

📄 MV-SSM: Multi-View State Space Modeling for 3D Human Pose Estimation

2025-09-05

Авторы:

Aviral Chharia, Wenbo Gou, Haoye Dong

## Контекст 3D human pose estimation является ключевым заданием в области визуального понимания, с помощью которого можно определить локацию человеческого тела в пространстве. Несмотря на то, что задача 3D human pose estimation была значительно продвинута в последние годы, она все еще имеет ряд сложностей, особенно в случае использования нескольких камер. Одним из основных трудностей является обучение моделей, которые могут общаться между разными видами ресурсов, такими как несколько камер, и по-прежнему моделировать пространственные отношения между человеческими ключевыми точками. Существующие модели часто сталкиваются с проблемами связанными с ограниченностью обучения, переобучением и неэффективным использованием нескольких источников входных данных, что приводит к снижению точности. Мы предлагаем новую модель Multi-View State Space Modeling (MV-SSM) для повышения производительности в задаче multi-view 3D human pose estimation. ## Метод Мы предлагаем Multi-View State Space Modeling (MV-SSM), который является исключительно эффективным фреймворком для 3D human pose estimation. Наша модель использует многокамерные входные данные, чтобы моделировать пространственные отношения между ключевыми точками в человеческом теле. Мы предлагаем **Projective State Space (PSS)** блок, который моделирует локальные и глобальные структуры пространственных отношений, используя **state space modeling**. Блок PSS также содержит **Grid Token-guided Bidirectional Scanning (GTBS)**, что позволяет моделировать пространственные отношения в сетке, чтобы улучшить общую точность. Мы также используем **multi-view attention** для обеспечения переносимости и обучения модели к новым условиям камеры. ## Результаты Мы проверили нашу модель на нескольких вызовных наборах данных, включая CMU Panoptic, Campus A1 и другие. Мы сравнили MV-SSM с текущими ведущими моделями и доказали, что она показала значительное улучшение в 3D human pose estimation. Например, на CMU Panoptic, наша модель показала +10.8 на AP25 (+24%) во время выполнения трех камер, +7.0 на AP25 (+13%) в случае изменения конфигурации камер, и +15.3 PCP (+38%) во время переносимости на другой датасет. Эти результаты подтверждают силу нашей модели в области generalization и точности в multi-view 3D human pose estimation. ## Значимость Наше решение может быть применено в различных областях, таких как VR/AR, робототехника, интерактивные технологии, где 3D human pose estimation требуется. Мы показали, что MV-SSM может общаться между разными камерами и обнаруживать человеческие ключевые точки в сложных условиях, таких как сцены с оккультацией. Это делает нашу модель более универсальной и эффективной для решения задач визуального понимания. Мы также отметили, что MV-SSM показала высокую точность в задаче обучения к новым условиям камеры, что является ключевым преимуществом по сравнению с другими мо

Annotation:

While significant progress has been made in single-view 3D human pose estimation, multi-view 3D human pose estimation remains challenging, particularly in terms of generalizing to new camera configurations. Existing attention-based transformers often struggle to accurately model the spatial arrangement of keypoints, especially in occluded scenarios. Additionally, they tend to overfit specific camera arrangements and visual scenes from training data, resulting in substantial performance drops in ...

ID: 2509.00649v1 cs.CV, cs.RO

arXiv PDF

📄 ER-LoRA: Effective-Rank Guided Adaptation for Weather-Generalized Depth Estimation

2025-09-05

Авторы:

Weilong Yan, Xin Zhang, Robby T. Tan

#### Контекст Монокулярная оценка глубины в условиях пассивных местных радиоизмерений (ПМРИ) представляет собой важный направление в геофизике, что позволяет получить информацию о подземных объектах без необходимости нанесения специальных маркеров. Однако существуют затруднения, связанные с недостатком качественных данных для обучения моделей, а также с ограниченным пониманием особенностей работы моделей в сложных условиях, таких как плохое освещение, ветер или наличие снега. Настоящее исследование фокусируется на развитии методов, позволяющих эффективно адаптировать модели к условиям ПМРИ с минимальным потреблением ресурсов и сохранением качества получаемой информации. #### Метод Предлагаемая методология основывается на **Effective-Rank Guided Adaptation (ER-LoRA)**, которая использует базу знаний визуальных фундаментальных моделей (VFMs) для монокулярной оценки глубины. В центре методики лежит **Selecting-Tuning-Maintaining (STM)**, стратегия, которая разделяет веса VFMs на две категории: **entropy-rank** и **stable-rank**. В процессе **tuning** используется **adaptive selection** сингулярных направлений (по entropy-rank) для инициализации, в сочетании с **full-tuned weight**. В **maintaining stage** применяется **principal direction regularization** на основе stable-rank, чтобы сохранить общеупотребительные характеристики модели. Это решение обеспечивает баланс между гибкостью адаптации и сохранением полученных знаний. #### Результаты Результаты экспериментов проводились на четырёх реальных наборах данных, представляющих различные условия ПМРИ. Метод **STM** демонстрировал существенное превосходство перед текущими методами **PEFT** и **full fine-tuning**. Наблюдения показали, что **STM** не только показал выигрыш в точности, но и превзошёл методы, обученные на синтетических данных с адекватным domain gap. Благодаря **STM**, модель показала свое возможность оценивать глубину в реальных условиях, более эффективно используя предобученную модель. #### Значимость Предлагаемый подход открывает новые возможности для монокулярной оценки глубины в условиях ПМРИ. Он может быть применен в геофизике для контроля проектов геологического моделирования, а также в сегментации областей для определения границ подземных объектов. **STM** показал высокую эффективность в решении задач с низким количеством данных и высоким domain gap, что делает его привлекательным для реальных задач. #### Выводы Результаты вычислительных экспериментов подтверждают эффективность **STM** в области монокулярной оценки глубины в условиях ПМРИ. Он доказал выигрыш в точности и ресурсозатратности по сравнению с существующими методами. В будущих исследованиях планируется расширить применение STM к другим видам геофизи

Annotation:

Monocular depth estimation under adverse weather conditions (e.g.\ rain, fog, snow, and nighttime) remains highly challenging due to the lack of reliable ground truth and the difficulty of learning from unlabeled real-world data. Existing methods often rely on synthetic adverse data with pseudo-labels, which suffer from domain gaps, or employ self-supervised learning, which violates photometric assumptions in adverse scenarios. In this work, we propose to achieve weather-generalized depth estima...

ID: 2509.00665v1 cs.CV, cs.RO

arXiv PDF

📄 EgoTouch: On-Body Touch Input Using AR/VR Headset Cameras

2025-09-05

Авторы:

Vimal Mollyn, Chris Harrison

## Контекст В последние годы, виртуальная (VR) и аugmented (AR) реальность получили широкую популярность в различных областях, включая развлечения, образование и профессиональные приложения. Однако интерактивные возможности этих технологий ограничены возможностями существующих интерфейсов. Несмотря на то, что воздушные интерфейсы широко используются, они часто связаны с проблемами, такими как неточность, медленная реакция и усталость пользователя. Однако научные исследования показали, что интерактивные элементы на теле пользователя могут значительно улучшить эффективность и комфорт интеракции. Несмотря на подтверждение этих преимуществ, на практике не существуют эффективных и надежных способов реализации таких интерфейсов. Наше исследование направлено на развитие новых технологий для решения этих проблем. ## Метод Мы предлагаем метод интерактивного взаимодействия с использованием RGB-камеры, уже интегрированной в современные XR-гаджеты. Наш подход основывается на обучению сети, которая анализирует поток видео и определяет положение пальцев и рук пользователя. Мы разработали уникальную архитектуру, которая включает в себя несколько составляющих: (1) распознавание пальцев, (2) определение положения руки, (3) принудительную метрику, а также (4) определение типа жестикуляции. Для обучения сети мы использовали синтетические данные, а тестирование проводилось на реальных экспериментах с разными участниками, которые выполняли различные действия. ## Результаты Мы провели испытания с 15 участниками, сравнивая нашу технологию с существующими решениями. Наши результаты показали, что наш метод обеспечивает высокую точность распознавания интерфейса, независимо от условий освещения, кожных тонов и даже при движении пользователя. В зависимости от метода, точность распознавания варьировалась от 92% до 98%. Мы также испытали нашу систему в разных условиях и показали, что она может работать на уровне с лучшими системами в этой области. ## Значимость Наша технология имеет широкие возможности для интеграции в существующие AR/VR-системы. Она может быть использована в различных приложениях, включая игры, профессиональные инструменты, интерактивные интерфейсы и т.д. Благодаря точности и надежности, наш метод может стать ключевым моментом в развитии новых интерактивных интерфейсов. Мы также считаем, что наш подход может открыть новые возможности для разработки более эффективных и интерактивных технологий в повседневной жизни. ## Выводы Мы привёл результаты экспериментов, подтверждающие эффе

Annotation:

In augmented and virtual reality (AR/VR) experiences, a user's arms and hands can provide a convenient and tactile surface for touch input. Prior work has shown on-body input to have significant speed, accuracy, and ergonomic benefits over in-air interfaces, which are common today. In this work, we demonstrate high accuracy, bare hands (i.e., no special instrumentation of the user) skin input using just an RGB camera, like those already integrated into all modern XR headsets. Our results show th...

ID: 2509.01786v1 cs.HC, cs.CV, cs.RO

arXiv PDF

📄 Ensemble-Based Event Camera Place Recognition Under Varying Illumination

2025-09-05

Авторы:

Therese Joseph, Tobias Fischer, Michael Milford

#### Контекст Область визуального распознавания мест (Visual Place Recognition, VPR) играет ключевую роль в автономных системах навигации, позволяя роботам ориентироваться в различных средах. Однако существующие системы чувствительны к изменениям освещённости, что приводит к понижению точности распознавания. Особенно затруднительными для существующих VPR-систем являются переходы между различными условиями освещения, такими как день и ночь. Конвекциональные камеры способны захватывать информацию с низкой частотой кадров и с ограниченным динамическим диапазоном, что приводит к потере деталей при сильно изменяющейся освещённости. В отличие от них, **event cameras** предлагают высокую динамическую диапазон и низкую задержку, что делает их более устойчивыми к быстро изменяющимся условиям освещения и кинематическим помехам. Однако установить их полный потенциал в VPR, особенно при сильных изменениях освещения, остаётся нерешённой задачей. #### Метод Мы предлагаем **ensemble-based approach** для VPR с использованием **event cameras**, который объединяет результаты из нескольких моделей распознавания. Метод включает в себя: 1. **Sequence-matched reconstructions**: Мы используем различные методы построения кадров из событий (event-to-frame), чтобы обрабатывать различные условия освещения. 2. **VPR feature extractors**: Для каждого построенного кадра мы используем различные функции, которые извлекают признаки для распознавания мест. 3. **Temporal resolution**: Мы анализируем несколько уровней разрешения времени, чтобы учитывать как мгновенные, так и длительные изменения освещения. В отличие от предыдущих ensemble-based методов, которые ограничиваются только уровнём времени, наш подход объединяет результаты из нескольких моделей, что даёт более точные и устойчивые результаты. #### Результаты Мы проводили эксперименты на двух длительных датасетах, покрывающих 8 км каждый, с детальным анализом ключевых дизайн-вопросов, таких как: - **Binning strategies**: Мы сравнили различные стратегии бининга событий. - **Polarity handling**: Мы проверили, как положительные и отрицательные событий влияют на результаты. - **Reconstruction methods**: Мы сравнили различные методы построения кадров из событий. - **Feature extractors**: Мы исследовали различные модели, которые извлекают признаки для распознавания мест. Наши результаты показывают, что наш подход достиг **57% relative improvement in Recall@1** при переходе из дня в ночь, что демонстрирует его устойчивость к изменениям освещения. #### Значимость Наш подход может быть применён в многих областях, включая автономную навигацию, системы поиска и спасения, а также системы мониторинга и анализа видео. Особым преимуществом является устойчивость к сильным изменениям освещения, что делает его идеальным

Annotation:

Compared to conventional cameras, event cameras provide a high dynamic range and low latency, offering greater robustness to rapid motion and challenging lighting conditions. Although the potential of event cameras for visual place recognition (VPR) has been established, developing robust VPR frameworks under severe illumination changes remains an open research problem. In this paper, we introduce an ensemble-based approach to event camera place recognition that combines sequence-matched results...

ID: 2509.01968v1 cs.CV, cs.RO

arXiv PDF

📄 2nd Place Solution for CVPR2024 E2E Challenge: End-to-End Autonomous Driving Using Vision Language Model

2025-09-05

Авторы:

Zilong Guo, Yi Luo, Long Sha, Dongxu Wang, Panqu Wang, Chenyang Xu, Yi Yang

## Контекст В последние годы автономное водительство стало одной из самых активно развивающихся областей исследований в области ИИ. Одним из основных подходов является модульная архитектура, в которой различные задачи, такие как распознавание объектов, определение маршрута и управление, решаются независимо друг от друга. Однако, несмотря на прогресс в модульных подходах, остается вопрос о возможности использования мощных глубоких сетевых моделей, особенно видно-языковых моделей (Vision Language Models, VLM), для повышения эффективности автономного водительства. Наша работа показывает, что интеграция VLM в энд-то-энд (End-to-End, E2E) архитектуру может обеспечить существенные улучшения в решении задач автономного водительства, а также демонстрирует потенциал таких подходов в решении многомодальных задач. ## Метод Мы предлагаем интеграцию VLM в архитектуру автономного водительства, которая использует единственную камеру в качестве входного сигнала. Наше решение включает в себя несколько ключевых элементов: 1. **Архитектура VLM**: Мы используем текстовую модель, которая анализирует входные изображения с камеры и выводит описание содержимого. 2. **Энд-то-энд подход**: Мы совместили модель VLM с модулями, управляющими ходом автомобиля, включая алгоритмы планирования и корректировки маршрута. 3. **Обучение с подкреплением**: Мы применяли метод обучения с подкреплением, чтобы обучить модель решать задачи автономного водительства с минимальными потерями. 4. **Интеграция визуальных и текстовых сигналов**: Мы разработали специальные механизмы для объединения визуальных данных с текстовыми описаниями, чтобы повысить точность прогнозирования действий водителя. ## Результаты Мы провели эксперименты на данных CVPR2024 E2E Challenge, которые показали высокую эффективность нашего подхода. Наша модель показала лучший результат среди решений, основанных только на камере, и демонстрирует высокую точность в таких задачах, как обнаружение объектов, прогнозирование движения и управление ходом. Мы также проверили нашу модель на других данных для проверки ее общей обобщаемости и показали, что она успешно работает в различных условиях. ## Значимость Наш подход имеет широкие приложения в автономном водительстве, особенно в ситуациях, где доступ к модулям LIDAR или другим сенсорам ограничен. Одним из основных преимуществ является высокая точность и надежность в решении задач, таких как распознавание пешеходов, обнаружение других транспортных средств и управление ходом. Мы считаем, что наш подход может стать основой для развития будущих подходов в области энд-то-

Annotation:

End-to-end autonomous driving has drawn tremendous attention recently. Many works focus on using modular deep neural networks to construct the end-to-end archi-tecture. However, whether using powerful large language models (LLM), especially multi-modality Vision Language Models (VLM) could benefit the end-to-end driving tasks remain a question. In our work, we demonstrate that combining end-to-end architectural design and knowledgeable VLMs yield impressive performance on the driving tasks. It i...

ID: 2509.02659v1 cs.CV, cs.RO

arXiv PDF

1
2
18
19
20
21
22
24
25

Показано 191 - 200 из 246 записей