📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 A Survey on Efficient Vision-Language-Action Models

2025-11-01

Авторы:

Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Ji Zhang, Lianli Gao, Jingkuan Song, Nicu Sebe, Heng Tao Shen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Vision-Language-Action models (VLAs) represent a significant frontier in embodied intelligence, aiming to bridge digital knowledge with physical-world interaction. While these models have demonstrated remarkable generalist capabilities, their deployment is severely hampered by the substantial computational and data requirements inherent to their underlying large-scale foundation models. Motivated by the urgent need to address these challenges, this survey presents the first comprehensive review ...

ID: 2510.24795v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 C-SWAP: Explainability-Aware Structured Pruning for Efficient Neural Networks Compression

2025-10-23

Авторы:

Baptiste Bauvin, Loïc Baret, Ola Ahmad

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Neural network compression has gained increasing attention in recent years, particularly in computer vision applications, where the need for model reduction is crucial for overcoming deployment constraints. Pruning is a widely used technique that prompts sparsity in model structures, e.g. weights, neurons, and layers, reducing size and inference costs. Structured pruning is especially important as it allows for the removal of entire structures, which further accelerates inference time and reduce...

ID: 2510.18636v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 SilvaScenes: Tree Segmentation and Species Classification from Under-Canopy Images in Natural Forests

2025-10-14

Авторы:

David-Alexandre Duclos, William Guimont-Martin, Gabriel Jeanson, Arthur Larochelle-Tremblay, Théo Defosse, Frédéric Moore, Philippe Nolet, François Pomerleau, Philippe Giguère

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Interest in robotics for forest management is growing, but perception in complex, natural environments remains a significant hurdle. Conditions such as heavy occlusion, variable lighting, and dense vegetation pose challenges to automated systems, which are essential for precision forestry, biodiversity monitoring, and the automation of forestry equipment. These tasks rely on advanced perceptual capabilities, such as detection and fine-grained species classification of individual trees. Yet, exis...

ID: 2510.09458v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 Fast Feature Field ($\text{F}^3$): A Predictive Representation of Events

2025-10-01

Авторы:

Richeek Das, Kostas Daniilidis, Pratik Chaudhari

## Контекст Event-based сенсоры, такие как Dynamic Vision Sensors (DVS), получают данные в виде последовательностей событий, которые достаточно сложно интерпретировать с помощью традиционных методов обработки изображений. Эти сенсоры показывают высокую чувствительность к движению и низкую задержку, но при этом требуют эффективных алгоритмов для интерпретации и предсказания поведения объектов в реальном времени. Отсутствие эффективных математических моделей для представления данных от таких сенсоров ограничивает потенциал их применения в системах супермаркетинга, водительских ассистентах и роботов. Наша мотивация заключается в разработке подробной теоретической модели и алгоритмов, который бы способствовал эффективному представлению данных и позволил бы использовать event-based сенсоры в широком круге задач. ## Метод Разработанная модель, названная Fast Feature Field ($\text{F}^3$), основывается на математической модели, которая предсказывает будущие события на основе прошлых данных. Основной метод состоит в том, чтобы представить каждый слой данных в виде многоканального изображения, которое содержит информацию о спарсе, движении и структуре сцены. Модель использует механизмы "глубинных наборов" (deep sets) и многорезольвенческого хеширования для обработки данных. Эти методы позволяют эффективно обрабатывать данные сенсоров, которые имеют спарсоедненую природу. Алгоритмы работают на высоких частотах (до 440 Гц при разрешении VGA и 120 Гц при разрешении HD), что делает их применимыми для реального времени. ## Результаты Мы провели эксперименты на данных, полученных с трех различных роботизированных платформ (автомобиля, легкого транспорта и воздушного робота) в различных условиях освещения (днем, ночью) и средах (внутренних, внешних, городских и местности). Модель $\text{F}^3$ показала состояние лучшего результата на задачах оценки оптического потока, сегментации сеансов и оценки метрического расстояния. В результате, наши решения достигли высокой точности и эффективности, сохранив высокую частоту работы (до 75 Гц при HD-резолюции). Это делает $\text{F}^3$ применимым в различных сценариях, включая водительские системы, супермаркетинг и роботизированные системы. ## Значимость Предлагаемый подход имеет многочисленные применения в области робототехники, систем управления транспортом и супермаркетинга. Он позволяет эффективно обрабатывать данные, которые требуют сильной зависимости от времени, что делает его идеальным для сценариев, требующих реального времени. Модель $\text{F}^3$ показала свою выносливость в оптическом потоке,

Annotation:

This paper develops a mathematical argument and algorithms for building representations of data from event-based cameras, that we call Fast Feature Field ($\text{F}^3$). We learn this representation by predicting future events from past events and show that it preserves scene structure and motion information. $\text{F}^3$ exploits the sparsity of event data and is robust to noise and variations in event rates. It can be computed efficiently using ideas from multi-resolution hash encoding and dee...

ID: 2509.25146v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 Hyperspectral Adapter for Semantic Segmentation with Vision Foundation Models

2025-09-26

Авторы:

Juana Valeria Hurtado, Rohit Mohan, Abhinav Valada

#### Контекст Область исследования — семантическое разделение данных hyperspectral imaging (HSI). Несмотря на то, что HSI предоставляет богатые спектральные данные, способствующие расширению мощности роботов в сложных средах, существующие методы семантического разделения либо недостаточно эффективны, либо ориентированы на RGB-данные, не спроектированные для HSI. Это делает необходимым разработку новых подходов, которые бы позволили эффективно использовать HSI в семантическом разделении. Мотивация заключается в том, чтобы сделать HSI более доступным для машинного обучения, оптимизировав его для задач, требующих высокого качества разделения объектов. #### Метод Предлагается новый адаптер для hyperspectral imaging, основанный на vision foundation models. Этот адаптер включает в себя спектральный transformer, который эффективно обрабатывает спектральные данные, и модуль spectrum-aware spatial prior, который учитывает информацию о пространстве. Для улучшения взаимодействия двух моделей вводится modality-aware interaction block, позволяющий лучше интегрировать HSI-данные и фирзеризованные фичи модели Vision Transformer. Эта архитектура гарантирует лучшую обработку данных, учитывая их специфику, и повышает качество семантического разделения. #### Результаты Авторы проводили эксперименты на трех различных датасетах, связанных с autonomous driving. Использовались HSI-данные в качестве входных, чтобы оценить эффективность адаптера. Результаты показали, что архитектура во всех случаях показала лучший результат по сравнению с другими методами семантического разделения. Она демонстрирует высокую точность в распознавании объектов и их классификации, даже в условиях сложного спектрального содержимого и переменного освещения. Это обозначает значительное улучшение перед существующими HSI-методами и RGB-методами. #### Значимость Предлагаемый адаптер может быть применен в следующих областях: автомобильная электроника, системы безопасности, исследования окружающей среды, а также в робототехнике. Он предлагает значительные преимущества, такие как повышение точности распознавания объектов и улучшение производительности HSI в сложных средах. Это может привести к расширению использования HSI в более широких приложениях, включая самоуправляемые автомобили и системы автоматического мониторинга. #### Выводы Адаптер для hyperspectral imaging, основанный на vision foundation models, демонстрирует высокую эффективность в семантическом разделении. Он представляет собой новый подход к обработке HSI-данных, который дополняет существующие архитектуры. Будущие исследования могут сфокусироваться на улучшении модуля modality-aware interaction и исследовании других приложений, в которых HSI может предоставить значите

Annotation:

Hyperspectral imaging (HSI) captures spatial information along with dense spectral measurements across numerous narrow wavelength bands. This rich spectral content has the potential to facilitate robust robotic perception, particularly in environments with complex material compositions, varying illumination, or other visually challenging conditions. However, current HSI semantic segmentation methods underperform due to their reliance on architectures and learning frameworks optimized for RGB inp...

ID: 2509.20107v2 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 MapAnything: Universal Feed-Forward Metric 3D Reconstruction

2025-09-19

Авторы:

Nikhil Keetha, Norman Müller, Johannes Schönberger, Lorenzo Porzi, Yuchen Zhang, Tobias Fischer, Arno Knapitsch, Duncan Zauss, Ethan Weber, Nelson Antunes, Jonathon Luiten, Manuel Lopez-Antequera, Samuel Rota Bulò, Christian Richardt, Deva Ramanan, Sebastian Scherer, Peter Kontschieder

#### Контекст В последние годы третье измерение стало одной из направленностей развития визуальных технологий. Одним из основных задач является реконструкция трехмерных сцен с помощью различных входных данных, включая изображения, геометрические данные и даже частичные реконструкции. Несмотря на развитие специализированных моделей для отдельных задач, таких как однокамерная глубинная оценка или структура из движения, не получилось создать универсальную модель, которая могла бы объединить в себе все эти задачи. Наша модель MapAnything рассчитана на решение этой проблемы и представляет собой универсальную трансформер-базированную модель, которая вместо разметки в 3D в реальном времени выводит метрическую геометрию трехмерной сцены и камеры. #### Метод MapAnything является трансформер-базированной моделью, которая принимает в качестве входных данных изображения, а также геометрические данные, такие как камерные интринсики, позы, дальности и частичные реконструкции. Основная идея заключается в том, чтобы использовать факторизованное представление много birds-eye-view-geometries, которое включает в себя не только глубинные карты, но и локальные карты лучей, камерные позы, а также метрический коэффициент масштабирования. Это позволяет модели MapAnything переходить от локальной реконструкции к глобальной, сохраняя метрическую консистентность. Модель поддерживает широкий спектр входных данных и может работать с несколькими изображениями, что делает её универсальной и перспективной в разных областях 3D-визуализации. #### Результаты Проведенные эксперименты показали, что MapAnything может решать широкий спектр задач в области 3D-визуализации, включая однокамерный depth estimation, структуру из движения, камерную локализацию и другие. Мы проводили тесты на различных датасетах, включающих KITTI, SUN RGB-D и другие. Результаты показали, что MapAnything не только достигает высокого качества решения отдельных задач, но и превосходит специализированные модели, в то же время обладая более эффективным обучением. Наши эксперименты показали, что модель способна выполнять различные задачи 3D-визуализации в меньший срок и с меньшим потреблением ресурсов, чем специализированные модели. #### Значимость Модель MapAnything имеет широкие возможности в области 3D-визуализации. Она может применяться в различных областях, таких как интерактивные системы, виртуальная и реальность, компьютерное зрение и геолокация. Модель значительно упрощает процесс 3D-реконструкции, предоставляя возможность решать различные задачи в области трехмерного видения в одном простом и универсальном решении. Это не только

Annotation:

We introduce MapAnything, a unified transformer-based feed-forward model that ingests one or more images along with optional geometric inputs such as camera intrinsics, poses, depth, or partial reconstructions, and then directly regresses the metric 3D scene geometry and cameras. MapAnything leverages a factored representation of multi-view scene geometry, i.e., a collection of depth maps, local ray maps, camera poses, and a metric scale factor that effectively upgrades local reconstructions int...

ID: 2509.13414v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 LiDAR-BIND-T: Improving SLAM with Temporally Consistent Cross-Modal LiDAR Reconstruction

2025-09-10

Авторы:

Niels Balemans, Ali Anwar, Jan Steckel, Siegfried Mercelis

## Контекст Одна из основных задач в поле автоматизированного вождения и робототехники заключается в обеспечении надежной и точной картографирования окружающей среды. Несмотря на то, что технологии LiDAR (Light Detection and Ranging) широко используются для построения точных трехмерных моделей окружающих объектов, они часто сталкиваются с ограничениями в характеристиках качества и стоимости. Другие сенсоры, такие как радары и системы синтезу аудиосигналов (sonar), могут предоставить дополнительные данные, но их интеграция с LiDAR часто сталкивается с проблемами временной неконсистентности и неточностью. Целью данной работы является расширение существующей multmodal fusion framework, LiDAR-BIND, для улучшения временной консистентности и качества реконструкции. ## Метод LiDAR-BIND-T расширяет LiDAR-BIND, добавив новые механизмы для принудительной временной консистентности. Эти механизмы включают: (i) **temporal embedding similarity**, который выравнивает последовательные тензоры в латентном пространстве LiDAR, (ii) **motion-aligned transformation loss**, который синхронизирует движение между предсказанными и реальными LiDAR-данными, и (iii) **windowed temporal fusion**, основанную на специальном модуле для объединения данных в определенных временных окнах. Также была обновлена архитектура модели для лучшего сохранения пространственной структуры. Эти улучшения позволяют LiDAR-BIND-T сохранять модульность и гибкость в интеграции различных сенсоров, при этом значительно повышая точность и надежность результатов. ## Результаты Использовав определенные данные с радарами и sonar, авторы проводили эксперименты для сравнения новой модели с исходной версией LiDAR-BIND. Оценка производилась с помощью различных метрик, включая **Absolute Trajectory Error (ATE)** и **Occupancy Map Accuracy**. Результаты показали, что LiDAR-BIND-T обеспечивает значительное улучшение временной и пространственной консистентности. Например, она снизила Absolute Trajectory Error в дорожных сценариях, улучшила точность построения карты окружающей области в Cartographer-based SLAM. Для оценки качества временной консистентности также были предложены новые метрики, например, Fréchet Video Motion Distance (FVMD) и correlation-peak distance, которые дают более точные показатели временного качества. ## Значимость LiDAR-BIND-T может применяться в различных областях, включая автоматизированное вождение, робототехнику и виртуальную реальность. Она предлагает преимущества в своей модульной структуре, которая позволяет легко интегрировать различные типы сенсоров. Более того, усовершенствованная модель обеспечивает лучшую точность и надежность в задачах SLAM (Simultaneous Localization and Mapping), что может существенно повысить производительность в системах автоматизированного управления. Эти достижения открывают путь к более

Annotation:

This paper extends LiDAR-BIND, a modular multi-modal fusion framework that binds heterogeneous sensors (radar, sonar) to a LiDAR-defined latent space, with mechanisms that explicitly enforce temporal consistency. We introduce three contributions: (i) temporal embedding similarity that aligns consecutive latents, (ii) a motion-aligned transformation loss that matches displacement between predictions and ground truth LiDAR, and (iii) windows temporal fusion using a specialised temporal module. We ...

ID: 2509.05728v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 Enhancing 3D Point Cloud Classification with ModelNet-R and Point-SkipNet

2025-09-09

Авторы:

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari

Обработка 3D-точечных множеств — важный вопрос для приложений в сферах автоматизированного вождения, робототехники и аugmented reality. Однако, основной датасет ModelNet40 имеет ряд ограничений: непоследовательные метки, 2D-данные, несоответствие размеров данных, недостаточное различие классов. Эти недостатки сильно влияют на качество моделей. Мы предлагаем ModelNet-R — улучшенную версию ModelNet40 с исправленными этими проблемами. Также мы предлагаем Point-SkipNet — легковесную графовую нейронную сеть, основывающуюся на эффективном выборе точек, группировке соседей и skip-подключениях. Она значительно сокращает количество параметров, повышая точность классификации. Эксперименты показали, что Point-SkipNet достигает state-of-the-art на ModelNet-R с меньшим количеством параметров по сравнению с современными моделями. Это показывает, что высокое качество данных ключевое для эффективного обучения моделей в 3D-классификации.

Annotation:

The classification of 3D point clouds is crucial for applications such as autonomous driving, robotics, and augmented reality. However, the commonly used ModelNet40 dataset suffers from limitations such as inconsistent labeling, 2D data, size mismatches, and inadequate class differentiation, which hinder model performance. This paper introduces ModelNet-R, a meticulously refined version of ModelNet40 designed to address these issues and serve as a more reliable benchmark. Additionally, this pape...

ID: 2509.05198v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 TransForSeg: A Multitask Stereo ViT for Joint Stereo Segmentation and 3D Force Estimation in Catheterization

2025-09-05

Авторы:

Pedram Fekri, Mehrdad Zadeh, Javad Dargahi

#### Контекст Улучшение технологий мониторинга и визуализации в катехеризации требует повышения точности оценки взаимодействия медицинского оборудования с организмом пациента. Одной из ключевых задач является сочетание данных визуального и тактильного типа для повышения точности интерпретации данных. Для этого широко используются многозадачные нейросетевые модели, которые объединяют в себе различные задачи, такие как сегментация изображений и оценка трения. Эти задачи имеют прикладное значение в медицинской практике, поскольку позволяют улучшить точность и эффективность процедур катехеризации. Однако существуют проблемы с ресурсоемкостью и недостаточной точностью, которые существенно ограничивают практическое применение таких моделей. #### Метод Мы предлагаем TransForSeg — модель, основанную на Vision Transformer, которая обрабатывает два входных изображения в качестве последовательностей. Модель учитывает длинные зависимости между патчами изображений с разных углов, не требуя их последовательного расширения. Для каждого входа используется отдельный сегментационный блок, а для оценки трения — регрессионный блок, объединяющий результаты двух сегментационных блоков. Наша модель обеспечивает синхронную оценку сегментации и трения с помощью контекстно-зависимой моделирования, которая использует возможности Vision Transformer для передачи длинных зависимостей. #### Результаты Мы провели тщательные эксперименты на синтетических X-X-ray изображениях с разными уровнями шума. Модель была сравнена с современными моделями для сегментации изображений, задач оценки трения, а также с многозадачными моделями. Результаты показали, что TransForSeg превосходит существующие модели по качеству сегментации и точности оценки трения. Она установила новый стандарт в области катехеризации, позволив улучшить качество обработки изображений и точность тренировочных моделей. #### Значимость Модель TransForSeg может быть применена в различных областях, где требуется синхронная оценка геометрии и трения. Например, в медицинских процедурах, визуальном мониторинге и анализе трения. Основной преимуществом TransForSeg является её многозадачность, которая позволяет эффективно обрабатывать изображения и оценивать физические взаимодействия. Это открывает путь к улучшению точности и эффективности в медицинских процедурах. #### Выводы Мы представили TransForSeg — модель, которая демонстрирует высокую точность в сегментации изображений и оценке трения. Наши результаты показывают, что модель может стать новым стандартом в синхронной оценке сегментации и трения. Будущие исследования будут сконцентрированы на расширени

Annotation:

Recently, the emergence of multitask deep learning models has enhanced catheterization procedures by providing tactile and visual perception data through an end-to-end architecture. This information is derived from a segmentation and force estimation head, which localizes the catheter in X-ray images and estimates the applied pressure based on its deflection within the image. These stereo vision architectures incorporate a CNN-based encoder-decoder that captures the dependencies between X-ray im...

ID: 2509.01605v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 SKGE-SWIN: End-To-End Autonomous Vehicle Waypoint Prediction and Navigation Using Skip Stage Swin Transformer

2025-08-29

Авторы:

Fachri Najm Noer Kartiman, Rasim, Yaya Wihardi, Nurul Hasanah, Oskar Natan, Bambang Wahono, Taufik Ibnu Salim

## Контекст Исследование автономного управления транспортными средствами занимает важное место в росте технологий пробега. Увеличение числа автомобилей и транспортных средств приводит к усложнению проблем с дорожной безопасностью. Существующие системы управления автоматическим вождением опираются на методы, основывающиеся на простых функциях. Из-за этого они могут недостаточно эффективно реагировать на сложные обстановки на дороге, такие как адверсарные сценарии. Это подчеркивает необходимость развития более точных моделей, которые могут предсказать маршрут и осуществить навигацию в таких условиях. ## Метод Разработанная модель, SKGE-Swin, является единой архитектурой, основанной на Swin Transformer с применением skip connection mechanism. Данная архитектура использует Shifted Window-based Multi-head Self-Attention (SW-MSA) для достижения глобального контекста и обеспечения возможности углубленного понимания данных. Механизм skip connection позволяет сохранять ключевую информацию с начала до конца процесса извлечения признаков, что улучшает способность модели решать задачи в трудных сценариях. ## Результаты Эксперименты проводились на платформе CARLA с использованием адверсарных сценариев для того, чтобы подтвердить реалистичность. Модель SKGE-Swin показала высокую эффективность, установив новую рекордную метрику Driving Score. Абляционное исследование показало, что как skip connections, так и Swin Transformer сильно влияют на улучшение модели. Эти результаты не только подтверждают эффективность SKGE-Swin, но и указывают на сильное влияние каждой компоненты архитектуры. ## Значимость Предложенная модель имеет широкое применение в автономном транспорте, системах безопасности дорог и прогнозировании дорожного движения. Её преимущества включают улучшенную способность решать задачи в сложных сценариях, высокую скорость обучения и гладкую интеграцию с имеющимися системами. Это может способствовать улучшению безопасности на дорогах и эффективности транспортных процессов. ## Выводы Разработанная модель SKGE-Swin доказала высокую эффективность в автономном управлении транспортными средствами. Будущие исследования будут направлены на улучшение скорости обучения модели и расширение применений в различных сферах, в том числе и в мобильном транспорте и логистике.

Annotation:

Focusing on the development of an end-to-end autonomous vehicle model with pixel-to-pixel context awareness, this research proposes the SKGE-Swin architecture. This architecture utilizes the Swin Transformer with a skip-stage mechanism to broaden feature representation globally and at various network levels. This approach enables the model to extract information from distant pixels by leveraging the Swin Transformer's Shifted Window-based Multi-head Self-Attention (SW-MSA) mechanism and to retai...

ID: 2508.20762v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

Показано 11 - 20 из 24 записей