📚 Саммари научных статей из arXiv

Найдено 246 результатов по запросу 'cs.CV, cs.RO' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 AsyMoE: Leveraging Modal Asymmetry for Enhanced Expert Specialization in Large Vision-Language Models

2025-09-18

Авторы:

Heng Zhang, Haichuan Hu, Yaomin Shen, Weihao Yu, Yilei Yuan, Haochen You, Guo Cheng, Zijian Zhang, Lubin Gan, Huihui Wei, Hao Zhang, Jin Huang

## Контекст Large Vision-Language Models (LVLMs) стали одним из ключевых инструментов в области многомодальных задач, таких как описание изображений, генерация текста и поиск информации. Их успех обусловлен расширенными архитектурами и масштабным обучением. Однако существующие модели, использующие Mixture of Experts (MoE), сталкиваются с проблемами, связанными с асимметрией в обработке визуальных и языковых данных. Визуальная информация характеризуется пространственной комплексностью, в то время как язык требует сохранения последовательности контекста. Эта асимметрия приводит к затруднениям в балансировке модально-специфических черт и кросс-модальных взаимодействий. Мы выявили, что языковые эксперты в глубинных слоях моделей теряют контекстную привязку, склоняясь к использованию параметрических знаний вместо доступных визуальных и языковых сигналов. Это приводит к ограниченности моделей в понимании контекста. Наша мотивация заключается в разработке модели, которая бы эффективно учитывала эту асимметрию и повышала специализацию экспертов. ## Метод Мы предлагаем **AsyMoE**, модель, которая активно моделирует асимметрию между визуальными и языковыми модальностями. Модель состоит из трех специализированных групп экспертов: - **Intra-modality experts**, специализирующиеся на модально-специфических операциях. - **Hyperbolic inter-modality experts**, реализующие высокопроизводительные кросс-модальные взаимодействия с использованием гиперболической алгебры. - **Evidence-priority language experts**, которые усиливают контекстную привязку и снижают зависимость от параметров модели. Мы использовали новые методы оптимизации для точного регулирования взаимодействий экспертов в различных слоях и областях модели. Наша архитектура стремится увеличить эффективность обучения, сохраняя точность и специализацию. ## Результаты Мы провели обширные эксперименты с использованием различных многомодальных задач, включая синтез текстов и изображений. Модель AsyMoE показала следующие результаты: - Улучшение точности в задачах описания изображений на **26.58%** по сравнению с стандартной MoE. - Улучшение точности в задачах генерации текста на **15.45%** при использовании специализированных языковых экспертов. - Эффективность параметров: AsyMoE использует **25.45% меньше активированных параметров**, нежели другие модели, без потери качества. Эти результаты ожидаются, так как AsyMoE направлена на устранение асимметрии в модальной обработке, что приводит к лучшему использованию визуально-языковых сигналов. ##

Annotation:

Large Vision-Language Models (LVLMs) have demonstrated impressive performance on multimodal tasks through scaled architectures and extensive training. However, existing Mixture of Experts (MoE) approaches face challenges due to the asymmetry between visual and linguistic processing. Visual information is spatially complete, while language requires maintaining sequential context. As a result, MoE models struggle to balance modality-specific features and cross-modal interactions. Through systemati...

ID: 2509.12715v1 cs.CV, cs.RO

arXiv PDF

📄 A Synthetic Data Pipeline for Supporting Manufacturing SMEs in Visual Assembly Control

2025-09-18

Авторы:

Jonas Werheid, Shengjie He, Aymen Gannouni, Anas Abdelrazeq, Robert H. Schmitt

## Контекст Качественный контроль сборочных процессов является ключевым фактором для обеспечения качества отдельных компонентов и их интеграции в финальный продукт. Одним из способов решения этой задачи является автоматизированный контроль сборки с использованием методов видеообработки. Однако интеграция таких методов сталкивается с рядом проблем, особенно для малого и среднего предприятий (МСП), которые часто не могут позволить себе дорогостоящие методы сбора изображений, их аннотации и обучения компьютерного зрения. Моделирование синтетических данных предлагает возможность уменьшить эти затраты, но его применение в контексте контроля сборки остается недостаточно изученным. ## Метод Предлагаемый подход основывается на генерации синтетических данных с помощью компьютерной топографии (CAD) для симулирования сцен в сборочных процессах. Используется метод обнаружения объектов для идентификации компонентов на изображениях. Архитектура представляет собой интегрированную систему, которая автоматически генерирует и аннотирует данные для обучения алгоритмов компьютерного зрения. Метод был применен к сборочным процессам с использованием симуляции планетарного зубчатого колеса. ## Результаты Проведенные эксперименты показали высокую точность распознавания синтетических компонентов на изображениях, созданных в симуляционной среде. Метрика Mean Average Precision ([email protected]:0.95) достигла 99,5% в синтетических условиях и 93% при переходе на реальные изображения с камеры. Этот подход демонстрирует эффективность синтетических данных в создании пайплайна, который экономит время и ресурсы в сборочных процессах. ## Значимость Процедура синтетической генерации данных может быть использована для различных сборочных процессов, обеспечивая высокую точность и экономичность. Она предлагает решение для МСП, позволяя им применять мощные методы компьютерного зрения без значительных затрат на сбор и аннотацию данных. Это может способствовать улучшению качества сборочных процессов и увеличению конкурентоспособности предприятий на рынке. ## Выводы Результаты демонстрируют эффективность интегрированного подхода к генерации и использованию синтетических данных для контроля сборки. В будущем необходимо расширить применение этого подхода к другим типам сборочных процессов и провести дополнительные исследования для повышения точности и расширения области применения.

Annotation:

Quality control of assembly processes is essential in manufacturing to ensure not only the quality of individual components but also their proper integration into the final product. To assist in this matter, automated assembly control using computer vision methods has been widely implemented. However, the costs associated with image acquisition, annotation, and training of computer vision algorithms pose challenges for integration, especially for small- and medium-sized enterprises (SMEs), which...

ID: 2509.13089v1 cs.CV, cs.RO

arXiv PDF

📄 InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts

2025-09-17

Авторы:

Weipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang

## Контекст Модели Embodied AI значительно зависят от больших, симулируемых 3D-сцен, которые должны обеспечивать разнообразие и реалистичные макеты. Однако существующие данные имеют ограничения по масштабу и разнообразию, часто являются слишком "очищенными" (преимущественно содержат крупные предметы) или страдают от проблем, таких как коллизии объектов. В этой статье предлагается решение, основанное на создании мощного датасета InternScenes, который станет ключевым ресурсом для развития Embodied AI. ## Метод Датасет InternScenes был создан через интеграцию трех различных источников: реальных сканов, процедурно созданных сцен и сцен, созданных дизайнерами. Он включает примерно 40 000 сцен, 1,96 миллиона 3D-объектов и покрывает 15 различных сценарных типов и 288 классов объектов. Особое внимание уделено сохранению малых предметов, что позволяет получить реалистичные и сложные макеты, содержащие 41,5 объектов в среднем в каждом регионе. Выделенная процедура обработки данных обеспечивает simulatability (реализм симуляции), в том числе путем создания реплик реальных ситуаций в симуляторе, добавлением интерактивных объектов и решением проблем коллизий путем физических симуляций. ## Результаты Эксперименты показали, что данные InternScenes позволяют сформировать вызовы, которыми не сталкивалось другой доступной база данных. Два ключевых применения — генерация макетов сцен и поиск путей в точку-назначение — демонстрируют новые сложности и возможности, внедренные данными. Благодаря предложенной модели, модели Embodied AI могут быть обучены для работы в крупных, реалистичных сценах, что ранее не было возможно. ## Значимость Этот датасет открывает новые возможности для разработки моделей Embodied AI, таких как модели для создания и следования маршрутам в сложных, реалистичных сценах. Он также открывает пути для будущих исследований в области произвольного поведения в симуляторах. Открытый доступ к датасету, моделям и бенчмаркам способствует совместному развитию сообщества в области Embodied AI. ## Выводы InternScenes — это первый датасет, который объединяет реальные сканы, процедурные генераторы и дизайнерские сцены, создавая сцены с реалистичными макетами и 1,96 миллионом объектов. Он успешно демонстрирует способность обучения моделей сложных задач Embodied AI в полностью симулируемых сценах. Дальнейшие исследования будут направлены на расширение моделей и применения в различных сценариях Embodied AI.

Annotation:

The advancement of Embodied AI heavily relies on large-scale, simulatable 3D scene datasets characterized by scene diversity and realistic layouts. However, existing datasets typically suffer from limitations in data scale or diversity, sanitized layouts lacking small items, and severe object collisions. To address these shortcomings, we introduce \textbf{InternScenes}, a novel large-scale simulatable indoor scene dataset comprising approximately 40,000 diverse scenes by integrating three dispar...

ID: 2509.10813v1 cs.CV, cs.RO

arXiv PDF

📄 Point-Plane Projections for Accurate LiDAR Semantic Segmentation in Small Data Scenarios

2025-09-17

Авторы:

Simone Mosco, Daniel Fusaro, Wanmeng Li, Emanuele Menegatti, Alberto Pretto

#### Контекст Внедрение LiDAR (Light Detection and Ranging) в области автоматизированных систем, таких как автомобили с автоориентацией и роботы, требует эффективных методов для понимания окружающей среды. Одной из ключевых задач является семантическая сегментация точечных облаков LiDAR, которая позволяет интерпретировать трехмерные среды. Несмотря на продвижение технологий, многие существующие подходы сталкиваются с проблемами высокой вычислительной сложности и большим потреблением данных для тренировки. Эти ограничения становятся заметными в ситуациях, когда доступны только небольшие объемы данных для обучения. Целью данной работы является развитие метода, который не только улучшит точность сегментации в сценариях малого количества данных, но и стабильно справится с задачей на более крупных выборках. #### Метод Метод, предлагаемый в данной работе, основывается на структуре point-plane projections (точка-плоскость), которая позволяет извлекать дополнительные информационные признаки с использованием 2D-представлений точечных облаков. Был разработан новый геометрический подход для аугментации данных, который учитывает свойства LiDAR-сенсора и помогает уменьшить проблему несбалансированности классов. Реализация метода включает несколько проекций 2D из различных плоскостей, чтобы извлечь многогранные компоненты из точечного облака. Была разработана архитектура, которая интегрирует эти проекции для повышения точности семантической сегментации. Метод был оценен на нескольких источниках данных, включая SemanticKITTI и PandaSet. #### Результаты Проведенные эксперименты показали, что предлагаемый подход обеспечивает существенное повышение точности семантической сегментации в сценариях малого количества данных. Эксперименты проводились на двух стандартных датасетах, SemanticKITTI и PandaSet, где показано, что метод достигает результатов, сопоставимых с лучшими существующими инструментами. Особое внимание было уделено проверке накладных работ на вычислительной сложности и времени обучения. Результаты показали, что метод эффективен как в быстром обучении, так и в эффективном использовании ресурсов во время выполнения. #### Значимость Предлагаемый подход может быть применен в различных задачах, включая автоматизированное управление транспортом, робототехнику, интеллектуальные системы для дома и офиса. Одним из основных преимуществ является улучшение производительности в условиях нехватки данных, что позволяет использовать метод в сценариях, где обучающие данные ограничены. Благодаря геометрической аугментации данных, метод эффективно справляется с проблемой несбалансированности классов

Annotation:

LiDAR point cloud semantic segmentation is essential for interpreting 3D environments in applications such as autonomous driving and robotics. Recent methods achieve strong performance by exploiting different point cloud representations or incorporating data from other sensors, such as cameras or external datasets. However, these approaches often suffer from high computational complexity and require large amounts of training data, limiting their generalization in data-scarce scenarios. In this p...

ID: 2509.10841v1 cs.CV, cs.RO

arXiv PDF

📄 Mars Traversability Prediction: A Multi-modal Self-supervised Approach for Costmap Generation

2025-09-17

Авторы:

Zongwu Xie, Kaijie Yun, Yang Liu, Yiming Ji, Han Li

## Контекст Планетарные миссии требуют системы навигации, которая может эффективно оценивать траверсабильность поверхности. Однако, получение надёжных данных для обучения моделей в таких условиях ограничено, что приводит к риску ошибок в оценке траверсабильности. Эта проблема может привести к ухудшению надежности ровера и увеличению рисков для миссий. Наша мотивация заключается в разработке продвинутого метода, который бы способствовал точной и надежной оценке траверсабильности в сложных планетарных условиях. ## Метод Мы предлагаем многомодальный самообучающийся подход для построения траверсабильности. Наша модель объединяет данные камеры и LiDAR, порождая bird's-eye-view (BEV) terrain costmap. Обучение происходит с использованием метки траверсабильности, сгенерированной с помощью данных IMU. Мы используем DINOv3 в качестве интенсивного изображения и FiLM для фузирования данных. Оптимизация производится с помощью комбинации Huber и smoothness loss. Эта архитектура позволяет модели предсказать траверсабильность с высокой точностью и устойчивостью к шумам в данных. ## Результаты Мы проводили обширные эксперименты с различными условиями данных и модификациями набора данных. Наши результаты показали, что модель очень сильно зависит от геометрических признаков, а не семантических. Мы обнаружили, что даже при существенных изменениях в данных (например, удаление цвета или добавление шума), изменения MAE и MSE остаются незначительными. Это указывает на высокую устойчивость модели к шуму и сильное влияние геометрических данных. ## Значимость Наш подход может быть применён в планетарных миссиях для более точного определения траверсабильности. Он обеспечивает высокую устойчивость, что позволяет роверам эффективно перемещаться по труднопроходимым местностям. Это также открывает возможности для улучшения систем навигации и уменьшения рисков для миссий. ## Выводы Мы представили продвинутый подход к предсказанию траверсабильности, используя многомодальный самообучающийся метод. Основные достижения включают: (1) разработку высокоточной симуляционной среды; (2) создание самообучающейся модели, основанной на IMU; (3) разработку модели BEV. Будущие исследования будут сфокусированы на улучшении генерализации модели и расширении набора данных для различных условий.

Annotation:

We present a robust multi-modal framework for predicting traversability costmaps for planetary rovers. Our model fuses camera and LiDAR data to produce a bird's-eye-view (BEV) terrain costmap, trained self-supervised using IMU-derived labels. Key updates include a DINOv3-based image encoder, FiLM-based sensor fusion, and an optimization loss combining Huber and smoothness terms. Experimental ablations (removing image color, occluding inputs, adding noise) show only minor changes in MAE/MSE (e.g....

ID: 2509.11082v1 cs.CV, cs.RO

arXiv PDF

📄 Learning to Generate 4D LiDAR Sequences

2025-09-17

Авторы:

Ao Liang, Youquan Liu, Yu Yang, Dongyue Lu, Linfeng Li, Lingdong Kong, Huaici Zhao, Wei Tsang Ooi

## Контекст Область исследования связана с развитием методов генерирования 4D LiDAR-секвенций. Это важно для улучшения 3D-перцепции, необходимой для автоматизированных систем съемки, видеомониторинга и транспортных систем. Существующие подходы, ориентированные на видео и отображение областей, не полностью соответствуют требованиям к LiDAR-данным, таким как синхронность, контролируемость и темпоральная стабильность. Эти проблемы мотивируют разработку более эффективных алгоритмов, которые могут генерировать высококачественные 4D LiDAR-секвенции с учетом требований к реалистичности и управляемости. ## Метод Предлагаемая методология, LiDARCrafter, представляет собой универсальный фреймворк, который преобразует естественный язык в редактируемые 4D LiDAR-секвенции. Языковые команды преобразуются в сценовые графы в его-центрической представлении, выступающие в качестве основы для последующей работы. Для генерации начального скана используется модель диффузии по дательному изображению, которая вводит в многоугольный бакеты для каждого объекта. Авторегрессионный модуль расширяет этот скан в последовательность, обеспечивая темпоральную стабильность и контролируемость. Для экспериментов используются данные nuScenes, обрабатываемые с использованием EvalSuite — подробной бенчмарковой системой, оценивающей качество генерируемых данных по различным метрикам. ## Результаты Экспериментальная оценка показала, что LiDARCrafter превосходит конкурирующие методы по нескольким критериям: фидбелности, контролируемости и темпоральной стабильности. На датасете nuScenes, модель достигла значительно вышей точности в генерировании и последовательности, сравнительно с другими подходами. Оценка с помощью EvalSuite позволяет тщательно измерить выполнение каждой подсистемы. Это демонстрирует, что LiDARCrafter не только генерирует высококачественные данные, но и обеспечивает уникальную возможность редактировать эти данные на уровне объектов, что является ключевым преимуществом. ## Значимость LiDARCrafter может быть применен в различных областях, включая симуляционные системы для проверки роботов, автомобилей без водителя и поддержку виртуальной реальности. Он предоставляет не только высококачественные данные, но и возможность управлять содержимым, что значительно увеличивает его ценность. Благодаря эффективной архитектуре и уникальным возможностям редактирования, LiDARCrafter может повысить эффективность в процессе разработки и тестирования систем, основанных на LiDAR. ## Выводы Основным достижением является разработка LiDARCrafter — пер

Annotation:

While generative world models have advanced video and occupancy-based data synthesis, LiDAR generation remains underexplored despite its importance for accurate 3D perception. Extending generation to 4D LiDAR data introduces challenges in controllability, temporal stability, and evaluation. We present LiDARCrafter, a unified framework that converts free-form language into editable LiDAR sequences. Instructions are parsed into ego-centric scene graphs, which a tri-branch diffusion model transform...

ID: 2509.11959v1 cs.CV, cs.RO

arXiv PDF

📄 Efficient and Accurate Downfacing Visual Inertial Odometry

2025-09-16

Авторы:

Jonas Kühne, Christian Vogt, Michele Magno, Luca Benini

#### Контекст Visual Inertial Odometry (VIO) является одной из самых распространенных компьютерно-визуальных технологий, позволяющих определить движение агента с помощью камеры и импульсного гироскопического датчика. Однако существуют проблемы, связанные с двумя ключевыми аспектами: точностью и эффективностью. Недостаточная точность может привести к существенным ошибкам в определении расположения, в то время как высокая сложность вычислительных операций может не позволить применять VIO на микро- и ниано-управляемых авиационных транспортных средствах (micro- и nano-UAVs). Эти проблемы возникают, так как существующие VIO-процессы требуют высокой вычислительной мощности, что не допускается в микроконтроллерах с ограниченными ресурсами. Мотивацией для этого исследования является разработка эффективной и точной VIO-процессной структуры, которая может быть использована на низкоэнергоемких системах. #### Метод Предлагаемая VIO-процессная структура основывается на современных методах трекинга объектов: SuperPoint, PX4FLOW и ORB. Эти методы были оптимизированы и конвертированы в числовые представления для использования на RISC-V-основных системах на микросхемах (SoCs). Также, VIO-процесс использует модель жесткого тела для моделирования движения, что позволяет уменьшить ошибки оценки, особенно в планарных сценариях. Для реализации и эффективности процесса была выбрана система на микросхемах GAP9, известная за свои низкие энергозатраты и высокую производительность. Эта система позволяет реализовать VIO в режиме реального времени, что является ключевым для применения в UAVs. #### Результаты Проведенные эксперименты показали, что использование оптимизированной VIO-процессной структуры приводит к значительному улучшению точности. В частности, при использовании ORB feature tracker, RMSE был снижен на фактор до 3.65x в сравнении с базовой VIO-процессной структурой. Кроме того, PX4FLOW продемонстрировал почти одинаковую точность, но с низким расходом вычислительных ресурсов при движении скоростью менее 24 пикселей в кадре. Это указывает на то, что система может быть применена на устройствах с ограниченными ресурсами без потери качества. #### Значимость Предложенная VIO-структура не только улучшает точность движения, но и открывает новые возможности для использования VIO на микро- и ниано-управляемых авиационных транспортных средствах. Например, эта система может быть использована для навигации в закрытых пространствах, в том числе в пределах помещений или на земле. Благодаря своей эффективности, она также может быть применена в сегменте IoT,

Annotation:

Visual Inertial Odometry (VIO) is a widely used computer vision method that determines an agent's movement through a camera and an IMU sensor. This paper presents an efficient and accurate VIO pipeline optimized for applications on micro- and nano-UAVs. The proposed design incorporates state-of-the-art feature detection and tracking methods (SuperPoint, PX4FLOW, ORB), all optimized and quantized for emerging RISC-V-based ultra-low-power parallel systems on chips (SoCs). Furthermore, by employing...

ID: 2509.10021v1 cs.CV, cs.RO, eess.IV

arXiv PDF

📄 Visual Grounding from Event Cameras

2025-09-13

Авторы:

Lingdong Kong, Dongyue Lu, Ao Liang, Rong Li, Yuhao Dong, Tianshuai Hu, Lai Xing Ng, Wei Tsang Ooi, Benoit R. Cottereau

## Контекст Event cameras — это устройства, которые записывают изменения яркости с микросекундной точностью. Они отличаются высокой скоростью реакции, точностью работы при скорости движения и в трудных условиях освещения. Тем не менее, их интеграция с национальным языком понимания (NLU) остается недостаточно изученной темой, несмотря на значительные преимущества в моделировании динамических сцен. Это открывает широкие возможности для развития мультимодального понимания, в том числе в таких областях, как робототехника, взаимодействие человека-компьютер и сенсорные системы. ## Метод Мы предлагаем Talk2Event — первую большой бенчмарк-коллекцию для языкового направленного граундинга объектов в данных эвент-камеры. Talk2Event включает 5 567 сцен, 13 458 аннотированных объектов и более 30 000 тщательно проверенных определений. Каждый определение сопровождается четырьмя атрибутами: его внешним видом, состоянием, отношением к просматривающему объекту и отношением к окружающим объектам. Эта атрибутно-ориентированная структура обеспечивает интерпретируемую и составную модель граундинга, которая расширяет возможности глубокого понимания сцены за счет выхода за рамки простого распознавания объектов в терминах признаков. ## Результаты Мы провели эксперименты с различными моделями для оценки Talk2Event. Использовались специально разработанные атрибут-активационные модели, которые позволяют анализировать сложность и точность результатов. Наши результаты показывают значительный прогресс в понимании объектов в динамических сценах, а также подчеркивают важность атрибутов для развития мультимодальных методов. ## Значимость Talk2Event предлагает новый подход к граундингу объектов в динамических сценах, закладывая фундамент для развития робототехники, взаимодействия человека-компьютер и компьютерного зрения в условиях сложной информации. Этот бенчмарк не только расширяет возможности моделей, но и позволяет проводить интерпретируемый анализ в среде, где необходимо учитывать как пространственные, так и временные и относительные аспекты. ## Выводы Talk2Event предлагает многогранный подход к граундингу объектов на основе данных эвент-камеры. Мы предлагаем свой бенчмарк для будущих исследований в области мультимодального понимания и динамических сцен. Наши результаты указывают на возможность расширения текущих моделей для более точного и контекстуально осмысленного граундинга. Мы также отмечаем, что Talk2Event может стать основополагающим элементом для развития систем, использующих роботов, интерактивные интерфейсы и д

Annotation:

Event cameras capture changes in brightness with microsecond precision and remain reliable under motion blur and challenging illumination, offering clear advantages for modeling highly dynamic scenes. Yet, their integration with natural language understanding has received little attention, leaving a gap in multimodal perception. To address this, we introduce Talk2Event, the first large-scale benchmark for language-driven object grounding using event data. Built on real-world driving scenarios, T...

ID: 2509.09584v1 cs.CV, cs.RO

arXiv PDF

📄 Quaternion Approximation Networks for Enhanced Image Classification and Oriented Object Detection

2025-09-10

Авторы:

Bryce Grant, Peng Wang

## Контекст Modern image classification and object detection tasks face significant challenges due to the need for rotation equivariance and efficient computation. Existing convolutional neural networks (CNNs) often struggle with maintaining geometric invariance to rotations, while traditional quaternion neural networks (QNNs) are computationally intensive and lack practical implementation. This paper addresses these issues by introducing Quaternion Approximation Networks (QUAN), a novel framework that combines the benefits of quaternion algebra with real-valued operations, ensuring efficient and rotation-equivariant processing of image data. ## Метод QUAN leverages quaternion algebra by approximating quaternion convolutions using Hamilton product decomposition. Instead of operating entirely in the quaternion domain, the network uses real-valued matrices to represent quaternion components. This approach ensures rotation equivariance while reducing computational overhead. Independent Quaternion Batch Normalization (IQBN) is introduced to stabilize training by addressing the unique challenges of quaternion-based layers. Additionally, spatial attention mechanisms are extended to quaternion operations, enhancing the model's ability to focus on relevant features. The framework is implemented with custom CUDA kernels to achieve high performance on modern hardware. ## Результаты QUAN is evaluated on standard benchmarks, including CIFAR-10, CIFAR-100, ImageNet for classification, and COCO and DOTA for object detection. Compared to traditional CNNs and other quaternion-based models, QUAN demonstrates superior accuracy with fewer parameters and faster convergence. For object detection, it achieves state-of-the-art (SOTA) performance among quaternion CNNs, showcasing its ability to handle rotation-sensitive tasks efficiently. The model's performance is attributed to its ability to preserve geometric properties while maintaining computational efficiency. ## Значимость QUAN holds significant potential across multiple domains. In robotics, its rotation-aware perception capabilities make it ideal for tasks such as autonomous navigation and object recognition. In other fields, its efficient architecture and ability to handle complex geometric transformations provide a competitive edge over conventional models. The framework's modular design and custom CUDA kernels ensure scalability and applicability to a wide range of real-world problems, including those requiring resource-constrained systems. ## Выводы QUAN advances the state-of-the-art in quaternion neural networks by introducing a novel approximation approach that combines the benefits of quaternion algebra with real-valued operations. Its superior performance in image classification and object detection, coupled with its efficient implementation, positions it as a promising solution for rotation-equivariant tasks. Future work will focus on extending QUAN to multi-modal data fusion and integrating it into larger modular frameworks for broader real-world applications.

Annotation:

This paper introduces Quaternion Approximate Networks (QUAN), a novel deep learning framework that leverages quaternion algebra for rotation equivariant image classification and object detection. Unlike conventional quaternion neural networks attempting to operate entirely in the quaternion domain, QUAN approximates quaternion convolution through Hamilton product decomposition using real-valued operations. This approach preserves geometric properties while enabling efficient implementation with ...

ID: 2509.05512v1 cs.CV, cs.RO

arXiv PDF

📄 Stereovision Image Processing for Planetary Navigation Maps with Semi-Global Matching and Superpixel Segmentation

2025-09-10

Авторы:

Yan-Shan Lu, Miguel Arana-Catania, Saurabh Upadhyay, Leonard Felicetti

#### Контекст Марсианская экспедиция требует точных и надёжных моделей ландшафта для безопасного движения ровера по непредсказуемым и опасным марсовым ландшафтам. Звездочное зрение (стереовидение) играет важную роль в перцепции ровера, позволяя воссоздавать сцену с помощью глубинных карт, полученных с помощью стерео-матчинга. Для построения террейнов на Марсе используется традиционный метод местного блочного матчинга, который аггрегирует затраты в пределах квадратных окон и улучшает диспаритеты с помощью ограничений гладкости. Однако этот подход сталкивается с трудностями при работе с низко-текстурными изображениями, косвенностью и повторяющимися мотивами, потому что он учитывает только ограниченное количество соседних пикселей и не обладает широким контекстом сцены. В данной работе предлагается использовать Semi-Global Matching (SGM) совместно с сегментацией на суперпикселах для устранения вкраплений блоков и восстановления утерянных деталей. #### Метод Метод основывается на использовании Semi-Global Matching (SGM) с сегментацией на суперпикселах для рефинирования диспаритета. Он совмещает быстродействие SGM с контекстно-связанной сегментацией, чтобы обеспечить более корректные оценки глубины. Суперпикселы позволяют группировать пикселы с одинаковыми характеристиками, чтобы уменьшить шум и сгладить локальные искажения. SGM, в свою очередь, обеспечивает точность матчинга по всему изображению, включая зоны с низким контрастом или репититивными мотивами. Рефинирование суперпикселов устраняет блочные артефакты и повышает точность моделирования ландшафта. Эта архитектура предлагает более устойчивую и эффективную систему для построения моделей террейна, необходимых для автономного управления ровером на Марсе. #### Результаты Данный подход был тестирован на трёх наборах данных, включая аналог марсианского ландшафта. Результаты показали улучшение консистентности структур, особенно в регионах с большим уклоном или вхождением объектов. Метод позволил сократить большие дыры задней стороны камней, которые характерны для сырых диспаритетных карт, и предоставил более точные детали, такие как мелкие камни и границы. В двух дополнительных наборах данных, использованных для оценки генеральной значимости и адаптивности метода, полученные диспаритетные карты были более точны, а террейны более стабильны. Эти достижения демонстрируют высокую конкурентоспособность полученных результатов по обеим метрикам ошибок: необходимости и полной карты. #### Значимость Предложенный подход может быть применён в про

Annotation:

Mars exploration requires precise and reliable terrain models to ensure safe rover navigation across its unpredictable and often hazardous landscapes. Stereoscopic vision serves a critical role in the rover's perception, allowing scene reconstruction by generating precise depth maps through stereo matching. State-of-the-art Martian planetary exploration uses traditional local block-matching, aggregates cost over square windows, and refines disparities via smoothness constraints. However, this me...

ID: 2509.05645v1 astro-ph.IM, astro-ph.EP, cs.CV, cs.RO

arXiv PDF

1
2
17
18
19
20
21
24
25

Показано 181 - 190 из 246 записей