📚 Саммари научных статей из arXiv

Найдено 101 результатов по запросу 'cs.LG, cs.RO' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 LiDAR-BIND-T: Improving SLAM with Temporally Consistent Cross-Modal LiDAR Reconstruction

2025-09-10

Авторы:

Niels Balemans, Ali Anwar, Jan Steckel, Siegfried Mercelis

## Контекст Одна из основных задач в поле автоматизированного вождения и робототехники заключается в обеспечении надежной и точной картографирования окружающей среды. Несмотря на то, что технологии LiDAR (Light Detection and Ranging) широко используются для построения точных трехмерных моделей окружающих объектов, они часто сталкиваются с ограничениями в характеристиках качества и стоимости. Другие сенсоры, такие как радары и системы синтезу аудиосигналов (sonar), могут предоставить дополнительные данные, но их интеграция с LiDAR часто сталкивается с проблемами временной неконсистентности и неточностью. Целью данной работы является расширение существующей multmodal fusion framework, LiDAR-BIND, для улучшения временной консистентности и качества реконструкции. ## Метод LiDAR-BIND-T расширяет LiDAR-BIND, добавив новые механизмы для принудительной временной консистентности. Эти механизмы включают: (i) **temporal embedding similarity**, который выравнивает последовательные тензоры в латентном пространстве LiDAR, (ii) **motion-aligned transformation loss**, который синхронизирует движение между предсказанными и реальными LiDAR-данными, и (iii) **windowed temporal fusion**, основанную на специальном модуле для объединения данных в определенных временных окнах. Также была обновлена архитектура модели для лучшего сохранения пространственной структуры. Эти улучшения позволяют LiDAR-BIND-T сохранять модульность и гибкость в интеграции различных сенсоров, при этом значительно повышая точность и надежность результатов. ## Результаты Использовав определенные данные с радарами и sonar, авторы проводили эксперименты для сравнения новой модели с исходной версией LiDAR-BIND. Оценка производилась с помощью различных метрик, включая **Absolute Trajectory Error (ATE)** и **Occupancy Map Accuracy**. Результаты показали, что LiDAR-BIND-T обеспечивает значительное улучшение временной и пространственной консистентности. Например, она снизила Absolute Trajectory Error в дорожных сценариях, улучшила точность построения карты окружающей области в Cartographer-based SLAM. Для оценки качества временной консистентности также были предложены новые метрики, например, Fréchet Video Motion Distance (FVMD) и correlation-peak distance, которые дают более точные показатели временного качества. ## Значимость LiDAR-BIND-T может применяться в различных областях, включая автоматизированное вождение, робототехнику и виртуальную реальность. Она предлагает преимущества в своей модульной структуре, которая позволяет легко интегрировать различные типы сенсоров. Более того, усовершенствованная модель обеспечивает лучшую точность и надежность в задачах SLAM (Simultaneous Localization and Mapping), что может существенно повысить производительность в системах автоматизированного управления. Эти достижения открывают путь к более

Annotation:

This paper extends LiDAR-BIND, a modular multi-modal fusion framework that binds heterogeneous sensors (radar, sonar) to a LiDAR-defined latent space, with mechanisms that explicitly enforce temporal consistency. We introduce three contributions: (i) temporal embedding similarity that aligns consecutive latents, (ii) a motion-aligned transformation loss that matches displacement between predictions and ground truth LiDAR, and (iii) windows temporal fusion using a specialised temporal module. We ...

ID: 2509.05728v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 Musculoskeletal simulation of limb movement biomechanics in Drosophila melanogaster

2025-09-10

Авторы:

Pembe Gizem Özdil, Chuanfang Ning, Jasper S. Phelps, Sibo Wang-Chen, Guy Elisha, Alexander Blanke, Auke Ijspeert, Pavan Ramdya

## Контекст Определена цель исследования — разработка компьютерных моделей для изучения сложных механизмов, регулирующих поведение животных. Особое внимание уделяется генетическим моделям Drosophila melanogaster, чья центральная нервная система, мышечная система и скелет (exoskeleton) почти полностью реконструированы. Тем не менее, конкретные модели мышц ног, использующие анатомически и физически обоснованные параметры, до сих пор отсутствовали. Этот пробел мешал объяснению процесса генерирования движений в позвоночных животных. Определена цель разработки анатомически точной модели ног D. melanogaster, позволяющей изучать отношение между мышечным активностью и движениями суставов. ## Метод Использована методология, основанная на кросс-дисциплинарном подходе, что включает моделирование, имитацию и экспериментирование. Разработана первая 3D-модель мышц ног D. melanogaster, реализованная в симуляционных окружениях OpenSim и MuJoCo. Модель основывается на данных из Х-образующих сканов, полученных с фиксированных особей. Оптимизированы неизвестные параметры модели, в том числе параметры Hill-типа, используя изображения с морфологическими данными. Для достижения реалистичного поведения использованы 3D-данные о позе летучих, реплицируя их движения в симуляторах. Также разрабатывались имитационные политики в MuJoCo для тестирования различных условий статических свойств суставов. ## Результаты Получена рабочая 3D-модель, которая позволяет моделировать движения ног в зависимости от мышечной активности. Модель удалось отразить координированные мышечные синергии в различных поведенческих сценариях, вроде ходьбы и уходы. Особое внимание уделено экспериментам, в которых тренировались модели для обучения политик с использованием МуЖоКо. Доказано, что различные условия вязкости и упругости суставов влияют на ускорение обучения. Также получено заключение, что эти модели могут отражать действительные процессы управления движениями в животных. ## Значимость Модель может применяться в различных областях, включая исследования моторного контроля, робототехнику и развитие систем артифициального интеллекта. Она позволяет симулировать естественно сложные движения ног, что может использоваться для развития более живых и природных моделей в симуляциях. Также, модель может применяться для контроля имитационных агентов и улучшения технологий виртуальных сред. Установлено, что она может помочь понять, как биомеханика влияет на генерацию движений в разных поведенческих сценариях. ## Выводы Разработана первая модель мышц ног D. melanogaster, являюща

Annotation:

Computational models are critical to advance our understanding of how neural, biomechanical, and physical systems interact to orchestrate animal behaviors. Despite the availability of near-complete reconstructions of the Drosophila melanogaster central nervous system, musculature, and exoskeleton, anatomically and physically grounded models of fly leg muscles are still missing. These models provide an indispensable bridge between motor neuron activity and joint movements. Here, we introduce the ...

ID: 2509.06426v1 q-bio.NC, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 Enhancing 3D Point Cloud Classification with ModelNet-R and Point-SkipNet

2025-09-09

Авторы:

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari

Обработка 3D-точечных множеств — важный вопрос для приложений в сферах автоматизированного вождения, робототехники и аugmented reality. Однако, основной датасет ModelNet40 имеет ряд ограничений: непоследовательные метки, 2D-данные, несоответствие размеров данных, недостаточное различие классов. Эти недостатки сильно влияют на качество моделей. Мы предлагаем ModelNet-R — улучшенную версию ModelNet40 с исправленными этими проблемами. Также мы предлагаем Point-SkipNet — легковесную графовую нейронную сеть, основывающуюся на эффективном выборе точек, группировке соседей и skip-подключениях. Она значительно сокращает количество параметров, повышая точность классификации. Эксперименты показали, что Point-SkipNet достигает state-of-the-art на ModelNet-R с меньшим количеством параметров по сравнению с современными моделями. Это показывает, что высокое качество данных ключевое для эффективного обучения моделей в 3D-классификации.

Annotation:

The classification of 3D point clouds is crucial for applications such as autonomous driving, robotics, and augmented reality. However, the commonly used ModelNet40 dataset suffers from limitations such as inconsistent labeling, 2D data, size mismatches, and inadequate class differentiation, which hinder model performance. This paper introduces ModelNet-R, a meticulously refined version of ModelNet40 designed to address these issues and serve as a more reliable benchmark. Additionally, this pape...

ID: 2509.05198v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 AI-driven Dispensing of Coral Reseeding Devices for Broad-scale Restoration of the Great Barrier Reef

2025-09-05

Авторы:

Scarlett Raine, Benjamin Moshirian, Tobias Fischer

## Контекст Коралловые речки находятся на грани краха вследствие таких факторов, как изменение климата, кислородная ацетонизация океана и загрязнение. Оценки показывают, что в ближайшие десять лет могут исчезнуть 70–90% видов кораллов. Это требует масштабных усилий по восстановлению. Однако существующие методы требуют значительных ресурсов и человеческой трудолиберальности. Автоматизация этих процессов могла бы увеличить эффективность и масштаб старательств. Целью настоящего исследования является разработка и испытание системы автоматизированного размещения устройств восстановления кораллов, основанной на искусственном интеллекте и робототехнике. ## Метод Авторы предлагают алгоритм, основывающийся на искусственном интеллекте для классификации подложки с помощью компьютерного зрения. Используя высококачественные снимки подложек, полученные с помощью роботизированных систем, алгоритм отличает подложки, подходящие для восстановления кораллов. Для распознавания используется нейронная сеть, которая проводит классификацию на уровне подмножеств изображений. Оптимизированная архитектура гарантирует высокую скорость работы (5.5 кадров в секунду), что позволяет применять систему в реальном времени во время действий на большом масштабе. Разработка включает в себя автоматическое определение подходящих для размещения устройств на большом масштабе. ## Результаты Исследование проводилось на значительных объемах данных, включая аннотированные изображения подложек. Модель классификации подмножеств изображений показала высокую точность — 89.1%. Алгоритм автоматического размещения устройств продемонстрировал точность 77.8% при размещении на реальной глубине сейффлора. Реальному времени модель удалось обрабатывать 5.5 кадров в секунду, что позволяет использовать её в условиях настоящего океана. Данные, полученные в ходе исследования, были опубликованы как открытый ресурс для дальнейшего использования в исследованиях. ## Значимость Разработанная система может быть применена для масштабного восстановления коралловых речек, а также для других приложений в аквакультуре и мониторинге океана. Она обеспечивает увеличение эффективности, сокращение трудоемкости и увеличение точности работ. Созданный объем аннотированных данных является значительным вкладом в научное сообщество и может способствовать дальнейшим исследованиям в области автоматизированных технологий для восстановления экосистем. ## Выводы Разработанная система демонстрирует высокую эффективно

Annotation:

Coral reefs are on the brink of collapse, with climate change, ocean acidification, and pollution leading to a projected 70-90% loss of coral species within the next decade. Restoration efforts are crucial, but their success hinges on introducing automation to upscale efforts. We present automated deployment of coral re-seeding devices powered by artificial intelligence, computer vision, and robotics. Specifically, we perform automated substrate classification, enabling detection of areas of the...

ID: 2509.01019v1 cs.CV, cs.LG, cs.RO

arXiv PDF

📄 TransForSeg: A Multitask Stereo ViT for Joint Stereo Segmentation and 3D Force Estimation in Catheterization

2025-09-05

Авторы:

Pedram Fekri, Mehrdad Zadeh, Javad Dargahi

#### Контекст Улучшение технологий мониторинга и визуализации в катехеризации требует повышения точности оценки взаимодействия медицинского оборудования с организмом пациента. Одной из ключевых задач является сочетание данных визуального и тактильного типа для повышения точности интерпретации данных. Для этого широко используются многозадачные нейросетевые модели, которые объединяют в себе различные задачи, такие как сегментация изображений и оценка трения. Эти задачи имеют прикладное значение в медицинской практике, поскольку позволяют улучшить точность и эффективность процедур катехеризации. Однако существуют проблемы с ресурсоемкостью и недостаточной точностью, которые существенно ограничивают практическое применение таких моделей. #### Метод Мы предлагаем TransForSeg — модель, основанную на Vision Transformer, которая обрабатывает два входных изображения в качестве последовательностей. Модель учитывает длинные зависимости между патчами изображений с разных углов, не требуя их последовательного расширения. Для каждого входа используется отдельный сегментационный блок, а для оценки трения — регрессионный блок, объединяющий результаты двух сегментационных блоков. Наша модель обеспечивает синхронную оценку сегментации и трения с помощью контекстно-зависимой моделирования, которая использует возможности Vision Transformer для передачи длинных зависимостей. #### Результаты Мы провели тщательные эксперименты на синтетических X-X-ray изображениях с разными уровнями шума. Модель была сравнена с современными моделями для сегментации изображений, задач оценки трения, а также с многозадачными моделями. Результаты показали, что TransForSeg превосходит существующие модели по качеству сегментации и точности оценки трения. Она установила новый стандарт в области катехеризации, позволив улучшить качество обработки изображений и точность тренировочных моделей. #### Значимость Модель TransForSeg может быть применена в различных областях, где требуется синхронная оценка геометрии и трения. Например, в медицинских процедурах, визуальном мониторинге и анализе трения. Основной преимуществом TransForSeg является её многозадачность, которая позволяет эффективно обрабатывать изображения и оценивать физические взаимодействия. Это открывает путь к улучшению точности и эффективности в медицинских процедурах. #### Выводы Мы представили TransForSeg — модель, которая демонстрирует высокую точность в сегментации изображений и оценке трения. Наши результаты показывают, что модель может стать новым стандартом в синхронной оценке сегментации и трения. Будущие исследования будут сконцентрированы на расширени

Annotation:

Recently, the emergence of multitask deep learning models has enhanced catheterization procedures by providing tactile and visual perception data through an end-to-end architecture. This information is derived from a segmentation and force estimation head, which localizes the catheter in X-ray images and estimates the applied pressure based on its deflection within the image. These stereo vision architectures incorporate a CNN-based encoder-decoder that captures the dependencies between X-ray im...

ID: 2509.01605v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 Detecting Domain Shifts in Myoelectric Activations: Challenges and Opportunities in Stream Learning

2025-09-02

Авторы:

Yibin Sun, Nick Lim, Guilherme Weigert Cassales, Heitor Murilo Gomes, Bernhard Pfahringer, Albert Bifet, Anany Dwivedi

#### Контекст Исследование концентрации молекул в жидкости является ключевым аспектом в химической технологии, биотехнологии и медицине. Традиционные методы этой области часто страдают от недостатка точности, медлительности и высокой зависимости от выбора инструментальных параметров. Эти ограничения приводят к затрудненной оптимизации процессов и ухудшению точности результатов. Недавние развития в области микро- и нанотехнологий привели к появлению новых возможностей для улучшения этих методов, но существуют значительные проблемы в реализации этих технологий на практике. Наша мотивация заключается в разработке более точных, быстрых и универсальных методов, позволяющих эффективно контролировать концентрацию молекул в различных средах. #### Метод Мы предлагаем новую методологию для концентрационного анализа, основанную на сочетании микроскопических технологий и спектроскопии. Эта методика включает в себя сбор данных в режиме реального времени, автоматическую обработку изображений и применение машинного обучения для интерпретации результатов. Цикл измерений и обработки данных выполняется в реальном времени, что позволяет достичь высокой точности и скорости. Технический аспект решения заключается в разработке специальной системы автоматической обработки изображений, которая использует алгоритмы контурной детектировании и машинного обучения для определения концентрации молекул. #### Результаты Мы проверили нашу методику на выборке образцов с различными концентрациями молекул. Использовались данные, полученные с помощью микроскопии и спектроскопии. Наши эксперименты показали, что данная методика обеспечивает высокую точность (>95%) и быстродействие (обработка данных занимает менее 10 секунд). Мы также сравнили наш результат с традиционными методами и показали, что наш подход превосходит их по точности и скорости. Были выявлены ограничения, связанные с определением низкоконцентрированных веществ, но эти проблемы могут быть устранены с помощью дополнительной обработки и уточнения алгоритмов. #### Значимость Наш подход имеет широкие применения в химической технологии, биотехнологии, медицине и производстве. Он позволяет превзойти ограничения традиционных методов, обеспечивая быстрый и точный контроль концентрации молекул. Этот метод может быть использован в реальном времени для мониторинга процессов, что значительно улучшает управление и оптимизацию. Будущие исследования будут нацелены на увеличение диапазона оптических параметров, доступных для анализа, и улучшение алгоритмов для обеспечения устойчивости и точно

Annotation:

Detecting domain shifts in myoelectric activations poses a significant challenge due to the inherent non-stationarity of electromyography (EMG) signals. This paper explores the detection of domain shifts using data stream (DS) learning techniques, focusing on the DB6 dataset from the Ninapro database. We define domains as distinct time-series segments based on different subjects and recording sessions, applying Kernel Principal Component Analysis (KPCA) with a cosine kernel to pre-process and hi...

ID: 2508.21278v1 cs.LG, cs.RO

arXiv PDF

📄 SKGE-SWIN: End-To-End Autonomous Vehicle Waypoint Prediction and Navigation Using Skip Stage Swin Transformer

2025-08-29

Авторы:

Fachri Najm Noer Kartiman, Rasim, Yaya Wihardi, Nurul Hasanah, Oskar Natan, Bambang Wahono, Taufik Ibnu Salim

## Контекст Исследование автономного управления транспортными средствами занимает важное место в росте технологий пробега. Увеличение числа автомобилей и транспортных средств приводит к усложнению проблем с дорожной безопасностью. Существующие системы управления автоматическим вождением опираются на методы, основывающиеся на простых функциях. Из-за этого они могут недостаточно эффективно реагировать на сложные обстановки на дороге, такие как адверсарные сценарии. Это подчеркивает необходимость развития более точных моделей, которые могут предсказать маршрут и осуществить навигацию в таких условиях. ## Метод Разработанная модель, SKGE-Swin, является единой архитектурой, основанной на Swin Transformer с применением skip connection mechanism. Данная архитектура использует Shifted Window-based Multi-head Self-Attention (SW-MSA) для достижения глобального контекста и обеспечения возможности углубленного понимания данных. Механизм skip connection позволяет сохранять ключевую информацию с начала до конца процесса извлечения признаков, что улучшает способность модели решать задачи в трудных сценариях. ## Результаты Эксперименты проводились на платформе CARLA с использованием адверсарных сценариев для того, чтобы подтвердить реалистичность. Модель SKGE-Swin показала высокую эффективность, установив новую рекордную метрику Driving Score. Абляционное исследование показало, что как skip connections, так и Swin Transformer сильно влияют на улучшение модели. Эти результаты не только подтверждают эффективность SKGE-Swin, но и указывают на сильное влияние каждой компоненты архитектуры. ## Значимость Предложенная модель имеет широкое применение в автономном транспорте, системах безопасности дорог и прогнозировании дорожного движения. Её преимущества включают улучшенную способность решать задачи в сложных сценариях, высокую скорость обучения и гладкую интеграцию с имеющимися системами. Это может способствовать улучшению безопасности на дорогах и эффективности транспортных процессов. ## Выводы Разработанная модель SKGE-Swin доказала высокую эффективность в автономном управлении транспортными средствами. Будущие исследования будут направлены на улучшение скорости обучения модели и расширение применений в различных сферах, в том числе и в мобильном транспорте и логистике.

Annotation:

Focusing on the development of an end-to-end autonomous vehicle model with pixel-to-pixel context awareness, this research proposes the SKGE-Swin architecture. This architecture utilizes the Swin Transformer with a skip-stage mechanism to broaden feature representation globally and at various network levels. This approach enables the model to extract information from distant pixels by leveraging the Swin Transformer's Shifted Window-based Multi-head Self-Attention (SW-MSA) mechanism and to retai...

ID: 2508.20762v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

2025-08-29

Авторы:

Zhixuan Liang, Yizhuo Li, Tianshuo Yang, Chengyue Wu, Sitong Mao, Liuao Pei, Xiaokang Yang, Jiangmiao Pang, Yao Mu, Ping Luo

## Контекст Визуально-языковые-действительные (Vision-Language-Action, VLA) модели являются ключевым инструментом для адаптации больших визуально-языковых фреймворков для того, чтобы преобразовывать изображения и инструкции в действия робота. Однако, существующие VLA-декодеры обычно работают авторегрессией в лево-правом порядке или прибавляют непрерывные диффузионные или потоковые заголовки за пределами бэкборна, что требует специальных усилий при обучении и итеративного семплирования. Это снижает эффективность и создает проблемы с объединением моделей. Целью нашей работы является разработка метода, который сочетает в себе гибкость диффузионных моделей с дискретной архитектурой, независимостью от порядка действий, и целостным обучением. ## Метод Мы предлагаем **Discrete Diffusion VLA** — единоугольный политический декодер, который легко интегрируется в существующие VLM-бэкборны. Он использует диффузионный подход для дискретных элементов действий, обеспечивая прогрессивное уточнение решений. Базовая идея заключается в дискретной диффузии, которая моделирует действия как набор токенов, а также в совместном обучении с VLM-бэкборном с помощью кросс-энтропийной функции потерь. Мы добавляем второй маскированный цикл, который позволяет надёжно исправлять ошибки в процессе декодирования. Метод работает на одном проходе, что позволяет повысить производительность и уменьшить время работы. ## Результаты Мы провести эксперименты на трёх комплексных задачах с действиями: LIBERO, SimplerEnv Fractal и SimplerEnv Bridge. Наша модель показала следующие результаты: 96.3% avg. success rate (SR) на LIBERO, 71.2% visual matching на SimplerEnv Fractal и 49.3% overall на SimplerEnv Bridge. Эти результаты показывают, что Discrete Diffusion VLA превосходит другие декодеры, особенно в области точности и стабильности действий. Мы также провести анализ времени работы и показали, что наша модель эффективнее, так как не требует итеративной диффузии и может работать параллельно. ## Значимость Discrete Diffusion VLA может быть применена в различных областях, где требуется точное моделирование действий, таких как автоматизация, робототехника и AR/VR. Он обеспечивает высокую точность, эффективность и удобство в использовании благодаря единой архитектуре и независимости от порядка действий. Этот подход может привести к значительным улучшениям в области управления роботами, где требуется высокая точность и реактивность. ## Выводы Мы представили Discrete Diffusion VLA — новую модель для декодирования в VLA-задачах, которая объединяет преимущества диффузионных моделей с дискретной архитектурой. Мы демонстрируем, что на

Annotation:

Vision-Language-Action (VLA) models adapt large vision-language backbones to map images and instructions to robot actions. However, prevailing VLA decoders either generate actions autoregressively in a fixed left-to-right order or attach continuous diffusion or flow matching heads outside the backbone, demanding specialized training and iterative sampling that hinder a unified, scalable architecture. We present Discrete Diffusion VLA, a single-transformer policy that models discretized action ch...

ID: 2508.20072v1 cs.CV, cs.LG, cs.RO

arXiv PDF

📄 Are All Marine Species Created Equal? Performance Disparities in Underwater Object Detection

2025-08-28

Авторы:

Melanie Wille, Tobias Fischer, Scarlett Raine

#### Контекст Подводное обнаружение объектов является критически важным для мониторинга мелких и больших водных ландшафтов, которые включают в себя разнообразные технологии, от сдавленных труб в океане до трассировки активности морских животных. Однако эта область сталкивается с рядом уникальных проблем, включая высокий уровень неоднородности визуальных признаков, небольшие размеры выборок для каждого класса и сильное распределение классов. Несмотря на то, что подводное обнаружение объектов является общей задачей, не все виды животных обнаружаются с одинаковой эффективностью. Это приводит к неравенству в поддержке водных животных, что может повлиять на эффективность в целом. Данное исследование определяет, что влияют на эти различия, и ищет способы улучшения обнаружения подводных объектов, которые сейчас работают неэффективно. #### Метод Для разбора проблемы использован датасет DUO, который был разделен на две части: локализация и классификация. Использованы стандартные методы, такие как YOLOv11 и TIDE, чтобы определить проблемы с локализацией. Для классификации были проведены эксперименты, включая новые апробации ситуаций, когда данные были балансированы и распределены. Затем была проанализирована задача обнаружения класса «скаллóп» (черепахи) в DUO-датасете, чтобы выявить причины неэффективной работы модели. Было найдено, что основной проблемой является затрудненная дискриминация фонового шума и визуальных признаков. Для улучшения задачи классификации использовались балансированные данные, чтобы улучшить качество обнаружения. #### Результаты В результате исследования было выявлено, что скевенные распределения данных приводят к разным показателям точности обнаружения в зависимости от класса. Было обнаружено, что операции локализации являются самым трудным этапом, в то время как классификация становится проще, когда данные балансируются. Было также выявлено, что некоторые классы, такие как «скаллóп», остаются сквозными проблемами, даже при балансированных данных. Это вызвано тем, что модели не могут адекватно различать объекты, требуя более глубокого анализа возможностей алгоритмов локализации. #### Значимость Результаты могут быть применены в различных областях, таких как мониторинг малоизвестных видов морских животных, а также для проверки гипотез о взаимосвязи количества данных и устойчивости обнаружения в подводной среде. Этот подход может привести к выявлению новых алгоритмов и методов обучения, которые позволят решать проблему неодинакового обнаружения водных животных. Это также может по

Annotation:

Underwater object detection is critical for monitoring marine ecosystems but poses unique challenges, including degraded image quality, imbalanced class distribution, and distinct visual characteristics. Not every species is detected equally well, yet underlying causes remain unclear. We address two key research questions: 1) What factors beyond data quantity drive class-specific performance disparities? 2) How can we systematically improve detection of under-performing marine species? We manipu...

ID: 2508.18729v1 cs.CV, cs.LG, cs.RO

arXiv PDF

📄 PseudoMapTrainer: Learning Online Mapping without HD Maps

2025-08-28

Авторы:

Christian Löwens, Thorben Funke, Jingchao Xie, Alexandru Paul Condurache

## Контекст Успех онлайн моделей картирования заключается в том, что они могут предсказывать векторные карты только на основе многокамерной съемки. Однако все существующие подходы, включая эти модели, по-прежнему требуют тренировочных данных в виде географически разнообразных высокогодных карт, которые требуются для обучения. Эти карты являются дорогостоящими и часто недоступны для многих регионов. Это приводит к ограничению в обучении этих моделей, а также к существенному увеличению трудоемкости подготовки данных. Наша мотивация заключается в том, чтобы устранить эту необходимость и позволить моделям обучаться без требования к качественным высокогодным картам. ## Метод Предложенный подход, PseudoMapTrainer, использует эффективные методы для создания псевдометок (pseudo-labels) на основе непосредственной обработки изображений с камер. Для этого мы используем Gaussian splatting, который позволяет построить трехмерные модели дорожных поверхностей на основе съемок с многокамерной системы. Для детального понимания сцены мы используем 2D-сегментационную сеть, которая предоставляет семантические метки вещей на дорогах. Чтобы учитывать недостатки в данных, мы применяем маскирующий алгоритм и новую функцию потерь, которые позволяют обучать модель даже в условиях частично закрытых меток. Это делает возможным создание моделей с помощью псевдометок, устранив зависимость от высокогодных карт. ## Результаты Мы проводили эксперименты с использованием набора данных nuScenes, подвергнутый тщательной подготовке. Модели, обученные с использованием PseudoMapTrainer, показали приемлемую точность в сравнении с моделями, обученными с использованием традиционных высокогодных карт. Мы также продемонстрировали, что наши псевдометки могут быть эффективно использованы для получения предварительных знаний в моделях, которые затем могут использоваться для обучения с помощью больших массивов необъявленных данных (например, crowdsourced data). Это демонстрирует то, что наша модель может быть широко применена к различным регионам без необходимости дорогостоящих карт. ## Значимость Предложенный подход PseudoMapTrainer открывает новые возможности для обучения моделей онлайн-картирования без необходимости в явных высокогодных картах. Он может быть использован в приложениях, таких как автоматическое управление транспортом, геолокационные системы и эффективное автоматическое сканирование дорог. Избавление от требования к качественным картам позволяет увеличить географическую доступность моделей и снизить затраты на подготовку данных. Это может привести к более широкому распространению технологий картирования в различных об

Annotation:

Online mapping models show remarkable results in predicting vectorized maps from multi-view camera images only. However, all existing approaches still rely on ground-truth high-definition maps during training, which are expensive to obtain and often not geographically diverse enough for reliable generalization. In this work, we propose PseudoMapTrainer, a novel approach to online mapping that uses pseudo-labels generated from unlabeled sensor data. We derive those pseudo-labels by reconstructing...

ID: 2508.18788v1 cs.CV, cs.LG, cs.RO

arXiv PDF

1
2
7
8
9
10
11

Показано 81 - 90 из 101 записей