📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Large VLM-based Stylized Sports Captioning

2025-08-29

Авторы:

Sauptik Dhar, Nicholas Buoncristiani, Joe Anakata, Haoyu Zhang, Michelle Munson

## Контекст Область исследования сосредоточена на автоматизации генерации научного текста с использованием больших лингвистических моделей. Данная область имеет реlevance, так как существуют различные системы, которые могут автоматизировать поиск, рекомендации и создание контента. Несмотря на это, существуют недостатки, так как большинство текущих моделей недостаточно интегрированы в понятие моделирования текста, а также не могут применяться к специальным отраслям, таким как спорт. Для спортивных событий, в частности, создание стилизованных картинных стилизованных каптионов является достаточно сложным делом. Исследование этой проблемы может способствовать развитию более глубокого понимания спортивных действий и их описания в естественном языке. ## Метод Предлагаемый подход - это двухуровневая оптимизация большой лингвистической модели (LVLM) с использованием специальных критериев для генерации стилизованных спортивных каптионов. Методология включает в себя: 1) тренировку LVLM с использованием специального набора данных спортивных изображений с тегами, 2) пост-обработку результатов генерации с использованием техники fine-tuning, которая позволяет применять стилизованные стили текста и улучшать точность описания. Архитектура включает в себя несколько слоев сверточных и аттенционных нейронных сетей, а также механизмы для управления стилистическими функциями текста. ## Результаты Использовались данные из популярных спортивных событий, включая Super Bowl LIX. Модель была проверена на различных показателях качества, таких как F1-меры и BERT-скоры. Полученные результаты показали улучшение в 8-10% в F1-мере и 2-10% в BERT-скоре в сравнении с альтернативными подходами. Также была оценена скорость исполнения модели, которая позволяла генерировать каптионы в режиме реального времени во время игры. На Super Bowl LIX модель способна применяться в практических целях, таких как журналистика и анализ спортивных событий в реальном времени. ## Значимость Предлагаемый подход может применяться в различных областях, включая спортивную журналистику, создание стилизованных спортивных контента в реальном времени и анализ игровых действий. Благодаря small runtime memory footprint, модель может быть интегрирована в production-grade системы для журналистики или обработки данных в спорте. Это может повлиять на развитие технологий, способствующих лучшему пониманию и описанию спортивных контентов в стилях. ## Выводы Основным достижением является создание метода, который позволяет генерировать стилизованные спортивные каптионы с более высоким качеством. Будущие исследования будут напра

Annotation:

The advent of large (visual) language models (LLM / LVLM) have led to a deluge of automated human-like systems in several domains including social media content generation, search and recommendation, healthcare prognosis, AI assistants for cognitive tasks etc. Although these systems have been successfully integrated in production; very little focus has been placed on sports, particularly accurate identification and natural language description of the game play. Most existing LLM/LVLMs can explai...

ID: 2508.19295v1 cs.CV, cs.LG

arXiv PDF

📄 UNIFORM: Unifying Knowledge from Large-scale and Diverse Pre-trained Models

2025-08-29

Авторы:

Yimu Wang, Weiming Zhuang, Chen Chen, Jiabo Huang, Jingtao Li, Lingjuan Lyu

#### Контекст В многообразии предложений глубокого обучения существуют сотни предварительно обученных моделей, доступных для скачивания в открытом доступе. Эти модели, разработанные на различных архитектурах и обученные на разных наборах данных для разных задач, представляют различные точки зрения на реальный мир. Их совместная точка зрения, вероятно, является универсальной и генерализуемой для невидимых данных. Однако эффективное использование этого совместного знания представляется большой проблемой из-за разнообразия типов предварительно обученных моделей. Настоящее исследование рассматривает новый подход, который предназначен для улучшения эффективности использования знаний, объединенных из различных моделей, не прибегая к строгим предположениям о данных или архитектурах. #### Метод UNIFORM (Unifying Knowledge from Large-scale and Diverse Pre-trained Models) представляет собой новый подход к объединению знаний, предназначенный для трансфера знаний из различных предварительно обученных моделей в одну модель-ученицу. Он не требует строгих предположений о данных или архитектурах. Основной концепцией является новая механика голосования, которая позволяет передавать знания как на уровне логитов, взаимодействуя с моделями, которые могут предсказать целевые классы, так и на уровне функций, используя визуальные представления, наученные на произвольных метках классов. Набор экспериментов показал, что этот подход эффективно улучшает использование знаний для неученияго распознавания объектов. #### Результаты Тестирование решения производилось на различных наборах данных, включая ImageNet и другие. На основе этих экспериментов, UNIFORM показал существенное улучшение в неучеточном распознавании объектов по сравнению с теми решениями, которые были использованы в качестве базовых. Это решение показало значительную выгоду при работе с более чем 100 моделями-учителями, что значительно превышает емкость существующих методов. #### Значимость Решение UNIFORM может быть применено в различных областях, где требуется трансфер знаний из различных моделей. Основные преимущества заключаются в том, что оно может использоваться для обработки разнообразных данных без жестких ограничений на архитектуру или данные. Это значительно расширяет потенциал применения технологий глубокого обучения в различных сферах, включая обработку изображений, текста и другие задачи. #### Выводы UNIFORM представляет собой прорыв в области трансфера знаний из различных моделей. Оно позволяет эффективно объединять знания из многообразия предварительно обученных моделей без строгих ограничений на данные или архитектуру. Будущ

Annotation:

In the era of deep learning, the increasing number of pre-trained models available online presents a wealth of knowledge. These models, developed with diverse architectures and trained on varied datasets for different tasks, provide unique interpretations of the real world. Their collective consensus is likely universal and generalizable to unseen data. However, effectively harnessing this collective knowledge poses a fundamental challenge due to the heterogeneity of pre-trained models. Existing...

ID: 2508.19498v1 cs.CV, cs.LG

arXiv PDF

📄 Multimodal Conditional MeshGAN for Personalized Aneurysm Growth Prediction

2025-08-29

Авторы:

Long Chen, Ashiv Patel, Mengyun Qiao, Mohammad Yousuf Salmasi, Salah A. Hammouche, Vasilis Stavrinides, Jasleen Nagi, Soodeh Kalaie, Xiao Yun Xu, Wenjia Bai, Declan P. O'Regan

## Контекст Прогнозирование роста аневризм гортанной артерии (аневризма) является ключевым элементом в планировании лечения и предотвращении трагических исходов, таких как разрыв. Однако прогнозирование роста аневризм представляет собой сложную задачу, так как требуется учитывать как тонкие местные деформации, так и глобальные анатомические изменения в сложной трёхмерной геометрии. Наличие точных предсказаний роста аневризм не только помогает планировать вмешательства вовремя, но и улучшает результаты лечения. Несмотря на некоторые успехи в искусственном интеллекте для решения таких задач, существуют значительные ограничения в точности и точности моделирования трёхмерных аневризм. ## Метод Мы предлагаем Multimodal Conditional MeshGAN (MCMeshGAN), первый трёхмерный конджициональный Mesh-to-Mesh Generative Adversarial Network (GAN), рассчитанный на прогнозирование роста аневризм. Наша модель включает в себя двухуровневую архитектуру, объединяющую две основные компоненты: Local KNN-Based Convolutional Network (KCN) для сохранения тонких локальных деталей и Global Graph Convolutional Network (GCN) для учета глобального структурного контекста. Однако глубокие GCN часто страдают от проблемы "over-smoothing", когда они теряют тонкие геометрические детали в ходе обучения. Мы устранили эту проблему, внедрив в KCN окрестностную сеть классификатора (Neighborhood Classifier), что позволяет сохранять тонкие геометрические детали. Кроме того, в модели включён узел управления условиями (condition branch), который позволяет быть учтенными клинические признаки, такие как возраст, пол и промежуток времени, чтобы генерировать анатомически правильные, временно контролируемые прогнозы. ## Результаты Мы проводили подробные эксперименты с помощью нашей новой подготовленной базы данных TAAMesh, содержащей 590 многомодальных записей (CT-сканы, 3D-меш, клинические данные) от 208 пациентов. Результаты показали, что MCMeshGAN показывает значительно наилучшие результаты по сравнению с состоянием технологии (SOTA) в терминах точности геометрии и точности оценки диаметра, которые являются критичными для клинических решений. Эти результаты доказывают, что наша модель обеспечивает более точное и конкретное моделирование трёхмерных аневризм, что является важной поддержкой для персонализированного лечения и временного планирования. ## Значимость Модель MCMeshGAN может быть применена в многочисленных областях, включая персонализированную клиническую практику, тренировку медицинских работников, исследования в области медицинских изображений и трёхмерных моделей. Её преимущество в том, что она может точно оценить рост аневризм и улучшить с

Annotation:

Personalized, accurate prediction of aortic aneurysm progression is essential for timely intervention but remains challenging due to the need to model both subtle local deformations and global anatomical changes within complex 3D geometries. We propose MCMeshGAN, the first multimodal conditional mesh-to-mesh generative adversarial network for 3D aneurysm growth prediction. MCMeshGAN introduces a dual-branch architecture combining a novel local KNN-based convolutional network (KCN) to preserve fi...

ID: 2508.19862v1 cs.CV, cs.LG

arXiv PDF

📄 TrajFusionNet: Pedestrian Crossing Intention Prediction via Fusion of Sequential and Visual Trajectory Representations

2025-08-29

Авторы:

François G. Landry, Moulay A. Akhloufi

#### Контекст Predicting pedestrian crossing intention has становится активной областью исследований в связи с появлением автономных транспортных средств на общественных дорогах. Эта задача состоит в определении вероятности того, что пешеходы предполагают переход дороги. Основные проблемы в данной области включают неопределенность в поведении пешеходов, нестандартность сцен и ограничения ресурсов в реальном времени. Таким образом, поиск моделей, которые эффективно обрабатывают различные типы данных, становится ключевым мотивационным фактором для этого исследования. #### Метод TrajFusionNet представляет собой трансформер-модель, которая использует две модальности: последовательность и визуальную представление. Модель состоит из двух модулей: **Sequence Attention Module (SAM)** и **Visual Attention Module (VAM)**. Составляющая SAM изучает последовательность предсказанных и наблюдаемых пешеходных траекторий и скоростей транспортных средств. В то же время, VAM преобразует эти данные в изображение, наложив предсказанные бутячие квадраты на сцену. Эти модули взаимодействуют, объединяя информацию из разных представлений. Модель обладает легковесной архитектурой, которая обеспечивает быструю инференцию. #### Результаты Эксперименты проводились на трех различных датасетах, включающих KITTI, INTERACTION и JAAD. TrajFusionNet показала самый высокий F1-меру и низкую дисперсию в сравнении с современными моделями. Благодаря использованию компактных модальностей, модель демонстрирует лучший баланс между точностью и скоростью вычислений. Среднее время инференции TrajFusionNet значительно меньше, чем у конкурентных моделей, что делает ее применимой в реальном времени. #### Значимость Приложение TrajFusionNet распространяется на автоматические системы помощи водителю, навигационные приложения и системы для управления автономными транспортными средствами. Модель выделяется своей простотой, эффективностью и точностью. Она способна улучшить безопасность дорожного движения, обеспечивая более точные прогнозы поведения пешеходов. #### Выводы TrajFusionNet показывает значительные достижения в области предсказания пешеходского поведения. Будущие исследования будут направлены на улучшение модели для обработки более сложных сцен, включающих несколько пешеходов и кросс-дорожных ситуаций, а также на интеграцию дополнительных внешних факторов, таких как погода и звуковые сигналы.

Annotation:

With the introduction of vehicles with autonomous capabilities on public roads, predicting pedestrian crossing intention has emerged as an active area of research. The task of predicting pedestrian crossing intention involves determining whether pedestrians in the scene are likely to cross the road or not. In this work, we propose TrajFusionNet, a novel transformer-based model that combines future pedestrian trajectory and vehicle speed predictions as priors for predicting crossing intention. Tr...

ID: 2508.19866v1 cs.CV, cs.LG

arXiv PDF

📄 Sky Background Building of Multi-objective Fiber spectra Based on Mutual Information Network

2025-08-29

Авторы:

Hui Zhang, Jianghui Cai, Haifeng Yang, Ali Luo, Yuqing Yang, Xiao Kong, Zhichao Ding, Lichan Zhou, Qin Han

## Контекст Область изучения звездного неба и многообъектных спектров наблюдательными системами является ключевой в астрономии. Одна из самых важных задач в этой области — подготовка и подгонка звездного фона, которая необходима для точного измерения спектров объектов. Для этого применяется техника субстракции звездного фона, основанная на спектрах специально выделенных волокон. Однако существующие подходы часто не учитывают круговую атмосферу вокруг наблюдаемых объектов, что приводит к неточностям в подготовке спектров. Это мотивирует разработку более точных и универсальных методов для построения звездного фона. ## Метод Предложен метод "Sky Background Building of Multi-objective Fiber Spectra Based on Mutual Information Network" (SMI). Он основан на сети нейронов с использованием метода мультицелевой оптимизации и мультиинформационной модели. Метод работает следующим образом: 1. **Начальная сеть**: Использует модуль калибровки спектров по волновой длине, чтобы извлечь представления неба из спектров всех волокон. Это позволяет учесть различия в положении объектов на ночном горизонте и устранить проблему сдвига признаков. 2. **Сеть мультиинформационной оптимизации**: - Использует метод мультиинформационной оптимизации для максимизации общей информации между представлениями различных спектров. - Минимизирует общую информацию между соседними представлениями для получения индивидуальных компонент. Эта структура позволяет получить точные индивидуальные представления звездного фона для каждого объекта. ## Результаты Исследования проводились на данных спектров LAMOST. На основе экспериментов, SMI показал значительное улучшение в оценке звездного фона, особенно в голубых частях спектра. Это улучшение связано с более точным учетом окружения объектов. Результаты показывают, что SMI дает более точные подготовленные спектры в сравнении с традиционными методами. ## Значимость Предложенный подход имеет широкое применение в астрономии. Он может использоваться для подготовки спектров в системах многообъектных наблюдений, таких как LAMOST и Хаббл. Основные преимущества SMI заключаются в улучшении точности и решении проблемы сдвига признаков. Также он может повысить эффективность наблюдений, уменьшив влияние звездного фона на полученные данные. Это может привести к новым открытиям в области космологии и выявления галактик. ## Выводы Результаты показывают, что SMI является эффективным методом для построения звездного фона в системах многообъектных спектров. Он позволяет повысить точность наблюдений, особенно при рабо

Annotation:

Sky background subtraction is a critical step in Multi-objective Fiber spectra process. However, current subtraction relies mainly on sky fiber spectra to build Super Sky. These average spectra are lacking in the modeling of the environment surrounding the objects. To address this issue, a sky background estimation model: Sky background building based on Mutual Information (SMI) is proposed. SMI based on mutual information and incremental training approach. It utilizes spectra from all fibers in...

ID: 2508.19875v1 cs.CV, cs.LG

arXiv PDF

📄 11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis

2025-08-29

Авторы:

Chengzu Li, Wenshan Wu, Huanyu Zhang, Qingtao Li, Zeyu Gao, Yan Xia, José Hernández-Orallo, Ivan Vulić, Furu Wei

#### Контекст Многомодальные большие языковые модели (MLLMs) показали впечатляющий прогресс в различных задачах, включая абстрактное моделирование, специальную обработку языка и моделирование знаний. Однако их возможности в области пространственного рассуждения остаются мало исследоваными. Хотя пространственное рассуждение и пространственное восприятие человека тесно связаны, их естественное сочетание в поведении MLLMs еще не полностью понято. Это создает необходимость в разработке рамок экспериментов для оценки их производительности в этой области. Мы предлагаем 11Plus-Bench, бенчмарк, основанный на реальных стандартизированных тестах пространственного рассуждения. Он детально анализирует модельное поведение с помощью тонкого аннотирования как перцептивного, так и рассуждательного уровня. #### Метод 11Plus-Bench представляет собой коллекцию задач, специально разработанных для оценки пространственной рациональности MLLMs. Он включает в себя задачи, которые подражают реальным стандартизированным тестам, а также подробные аннотации, такие как рассуждательная сложность, перцептивная сложность и многоуровневый анализ процесса рассуждения. Модели экспериментально проверяются в пяти различных режимах, чтобы собрать объемные данные для анализа моделей. Бенчмарк также разработан с учетом возможности сравнения моделей с поведением человека, что дает возможность получить глубокий пониманий касательно их сходства и различий. #### Результаты Мы провели эксперименты с 14 MLLMs и человеческими ответами. Наши результаты показали, что MLLMs могут выполнять пространственное рассуждение на ранней стадии, но существует существенный провал в их производительности по сравнению с человеческими результатами. Мы также обнаружили, что производительность MLLMs взаимосвязана с уровнем сложности при рассуждении, подобно человеческим моделям. Однако их результаты часто являются случайными на уровне индивидуальных задач, в то время как человеческая производительность значительно более предсказуема и связана с уровнем абстрактности логических схем. #### Значимость 11Plus-Bench обеспечивает широкие возможности для исследования пространственного рассуждения в MLLMs. Он может использоваться для оценки производительности моделей в различных сферах, включая абстрактное моделирование и пространственное восприятие. Бенчмарк также открывает новые возможности для разработки моделей, которые могут более близок подходить к человеческому пространственному рассуждению. Это может привести к развитию новых архитектур, более эффективным использованию ресурсов и повышению понимания пространств

Annotation:

For human cognitive process, spatial reasoning and perception are closely entangled, yet the nature of this interplay remains underexplored in the evaluation of multimodal large language models (MLLMs). While recent MLLM advancements show impressive performance on reasoning, their capacity for human-like spatial cognition remains an open question. In this work, we introduce a systematic evaluation framework to assess the spatial reasoning abilities of state-of-the-art MLLMs relative to human per...

ID: 2508.20068v1 cs.CL, cs.CV, cs.LG

arXiv PDF

📄 Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

2025-08-29

Авторы:

Zhixuan Liang, Yizhuo Li, Tianshuo Yang, Chengyue Wu, Sitong Mao, Liuao Pei, Xiaokang Yang, Jiangmiao Pang, Yao Mu, Ping Luo

## Контекст Визуально-языковые-действительные (Vision-Language-Action, VLA) модели являются ключевым инструментом для адаптации больших визуально-языковых фреймворков для того, чтобы преобразовывать изображения и инструкции в действия робота. Однако, существующие VLA-декодеры обычно работают авторегрессией в лево-правом порядке или прибавляют непрерывные диффузионные или потоковые заголовки за пределами бэкборна, что требует специальных усилий при обучении и итеративного семплирования. Это снижает эффективность и создает проблемы с объединением моделей. Целью нашей работы является разработка метода, который сочетает в себе гибкость диффузионных моделей с дискретной архитектурой, независимостью от порядка действий, и целостным обучением. ## Метод Мы предлагаем **Discrete Diffusion VLA** — единоугольный политический декодер, который легко интегрируется в существующие VLM-бэкборны. Он использует диффузионный подход для дискретных элементов действий, обеспечивая прогрессивное уточнение решений. Базовая идея заключается в дискретной диффузии, которая моделирует действия как набор токенов, а также в совместном обучении с VLM-бэкборном с помощью кросс-энтропийной функции потерь. Мы добавляем второй маскированный цикл, который позволяет надёжно исправлять ошибки в процессе декодирования. Метод работает на одном проходе, что позволяет повысить производительность и уменьшить время работы. ## Результаты Мы провести эксперименты на трёх комплексных задачах с действиями: LIBERO, SimplerEnv Fractal и SimplerEnv Bridge. Наша модель показала следующие результаты: 96.3% avg. success rate (SR) на LIBERO, 71.2% visual matching на SimplerEnv Fractal и 49.3% overall на SimplerEnv Bridge. Эти результаты показывают, что Discrete Diffusion VLA превосходит другие декодеры, особенно в области точности и стабильности действий. Мы также провести анализ времени работы и показали, что наша модель эффективнее, так как не требует итеративной диффузии и может работать параллельно. ## Значимость Discrete Diffusion VLA может быть применена в различных областях, где требуется точное моделирование действий, таких как автоматизация, робототехника и AR/VR. Он обеспечивает высокую точность, эффективность и удобство в использовании благодаря единой архитектуре и независимости от порядка действий. Этот подход может привести к значительным улучшениям в области управления роботами, где требуется высокая точность и реактивность. ## Выводы Мы представили Discrete Diffusion VLA — новую модель для декодирования в VLA-задачах, которая объединяет преимущества диффузионных моделей с дискретной архитектурой. Мы демонстрируем, что на

Annotation:

Vision-Language-Action (VLA) models adapt large vision-language backbones to map images and instructions to robot actions. However, prevailing VLA decoders either generate actions autoregressively in a fixed left-to-right order or attach continuous diffusion or flow matching heads outside the backbone, demanding specialized training and iterative sampling that hinder a unified, scalable architecture. We present Discrete Diffusion VLA, a single-transformer policy that models discretized action ch...

ID: 2508.20072v1 cs.CV, cs.LG, cs.RO

arXiv PDF

📄 Context-Aware Zero-Shot Anomaly Detection in Surveillance Using Contrastive and Predictive Spatiotemporal Modeling

2025-08-28

Авторы:

Md. Rashid Shahriar Khan, Md. Abrar Hasan, Mohammod Tareq Aziz Justice

#### Контекст Идентификация аномалий в видеослеживании является задачей ключевой важности в области безопасности и управления трафиком. Однако, это очень сложно ввиду непредсказуемости поведения и контекстной зависимости событий. Традиционные подходы часто требуют больших объемов обучающих данных, включая примеры аномалий, что усложняет обнаружение непонятных или новых типов аномалий. Более того, традиционные методы часто не учитывают динамический контекст, что приводит к высокому количеству ложноположительных результатов. Данная работа рассматривает эти проблемы, предлагая новый контекстно-зависимый подход к обнаружению аномалий, который может обнаруживать непонятные события без необходимости использования примеров аномалий во время обучения. #### Метод Предлагаемая модель является гибридной и сочетает в себе несколько современных техник. Основным компонентом является TimeSformer, который используется для извлечения богатых спектров пространственно-временных признаков из видео. Для моделирования будущих представлений используется Deep Predictive Coding (DPC), которое позволяет определять временные отклонения. Для понимания семантического контекста используется CLIP (Contrastive Language-Image Pretraining), который позволяет определять аномалии на уровне понятий, используя контекстные текстовые запросы. Эти компоненты объединены в единую архитектуру, где TimeSformer извлекает пространственно-временные признаки, DPC предсказывает будущие признаки, а CLIP определяет семантические отклонения. Для оптимизации модели применяются потери InfoNCE и CPC, которые позволяют выравнивать визуальные признаки с их временными и семантическими представлениями. Кроме того, введен контекстный модуль, который регулирует предсказания с учетом локальных и глобальных контекстов. #### Результаты Для оценки эффективности разработанной модели проводились эксперименты на различных выборках видео, включая широко известные наборы данных для обнаружения аномалий. Удалось показать, что предлагаемый подход превосходит существующие методы по метрикам F1-score и ROC-AUC. Особое внимание уделено ситуациям, когда модель должна обнаруживать аномалии в неизвестных сценариях и контекстах. Результаты показали, что модель в состоянии обнаруживать такие аномалии с высокой точностью, даже если они не были видны во время обучения. Это свидетельствует о высокой универсальности и надежности разработанного подхода. #### Значимость Предлагаемый подход имеет широкие перспективы применения в различных областях, включая безопасность, мониторинг трафика, интеллектуальные системы управления. Он может использоваться для обнаружения нестандартных ситуаци

Annotation:

Detecting anomalies in surveillance footage is inherently challenging due to their unpredictable and context-dependent nature. This work introduces a novel context-aware zero-shot anomaly detection framework that identifies abnormal events without exposure to anomaly examples during training. The proposed hybrid architecture combines TimeSformer, DPC, and CLIP to model spatiotemporal dynamics and semantic context. TimeSformer serves as the vision backbone to extract rich spatial-temporal feature...

ID: 2508.18463v2 cs.CV, cs.LG

arXiv PDF

📄 Are All Marine Species Created Equal? Performance Disparities in Underwater Object Detection

2025-08-28

Авторы:

Melanie Wille, Tobias Fischer, Scarlett Raine

#### Контекст Подводное обнаружение объектов является критически важным для мониторинга мелких и больших водных ландшафтов, которые включают в себя разнообразные технологии, от сдавленных труб в океане до трассировки активности морских животных. Однако эта область сталкивается с рядом уникальных проблем, включая высокий уровень неоднородности визуальных признаков, небольшие размеры выборок для каждого класса и сильное распределение классов. Несмотря на то, что подводное обнаружение объектов является общей задачей, не все виды животных обнаружаются с одинаковой эффективностью. Это приводит к неравенству в поддержке водных животных, что может повлиять на эффективность в целом. Данное исследование определяет, что влияют на эти различия, и ищет способы улучшения обнаружения подводных объектов, которые сейчас работают неэффективно. #### Метод Для разбора проблемы использован датасет DUO, который был разделен на две части: локализация и классификация. Использованы стандартные методы, такие как YOLOv11 и TIDE, чтобы определить проблемы с локализацией. Для классификации были проведены эксперименты, включая новые апробации ситуаций, когда данные были балансированы и распределены. Затем была проанализирована задача обнаружения класса «скаллóп» (черепахи) в DUO-датасете, чтобы выявить причины неэффективной работы модели. Было найдено, что основной проблемой является затрудненная дискриминация фонового шума и визуальных признаков. Для улучшения задачи классификации использовались балансированные данные, чтобы улучшить качество обнаружения. #### Результаты В результате исследования было выявлено, что скевенные распределения данных приводят к разным показателям точности обнаружения в зависимости от класса. Было обнаружено, что операции локализации являются самым трудным этапом, в то время как классификация становится проще, когда данные балансируются. Было также выявлено, что некоторые классы, такие как «скаллóп», остаются сквозными проблемами, даже при балансированных данных. Это вызвано тем, что модели не могут адекватно различать объекты, требуя более глубокого анализа возможностей алгоритмов локализации. #### Значимость Результаты могут быть применены в различных областях, таких как мониторинг малоизвестных видов морских животных, а также для проверки гипотез о взаимосвязи количества данных и устойчивости обнаружения в подводной среде. Этот подход может привести к выявлению новых алгоритмов и методов обучения, которые позволят решать проблему неодинакового обнаружения водных животных. Это также может по

Annotation:

Underwater object detection is critical for monitoring marine ecosystems but poses unique challenges, including degraded image quality, imbalanced class distribution, and distinct visual characteristics. Not every species is detected equally well, yet underlying causes remain unclear. We address two key research questions: 1) What factors beyond data quantity drive class-specific performance disparities? 2) How can we systematically improve detection of under-performing marine species? We manipu...

ID: 2508.18729v1 cs.CV, cs.LG, cs.RO

arXiv PDF

📄 PseudoMapTrainer: Learning Online Mapping without HD Maps

2025-08-28

Авторы:

Christian Löwens, Thorben Funke, Jingchao Xie, Alexandru Paul Condurache

## Контекст Успех онлайн моделей картирования заключается в том, что они могут предсказывать векторные карты только на основе многокамерной съемки. Однако все существующие подходы, включая эти модели, по-прежнему требуют тренировочных данных в виде географически разнообразных высокогодных карт, которые требуются для обучения. Эти карты являются дорогостоящими и часто недоступны для многих регионов. Это приводит к ограничению в обучении этих моделей, а также к существенному увеличению трудоемкости подготовки данных. Наша мотивация заключается в том, чтобы устранить эту необходимость и позволить моделям обучаться без требования к качественным высокогодным картам. ## Метод Предложенный подход, PseudoMapTrainer, использует эффективные методы для создания псевдометок (pseudo-labels) на основе непосредственной обработки изображений с камер. Для этого мы используем Gaussian splatting, который позволяет построить трехмерные модели дорожных поверхностей на основе съемок с многокамерной системы. Для детального понимания сцены мы используем 2D-сегментационную сеть, которая предоставляет семантические метки вещей на дорогах. Чтобы учитывать недостатки в данных, мы применяем маскирующий алгоритм и новую функцию потерь, которые позволяют обучать модель даже в условиях частично закрытых меток. Это делает возможным создание моделей с помощью псевдометок, устранив зависимость от высокогодных карт. ## Результаты Мы проводили эксперименты с использованием набора данных nuScenes, подвергнутый тщательной подготовке. Модели, обученные с использованием PseudoMapTrainer, показали приемлемую точность в сравнении с моделями, обученными с использованием традиционных высокогодных карт. Мы также продемонстрировали, что наши псевдометки могут быть эффективно использованы для получения предварительных знаний в моделях, которые затем могут использоваться для обучения с помощью больших массивов необъявленных данных (например, crowdsourced data). Это демонстрирует то, что наша модель может быть широко применена к различным регионам без необходимости дорогостоящих карт. ## Значимость Предложенный подход PseudoMapTrainer открывает новые возможности для обучения моделей онлайн-картирования без необходимости в явных высокогодных картах. Он может быть использован в приложениях, таких как автоматическое управление транспортом, геолокационные системы и эффективное автоматическое сканирование дорог. Избавление от требования к качественным картам позволяет увеличить географическую доступность моделей и снизить затраты на подготовку данных. Это может привести к более широкому распространению технологий картирования в различных об

Annotation:

Online mapping models show remarkable results in predicting vectorized maps from multi-view camera images only. However, all existing approaches still rely on ground-truth high-definition maps during training, which are expensive to obtain and often not geographically diverse enough for reliable generalization. In this work, we propose PseudoMapTrainer, a novel approach to online mapping that uses pseudo-labels generated from unlabeled sensor data. We derive those pseudo-labels by reconstructing...

ID: 2508.18788v1 cs.CV, cs.LG, cs.RO

arXiv PDF

1
2
67
68
69
70
71
83
84

Показано 681 - 690 из 835 записей