Segment Any Vehicle: Semantic and Visual Context Driven SAM and A Benchmark

2508.04260v1 cs.CV, cs.AI, cs.LG 2025-08-09

Авторы:

Xiao Wang, Ziwen Wang, Wentao Wu, Anjie Wang, Jiashu Wu, Yantao Pan, Chenglong Li

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Автономные транспортные системы и роботизированные технологии ставят все более высокие требования к качеству и точности восприятия объектов окружающей среды. Одним из ключевых задач в этой области является детектирование и сегментация автомобилей, включая тонкую сегментацию их частей. Несмотря на значительные успехи в области компьютерного зрения, существующие решения сталкиваются с рядом ограничений. Предобученные модели сегментации, такие как Segment Anything Model (SAM), открыли новые возможности в области искусственного интеллекта, но имеют существенные ограничения при применении к задачам тонкой сегментации, например, сегментации деталей автомобилей. SAM не предоставляет доступ к функции сегментации на основе текстовых запросов, а также не позволяет получать маски с готовыми семантическими метками, что существенно ограничивает его применимость к задачам, требующим структурированного понимания объектов. Дополнительная сложность заключается в том, что существующие модели не всегда учитывают конкретные структурные и контекстные отношения между частями объектов, что критично для задач, связанных с анализом деталей автомобилей. Кроме того, отсутствие достаточно больших и качественных датасетов для сегментации автомобильных компонентов препятствует развитию этой области. Эти проблемы подчеркивают необходимость разработки нового подхода, который сочетает в себе преимущества предобученных моделей с дополнительными контекстными и структурными элементами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеуказанных проблем авторы предлагают фреймворк SAV, который состоит из трех основных компонентов. 1. **SAM-based Encoder-Decoder**: Этот компонент основывается на SAM и расширяет его способности за счет интеграции кодирования дополнительной контекстной информации. Он использует энкодер-декодер для повышения качества сегментации, особенно при работе с деталями автомобилей. 2. **Vehicle Part Knowledge Graph**: Для моделирования структурных и пространственных отношений между частями автомобиля используется знание онтологии. Это позволяет кодировать предварительные структурные знания и улучшает точность сегментации за счет лучшего понимания контекста. 3. **Context Sample Retrieval Encoding Module**: Данный модуль оптимизирует сегментацию за счет идентификации визуально похожих экземпляров из данных обучения. Он предоставляет богатый контекст для модели, повышая ее способность к обобщению. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗЫЛЬТАТЫ Авторы провели ряд экспериментов на новом датасете VehicleSeg10K, который содержит 11 665 высококачественных аннотированных изображений с различными сценами и точками зрения. Были протестированы несколько базовых моделей для сравнения с предложенным подходом SAV. Результаты показали значительное улучшение качества сегментации, особенно в случаях сложных сцен и разнообразных углов обзора. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк SAV имеет широкое применение в области автономного вождения, а также в задачах мониторинга и анализа транспортных систем. Он позволяет добиться более точной и надежной сегментации автомобильных деталей, что важно для безопасности и эффективности автоматизированных систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предложенный метод SAV успешно решает проблемы существующих моделей, предоставляя более точную и контекстно-зависимую сегментацию. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритмов и расширении датасетов для более широких сценариев применения.

Abstract

With the rapid advancement of autonomous driving, vehicle perception, particularly detection and segmentation, has placed increasingly higher demands on algorithmic performance. Pre-trained large segmentation models, especially Segment Anything Model (SAM), have sparked significant interest and inspired new research directions in artificial intelligence. However, SAM cannot be directly applied to the fine-grained task of vehicle part segmentation, as its text-prompted segmentation functionality is not publicly accessible, and the mask regions generated by its default mode lack semantic labels, limiting its utility in structured, category-specific segmentation tasks. To address these limitations, we propose SAV, a novel framework comprising three core components: a SAM-based encoder-decoder, a vehicle part knowledge graph, and a context sample retrieval encoding module. The knowledge graph explicitly models the spatial and geometric relationships among vehicle parts through a structured ontology, effectively encoding prior structural knowledge. Meanwhile, the context retrieval module enhances segmentation by identifying and leveraging visually similar vehicle instances from training data, providing rich contextual priors for improved generalization. Furthermore, we introduce a new large-scale benchmark dataset for vehicle part segmentation, named VehicleSeg10K, which contains 11,665 high-quality pixel-level annotations across diverse scenes and viewpoints. We conduct comprehensive experiments on this dataset and two other datasets, benchmarking multiple representative baselines to establish a solid foundation for future research and comparison. % Both the dataset and source code of this paper will be released upon acceptance. Both the dataset and source code of this paper will be released on https://github.com/Event-AHU/SAV

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Segment Any Vehicle: Semantic and Visual Context Driven SAM and A Benchmark

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация