Segment Any Vehicle: Semantic and Visual Context Driven SAM and A Benchmark
2508.04260v1
cs.CV, cs.AI, cs.LG
2025-08-09
Авторы:
Xiao Wang, Ziwen Wang, Wentao Wu, Anjie Wang, Jiashu Wu, Yantao Pan, Chenglong Li
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Автономные транспортные системы и роботизированные технологии ставят все более высокие требования к качеству и точности восприятия объектов окружающей среды. Одним из ключевых задач в этой области является детектирование и сегментация автомобилей, включая тонкую сегментацию их частей. Несмотря на значительные успехи в области компьютерного зрения, существующие решения сталкиваются с рядом ограничений.
Предобученные модели сегментации, такие как Segment Anything Model (SAM), открыли новые возможности в области искусственного интеллекта, но имеют существенные ограничения при применении к задачам тонкой сегментации, например, сегментации деталей автомобилей. SAM не предоставляет доступ к функции сегментации на основе текстовых запросов, а также не позволяет получать маски с готовыми семантическими метками, что существенно ограничивает его применимость к задачам, требующим структурированного понимания объектов.
Дополнительная сложность заключается в том, что существующие модели не всегда учитывают конкретные структурные и контекстные отношения между частями объектов, что критично для задач, связанных с анализом деталей автомобилей. Кроме того, отсутствие достаточно больших и качественных датасетов для сегментации автомобильных компонентов препятствует развитию этой области. Эти проблемы подчеркивают необходимость разработки нового подхода, который сочетает в себе преимущества предобученных моделей с дополнительными контекстными и структурными элементами.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Для решения вышеуказанных проблем авторы предлагают фреймворк SAV, который состоит из трех основных компонентов.
1. **SAM-based Encoder-Decoder**: Этот компонент основывается на SAM и расширяет его способности за счет интеграции кодирования дополнительной контекстной информации. Он использует энкодер-декодер для повышения качества сегментации, особенно при работе с деталями автомобилей.
2. **Vehicle Part Knowledge Graph**: Для моделирования структурных и пространственных отношений между частями автомобиля используется знание онтологии. Это позволяет кодировать предварительные структурные знания и улучшает точность сегментации за счет лучшего понимания контекста.
3. **Context Sample Retrieval Encoding Module**: Данный модуль оптимизирует сегментацию за счет идентификации визуально похожих экземпляров из данных обучения. Он предоставляет богатый контекст для модели, повышая ее способность к обобщению.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗЫЛЬТАТЫ
Авторы провели ряд экспериментов на новом датасете VehicleSeg10K, который содержит 11 665 высококачественных аннотированных изображений с различными сценами и точками зрения. Были протестированы несколько базовых моделей для сравнения с предложенным подходом SAV. Результаты показали значительное улучшение качества сегментации, особенно в случаях сложных сцен и разнообразных углов обзора.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Предложенный фреймворк SAV имеет широкое применение в области автономного вождения, а также в задачах мониторинга и анализа транспортных систем. Он позволяет добиться более точной и надежной сегментации автомобильных деталей, что важно для безопасности и эффективности автоматизированных систем.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
Предложенный метод SAV успешно решает проблемы существующих моделей, предоставляя более точную и контекстно-зависимую сегментацию. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритмов и расширении датасетов для более широких сценариев применения.
Abstract
With the rapid advancement of autonomous driving, vehicle perception,
particularly detection and segmentation, has placed increasingly higher demands
on algorithmic performance. Pre-trained large segmentation models, especially
Segment Anything Model (SAM), have sparked significant interest and inspired
new research directions in artificial intelligence. However, SAM cannot be
directly applied to the fine-grained task of vehicle part segmentation, as its
text-prompted segmentation functionality is not publicly accessible, and the
mask regions generated by its default mode lack semantic labels, limiting its
utility in structured, category-specific segmentation tasks. To address these
limitations, we propose SAV, a novel framework comprising three core
components: a SAM-based encoder-decoder, a vehicle part knowledge graph, and a
context sample retrieval encoding module. The knowledge graph explicitly models
the spatial and geometric relationships among vehicle parts through a
structured ontology, effectively encoding prior structural knowledge.
Meanwhile, the context retrieval module enhances segmentation by identifying
and leveraging visually similar vehicle instances from training data, providing
rich contextual priors for improved generalization. Furthermore, we introduce a
new large-scale benchmark dataset for vehicle part segmentation, named
VehicleSeg10K, which contains 11,665 high-quality pixel-level annotations
across diverse scenes and viewpoints. We conduct comprehensive experiments on
this dataset and two other datasets, benchmarking multiple representative
baselines to establish a solid foundation for future research and comparison. %
Both the dataset and source code of this paper will be released upon
acceptance. Both the dataset and source code of this paper will be released on
https://github.com/Event-AHU/SAV
Ссылки и действия
Дополнительные ресурсы: