SEER-VAR: Semantic Egocentric Environment Reasoner for Vehicle Augmented Reality
2508.17255v1
cs.CV, cs.RO
2025-08-27
Авторы:
Yuzhi Lai, Shenghai Yuan, Peizheng Li, Jun Lou, Andreas Zell
Резюме на русском
## Контекст
Область исследования включает в себя развитие систем автоматизированного управления, таких как автопилоты, интегрированные с аugmented reality (AR), для улучшения безопасности и эффективности вождения. Несмотря на успехи в области SLAM (Simultaneous Localization and Mapping) и семантической разбивки сцен, существуют сложности в поддержке контекстного взаимодействия в динамических условиях вождения. Эти сложности включают недостаточную раздельность между внутренним интерьером автомобиля и внешним видом, а также недостаток умных рекомендаций для повышения производительности водителя. Мотивация заключается в создании системы, которая динамически отделяет кабинную среду и дорожную сцену, обеспечивает контекстно-зависимое отображение и поддерживает рекомендации на основе текстовых моделей типа GPT.
## Метод
SEER-VAR представляет собой инновационный фраемворк, который сочетает семантическую декомпозицию, Context-Aware SLAM Branches (CASB) и модель LLM-driven recommendation. Он разделяет внутреннюю и внешнюю среду автомобиля с использованием визионно-языковой границы, основанной на глубинной информации. Два отдельных SLAM-бранча отслеживают движение в каждой отдельной среде. Для построения AR-оверлеев используется модель GPT, которая генерирует контекстно-релевантные элементы, такие как алерты о рисках и индикаторы кабины. Методология включает в себя разработку независимых моделей для каждой среды и интеграцию их в единое целое, чтобы обеспечить синхронизацию и точность.
## Результаты
В экспериментах с использованием EgoSLAM-Drive были протестированы алгоритмы SEER-VAR. Данный датасет включает в себя синхронизированные кадры с двух камер, точные геометрические позиции (6DoF) и AR-оверлеи для различных сценариев вождения. Результаты показали, что SEER-VAR обеспечивает высокую точность в отделении контекстов, стабильность в трекинге движения и реалистичное отображение AR-оверлеев. Особое внимание уделялось релевантности рекомендаций, которые помогают водителю в различных условиях. Результаты показали, что SEER-VAR превосходит существующие системы по метрикам сценарного понимания и пользовательского удовлетворения.
## Значимость
Инновационность SEER-VAR заключается в способности обеспечивать контекстно-зависимые рекомендации в реальном времени, которые улучшают сценарное понимание и уменьшают нагрузку на водителя. Это может быть использовано в системах автоматизированного управления и беспилотных транспортных средств для повышения безопасности и эффективности. Также, концепция SEER-VAR может быть распространена на другие сферы, такие как AR-системы для домашне
Abstract
We present SEER-VAR, a novel framework for egocentric vehicle-based augmented
reality (AR) that unifies semantic decomposition, Context-Aware SLAM Branches
(CASB), and LLM-driven recommendation. Unlike existing systems that assume
static or single-view settings, SEER-VAR dynamically separates cabin and road
scenes via depth-guided vision-language grounding. Two SLAM branches track
egocentric motion in each context, while a GPT-based module generates
context-aware overlays such as dashboard cues and hazard alerts. To support
evaluation, we introduce EgoSLAM-Drive, a real-world dataset featuring
synchronized egocentric views, 6DoF ground-truth poses, and AR annotations
across diverse driving scenarios. Experiments demonstrate that SEER-VAR
achieves robust spatial alignment and perceptually coherent AR rendering across
varied environments. As one of the first to explore LLM-based AR recommendation
in egocentric driving, we address the lack of comparable systems through
structured prompting and detailed user studies. Results show that SEER-VAR
enhances perceived scene understanding, overlay relevance, and driver ease,
providing an effective foundation for future research in this direction. Code
and dataset will be made open source.
Ссылки и действия
Дополнительные ресурсы: