SEER-VAR: Semantic Egocentric Environment Reasoner for Vehicle Augmented Reality

2508.17255v1 cs.CV, cs.RO 2025-08-27
Авторы:

Yuzhi Lai, Shenghai Yuan, Peizheng Li, Jun Lou, Andreas Zell

Резюме на русском

## Контекст Область исследования включает в себя развитие систем автоматизированного управления, таких как автопилоты, интегрированные с аugmented reality (AR), для улучшения безопасности и эффективности вождения. Несмотря на успехи в области SLAM (Simultaneous Localization and Mapping) и семантической разбивки сцен, существуют сложности в поддержке контекстного взаимодействия в динамических условиях вождения. Эти сложности включают недостаточную раздельность между внутренним интерьером автомобиля и внешним видом, а также недостаток умных рекомендаций для повышения производительности водителя. Мотивация заключается в создании системы, которая динамически отделяет кабинную среду и дорожную сцену, обеспечивает контекстно-зависимое отображение и поддерживает рекомендации на основе текстовых моделей типа GPT. ## Метод SEER-VAR представляет собой инновационный фраемворк, который сочетает семантическую декомпозицию, Context-Aware SLAM Branches (CASB) и модель LLM-driven recommendation. Он разделяет внутреннюю и внешнюю среду автомобиля с использованием визионно-языковой границы, основанной на глубинной информации. Два отдельных SLAM-бранча отслеживают движение в каждой отдельной среде. Для построения AR-оверлеев используется модель GPT, которая генерирует контекстно-релевантные элементы, такие как алерты о рисках и индикаторы кабины. Методология включает в себя разработку независимых моделей для каждой среды и интеграцию их в единое целое, чтобы обеспечить синхронизацию и точность. ## Результаты В экспериментах с использованием EgoSLAM-Drive были протестированы алгоритмы SEER-VAR. Данный датасет включает в себя синхронизированные кадры с двух камер, точные геометрические позиции (6DoF) и AR-оверлеи для различных сценариев вождения. Результаты показали, что SEER-VAR обеспечивает высокую точность в отделении контекстов, стабильность в трекинге движения и реалистичное отображение AR-оверлеев. Особое внимание уделялось релевантности рекомендаций, которые помогают водителю в различных условиях. Результаты показали, что SEER-VAR превосходит существующие системы по метрикам сценарного понимания и пользовательского удовлетворения. ## Значимость Инновационность SEER-VAR заключается в способности обеспечивать контекстно-зависимые рекомендации в реальном времени, которые улучшают сценарное понимание и уменьшают нагрузку на водителя. Это может быть использовано в системах автоматизированного управления и беспилотных транспортных средств для повышения безопасности и эффективности. Также, концепция SEER-VAR может быть распространена на другие сферы, такие как AR-системы для домашне

Abstract

We present SEER-VAR, a novel framework for egocentric vehicle-based augmented reality (AR) that unifies semantic decomposition, Context-Aware SLAM Branches (CASB), and LLM-driven recommendation. Unlike existing systems that assume static or single-view settings, SEER-VAR dynamically separates cabin and road scenes via depth-guided vision-language grounding. Two SLAM branches track egocentric motion in each context, while a GPT-based module generates context-aware overlays such as dashboard cues and hazard alerts. To support evaluation, we introduce EgoSLAM-Drive, a real-world dataset featuring synchronized egocentric views, 6DoF ground-truth poses, and AR annotations across diverse driving scenarios. Experiments demonstrate that SEER-VAR achieves robust spatial alignment and perceptually coherent AR rendering across varied environments. As one of the first to explore LLM-based AR recommendation in egocentric driving, we address the lack of comparable systems through structured prompting and detailed user studies. Results show that SEER-VAR enhances perceived scene understanding, overlay relevance, and driver ease, providing an effective foundation for future research in this direction. Code and dataset will be made open source.

Ссылки и действия