Distilling LLM Prior to Flow Model for Generalizable Agent's Imagination in Object Goal Navigation

2508.09423v1 cs.CV, cs.RO 2025-08-15
Авторы:

Badi Li, Ren-jie Lu, Yu Zhou, Jingke Meng, Wei-shi Zheng

Резюме на русском

## Контекст Объектно-целевая навигация (Object Goal Navigation, ObjectNav) — задача, в которой агент должен найти указанный объект в неизвестной среде, используя только сенсорные данные, полученные при перемещении. Для этого необходимо иметь возможность "обдумать" невидимые области сцены. Несмотря на прогресс в области обучения обратных моделей, существующие подходы часто ориентируются на детерминированные и дискриминативные модели, которые строят семантические карты. Этот подход игнорирует неопределенность в воспроизводстве внутренних структур помещения, что ограничивает общие возможности модели. Наша модель GOAL (Guided Object Goal Agent Leveraging) адресует эти ограничения, предлагая новый подход к построению общеудобных моделей для ObjectNav. ## Метод GOAL использует генерирующую модель на основе потоков (flow-based generative model) и активирует ее с помощью крупномасштабных языковых моделей (LLMs). Модель GOAL представляет сцену как потоковую модель, которая может добавлять невидимые части сцены на основе наблюдаемых. Для этого мы задействуем LLM для формирования распределения семантических полей в помещении на основе наблюдаемых данных. Эти семантические поля преобразуются в 2D-гауссоновские поля, которые вводятся в модель потоков. Это позволяет модели извлекать информацию о контексте из широкого контекста, чтобы улучшить подготовленные для обучения карты. ## Результаты Мы проверили GOAL на двух популярных наборах данных ObjectNav — MP3D и Gibson. Наши эксперименты показали, что GOAL достигает лучшего результата по сравнению с другими подходами. В частности, она показала наиболее высокую точность в поиске объектов в неизвестных помещениях. Мы также проверили модель на HM3D, где она показала сильные результаты в тестировании вне среды обучения. Эти результаты подтверждают, что модель GOAL обладает высокой общеудобностью и эффективностью в задаче ObjectNav. ## Значимость Модель GOAL может быть применена в различных сценариях, таких как виртуальные ассистенты, системы для управления домашним роботом и системы создания знаний в виртуальных средах. Одним из ключевых преимуществ является ее общеудобность, что делает ее подходящей для различных сред. Благодаря использованию LLM, GOAL может обеспечить более точное и контекстуально обоснованное воспроизведение сцен, что может оказаться ключевым для улучшения навигационных задач. Мы считаем, что наша работа открывает новые пути для дальнейшего исследования в области контекстно-обоснованных моделей для навигации. ## Выводы Мы представили GOAL, новую модель для Object Goal Navigation, которая использует генерирующие модели потоков и LLM-поenнененные семантические карты для улучшения общей обучаемости и силы обра

Abstract

The Object Goal Navigation (ObjectNav) task challenges agents to locate a specified object in an unseen environment by imagining unobserved regions of the scene. Prior approaches rely on deterministic and discriminative models to complete semantic maps, overlooking the inherent uncertainty in indoor layouts and limiting their ability to generalize to unseen environments. In this work, we propose GOAL, a generative flow-based framework that models the semantic distribution of indoor environments by bridging observed regions with LLM-enriched full-scene semantic maps. During training, spatial priors inferred from large language models (LLMs) are encoded as two-dimensional Gaussian fields and injected into target maps, distilling rich contextual knowledge into the flow model and enabling more generalizable completions. Extensive experiments demonstrate that GOAL achieves state-of-the-art performance on MP3D and Gibson, and shows strong generalization in transfer settings to HM3D. Codes and pretrained models are available at https://github.com/Badi-Li/GOAL.

Ссылки и действия