Curriculum-Based Multi-Tier Semantic Exploration via Deep Reinforcement Learning

2509.09356v1 cs.AI, cs.RO 2025-09-13
Авторы:

Abdel Hakim Drid, Vincenzo Suriani, Daniele Nardi, Abderrezzak Debilou

Резюме на русском

#### Контекст Исследование автоматизированного поиска и обозначения объектов в неизвестных и сложных окружениях является ключевым заданием в области робототехники и искусственного интеллекта. Одной из основных проблем является то, что данные задачи требуют не только простых сенсорных данных, но и высокоуровневых семантических оценок. Традиционные RL-методы часто сталкиваются с ограниченностью в семантическом понимании и неэффективностью исследования окружения, что приводит к необходимости использования помощи человека. Это делает необходимость развития более эффективных стратегий исследования и обозначения объектов в робототехнических системах. #### Метод Наша работа предлагает новую архитектуру с Deep Reinforcement Learning (DRL), которая использует Vision-Language Model (VLM) для семантического понимания. Главная инновация заключается в интеграции VLM в агентский процесс отклика с помощью сложной системы вознаграждений, где агент может запрашивать внешнюю информацию только в критических моментах. Это позволяет экономить ресурсы. Для лучшего обучения вводится стратегия курсивного обучения, которая позволяет агенту учиться постепенно, начиная с простых задач и переходя к более сложным. Это надежно обеспечивает устойчивую и эффективную настройку моделей. #### Результаты В ходе экспериментов, проведенных на различных средах, наш агент показал высокую эффективность в обнаружении объектов и стратегическом передвижении по сложным пространствам. Мы оценивали, насколько хорошо агент учится использовать VLM для семантического поиска и насколько эффективным является его использование ресурсов. Результаты показали, что наш агент достиг в среднем вышей скорости обнаружения объектов и стратегически более разумно использует VLM, чем остальные существующие способы. #### Значимость Предложенный подход может применяться в большинстве робототехнических систем, где требуется семантическое понимание окружения. Наш агент может быть использован в системах, которые нуждаются в эффективном исследовании сложных пространств, таких как поисковые роботы, системы для домов или в сфере автоматизации производств. Обладая возможностью стратегического расходования ресурсов, наш агент предоставляет дополнительные преимущества в сложных и непредсказуемых окружениях. #### Выводы Мы представили новую методологию для эффективного и стратегического обнаружения объектов в неизвестных средах, используя Deep Reinforcement Learning и Vision-Language Model. Мы продемонстрировали, что наш подход выполняет семантическое поисковое исследование более эффективно, чем предыдущие методы. В будущем мы планируем расширить эту работу, из

Abstract

Navigating and understanding complex and unknown environments autonomously demands more than just basic perception and movement from embodied agents. Truly effective exploration requires agents to possess higher-level cognitive abilities, the ability to reason about their surroundings, and make more informed decisions regarding exploration strategies. However, traditional RL approaches struggle to balance efficient exploration and semantic understanding due to limited cognitive capabilities embedded in the small policies for the agents, leading often to human drivers when dealing with semantic exploration. In this paper, we address this challenge by presenting a novel Deep Reinforcement Learning (DRL) architecture that is specifically designed for resource efficient semantic exploration. A key methodological contribution is the integration of a Vision-Language Model (VLM) common-sense through a layered reward function. The VLM query is modeled as a dedicated action, allowing the agent to strategically query the VLM only when deemed necessary for gaining external guidance, thereby conserving resources. This mechanism is combined with a curriculum learning strategy designed to guide learning at different levels of complexity to ensure robust and stable learning. Our experimental evaluation results convincingly demonstrate that our agent achieves significantly enhanced object discovery rates and develops a learned capability to effectively navigate towards semantically rich regions. Furthermore, it also shows a strategic mastery of when to prompt for external environmental information. By demonstrating a practical and scalable method for embedding common-sense semantic reasoning with autonomous agents, this research provides a novel approach to pursuing a fully intelligent and self-guided exploration in robotics.

Ссылки и действия