Curriculum-Based Multi-Tier Semantic Exploration via Deep Reinforcement Learning
2509.09356v1
cs.AI, cs.RO
2025-09-13
Авторы:
Abdel Hakim Drid, Vincenzo Suriani, Daniele Nardi, Abderrezzak Debilou
Резюме на русском
#### Контекст
Исследование автоматизированного поиска и обозначения объектов в неизвестных и сложных окружениях является ключевым заданием в области робототехники и искусственного интеллекта. Одной из основных проблем является то, что данные задачи требуют не только простых сенсорных данных, но и высокоуровневых семантических оценок. Традиционные RL-методы часто сталкиваются с ограниченностью в семантическом понимании и неэффективностью исследования окружения, что приводит к необходимости использования помощи человека. Это делает необходимость развития более эффективных стратегий исследования и обозначения объектов в робототехнических системах.
#### Метод
Наша работа предлагает новую архитектуру с Deep Reinforcement Learning (DRL), которая использует Vision-Language Model (VLM) для семантического понимания. Главная инновация заключается в интеграции VLM в агентский процесс отклика с помощью сложной системы вознаграждений, где агент может запрашивать внешнюю информацию только в критических моментах. Это позволяет экономить ресурсы. Для лучшего обучения вводится стратегия курсивного обучения, которая позволяет агенту учиться постепенно, начиная с простых задач и переходя к более сложным. Это надежно обеспечивает устойчивую и эффективную настройку моделей.
#### Результаты
В ходе экспериментов, проведенных на различных средах, наш агент показал высокую эффективность в обнаружении объектов и стратегическом передвижении по сложным пространствам. Мы оценивали, насколько хорошо агент учится использовать VLM для семантического поиска и насколько эффективным является его использование ресурсов. Результаты показали, что наш агент достиг в среднем вышей скорости обнаружения объектов и стратегически более разумно использует VLM, чем остальные существующие способы.
#### Значимость
Предложенный подход может применяться в большинстве робототехнических систем, где требуется семантическое понимание окружения. Наш агент может быть использован в системах, которые нуждаются в эффективном исследовании сложных пространств, таких как поисковые роботы, системы для домов или в сфере автоматизации производств. Обладая возможностью стратегического расходования ресурсов, наш агент предоставляет дополнительные преимущества в сложных и непредсказуемых окружениях.
#### Выводы
Мы представили новую методологию для эффективного и стратегического обнаружения объектов в неизвестных средах, используя Deep Reinforcement Learning и Vision-Language Model. Мы продемонстрировали, что наш подход выполняет семантическое поисковое исследование более эффективно, чем предыдущие методы. В будущем мы планируем расширить эту работу, из
Abstract
Navigating and understanding complex and unknown environments autonomously
demands more than just basic perception and movement from embodied agents.
Truly effective exploration requires agents to possess higher-level cognitive
abilities, the ability to reason about their surroundings, and make more
informed decisions regarding exploration strategies. However, traditional RL
approaches struggle to balance efficient exploration and semantic understanding
due to limited cognitive capabilities embedded in the small policies for the
agents, leading often to human drivers when dealing with semantic exploration.
In this paper, we address this challenge by presenting a novel Deep
Reinforcement Learning (DRL) architecture that is specifically designed for
resource efficient semantic exploration. A key methodological contribution is
the integration of a Vision-Language Model (VLM) common-sense through a layered
reward function. The VLM query is modeled as a dedicated action, allowing the
agent to strategically query the VLM only when deemed necessary for gaining
external guidance, thereby conserving resources. This mechanism is combined
with a curriculum learning strategy designed to guide learning at different
levels of complexity to ensure robust and stable learning. Our experimental
evaluation results convincingly demonstrate that our agent achieves
significantly enhanced object discovery rates and develops a learned capability
to effectively navigate towards semantically rich regions. Furthermore, it also
shows a strategic mastery of when to prompt for external environmental
information. By demonstrating a practical and scalable method for embedding
common-sense semantic reasoning with autonomous agents, this research provides
a novel approach to pursuing a fully intelligent and self-guided exploration in
robotics.
Ссылки и действия
Дополнительные ресурсы: