## Контекст
Область исследования, связанная с визуальным распознаванием и искусственным интеллектом, находится в центре внимания в последние годы из-за появления мощных моделей семантического визуального понимания. Однако, несмотря на развитие этих моделей, повышение качества взаимодействия с объектами в симуляционных средах остается вызовом. Обычно, агенты в таких средах сталкиваются с трудностями в распознавании и корректном взаимодействии с объектами из-за ограниченности их представления объектов. Мотивацией для данного исследования является повышение эффективности взаимодействия агента с объектами в симуляционной среде, чтобы позволить им выполнять более сложные задачи.
## Метод
Разработанная методология включает в себя интеграцию двух ключевых компонентов: **Segment Anything Model (SAM)** и **YOLOv5** в качестве моделей визуального представления, а также **Proximal Policy Optimization (PPO)** в качестве агента для принятия решений. SAM и YOLOv5 используются для точного распознавания и сегментации объектов в симуляционной среде AI2-THOR. PPO, в свою очередь, оптимизирует поведение агента во время обучения с подкреплением. Основной архитектурой является комбинация этих моделей в одной среде, что позволяет агенту не только распознавать объекты, но и принимать решения о действиях на основе визуальных сигналов.
## Результаты
На основе предложенной модели проведены эксперименты в четырех различных индорных кухонных средах. Результаты показали существенные улучшения по сравнению с базовым агентом, не использующим расширенное визуальное представление. Агент, использующий предложенную модель, показал 68% выше средней накопленной награды, 52,5% повышение успешности взаимодействия с объектами и 33% увеличение эффективности навигации. Эти показатели указывают на то, что интеграция визуальных моделей с RL может значительно повысить качество взаимодействия с объектами в симуляционных средах.
## Значимость
Предложенный подход имеет широкие применения в сфере робототехники и симуляционных сред, где необходимо точное взаимодействие с объектами. Одним из преимуществ является улучшенная точность распознавания объектов и увеличение эффективности действий в среде. Это может привести к высокой точности и надежности в автоматизированных системах, например, в системах для сервисных роботов, которые должны решать задачи в различных условиях. Будущие исследования могут быть направлены на улучшение моделей визуального понимания и их интеграцию с другими методами задач RL.
## Выводы
Предложенный подход, интегрирующий визуальные модели с RL, достиг зна
ID: 2508.05838v1
cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY, 68T07, 68T40, 90C40, 93E35, I.2.6; I.2.9; I.2.10