📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Integrating Vision Foundation Models with Reinforcement Learning for Enhanced Object Interaction

2025-08-12

Авторы:

Ahmad Farooq, Kamran Iqbal

## Контекст Область исследования, связанная с визуальным распознаванием и искусственным интеллектом, находится в центре внимания в последние годы из-за появления мощных моделей семантического визуального понимания. Однако, несмотря на развитие этих моделей, повышение качества взаимодействия с объектами в симуляционных средах остается вызовом. Обычно, агенты в таких средах сталкиваются с трудностями в распознавании и корректном взаимодействии с объектами из-за ограниченности их представления объектов. Мотивацией для данного исследования является повышение эффективности взаимодействия агента с объектами в симуляционной среде, чтобы позволить им выполнять более сложные задачи. ## Метод Разработанная методология включает в себя интеграцию двух ключевых компонентов: **Segment Anything Model (SAM)** и **YOLOv5** в качестве моделей визуального представления, а также **Proximal Policy Optimization (PPO)** в качестве агента для принятия решений. SAM и YOLOv5 используются для точного распознавания и сегментации объектов в симуляционной среде AI2-THOR. PPO, в свою очередь, оптимизирует поведение агента во время обучения с подкреплением. Основной архитектурой является комбинация этих моделей в одной среде, что позволяет агенту не только распознавать объекты, но и принимать решения о действиях на основе визуальных сигналов. ## Результаты На основе предложенной модели проведены эксперименты в четырех различных индорных кухонных средах. Результаты показали существенные улучшения по сравнению с базовым агентом, не использующим расширенное визуальное представление. Агент, использующий предложенную модель, показал 68% выше средней накопленной награды, 52,5% повышение успешности взаимодействия с объектами и 33% увеличение эффективности навигации. Эти показатели указывают на то, что интеграция визуальных моделей с RL может значительно повысить качество взаимодействия с объектами в симуляционных средах. ## Значимость Предложенный подход имеет широкие применения в сфере робототехники и симуляционных сред, где необходимо точное взаимодействие с объектами. Одним из преимуществ является улучшенная точность распознавания объектов и увеличение эффективности действий в среде. Это может привести к высокой точности и надежности в автоматизированных системах, например, в системах для сервисных роботов, которые должны решать задачи в различных условиях. Будущие исследования могут быть направлены на улучшение моделей визуального понимания и их интеграцию с другими методами задач RL. ## Выводы Предложенный подход, интегрирующий визуальные модели с RL, достиг зна

Annotation:

This paper presents a novel approach that integrates vision foundation models with reinforcement learning to enhance object interaction capabilities in simulated environments. By combining the Segment Anything Model (SAM) and YOLOv5 with a Proximal Policy Optimization (PPO) agent operating in the AI2-THOR simulation environment, we enable the agent to perceive and interact with objects more effectively. Our comprehensive experiments, conducted across four diverse indoor kitchen settings, demonst...

ID: 2508.05838v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY, 68T07, 68T40, 90C40, 93E35, I.2.6; I.2.9; I.2.10

arXiv PDF

📄 Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation

2025-08-12

Авторы:

Youguang Xing, Xu Luo, Junlin Xie, Lianli Gao, Hengtao Shen, Jingkuan Song

## Контекст Область исследования связана с развитием общих (generalist) политик действий (policies) для роботов, которые могут выполнять широкий спектр задач в разных средах. Актуальной проблемой в этой области является ограниченность моделей в области общей целесообразности (generalization capability) — возникающая из-за того, что модели, при недостаточном разнообразии в обучающих данных, начинают опираться на специфические, но не значимые для решения задачи фичи (shortcut learning). Это проблема становится особенно яркой при работе с большими датасетами, которые состоят из независимых поддатасетов, собранных в различных условиях. Целью работы является не только идентификация факторов, которые способствуют этой проблеме, но и поиск способов ее устранения. ## Метод Для научного исследования использовались два основных подхода. Во-первых, был проведен теоретический анализ, позволяющий выявить основные причины shortcut learning — недостаточную разнообразность в поддатасетах и значимые различия в их распределениях (dataset fragmentation). Во-вторых, проводились эмпирические эксперименты, в ходе которых были протестированы различные модели на разных поддатасетах, а также на варьированных вариантах данных с помощью техник разметки и аугментации. Таким образом, было установлено, как разнообразие и структура данных влияют на общую способность модели к общей целесообразности. ## Результаты В ходе экспериментов был выявлен, что роботские модели, обученные на недостаточно разнообразных или сильно разбитых поддатасетах, используют в своих решениях сильно зависящие от контекста, но незначимые для задачи фичи. Были проведены ряд экспериментов с аугментацией данных, которые показали, что стратегия добавления новых, разнообразных обучающих примеров может существенно улучшить общую способность модели. Также были проанализированы результаты работы моделей на различных симуляционных и реальных задачах, что подтвердило тот факт, что улучшение разнообразия данных и их структуры позволяет значительно снизить уровень shortcut learning. ## Значимость Результаты работы имеют практическое значение для развития общих моделей действий для роботов. Они позволяют улучшить общую способность моделей, уменьшая риск зависимости от незначимых для задачи фич. Это влечет за собой рост эффективности в различных приложениях, включая управление роботами в различных ситуациях, включая нестандартные. Данные подходы также могут быть применены в учебных датасетах для роботов, чтобы снизить риск ошибок в ситуациях, где новые данные недоступны или дорогостоящи. ## Выводы Основным достижением является выявление того, что ограниченность раз

Annotation:

Generalist robot policies trained on large-scale datasets such as Open X-Embodiment (OXE) demonstrate strong performance across a wide range of tasks. However, they often struggle to generalize beyond the distribution of their training data. In this paper, we investigate the underlying cause of this limited generalization capability. We identify shortcut learning -- the reliance on task-irrelevant features -- as a key impediment to generalization. Through comprehensive theoretical and empirical ...

ID: 2508.06426v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Towards Generalizable Safety in Crowd Navigation via Conformal Uncertainty Handling

2025-08-08

Авторы:

Jianpeng Yao, Xiaopan Zhang, Yu Xia, Zejin Wang, Amit K. Roy-Chowdhury, Jiachen Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область автономной навигации мобильных роботов в густонаселенных средах является одной из наиболее критически важных и сложных задач современной робототехники. Роботы, обученные с использованием методов обучения с подкреплением (RL), демонстрируют впечатляющие результаты в контролируемых условиях, однако сталкиваются с серьезными проблемами при выходе за пределы обучающего распределения. Это явление, известное как проблема распределения (distribution shift), становится особенно критичным в динамических сценариях с пешеходами, где даже небольшие изменения в поведении людей могут привести к катастрофическим последствиям. Существующие подходы к обеспечению безопасности в навигации часто полагаются на предопределенные правила или консервативные стратегии, которые ограничивают маневренность робота и снижают эффективность в типовых ситуациях. Более того, традиционные методы не учитывают неопределенность в прогнозировании поведения пешеходов, что становится решающим фактором при столкновении с нестандартными паттернами движения. Например, внезапное изменение скорости группы пешеходов, появление агрессивно настроенных индивидов или переход от индивидуального к групповому поведению может привести к систематическим провалам в безопасности. Авторы статьи акцентируют внимание на фундаментальном недостатке современных RL-систем: они оптимизируются только для ожидаемого распределения данных, игнорируя хвостовые сценарии, которые могут быть редкими, но критически важными для безопасности. Это создает ложное чувство надежности и делает таких роботов непригодными для реального применения в неструктурированных человеческих средах. Необходим новый подход, который бы интегрировал оценку неопределенности напрямую в процесс принятия решений, позволяя роботу адаптивно реагировать на непредвиденные обстоятельства без компромисса в эффективности. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют революционный метод, который решает проблему устойчивости к распределениям через интеграцию адаптивного конформного вывода (adaptive conformal inference) в процесс обучения с подкреплением. Система работает по принципу двухуровневой архитектуры: на первом уровне модель прогнозирует будущие траектории пешеходов с оценкой неопределенности, а на втором - использует эти оценки для принятия безопасных решений. Ключевым инновационным элементом является использование конформного предиктора, который генерирует калиброванные доверительные интервалы для предсказаний движения пешеходов. В отличие от традиционных вероятностных методов, конформный вывод обеспечует гарантированный уровень покрытия независимо от базового распределения данных. Система динамически адаптирует эти интервалы на основе текущей сцены, учитывая такие факторы как плотность толпы, скорость движения и исторические паттерны поведения. Внедрение неопределенностей в пространство наблюдений агента осуществляется через специально разработанное представление, включающее как предсказанные траектории, так и соответствующие им доверительные области. Это позволяет агенту не просто реагировать на предсказанное поведение, но и учитывать вероятность отклонения от этих предсказаний. Обучение проводится с использованием метода ограниченного обучения с подкреплением (constrained RL), где ограничения формулируются в терминах максимально допустимого уровня неопределенности при взаимодействии с человеком. Архитектура системы включает три основных компонента: модуль прогнозирования траекторий на основе LSTM-сети с вниманием, модуль конформного предиктора для генерации доверительных регионов, и политику агента, обученную через алгоритм Proximal Policy Optimization (PPO) с safety constraints. Уникальность подхода заключается в том, что границы безопасности адаптируются онлайн, реагируя на текущий уровень неопределенности в среде. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Комплексное экспериментальное исследование проводилось в трех основных направлениях: оценка производительности в in-distribution сценариях, тестирование robustness при различных видах distribution shift, и валидация на реальном роботе. Для in-distribution оценки использовался симуляционный датасет, включающий 10,000 с

Annotation:

Mobile robots navigating in crowds trained using reinforcement learning are known to suffer performance degradation when faced with out-of-distribution scenarios. We propose that by properly accounting for the uncertainties of pedestrians, a robot can learn safe navigation policies that are robust to distribution shifts. Our method augments agent observations with prediction uncertainty estimates generated by adaptive conformal inference, and it uses these estimates to guide the agent's behavior...

ID: 2508.05634v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

Показано 91 - 93 из 93 записей