📚 Саммари научных статей из arXiv

Найдено 544 результатов по запросу 'cs.RO, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 GACL: Grounded Adaptive Curriculum Learning with Active Task and Performance Monitoring

2025-08-09

Авторы:

Linji Wang, Zifan Xu, Peter Stone, Xuesu Xiao

**Резюме** Успешное обучение роботов в сложных задачах часто зависит от ручного проектирования последовательности задач, что требует значительных усилий и может привести к неэффективным результатам. В статье предлагается **Grounded Adaptive Curriculum Learning (GACL)** — подход, который автоматизирует генерирование последовательности задач для обучения роботов в реальной среде. GACL основывается на трех основных инновациях: (1) универсальном представлении задач, позволяющем гибко адаптироваться к различным сложностям; (2) адаптивной системе отслеживания прогресса, которая автоматически адаптирует последовательность задач к текущим возможностям робота; и (3) гранулярному подходу, обеспечивающему релевантность задач к целевому применению, благодаря одновременному использованию синтетических и специфичных для данной задачи данных. Исследования показали, что GACL повышает успешность обучения в таких задачах, как подвижность роботов на колесах в ограниченных пространствах и локмотив роботов-четвероногих в трудных трехмерных местах, сравнительно с текущими методами. Это демонстрирует эффективность GACL в решении проблем обучения роботов в реальном мире.

Annotation:

Curriculum learning has emerged as a promising approach for training complex robotics tasks, yet current applications predominantly rely on manually designed curricula, which demand significant engineering effort and can suffer from subjective and suboptimal human design choices. While automated curriculum learning has shown success in simple domains like grid worlds and games where task distributions can be easily specified, robotics tasks present unique challenges: they require handling comple...

ID: 2508.02988v1 cs.RO, cs.AI

arXiv PDF

📄 SkeNa: Learning to Navigate Unseen Environments Based on Abstract Hand-Drawn Maps

2025-08-09

Авторы:

Haojun Xu, Jiaqi Xiang, Wu Wei, Jinyu Chen, Linqing Zhong, Linjiang Huang, Hongyu Yang, Si Liu

Данная работа затрагивает задачу визуальной навигации в незнакомых окружениях, основываясь на руководстве в виде руконачливых схем. Исследование вводит SkeNa (Sketch-based Navigation), задачу, где агент должен достичь цели в незнакомой среде, ориентируясь только на руководство в виде руконачливых рисунков. Для этой цели представлена большой датасет SoR, содержащий 54k пар траекторий и руконачливых схем, собранных из 71 индорных сцен. Для автоматизации генерации руконачливых схем разработана специальная автоматизированная система. Разработанный платформу SkeNavigator, которая учитывает соотношение руконачливых схем и динамических визуальных наблюдений, показала улучшение показателей SPL на высоко-абстрактной валидационной выборке на 105% по сравнению с предыдущими решениями. Это указывает на перспективу использования руконачливых схем для визуальной навигации в незнакомых пространствах.

Annotation:

A typical human strategy for giving navigation guidance is to sketch route maps based on the environmental layout. Inspired by this, we introduce Sketch map-based visual Navigation (SkeNa), an embodied navigation task in which an agent must reach a goal in an unseen environment using only a hand-drawn sketch map as guidance. To support research for SkeNa, we present a large-scale dataset named SoR, comprising 54k trajectory and sketch map pairs across 71 indoor scenes. In SoR, we introduce two n...

ID: 2508.03053v1 cs.RO, cs.AI

arXiv PDF

📄 Optimizing Bipedal Locomotion for The 100m Dash With Comparison to Human Running

2025-08-09

Авторы:

Devin Crowley, Jeremy Dao, Helei Duan, Kevin Green, Jonathan Hurst, Alan Fern

**Резюме** В статье рассматривается проблема оптимизации бипедальной локамоции для достижения высокой скорости путем разработки эффективных ходьбы для робота Cassie. Основной вклад авторов заключается в предложении метода оптимизации ходьбы на протяжении широкого диапазона скоростей с целью возможности высокоскоростного бега на физическом оборудовании. Для оценки эффективности разработанных ходов проведен сравнительный анализ с механиками ходьбы человека, известной как оптимальная для бипедальных существ. На основе клинических исследований биомеханики показано, что ключевые свойства ходьбы Cassie соответствуют механикам человека в широком диапазоне скоростей, несмотря на морфологические различия. В качестве третьего вклада авторы интегрировали оптимизированные ходы в полный контроллер, достигшего статуса рекорда — наиболее быстрого 100-метрового бега бипедальным роботом. Эти результаты сопровождаются участием в реальном мероприятии 100-метрового даша.

Annotation:

In this paper, we explore the space of running gaits for the bipedal robot Cassie. Our first contribution is to present an approach for optimizing gait efficiency across a spectrum of speeds with the aim of enabling extremely high-speed running on hardware. This raises the question of how the resulting gaits compare to human running mechanics, which are known to be highly efficient in comparison to quadrupeds. Our second contribution is to conduct this comparison based on established human biome...

ID: 2508.03070v1 cs.RO, cs.AI, I.2.9

arXiv PDF

📄 Constraint-Preserving Data Generation for Visuomotor Policy Learning

2025-08-09

Авторы:

Kevin Lin, Varun Ragunath, Andrew McAlinden, Aaditya Prasad, Jimmy Wu, Yuke Zhu, Jeannette Bohg

## КОНТЕКСТ И ПРОБЛЕМАТИКА Роботизированные манипуляции требуют высокого уровня точности и адаптивности, особенно в задачах, требующих взаимодействия с разнообразными объектами. Одной из ключевых проблем в этой области является сложность и высокая стоимость сбора демонстрационных данных для обучения политик визуомоторного управления (visuomotor policies). Традиционные подходы требуют многократного взаимодействия с реальными объектами, что затрудняет масштабирование и адаптацию к различным конфигурациям объектов. Одним из перспективных направлений решения этой проблемы является генерация демонстрационных данных в симуляции, которая позволяет создавать разнообразные сцены без необходимости физического взаимодействия. Однако существующие методы часто не учитывают геометрические особенности объектов или не обеспечивают сохранение ключевых констрантов (constraints), необходимых для успешного выполнения задачи. Это значительно ограничивает эффективность обучения политик и их генерализацию на реальные ситуации. Настоящая статья предлагает Constraint-Preserving Data Generation (CP-Gen) – инновационный подход, который решает эту проблему, создавая демонстрации, соответствующие геометрическим и позиционным особенностям объектов. CP-Gen основывается на использовании единственной экспертной траектории, из которой могут быть порождены множество новых демонстраций, сохраняющих ключевые констранты задачи. Такой подход позволяет обучать политики, которые эффективно работают в реальных условиях, не требуя дополнительных данных для каждой новой конфигурации. ## ПРЕДЛОЖЕННЫЙ МЕТОД CP-Gen основывается на декомпозиции экспертных траекторий на два компонента: свободные движения (free-space motions) и роботизированные навыки (robot skills). Основной новизной метода является формулировка роботизированных навыков как ограничений в виде траекторий киппоинтов (keypoints), которые должны соответствовать заданным справочным траекториям относительно задачи. Для генерации новых демонстраций CP-Gen выполняет следующие шаги: 1. **Преобразование позиций и геометрий объектов**: Алгоритм выбирает случайные преобразования для позиций и геометрий объектов, связанных с задачей. 2. **Применение преобразований к киппоинтам**: Киппоинты, связанные с роботом или объектом, адаптируются к новой геометрии и позиции. 3. **Оптимизация конфигураций**: Алгоритм оптимизирует конфигурации суставов робота таким образом, чтобы киппоинты робота или объекта соответствовали траекториям, полученным после преобразования. 4. **Планирование движения**: После оптимизации выполняется коллизионно-свободное планирование движения к первой оптимизированной конфигурации. Такой подход позволяет создавать разнообразные демонстрации, сохраняющие ключевые констранты задачи, несмотря на изменения в геометрии и положении объектов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на 16 симуляционных задачах и 4 реальных задачах, включая многоступенчатые, непредварительно захваченные (non-prehensile) и высокоточные (tight-tolerance) манипуляции. Результаты показали, что политики, обученные с помощью CP-Gen, достигают среднего уровня успешности в 77% случаев, превосходящих 50%, достигнутых лучшим базовым методом. Использование CP-Gen показало высокую эффективность в обучении политик, способных общаться в реальных условиях без необходимости дополнительных данных. Адаптивность метода к различным геометриям и позициям объектов демонстрирует его практическую применимость в сложных задачах манипуляции. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CP-Gen открывает новые возможности для эффективного обучения визуомоторных политик в задачах манипуляции. Его способность создавать разнообразные демонстрации на основе единственной экспертной траектории значительно сокращает стоимость и время, необходимые для сбора данных. Практические области применения включают: - **Индустриальные роботы**: Автоматизация сложных манипуляций с разнообразными объектами. - **Медицинские роботы**: Адаптивность к различным анатомическим конфигурациям. - **Домашние роботы**: Улучшение взаимодействия с нестандартными предметами в домашних условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основным достижением данной работы является разработка CP-Gen – метода, который позволяет генерировать демонстрации, сохраняющие констранты задачи, и обучать политики, эффективные в реальных условиях. Будущие исследования могут фокусироваться на расширении метода для более сложных задач, таких как многоagent сцены, и использовании более сложных моделей для улучшения генерации демонстраций.

Annotation:

Large-scale demonstration data has powered key breakthroughs in robot manipulation, but collecting that data remains costly and time-consuming. We present Constraint-Preserving Data Generation (CP-Gen), a method that uses a single expert trajectory to generate robot demonstrations containing novel object geometries and poses. These generated demonstrations are used to train closed-loop visuomotor policies that transfer zero-shot to the real world and generalize across variations in object geomet...

ID: 2508.03944v1 cs.RO, cs.AI

arXiv PDF

📄 DRIVE: Dynamic Rule Inference and Verified Evaluation for Constraint-Aware Autonomous Driving

2025-08-09

Авторы:

Longling Geng, Huangxing Li, Viktor Lado Naess, Mert Pilanci

## КОНТЕКСТ И ПРОБЛЕМАТИКА Автономная эксплуатация автомобилей представляет собой сложную задачу, требующую обеспечения безопасной и социально совместимой езды в разнообразных условиях. Одной из ключевых проблем в этой области является необходимость соблюдения мягких ограничений (soft constraints), таких как социальные нормы, предпочтения и контекстные факторы, которые часто неявны и трудно формализовать. Традиционные подходы к автономному управлению зависят от жестких предварительно заданных моделей ограничений или моделей, основанных исключительно на наградах, что может приводить к недостаточной адаптации к контексту или нарушениям социальных норм. Кроме того, существующие методы обучения ограничений часто не способны обеспечить проверяемость (verifiability) и объяснимость (explainability) решений, что является критическим для реального развертывания. Эти проблемы обостряются в ситуациях, характеризующихся высокой динамикой и разнообразием условий езды. Необходимо разработать фреймворк, который может динамически выучивать и соблюдать мягкие ограничения, обеспечивая при этом высокую точность, плавность траекторий и объяснимость решений. Целью данной работы является разработка фреймворка DRIVE, который решает эти проблемы, объединяя в себе динамическое обучение ограничений и проверяемый процесс принятия решений. ## ПРЕДЛОЖЕННЫЙ МЕТОД DRIVE предлагает инновационный фреймворк, который сочетает динамическое обучение мягких ограничений и проверяемую оптимизацию траекторий. Основные компоненты фреймворка включают: 1. **Динамическое обучение ограничений:** Используя моделирование вероятностного распределения вида exponential-family likelihood, DRIVE оценивает вероятность состояний переходов в зависимости от контекста езды. Это позволяет получить распределения мягких ограничений, которые адаптируются к конкретным ситуациям. 2. **Проверяемая оптимизация:** Изученные распределения ограничений интегрируются в модуль планирования, основанный на выпуклой оптимизации. Это гарантирует, что сгенерированные траектории не только физически выполнимы, но также соответствуют выученным предпочтениям. 3. **Объединение обучения и планирования:** В отличие от традиционных подходов, DRIVE тесно связывает процессы обучения ограничений и принятия решений, обеспечивая единый фреймворк для динамического анализа и выполнения. 4. **Проверка и объясняемость:** Фреймворк включает в себя механизмы проверки, которые подтверждают эффективность и надежность сгенерированных траекторий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ DRIVE протестирован на крупномасштабных натуралистических данных о езде, включая наборы данных inD, highD и RoundD. Эти данные включают разнообразные сценарии езды, включая городские и междугородние условия. Фреймворк сравнивается с представительными базовыми методами, основанными на обратном обучении ограничений и моделях наград. Результаты показывают, что DRIVE достигает: - **Нулевой процент нарушений мягких ограничений (0.0% violation rate)**. - **Плавные и физически возможные траектории.** - **Лучшая Generalization по сравнению с базовыми методами.** Проверочные эксперименты также подтверждают высокую эффективность, объяснимость и надежность фреймворка. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ DRIVE имеет широкий спектр практических применений в области автономных транспортных систем. Он может быть использован для: - **Улучшения безопасности:** Нулевые нарушения мягких ограничений обеспечивают безопасность взаимодействия с другими участниками дорожного движения. - **Социальной совместимости:** Адаптация к предпочтениям и нормам поведения позволяет создать более естественные и человекоподобные траектории. - **Повышение надежности:** Высокая объяснимость и проверяемость делают DRIVE пригодным для реального развертывания в критических системах. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Фреймворк DRIVE представляет собой важный шаг вперед в области автономного управления, объединяя динамическое обучение ограничений и проверяемую оптимизацию. Будущие исследования могут фокусироваться на расширении фреймворка для включения более сложных контекстов, таких как многоагентные взаимодействия и непредвиденные условия дорожного движения. Также возможно исследование применения DRIVE в других областях, требующих динамического обучения и проверяемых решений, таких как робототехника и интеллектуальные транспортные системы.

Annotation:

Understanding and adhering to soft constraints is essential for safe and socially compliant autonomous driving. However, such constraints are often implicit, context-dependent, and difficult to specify explicitly. In this work, we present DRIVE, a novel framework for Dynamic Rule Inference and Verified Evaluation that models and evaluates human-like driving constraints from expert demonstrations. DRIVE leverages exponential-family likelihood modeling to estimate the feasibility of state transiti...

ID: 2508.04066v1 cs.RO, cs.AI

arXiv PDF

📄 INTENTION: Inferring Tendencies of Humanoid Robot Motion Through Interactive Intuition and Grounded VLM

2025-08-09

Авторы:

Jin Wang, Weijie Wang, Boyuan Deng, Heng Zhang, Rui Dai, Nikos Tsagarakis

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современная робототехника манипуляции сталкивается с фундаментальным противоречием между теоретической эффективностью и практической применимостью. Традиционные методы управления и планирования манипуляций роботов опираются на точные физические модели и предопределенные последовательности действий. Эти подходы демонстрируют высокую эффективность в структурированных, контролируемых средах, таких как производственные линии или лабораторные условия, где параметры окружающей среды можно точно измерить и предсказать. Однако при переходе в реальные неструктурированные условия эти методы сталкиваются с критическими ограничениями, связанными с неизбежными неточностями моделирования, неопределенностью параметров объектов взаимодействия и невозможностью заранее предусмотреть все возможные сценарии поведения. Проблема усложняется тем, что реальный мир характеризуется огромным разнообразием объектов, каждый из которых обладает уникальными физическими свойствами, геометрией и возможностями взаимодействия. Традиционные системы требуют ручного программирования правил для каждого нового объекта или задачи, что становится практически невозможным при масштабировании. Более того, предопределенные последовательности действий не обеспечивают необходимую адаптивность к изменяющимся условиям среды, что приводит к сбоям даже при незначительных отклонениях от ожидаемого сценария. В контрасте с роботами, человек демонстрирует поразительную способность интуитивно взаимодействовать с окружающей средой, быстро адаптируясь к новым условиям и принимая эффективные решения на основе неявного физического понимания. Человеческое взаимодействие опирается на богатый опыт предыдущих взаимодействий, позволяющий делать обоснованные предположения о свойствах объектов и возможных способах манипуляции без точного знания всех параметров. Это интуитивное понимание включает в себя распознавание физических связей между объектами, понимание их функциональных возможностей (аффордансов) и способность к обобщению знаний на новые ситуации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанных проблем авторы предлагают революционный фреймворк INTENTION (Inferring Tendencies of Humanoid Robot Motion Through Interactive Intuition and Grounded VLM), который синтезирует достижения в области моделей зрения-языка (VLMs) с механизмами интерактивного обучения. Центральной концепцией фреймворка является создание системы, способной к автономному обучению из взаимодействий с окружающей средой, формируя интуитивное понимание, аналогичное человеческому. Основой архитектуры является Memory Graph - графовая структура данных, которая систематически записывает и организует информацию о сценах из предыдущих взаимодействий с задачами. Этот компонент эмулирует человеческую память о взаимодействиях, сохраняя не только визуальные признаки сцен, но и структурированные представления о физических связях между объектами, последовательности действий и их результаты. Memory Graph использует графовую топологию для представления сложных отношений между элементами сцены, позволяя эффективно запрашивать похожие ситуации из прошлого опыта и делать обобщенные выводы для новых сцен. Следующим ключевым компонентом является Intuitive Perceptor - специализированный модуль, который извлекает физические отношения и аффордансы из визуальных сцен. Этот модуль использует продвинутые компьютерные зрительные техники в сочетании с возможностями современных VLM для понимания контекста сцены. Он способен идентифицировать не только объекты и их позиции, но и фундаментальные физические свойства - такие как масса, стабильность, возможность скольжения или вращения, а также функциональные возможности объектов (например, "ручка позволяет тянуть", "крышка может открываться"). Интеграция этих компонентов реализуется через сложную систему обратной связи, где Intuitive Perceptor обеспечивает текущее понимание сцены, а Memory Graph предлагает контекстуально-зависимые рекомендации на основе истории взаимодействий. Эта архитекктура позволяет роботу делать обоснованные предположения о наиболее эффективных способах взаимодействия с новыми объектами без необходимости в явных инструкциях или точных моделях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ Р

Annotation:

Traditional control and planning for robotic manipulation heavily rely on precise physical models and predefined action sequences. While effective in structured environments, such approaches often fail in real-world scenarios due to modeling inaccuracies and struggle to generalize to novel tasks. In contrast, humans intuitively interact with their surroundings, demonstrating remarkable adaptability, making efficient decisions through implicit physical understanding. In this work, we propose INTE...

ID: 2508.04931v1 cs.RO, cs.AI

arXiv PDF

📄 Hierarchical Deep Deterministic Policy Gradient for Autonomous Maze Navigation of Mobile Robots

2025-08-09

Авторы:

Wenjie Hu, Ye Zhou, Hann Woei Ho

## КОНТЕКСТ И ПРОБЛЕМАТИКА Навигация по лабиринту является ключевой задачей в робототехнике, требующей от мобильных роботов эффективного перемещения в сложных средах. Эта задача представляет собой сложную проблему, особенно в условиях наличия разреженных наград, неэффективной исследовательской стратегии и сложностей в планировании длительных траекторий. Традиционное применение алгоритма Deep Deterministic Policy Gradient (DDPG), который доказал свою эффективность в задачах управления, не всегда дает желаемые результаты в лабиринтной навигации. Основные проблемы связаны со слабой устойчивостью, недостаточной эффективностью исследования среды и неоптимальным выполнением задач на длительных горизонтах времени. Эти недостатки часто приводят к низким показателям успешности и средним наградам, а в некоторых случаях даже к неудаче в достижении цели. Мотивацией для разработки нового подхода является необходимость улучшения эффективности и стабильности навигации, а также преодоление текущих ограничений DDPG. Требуется метод, который может эффективно разрешать проблемы разреженности наград и недостаточной исследовательской активности, обеспечивая устойчивую и надежную навигацию в сложных средах. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается алгоритм Hierarchical DDPG (HDDPG), который состоит из двух уровней политик: высокоуровневой и низкоуровневой. Высокоуровневая политика использует расширенный DDPG для генерации промежуточных подцелей (subgoals) с более длительной временной шкалой, что позволяет управлять задачей с высокоуровневой перспективы. Низкоуровневая политика, также основана на улучшенном DDPG и отвечает за генерацию примитивных действий на основе текущего состояния и назначенной подцели. Для улучшения стабильности используется off-policy correction, который рефинирует подцели путем переобозначения исторических опытов. Для улучшения исследования среды применяется адаптивный параметрический шум, что позволяет роботу более эффективно изучать неизученные области. Также вводится переопределенная функция награды, которая сочетает внутреннюю и внешнюю награду для повышения эффективности обучения. Дополнительные оптимизации, такие как gradient clipping и Xavier initialization, применяются для повышения робустности алгоритма. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки производительности HDDPG были проведены эксперименты в симуляционной среде, используя Robot Operating System (ROS) и Gazebo. Эксперименты включали три различных цели в задачах автономной навигации по лабиринту. HDDPG показал значительное улучшение по сравнению с базовым DDPG и его вариантами, увеличивший успешность навигации на 56.59% и среднюю награду на 519.03 единиц. Эти результаты демонстрируют высокую эффективность и стабильность предлагаемого метода в решении задач лабиринтной навигации. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый HDDPG алгоритм имеет широкое применение в области мобильной роботике, особенно в задачах автономной навигации в сложных средах. Его преимущества включают высокую устойчивость, эффективность исследования и улучшенное планирование на длительных горизонтах. Это может быть применено в различных сферах, таких как поиск и спасение, логистика и инспекция инфраструктуры, где требуется высокая производительность в условиях сложности и неопределенности среды. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы был разработан эффективный алгоритм HDDPG, который значительно улучшает производительность навигации мобильных роботов в лабиринтах. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритма, в том числе на адаптации к другим типам сред и задач, а также на интеграции с другими технологиями, такими как коммуникация между роботами и многоагентные системы.

Annotation:

Maze navigation is a fundamental challenge in robotics, requiring agents to traverse complex environments efficiently. While the Deep Deterministic Policy Gradient (DDPG) algorithm excels in control tasks, its performance in maze navigation suffers from sparse rewards, inefficient exploration, and long-horizon planning difficulties, often leading to low success rates and average rewards, sometimes even failing to achieve effective navigation. To address these limitations, this paper proposes an ...

ID: 2508.04994v1 cs.RO, cs.AI

arXiv PDF

📄 Chemist Eye: A Visual Language Model-Powered System for Safety Monitoring and Robot Decision-Making in Self-Driving Laboratories

2025-08-09

Авторы:

Francisco Munguia-Galeano, Zhengxue Zhou, Satheeshkumar Veeramani, Hatem Fakhruldeen, Louis Longley, Rob Clowes, Andrew I. Cooper

## КОНТЕКСТ И ПРОБЛЕМАТИКА С быстрым развитием самоуправляемых лабораторий (SDL), где роботы и автоматизация играют ключевую роль в проведении экспериментов, возникает необходимость в улучшении безопасности. Традиционные лаборатории уже сталкиваются с рисками, связанными с химическими реакциями, огнём и несоблюдением правил безопасности. Однако SDL добавляют новые уровни сложности, особенно когда речь заходит о безопасности роботов, которые используют литиевые батареи, подверженные взрывам при контакте с огнём. Несмотря на то, что персональная защитная экипировка (PPE) является важной составляющей безопасности в лабораториях, в SDL существует риск того, что роботы могут не отреагировать на несоблюдение PPE или на нештатные ситуации, такие как пожар. Дополнительная проблема заключается в том, что роботы в SDL должны быть способны быстро реагировать на потенциальные опасности, в том числе на ситуации, когда сотрудники лаборатории могут быть пострадавшими в результате аварии или медицинского экстренного случая. Это требует разработки системы, которая может не только отслеживать эти риски, но и предоставлять решения в режиме реального времени для предотвращения инцидентов. Таким образом, целью данного исследования является создание системы, которая может обеспечить безопасность в самоуправляемых лабораториях, интегрируя визуальное мониторинг и принятие решений на основе технологии компьютерного зрения и естественного языка. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработанная система, называемая **Chemist Eye**, представляет собой распределенную систему мониторинга безопасности, основанную на визуально-языковой модели (VLM). Она состоит из нескольких станций, оборудованных камерами RGB, дальномерами и инфракрасными датчиками, предназначенными для отслеживания инцидентов в SDL. Система использует VLM для обработки визуальных данных и принятия решений на основе их анализа. Chemist Eye распознает различные типы опасностей, включая несоблюдение PPE, пожары и медицинские экстренные ситуации. Если система обнаруживает пожар, она пытается переместить роботов в безопасное место, удаляя их от потенциальных источников опасности. Также Chemist Eye может выдавать звуковые предупреждения и отправлять уведомления через сторонние местоположения, такие как мессенджеры, для немедленного оповещения персонала. Архитектура системы построена на интеграции нескольких датчиков и камер, которые обеспечивают полное покрытие лабораторного пространства. Данные с камер обрабатываются в режиме реального времени, и VLM выполняет классификацию объектов и событий, что позволяет системе быстро реагировать на потенциальные опасности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Chemist Eye были проведены тесты в реальной среде SDL, оснащенной тремя мобильными роботами. Система была протестирована на различных сценариях, включая обнаружение пожаров, несоблюдение правил PPE и медицинские ситуации. Результаты показали, что Chemist Eye может точно обнаруживать потенциальные опасности с точностью 97% и принимать решения с точностью 95%. В ходе экспериментов система успешно определяла пожары и перемещала роботов в безопасные зоны, а также выдавала предупреждения при обнаружении рисков, связанных с PPE. Кроме того, система быстро отправляла уведомления персоналу через мессенджеры, обеспечивая быструю реакцию на инциденты. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Chemist Eye предлагает значительные преимущества для безопасности в SDL. Она позволяет обеспечить реальное время мониторинга и быструю реакцию на потенциальные опасности, что является критически важной задачей в среде, где роботы и люди работают рядом. Система может быть интегрирована в существующие системы безопасности, что делает ее пригодной для широкого круга приложений в лабораторной практике. Кроме того, Chemist Eye может быть использована в других отраслях, где необходима система безопасности с интеграцией роботов, например в производственных средах. Ее мониторинг и реагирование на опасности могут существенно улучшить безопасность и уменьшить риски для персонала. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование демонстрирует успешное применение визуально-языковых моделей для мониторинга безопасности в SDL. Chemist Eye показала высокую точность в обнаружении опасностей и принятии решений, что делает ее полезной для реального применения. В будущем, этот подход может быть расширен для использования в более широких контекстах, включая производственные среды и другие сферы, требующие высокой безопасности. Будущие исследования могут фокусироваться на дальнейшем улучшении точности модели, а также на расширении функций системы для включения более сложных ситуаций, таких как работа с опасными химическими веществами. Также важно исследовать, как система может быть адаптирована для работы в различных типах лабораторных сред.

Annotation:

The integration of robotics and automation into self-driving laboratories (SDLs) can introduce additional safety complexities, in addition to those that already apply to conventional research laboratories. Personal protective equipment (PPE) is an essential requirement for ensuring the safety and well-being of workers in laboratories, self-driving or otherwise. Fires are another important risk factor in chemical laboratories. In SDLs, fires that occur close to mobile robots, which use flammable ...

ID: 2508.05148v1 cs.RO, cs.AI

arXiv PDF

📄 FCBV-Net: Category-Level Robotic Garment Smoothing via Feature-Conditioned Bimanual Value Prediction

2025-08-09

Авторы:

Mohammed Daba, Jing Qiu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Роботизированная манипуляция текстильных изделий, такая как двуручное выравнивание (bimanual smoothing), представляет собой значительную проблему в области робототехники. Эта задача характеризуется высокой размерностью, сложностью динамики и внутрикатегорийными различиями, что делает ее одной из наиболее сложных для решения. Существующие подходы либо переобучаются на визуальных признаках для конкретного экземпляра, либо, несмотря на общую категорийную перцептивную универсальность, не могут точно предсказывать эффективность синергических двуручных действий. Это ограничивает их применимость в реальных условиях. Для достижения успешного выравнивания гардеробных предметов необходимо решать две ключевые проблемы: общую категорийную обобщенность и точность предсказания эффективности двуручных действий. В настоящее время многие методы используют визуальные данные, но страдают от переобучения на конкретные экземпляры или не могут эффективно обобщаться на невиденные ранее объекты. Это особенно актуально в контексте высокой сложности и динамических изменений текстильных материалов. Предлагаемый подход, основанный на обработке 3D-точечных облаков, предназначен для преодоления этих проблем, обеспечивая устойчивость к внутрикатегорийным изменениям и повышая эффективность двуручного выравнивания. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработанная модель, Feature-Conditioned Bimanual Value Network (FCBV-Net), основывается на обработке 3D-точечных облаков для улучшения общей категорийной обобщенности в задаче выравнивания гардеробных предметов. Основная идея FCBV-Net заключается в кондиционировании предсказания значений двуручных действий (bimanual action value) на основе предварительно обученных и замороженных плотных геометрических признаков. Эти признаки обеспечивают высокую устойчивость к внутрикатегорийным различиям гардеробных изделий. Архитектура FCBV-Net состоит из двух основных компонентов: статических геометрических фильтров и обучаемых компонентов, отвечающих за конкретную политику. Предварительно обученные геометрические фильтры позволяют эффективно извлекать ключевые геометрические характеристики из 3D-точечных облаков, не требуя дополнительного обучения. Затем, обучаемые компоненты используют эти признаки для предсказания оптимальных двуручных действий, что обеспечивает высокую эффективность и категорийную обобщенность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности FCBV-Net проведены эксперименты в симуляторе GarmentLab с использованием датасета CLOTH3D. Результаты демонстрируют значительное превосходство FCBV-Net по отношению к существующим подходам. В частности, FCBV-Net показала только 11,5% потерь в эффективности (Steps80) на невиденных ранее изделиях, в то время как 2D-базовая модель испытала 96,2% потерь. Также, FCBV-Net достигла 89% финального покрытия (coverage), превосходя 83% покрытия, достигнутого 3D-моделью на основе предопределенных примитивов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенная модель имеет широкое применение в области робототехники, особенно в сфере автоматической обработки и выравнивания текстильных изделий. Её преимущества включают высокую категорийную обобщенность, устойчивость к изменениям формы и структуры текстильных материалов, а также эффективность в решении сложных двуручных задач. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FCBV-Net представляет собой важный шаг вперед в области роботизированной манипуляции текстильными изделиями. Её успех заключается в декуплировании геометрического понимания от обучения политик действий, что обеспечивает лучшую категорийную обобщенность. В будущем предлагается расширить этот подход на более широкий класс задач роботизированной манипуляции и исследовать его применимость в реальных условиях.

Annotation:

Category-level generalization for robotic garment manipulation, such as bimanual smoothing, remains a significant hurdle due to high dimensionality, complex dynamics, and intra-category variations. Current approaches often struggle, either overfitting with concurrently learned visual features for a specific instance or, despite category-level perceptual generalization, failing to predict the value of synergistic bimanual actions. We propose the Feature-Conditioned Bimanual Value Network (FCBV-Ne...

ID: 2508.05153v1 cs.RO, cs.AI, I.2.9; I.2.6; I.4.8

arXiv PDF

📄 Towards Embodied Agentic AI: Review and Classification of LLM- and VLM-Driven Robot Autonomy and Interaction

2025-08-09

Авторы:

Sahar Salimpour, Lei Fu, Farhad Keramat, Leonardo Militano, Giovanni Toffetti, Harry Edelman, Jorge Peña Queralta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено новой парадигме создания автономных робототехнических систем, в которой роль центрального интеллекта играют фундаментальные модели — большие языковые модели (LLM) и зрительно-языковые модели (VLM). Традиционные подходы к построению поведения роботов опирались на жёстко заданные правила, конечные автоматы или узкоспециализированные нейросети, способные решать лишь заранее предопределённые задачи в ограниченных средах. Однако стремительное развитие фундаментальных моделей, обученных на масштабных интернет-данных, открыло возможность перенести универсальные способности к обобщению, рассуждению и пониманию естественного языка в физический мир. Появление моделей типа GPT-4, PaLM-E или Flamingo позволяет роботу интерпретировать человеческие инструкции в свободной форме, формировать высокоуровневые планы, запрашивать дополнительную информацию и даже самостоятельно исправлять ошибки. Однако интеграция этих моделей в реальные робототехнические системы сталкивается с рядом фундаментальных проблем. Во-первых, LLM/VLM демонстрируют «галлюцинации» и могут выдавать небезопасные или невыполнимые команды. Во-вторых, языковые модели оперируют токенами, тогда как роботам необходимы низкоуровневые сигналы управления (торques, joint angles, end-effector poses). В-третьих, отсутствует единая методология классификации и сравнения подходов: одни работы используют LLM как высокоуровневого планировщика, другие — как генератора кода, третьи — как унифицированный интерфейс к набору специализированных API. Наконец, поле развивается столь стремительно (еженедельно появляются новые open-source проекты, ROS-пакеты и промышленные фреймворки), что традиционные обзоры быстро устаревают. В статье предпринята попытка систематизировать как академические публикации, так и практические наработки сообщества, выделив архитектурные паттерны и предложив таксономию, способную вместить даже экспериментальные прототипы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают двухуровневую методологию. На первом уровне формулируется таксономия, разделяющая все существующие решения по четырём осям: (1) «роль агента», (2) «глубина интеграции модели», (3) «уровень абстракции действий» и (4) «механизм обратной связи». Роль агента охватывает категории «планировщик» (LLM формирует последовательность подзадач), «координатор» (модель выбирает, какой из доступных модулей вызвать), «перцептор» (VLM извлекает семантику из сенсорных данных) и «универсальный интерфейс» (единая точка взаимодействия оператора и системы). Глубина интеграции варьируется от лёгкого «prompt-only» (LLM вызывается как внешняя API без дообучения) до «deep fine-tuning», где модель полностью переобучается на робототехнических датасетах. Уровень абстракции действий разделяет высокоуровневые символьные команды (например, «открой дверь»), среднеуровневые примитивы («схватить ручку») и низкоуровневые сигналы управления (joint torques). Обратная связь может быть лингвистической (успешность задачи описывается текстом), визуальной (сравнение «до/после» кадров) или цифровой (метрики измеряются скалярно). На втором уровне строится сравнительная таблица из 100+ проектов: от ранних работ 2022 года (PaLM-SayCan) до свежих open-source решений вроде ROS 2 GPT Integration или NVIDIA Isaac LLM Agent. Для каждого проекта фиксируется стек ПО (ROS 2, MoveIt, custom simulators), используемые модели (OpenAI GPT-4, Google PaLM-E, open-source LLaVA), типы сенсоров, пространство действий и репортированные метрики. Кроме того, авторы выделяют три архитектурных паттерна: (A) «LLM as Code Generator» (модель пишет Python-скрипты, которые затем исполняются средой), (B) «LLM as Policy Prior» (языковая модель задаёт распределение вероятностей над примитивами, которые уточняются RL или MPC), (C) «LLM as World-Model» (модель имитирует последствия действий и выбирает оптимальные). Предложенная таксономия динамическая: каждый новый проект может быть классифицирован по четырём признакам за

Annotation:

Foundation models, including large language models (LLMs) and vision-language models (VLMs), have recently enabled novel approaches to robot autonomy and human-robot interfaces. In parallel, vision-language-action models (VLAs) or large behavior models (BLMs) are increasing the dexterity and capabilities of robotic systems. This survey paper focuses on those words advancing towards agentic applications and architectures. This includes initial efforts exploring GPT-style interfaces to tooling, as...

ID: 2508.05294v1 cs.RO, cs.AI, cs.LG

arXiv PDF

1
2
52
53
54
55

Показано 531 - 540 из 544 записей