📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control

2025-08-09

Авторы:

Shunlei Li, Longsen Gao, Jin Wang, Chang Che, Xi Xiao, Jiuwen Cao, Yingbai Hu, Hamid Reza Karimi

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие робототехники требует создания систем, способных учиться на основе человеческих демонстраций. Однако традиционные подходы, основанные на имитации низкоуровневых траекторий, сталкиваются со сложностями при адаптации к различным типам объектов, пространственным конфигурациям и конфигурациям манипуляторов. Это ограничивает их применимость в реальных сценариях. Особенностью двуруких роботов является необходимость высокоуровневого пространственного и семантического восприятия, чтобы выполнять задачи, требующие координации между руками. Кроме того, существует проблема генерации политик поведения, которые могли бы быть легко интерпретируемыми и при этом эффективными в исполнении. В данной работе авторы решают эти проблемы, предложив фреймворк, который комбинирует визуальное, языковое и действительное восприятие для решения задач двурукого управления. Основная идея заключается в том, чтобы использовать теоретические подходы к обработке информации для выделения ключевых элементов сцены, таких как руки и объекты, и построить иерархические модели поведения, которые могут быть преобразованы в команды для робота. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод, названный **Graph-Fused Vision-Language-Action (GF-VLA)**, состоит из нескольких этапов. В первую очередь, система использует информационно-теоретические критерии для определения ключевых элементов сцены, таких как руки и объекты, с максимальной релевантностью к задаче. Это позволяет создать **временно упорядоченные сценовые графы**, которые захватывают взаимодействия между руками, объектами и другими элементами сцены. Затем, эти графы функционально связываются с языковым контекстом через трансформерную модель, которая генерирует **иерархические поведенческие деревья** (behavior trees). Эти деревья представляют собой структурированные планы действий, которые могут быть легко интерпретируемыми человеком. Для оптимизации исполнения в двуручных системах, авторы предлагают **политику выбора гриферов** (gripper selection policy), которая определяет оптимальное назначение рук для выполнения задачи без необходимости явного геометрического анализа. Это позволяет улучшить эффективность исполнения задач в двуручных конфигурациях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на четырёх задачах двуручного строительства блоков, включая конструирование символических форм, строительство букв и перестройку геометрических форм. Использованы данные из RGB и Depth камер, которые позволяют моделировать реальные условия работы робота. Результаты показали, что метод GF-VLA достигает высокой точности в построении графов (более 95%) и сегментации подзадач (93%). Использование полученных политик поведения приводит к высоким показателям успешности захвата (94%), точности размещения объектов (89%) и общей успешности выполнения задач (90%). ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкий круг применений в области робототехники, особенно в задачах, требующих координации двух рук. Он может быть использован для обучения роботов на основе человеческих демонстраций в таких сферах, как производство, логистика и медицина. Одним из ключевых преимуществ является возможность генерировать интерпретируемые политики поведения, что упрощает отладку и модификацию задач. Кроме того, метод показывает высокую устойчивость к изменениям в пространственных и семантических условиях, что делает его применимым в различных сценариях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен фреймворк GF-VLA, который успешно решает задачи двуручного управления роботами на основе визуальных и языковых данных. Будущие исследования могут фокусироваться на расширении этого подхода для более сложных задач, включая работу в неструктурированных средах и с более сложными объектами. Также предлагается исследовать возможности интеграции этого метода с другими технологиями, такими как обучение с подкреплением, для дальнейшего улучшения производительности и автономности роботов.

Annotation:

Teaching robots dexterous skills from human videos remains challenging due to the reliance on low-level trajectory imitation, which fails to generalize across object types, spatial layouts, and manipulator configurations. We propose Graph-Fused Vision-Language-Action (GF-VLA), a framework that enables dual-arm robotic systems to perform task-level reasoning and execution directly from RGB and Depth human demonstrations. GF-VLA first extracts Shannon-information-based cues to identify hands and o...

ID: 2508.05342v1 cs.RO, cs.AI

arXiv PDF

📄 Real-Time Iteration Scheme for Diffusion Policy

2025-08-09

Авторы:

Yufei Duan, Hang Yin, Danica Kragic

## КОНТЕКСТ И ПРОБЛЕМАТИКА Диффузионные политики (Diffusion Policies) представляют собой мощный класс методов обучения с подкреплением, демонстрирующий выдающиеся результаты в задачах роботизированной манипуляции. Эти методы основаны на диффузионных моделях, которые генерируют последовательности действий путем итеративного денойзинга (удаления шума) из случайного начального состояния. Однако практическое применение диффузионных политик в реальном времени сталкивается с двумя критическими ограничениями. Первое и основное ограничение - это значительное время инференса, вызванное необходимостью выполнения большого количества итераций денойзинга (обычно 10-100 шагов) для генерации каждой последовательности действий. Этот процесс требует существенных вычислительных ресурсов, что делает затруднительным применение методов в сценариях с жесткими требованиями к латентности, таких как динамичные задачи захвата или манипуляции с быстро движущимися объектами. Второе ограничение связано с особенностью применения диффузионных политик в робототехнике: модель должна сгенерировать "чанк" (порцию) последовательных действий, после чего робот исполняет эти действия полностью, прежде чем будет возможно следующее предсказание. Это ограничение критично для простых задач с коротким временем цикла, где задержка между восприятием и действием должна быть минимальной. Существующие подходы к ускорению диффузионных политик в основном фокусируются на дистилляции моделей в более быстрые архитектуры или полной замене структуры политики. Однако такие методы требуют дополнительного дорогостоящего обучения, что становится особенно проблематичным для крупных моделей с миллионами параметров, распространенных в современной робототехнике. Отсутствие методов, позволяющих ускорить инференс без переобучения модели, создает значительный пробел между теоретическими возможностями диффузионных политик и их практическим применением в реальных системах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новаторский подход, вдохновленный методом Real-Time Iteration (RTI) из области оптимального управления. RTI-схема традиционно используется для ускорения процессов оптимизации путем использования решений с предыдущих временных шагов как начальных приближений для последующих итераций. В контексте диффузионных политик это означает использование траектории денойзинга с предыдущего временного шага как "теплого старта" для текущего предсказания действия. Ключевой инновацией является адаптация RTI для дискретных действий, типичных для роботизированной манипуляции, таких как двоичные команды захвата. Для этого разработан метод масштабирования (scaling-based method), который эффективно обрабатывает дискретные действия в континуальной схеме денойзинга. Метод преобразует дискретные значения в непрерывные переменные с последующим масштабированием, сохраняя при этом дифференцируемость процесса. Архитектура предложенной системы состоит из нескольких ключевых компонентов. Во-первых, реализован механизм сохранения скрытых состояний между временными шагами, что позволяет использовать информацию о предыдущих денойзинг-траекториях. Во-вторых, разработан адаптивный алгоритм определения оптимального начального шага денойзинга на основе теоретического анализа условий сжатия (contractivity conditions). Теоретический вклад работы включает строгий аналог условий сжатия для диффузионного процесса. Эти условия позволяют оценить минимальное количество итераций денойзинга, необходимое для достижения заданной точности, что критично для оптимального баланса между скоростью и качеством. Условия сжатия выводятся через анализ спектральных свойств оператора денойзинга и обеспечивают математически обоснованный способ выбора параметров алгоритма. Предложенная схема интегрируется в существующие предобученные диффузионные модели без необходимости их переобучения или изменения архитектуры. Это достигается через модификацию только процедуры инференса, оставляя обученные веса модели неизменными. Такой подход особенно важен для крупных моделей, где повторное обучение может потребовать значительных вычислительных ресурсов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного мет

Annotation:

Diffusion Policies have demonstrated impressive performance in robotic manipulation tasks. However, their long inference time, resulting from an extensive iterative denoising process, and the need to execute an action chunk before the next prediction to maintain consistent actions limit their applicability to latency-critical tasks or simple tasks with a short cycle time. While recent methods explored distillation or alternative policy structures to accelerate inference, these often demand addit...

ID: 2508.05396v1 cs.RO, cs.AI

arXiv PDF

📄 Towards Generalizable Safety in Crowd Navigation via Conformal Uncertainty Handling

2025-08-08

Авторы:

Jianpeng Yao, Xiaopan Zhang, Yu Xia, Zejin Wang, Amit K. Roy-Chowdhury, Jiachen Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область автономной навигации мобильных роботов в густонаселенных средах является одной из наиболее критически важных и сложных задач современной робототехники. Роботы, обученные с использованием методов обучения с подкреплением (RL), демонстрируют впечатляющие результаты в контролируемых условиях, однако сталкиваются с серьезными проблемами при выходе за пределы обучающего распределения. Это явление, известное как проблема распределения (distribution shift), становится особенно критичным в динамических сценариях с пешеходами, где даже небольшие изменения в поведении людей могут привести к катастрофическим последствиям. Существующие подходы к обеспечению безопасности в навигации часто полагаются на предопределенные правила или консервативные стратегии, которые ограничивают маневренность робота и снижают эффективность в типовых ситуациях. Более того, традиционные методы не учитывают неопределенность в прогнозировании поведения пешеходов, что становится решающим фактором при столкновении с нестандартными паттернами движения. Например, внезапное изменение скорости группы пешеходов, появление агрессивно настроенных индивидов или переход от индивидуального к групповому поведению может привести к систематическим провалам в безопасности. Авторы статьи акцентируют внимание на фундаментальном недостатке современных RL-систем: они оптимизируются только для ожидаемого распределения данных, игнорируя хвостовые сценарии, которые могут быть редкими, но критически важными для безопасности. Это создает ложное чувство надежности и делает таких роботов непригодными для реального применения в неструктурированных человеческих средах. Необходим новый подход, который бы интегрировал оценку неопределенности напрямую в процесс принятия решений, позволяя роботу адаптивно реагировать на непредвиденные обстоятельства без компромисса в эффективности. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют революционный метод, который решает проблему устойчивости к распределениям через интеграцию адаптивного конформного вывода (adaptive conformal inference) в процесс обучения с подкреплением. Система работает по принципу двухуровневой архитектуры: на первом уровне модель прогнозирует будущие траектории пешеходов с оценкой неопределенности, а на втором - использует эти оценки для принятия безопасных решений. Ключевым инновационным элементом является использование конформного предиктора, который генерирует калиброванные доверительные интервалы для предсказаний движения пешеходов. В отличие от традиционных вероятностных методов, конформный вывод обеспечует гарантированный уровень покрытия независимо от базового распределения данных. Система динамически адаптирует эти интервалы на основе текущей сцены, учитывая такие факторы как плотность толпы, скорость движения и исторические паттерны поведения. Внедрение неопределенностей в пространство наблюдений агента осуществляется через специально разработанное представление, включающее как предсказанные траектории, так и соответствующие им доверительные области. Это позволяет агенту не просто реагировать на предсказанное поведение, но и учитывать вероятность отклонения от этих предсказаний. Обучение проводится с использованием метода ограниченного обучения с подкреплением (constrained RL), где ограничения формулируются в терминах максимально допустимого уровня неопределенности при взаимодействии с человеком. Архитектура системы включает три основных компонента: модуль прогнозирования траекторий на основе LSTM-сети с вниманием, модуль конформного предиктора для генерации доверительных регионов, и политику агента, обученную через алгоритм Proximal Policy Optimization (PPO) с safety constraints. Уникальность подхода заключается в том, что границы безопасности адаптируются онлайн, реагируя на текущий уровень неопределенности в среде. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Комплексное экспериментальное исследование проводилось в трех основных направлениях: оценка производительности в in-distribution сценариях, тестирование robustness при различных видах distribution shift, и валидация на реальном роботе. Для in-distribution оценки использовался симуляционный датасет, включающий 10,000 с

Annotation:

Mobile robots navigating in crowds trained using reinforcement learning are known to suffer performance degradation when faced with out-of-distribution scenarios. We propose that by properly accounting for the uncertainties of pedestrians, a robot can learn safe navigation policies that are robust to distribution shifts. Our method augments agent observations with prediction uncertainty estimates generated by adaptive conformal inference, and it uses these estimates to guide the agent's behavior...

ID: 2508.05634v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 From MAS to MARS: Coordination Failures and Reasoning Trade-offs in Hierarchical Multi-Agent Robotic Systems within a Healthcare Scenario

2025-08-08

Авторы:

Yuanchen Bai, Zijian Ding, Shaoyue Wen, Xiang Chang, Angelique Taylor

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область многоагентных робототехнических систем (MARS) представляет собой естественное развитие традиционных многоагентных систем (MAS), дополненное физическими ограничениями и задачами реального мира. В отличие от чисто программных агентов, роботы-агенты должны учитывать пространственные ограничения, физические взаимодействия с окружающей средой и ограничения аппаратного обеспечения. Это значительно усложняет процесс координации и выполнения действий, превращая абстрактные алгоритмы в конкретные физические операции. Healthcare-сектор становится особенно перспективным для внедрения MARS, поскольку медицинские учреждения сталкиваются с растущими нагрузками и потребностью в автоматизации рутинных процессов. Однако несмотря на наличие продвинутых многоагентных фреймворков, их реальное развертывание на роботах остается ограниченным. Это создает значительный разрыв между теоретическими разработками и практическим применением. Ключевые проблемы, мешающие внедрению, включают: невозможность заранее предсказать все возможные сценарии взаимодействия агентов, сложность обработки реальных отказов оборудования, необходимость обеспечения безопасности пациентов и персонала, а также проблему масштабируемости при увеличении количества роботов. Традиционные подходы, основанные на предоставлении контекстных знаний, часто оказываются недостаточными для решения координационных сбоев, возникающих в динамичной реальной среде. Авторы статьи фокусируются на иерархических многоагентных фреймворках, которые обещают более эффективную координацию за счет структурирования взаимодействий между агентами. Особое внимание уделяется изучению компромиссов между различными уровнями автономности агентов и общей стабильностью системы, что критически важно для обеспечения надежности в медицинских приложениях. ## ПРЕДЛОЖЕННЫЙ МЕТОД Исследование проводится в два этапа с использованием двух различных фреймворков для многоагентных систем: CrewAI и AutoGen. Первый этап (Study 1) сосредоточен на систематическом выявлении и категоризации координационных сбоев с помощью CrewAI, в то время как второй этап (Study 2) оценивает переработанную структуру двунаправленной коммуникации с использованием AutoGen. В Study 1 применяется итеративный подход к уточнению базы знаний системы. Процесс включает многократные циклы тестирования, где после каждого обнаруженного сбоя в базу знаний добавляются новые контекстные данные. Это позволяет выявить типы координационных сбоев, которые не могут быть решены только путем предоставления дополнительного контекста. Основные категории сбоев включают: нарушения доступа к инструментам (tool access violations), несвоевременную обработку отчетов об ошибках, конфликты при доступе к общим ресурсам и проблемы с приоритизацией задач. Study 2 вводит переработанную архитектуру двунаправленной коммуникации между агентами, где каждый агент может инициировать коммуникацию и получать обратную связь от других агентов. Это противопоставляется традиционной иерархической модели, где коммуникация происходит преимущественно сверху вниз. Кроме того, исследуется влияние использования моделей с различными способностями к рассуждению: одни агенты оснащены продвинутыми возможностями логического вывода, в то время как другие опираются на более простые шаблонные реакции. Экспериментальная среда моделирует реальное медицинское учреждение с множеством роботов, выполняющих различные задачи: доставка медикаментов, сопровождение пациентов, уборка помещений и техническое обслуживание оборудования. Система включает в себя физические ограничения, такие как ограниченное пространство, приоритеты доступа к ресурсам и возможные отказы оборудования. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках Study 1 было проведено более 200 итераций тестирования с CrewAI, что позволило выявить 47 уникальных сценариев координационных сбоев. Классификация этих сбоев выявила четыре основные категории: 38% сбоев связаны с нарушениями доступа к инструментам и оборудованию, 27% - с несвоевременной обработкой отчетов об ошибках, 21% - с

Annotation:

Multi-agent robotic systems (MARS) build upon multi-agent systems by integrating physical and task-related constraints, increasing the complexity of action execution and agent coordination. However, despite the availability of advanced multi-agent frameworks, their real-world deployment on robots remains limited, hindering the advancement of MARS research in practice. To bridge this gap, we conducted two studies to investigate performance trade-offs of hierarchical multi-agent frameworks in a si...

ID: 2508.04691v1 cs.RO, cs.AI, cs.MA

arXiv PDF

Показано 541 - 544 из 544 записей