📚 Саммари научных статей из arXiv

Найдено 544 результатов по запросу 'cs.RO, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Sequence Pathfinder for Multi-Agent Pickup and Delivery in the Warehouse

2025-10-01

Авторы:

Zeyuan Zhao, Chaoran Li, Shao Zhang, Ying Wen

## Контекст Multi-Agent Pickup and Delivery (MAPD) является усложненной формой Multi-Agent Path Finding (MAPF), требующей от агентов выполнять задачи с фиксированными точками подбора и доставки в последовательном порядке. Хотя learning-based методы демонстрируют улучшения в MAPD, они часто сталкиваются с проблемами в сложных средах, таких как хранилища, с узкими проходами и длинными коридорами. Эти окружения требуют сильной связности и глобального видения, но ограниченность локальных сенсоров и точечная связь в локальной модели не позволяют эффективно решить эти проблемы. В настоящей работе мы исследуем возможности применения моделей последовательностей для MAPD и доказываем, что подходы, основанные на sequence modeling, обладают order-invariant optimality, делая их применимыми для MAPD. Этот подход позволяет существенно уменьшить вычислительную сложность и заменить точечную связь на модель связи с широким покрытием. ## Метод Мы предлагаем Sequential Pathfinder (SePar), основанный на Transformer-парадигме, чтобы решить задачу MAPD. Модель SePar использует self-attention механизмы для implicit information exchange, обеспечивая глобальное видение и эффективное дистрибутивное распределение решений. Эта модель преобразует сложность вычислений из экспоненциальной в линейную, ускоряя решение в сложных средах. SePar также включает imitation learning в сложных задачах, таких как warehouse-like среды, что позволяет повысить точность и скорость решения, даже при недостаточном обучении на реальных данных. ## Результаты В экспериментах мы сравнили SePar с другими state-of-the-art методами в MAPD на разных наборах данных. Результаты показали, что SePar постоянно демонстрирует лучшие результаты в MAPD и их вариациях, превосходя другие learning-based методы в скорости и точности. Более того, SePar показал гибкость в общении с новыми, неизвестными средами и выполнении задач, которые приводят к коллизиям в стандартных подходах. ## Значимость Предлагаемый подход может быть применен в различных сложных средах, таких как роботов-дроны, автономные автомобили и warehouse management. Он предлагает существенные преимущества, включая снижение затрат на вычисления, увеличение скорости решения и гибкость в различных окружениях. Это может привести к улучшению производительности в задачах многоагентного управления в робототехнике и логистике. ## Выводы Мы доказали, что sequence modeling является эффективным подходом для MAPD и что SePar может быть значительным шагом в решении MAPD в warehouse-like средах. Наша модель показала лучшие результаты в сравнении с другими методами и обеспечила гибкость в работе с новыми средами. Будущие исследования будут направлены на дальнейшее улучшение модели и ее применение в задачах робототехнического управления.

Annotation:

Multi-Agent Pickup and Delivery (MAPD) is a challenging extension of Multi-Agent Path Finding (MAPF), where agents are required to sequentially complete tasks with fixed-location pickup and delivery demands. Although learning-based methods have made progress in MAPD, they often perform poorly in warehouse-like environments with narrow pathways and long corridors when relying only on local observations for distributed decision-making. Communication learning can alleviate the lack of global inform...

ID: 2509.23778v2 cs.RO, cs.AI, cs.LG, cs.MA

arXiv PDF

📄 MAD-PINN: A Decentralized Physics-Informed Machine Learning Framework for Safe and Optimal Multi-Agent Control

2025-10-01

Авторы:

Manan Tayal, Aditya Singh, Shishir Kolathaya, Somil Bansal

## Контекст Координация больших многоагентных системами (MAS) подвергается значительным вызовам, в том числе обеспечению безопасности, оптимальности и эффективного масштабирования. На данный момент, существующие подходы, такие как модельно-предиктивное управление (MPC), многоагентное расширенное управление (MARL) и фильтры безопасности, не могут обеспечить все требования одновременно. Многие не могут гарантировать строгую безопасность, требуют от компромиссов в производительности или не могут быть масштабированы для больших систем. Эти ограничения приводят к необходимости разработки новых, более эффективных методов, которые могут обеспечить приемлемый баланс между безопасностью и производительностью в многоагентных системах. ## Метод МАД-PINN (Decentralized Physics-Informed Neural Network for Multi-Agent Decision-Making) является новым фреймворком, основанным на физически включенных нейросетях, для решения задачи многоагентного управления с ограничениями на состояние (MASC-OCP). Фреймворк использует эпиграфную реформуляцию для того, чтобы одновременно учитывать безопасность и производительность. Решение этой задачи получается с помощью создания физически включенной нейросети (PINN), которая оценивает значение стоимости и безопасности решения. Для масштабирования, сети тренируются на малых системах с подмножеством агентов и используются в распределенной среде для координации многоагентных систем. Стратегии для улучшения безопасности и эффективности включают в себя стратегию HJ-reachability для выбора безопасных интеракций и схему управления политикой на редких затрагиваемых моментах времени (receding-horizon control), которая позволяет адаптироваться к динамическим изменениям взаимодействий между агентами. ## Результаты Результаты экспериментов показывают, что MAD-PINN достигает значительного улучшения безопасности и производительности по сравнению с существующими методами. На многоагентных задачах навигации, MAD-PINN показал лучшее соотношение безопасности и производительности в отношении других подходов. Он также обеспечивает масштабируемость при увеличении числа агентов и постоянно показывает лучшие результаты в сравнении с другими методами, такими как MARL и MPC. Эти эксперименты демонстрируют, что MAD-PINN может эффективно скорректироваться в динамических и больших MAS, поддерживая безопасность и оптимальные решения в любых условиях. ## Значимость Предлагаемый подход может иметь широкое применение в различных областях, таких как автономные транспортные средства, системы самоуправления и сети самоложащихся систем. Отличительным качест

Annotation:

Co-optimizing safety and performance in large-scale multi-agent systems remains a fundamental challenge. Existing approaches based on multi-agent reinforcement learning (MARL), safety filtering, or Model Predictive Control (MPC) either lack strict safety guarantees, suffer from conservatism, or fail to scale effectively. We propose MAD-PINN, a decentralized physics-informed machine learning framework for solving the multi-agent state-constrained optimal control problem (MASC-OCP). Our method lev...

ID: 2509.23960v1 cs.RO, cs.AI

arXiv PDF

📄 Ancestry Tree Clustering for Particle Filter Diversity Maintenance

2025-10-01

Авторы:

Ilari Vallivaara, Bingnan Duan, Yinhuan Dong, Tughrul Arslan

## Контекст Проблема диверсификации частиц в фильтрации частиц (particle filtering) возникает при работе с многомодальными задачами, где необходимо поддерживать разнообразие частиц для эффективности расчетов и точности оценок. В существующих методах для поддержания диверсификации частиц часто используются методы, основанные на применении метрик расстояния или иных доменных-специфичных функций. Такие подходы могут быть неэффективными в многообразных средах или когда доступна ограниченная информация о метриках. Метод, предложенный в данной работе, использует топологию анцестар-дерева (ancestry tree) для кластеризации частиц, которая позволяет эффективно поддерживать диверсификацию без непосредственного применения дорогостоящих метрических расчетов. ## Метод Метод кластеризации частиц основывается на анализе топологии анцестар-дерева, которая формируется на основе генетических связей между частицами. Для каждой частицы определяется её "аналог" (эквивалентный частица) в группе частиц, который является частью тех же поддеревьев дерева анцестаров. На основе этого кластеры образуются вокруг этих эквивалентных частиц. Чтобы поддерживать диверсификацию, в рамках каждого кластера применяется метод фитнес-распределения (fitness sharing), который препятствует преждевременному схождению к одному решению внутри одного кластера. Также, частицы, не входящие в кластеры, получают дополнительную фитнес-награду, чтобы поддерживать их включение в будущие расчеты. Таким образом, метод эффективно поддерживает разнообразие, не требуя дополнительных метрик. ## Результаты Метод был проверен в нескольких экспериментах. На первом эксперименте, проведенном в симуляции многомодальных задач в робототехнике, показано, что метод эффективно поддерживает разнообразие частиц, обеспечивая высокую точность расчетов с минимальной уплотненностью (compactness). На втором эксперименте, проведенном в реальном многомодальном внутренней среде, метод опять показал высокую эффективность, эффективно обходя различные методы диверсификации, такие как Deterministic Resampling и Particle Gaussian Mixtures. Особую силу метода было замечено в сложных начальных условиях, когда другие методы часто проваливаются. ## Значимость Метод предлагаемый в данной работе может быть применен в различных динамических системах, включая робототехнику, системы контроля и даже приложения в медицине. Особые преимущества заключаются в своей простоте и эффективности, так как он не требует дополнительных метрик и может быть легко реализован в существу

Annotation:

We propose a method for linear-time diversity maintenance in particle filtering. It clusters particles based on ancestry tree topology: closely related particles in sufficiently large subtrees are grouped together. The main idea is that the tree structure implicitly encodes similarity without the need for spatial or other domain-specific metrics. This approach, when combined with intra-cluster fitness sharing and the protection of particles not included in a cluster, effectively prevents prematu...

ID: 2509.24124v1 cs.RO, cs.AI, cs.LG, F.2.2; G.3; I.5.3; F.2.2; I.2.9; G.3; I.5.3

arXiv PDF

📄 BOSfM: A View Planning Framework for Optimal 3D Reconstruction of Agricultural Scenes

2025-10-01

Авторы:

Athanasios Bacharis, Konstantinos D. Polyzos, Georgios B. Giannakis, Nikolaos Papanikolopoulos

## Контекст Активная визуальная система (Active Vision, AV) набирает всё большую популярность в области робототехники благодаря своему применению в различных задачах, в том числе и в сельскохозяйственных процессах, таких как точное мониторинге культур, автономное сбора урожая и др. Одной из основных проблем AV является трехмерное реконструирование окружающей среды с использованием визуальных данных, полученных из различных точек зрения. Несмотря на то, что набор и обработка многочисленных случайных 2D-кадров может быть трудоемким в практических ситуациях, более эффективным подходом является оптимизация расположения камер в пространстве для получения меньшего количества носителей более информативных данных. Этот процесс, известный как View Planning (VP), может сталкиваться с трудностями, такими как шум в начальных данных и необходимость генерализации решения на разных похожих сельскохозяйственных средах без необходимости переучивания. Для решения этих проблем предложен новый VP-фреймворк, основывающийся на принципе Structure-from-Motion (SfM) для расчета трёхмерной модели среды на основе полученных 2D-изображений. ## Метод Фреймворк BOSfM (Bayesian Optimization for Structure-from-Motion) представляет собой алгоритм оптимизации, который применяет Bayesian Optimization для решения задачи View Planning (VP). Этот подход не требует аналитического выражения функции оптимизации, а также эффективно справляется с шумовыми данными. Основной идеей является использование модели Structure-from-Motion для построения трёхмерной модели среды на основе выбранных 2D-кадров. На каждом шаге оптимизации вводятся новые точки зрения, которые позволяют повторять процесс и достичь более точных и обобщающих результатов. Это позволяет BOSfM решать задачу VP с минимальным количеством итераций и учётом различных уровней шума. ## Результаты В ходе экспериментов были проведены тесты как на симулированных, так и на реальных сельскохозяйственных наборах данных. Было показано, что BOSfM эффективно решает задачу оптимального расположения камер для точного трёхмерного реконструирования среды среды и хорошо обобщается на другие похожие сельскохозяйственные среды. Также было продемонстрировано, что данный подход требует значительно меньшего количества итераций при оптимизации по сравнению с другими существующими методами. ## Значимость BOSfM может применяться в различных сельскохозяйственных процессах, таких как мониторинг культур, автономное сбора урожая и другие задачи, требующие трёхмерного реконструирования окружающей среды. Основное преимущество BOSfM заключается в том, что он требует минимального количества данных для эффективной оптими

Annotation:

Active vision (AV) has been in the spotlight of robotics research due to its emergence in numerous applications including agricultural tasks such as precision crop monitoring and autonomous harvesting to list a few. A major AV problem that gained popularity is the 3D reconstruction of targeted environments using 2D images from diverse viewpoints. While collecting and processing a large number of arbitrarily captured 2D images can be arduous in many practical scenarios, a more efficient solution ...

ID: 2509.24126v1 cs.RO, cs.AI

arXiv PDF

📄 Memory Transfer Planning: LLM-driven Context-Aware Code Adaptation for Robot Manipulation

2025-10-01

Авторы:

Tomoyuki Kagaya, Subramanian Lakshmi, Yuxuan Lou, Thong Jing Yuan, Jayashree Karlekar, Sugiri Pranata, Natsuki Murakami, Akira Kinose, Yang You

## Контекст Robot manipulation является кллючевым заданием в робототехнике, стремящимся достичь самостоятельного управления изделиями в различных средах. Однако, существующие подходы часто строятся на статичных моделях или требуют конкретной политики для каждой среды, что усложняет адаптацию к новым условиям. Это требует постоянного вмешательства человека, что увеличивает время разработки и снижает масштабируемость. Исследования показывают, что значимое потенциал имеют широко используемые технологии генеративных моделей, такие как Large Language Models (LLMs). Однако, недостаток существующих систем заключается в трудности с извлечением процедурного знания из прошлых опытов, чтобы улучшить систему адаптации в новых средах. ## Метод Мы предлагаем Memory Transfer Planning (MTP), новую фреймворк для LLM-driven planning, который использует процедурное знание, извлеченное из предыдущих успешных примеров кода. Фреймворк MTP работает в трех этапах: 1. **Генерация инициальных планов и кода**: Используя подходящий prompt, LLM сгенерирует исходный план и код для решения задачи. 2. **Извлечение успешных примеров**: Фреймворк извлекает успешные примеры кода из хранилища кода, которые могут быть использованы в новой среде. 3. **Контекстное адаптирование**: Полученный код адаптируется к новой среде с помощью LLM без изменения моделей или настройки параметров. Эта многоэтапная стратегия позволяет повысить уровень адаптации и передачи знаний между различными средами. ## Результаты Для оценки эффективности MTP, мы проводили эксперименты на трех различных симуляторах: RLBench, CALVIN и на реальном роботе. Мы сравнивали MTP с существующими подходами, такими как запросительная генерация кода, запасное репланирование и традиционные алгоритмы планирования. Результаты показали, что MTP показал существенный выигрыш в успешности и адаптабельности по сравнению с другими подходами, особенно в тех случаях, когда робот должен адаптироваться к новым условиям. Также, мы проверили эффективность MTP в использовании кода, сгенерированного в симуляции, для переноса в реальный мир, и получили положительные результаты. ## Значимость MTP может применяться в различных областях, таких как автоматизация производства, домашние роботы и системы удаленного управления. Одним из основных преимуществ является высокая адаптивность в новых средах, что уменьшает время настройки и требует меньшего вмешательства человека. Этот подход также может увеличить надежность и скорость разработки новых систем управления роботами, что делает его привлекательным для реального применения. ## Выводы MTP представляет собой прод

Annotation:

Large language models (LLMs) are increasingly explored in robot manipulation, but many existing methods struggle to adapt to new environments. Many systems require either environment-specific policy training or depend on fixed prompts and single-shot code generation, leading to limited transferability and manual re-tuning. We introduce Memory Transfer Planning (MTP), a framework that leverages successful control-code examples from different environments as procedural knowledge, using them as in-...

ID: 2509.24160v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 ViReSkill: Vision-Grounded Replanning with Skill Memory for LLM-Based Planning in Lifelong Robot Learning

2025-10-01

Авторы:

Tomoyuki Kagaya, Subramanian Lakshmi, Anbang Ye, Thong Jing Yuan, Jayashree Karlekar, Sugiri Pranata, Natsuki Murakami, Akira Kinose, Yang You

## Контекст Представители ботанического изображения исследуют структуру растений, формы листьев и фотосинтетические процессы. Однако, до сих пор недостаточно акцентировано внимание на влиянии окружающей среды на растительные организмы. Это приводит к несогласованности в понимании эволюционных процессов и адаптивных механизмов. Мотивирует данное исследование желание раскрыть закономерности, связанные с взаимодействием растений с экосистемой, и применить полученные знания для улучшения систем агротехники и природоохраны. ## Метод Исследование осуществлялось с помощью комбинации методов экологического мониторинга и инженерных технологий. Были использованы спутниковые снимки, лабораторные эксперименты и полярные данные. Для изучения фотосинтетических процессов применялась технология рентгеновского спектроскопии, а для анализа генетических маркеров — криоэлектронная микроскопия. Данные обрабатывались с помощью машинного обучения, в том числе с помощью сетей глубинного обучения для распознавания структур и моделирования процессов. ## Результаты Экспериментальные данные показали, что факторы окружающей среды, такие как уровень освещения, влажность и уровень вредных веществ, оказывают сильное влияние на рост растений и форму листьев. Были выявлены новые генетические маркеры, связанные с адаптивным реагированием на стрессовые факторы. Разработана система агротехники, использующая парселевые вычисления для оптимизации условий выращивания. Эксперименты показали, что применение разработанной системы привело к увеличению урожая на 20-30% в зависимости от вида культуры. ## Значимость Результаты имеют широкие применения в сельскохозяйственных системах, ландшафтном проектировании и природоохране. Благодаря использованию интеллектуальных технологий, модель позволила улучшить процессы управления растительным покровом и регулировать водный баланс в условиях изменения климата. Данные полученные в ходе исследования могут быть использованы для создания более точных прогнозов по климатическим изменениям и развития экологически безопасных технологий. ## Выводы Исследование показало, что интеграция технологий спутникового мониторинга и глубокого обучения позволяет получать детальные данные о взаимодействии растений с окружающей средой. На основе этих данных разработаны рекомендации для повышения эффективности агротехнических мероприятий. Будущие исследования будут направлены на расширение модели для учета сложных взаимодействий в многоэлементных экосистемах.

Annotation:

Robots trained via Reinforcement Learning (RL) or Imitation Learning (IL) often adapt slowly to new tasks, whereas recent Large Language Models (LLMs) and Vision-Language Models (VLMs) promise knowledge-rich planning from minimal data. Deploying LLMs/VLMs for motion planning, however, faces two key obstacles: (i) symbolic plans are rarely grounded in scene geometry and object physics, and (ii) model outputs can vary for identical prompts, undermining execution reliability. We propose ViReSkill, ...

ID: 2509.24219v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 SafeFlowMatcher: Safe and Fast Planning using Flow Matching with Control Barrier Functions

2025-10-01

Авторы:

Jeongyong Yang, Seunghwan Jang, Soojean Han

## Контекст Планирование движения в робототехнике и искусственном интеллекте гражданского рода является ключевым заданием, связанным с несколькими вызовами. Одной из главных проблем является обеспечение безопасности движения, которая необходима для предотвращения столкновений с объектами вокруг. Существующие методы, основанные на методах генеративного планирования, демонстрируют высокую эффективность, но часто не могут гарантировать безопасность, так как не включают в свою работу формальные механизмы контроля. Из-за этого, при планировании близко к ограничениям, эти методы могут генерировать неполные или небезопасные маршруты. Наша мотивация заключается в создании планировочного подхода, который бы сочетал высокую скорость работы с формальными гарантиями безопасности. ## Метод Мы предлагаем SafeFlowMatcher, фреймворк, который объединяет подход генеративного планирования с помощью теории потоков (Flow Matching) и методы контроля барьеров (Control Barrier Functions). Данный подход предполагает два этапа работы: (i) предсказательный этап, в котором используется генерируемый поток для получения начального маршрута; (ii) корректирующий этап, в котором используется векторное поле с воздействием CBF, чтобы уточнить маршрут, чтобы он удовлетворял ограничениям безопасности. Мы доказываем формальные свойства безопасности, включая форвардную инвариантность и финитное время сходимости к безопасному множеству. Это позволяет нам избежать распространения дисперсии во время планирования и датировать укрытые локальные ловушки. ## Результаты Мы проводим эксперименты на двух бенчмарках: маршрутизации в лабиринте и локомоции. Мы сравниваем SafeFlowMatcher с двумя современными подходами: Diffusion Planner и Flow Matching. Наши результаты показывают, что SafeFlowMatcher создает более быстрые, плавные и безопасные маршруты. Мы также проводим абляционные исследования, продемонстрировав важность предложенного цикла PC и системы CBF. Полученные результаты показывают, что SafeFlowMatcher не только безопаснее, но также эффективнее существующих методов. ## Значимость Предложенный подход может применяться в различных сферах, таких как робототехника, искусственный интеллект и автоматизированная система управления транспортом. Наш подход обеспечивает формальные гарантии безопасности, не ухудшая скорость работы. Это дает значительное преимущество перед существующими методами, которые часто только целевая безопасность. Мы видим будущие направления исследований в расширении SafeFlowMatcher для более сложных и нелинейных систем, а также в использовании этого подхода для ре

Annotation:

Generative planners based on flow matching (FM) can produce high-quality paths in one or a few ODE steps, but their sampling dynamics offer no formal safety guarantees and can yield incomplete paths near constraints. We present SafeFlowMatcher, a planning framework that couples FM with control barrier functions (CBFs) to achieve both real-time efficiency and certified safety. SafeFlowMatcher uses a two-phase prediction-correction (PC) integrator: (i) a prediction phase integrates the learned FM ...

ID: 2509.24243v1 cs.RO, cs.AI

arXiv PDF

📄 PhysiAgent: An Embodied Agent Framework in Physical World

2025-10-01

Авторы:

Zhihao Wang, Jianxiong Li, Jinliang Zheng, Wencong Zhang, Dongxiu Liu, Yinan Zheng, Haoyi Niu, Junzhi Yu, Xianyuan Zhan

## Контекст PhysiAgent: An Embodied Agent Framework in Physical World — это исследование в области Vision-Language-Action (VLA), направленное на решение проблем с относительно низким уровнем общедоступности, с которыми сталкиваются существующие VLA-модели. Несмотря на успех моделей Vision-Language Models (VLMs) в задачах понимания сцены и планирования, их универсальность часто ограничивается, что приводит к неэффективной командировке VLAs. Недостаток гибкости и самостоятельности во взаимодействии между VLMs и VLAs приводит к трудностям в коллаборации и слабым механизмам закрепления в реальных физических средах. Данная работа стремится создать автономную систему, которая способна корректно организовывать действия и интеллектуально взаимодействовать в реальном времени. ## Метод PhysiAgent представляет собой специализированную систему, которая включает в себя несколько ключевых монолитов: монитор, память и саморефлексию. Эти модули интегрируются с офф-столовыми алгоритмами для гибкой командировки VLMs на основе реального времени. Монитор отвечает за динамическое выявление ошибок и проблем в поведении VLMs. Модуль памяти сохраняет информацию о действиях и результатах, которая позволяет VLMs корректировать свой подход. Механизм саморефлексии определяет необходимые модификации в стратегии и позволяет VLMs принимать адаптивные решения. Для работы с физическими средами используются сборки стандартных инструментов, которые обеспечивают конкретную реализацию. Эта архитектура включена в общую систему, которая предоставляет инструмент для обеспечения лучшей координации между VLMs и VLAs в реальных ситуациях. ## Результаты В ходе экспериментов были проведены испытания на комплексных реальных задачах, включающих в себя множество сложных операций. Использованные данные включали видео, текст и данные с сенсоров, которые описывали сцену и выполняемые действия. Результаты показали, что PhysiAgent существенно улучшает производительность в решении задач, повышая точность выполнения действий до 95%. Это продемонстрировано на примерах, где VLMs эффективно координируют VLAs, а сама система адаптируется к изменению условий. Эксперименты показывают, что PhysiAgent предлагает эффективное решение взаимодействия и мониторинга в реальном времени. ## Значимость PhysiAgent имеет широкие области применения в сферах робототехники, умных домов, систем поиска информации и управления. Он предлагает значительные преимущества по сравнению с существующими алгоритмами. В частности, его гибкость и самоорганизационные свойства позволяют существенно повысить эффективность в решении задач, оптимизировать

Annotation:

Vision-Language-Action (VLA) models have achieved notable success but often struggle with limited generalizations. To address this, integrating generalized Vision-Language Models (VLMs) as assistants to VLAs has emerged as a popular solution. However, current approaches often combine these models in rigid, sequential structures: using VLMs primarily for high-level scene understanding and task planning, and VLAs merely as executors of lower-level actions, leading to ineffective collaboration and ...

ID: 2509.24524v1 cs.RO, cs.AI, cs.SY, eess.SY

arXiv PDF

📄 PoseDiff: A Unified Diffusion Model Bridging Robot Pose Estimation and Video-to-Action Control

2025-10-01

Авторы:

Haozhuo Zhang, Michele Caprio, Jing Shao, Qiang Zhang, Jian Tang, Shanghang Zhang, Wei Pan

## Контекст Одна из основных задач в области энд-то-энд искусственного интеллекта (Embodied AI) заключается в создании систем, которые могут эффективно объединить чувствительные и действительные модули для более широкого использования в таких задачах, как визуальная позыва и динамическое управление. Несмотря на появление многочисленных подходов к этим задачам, существуют проблемы, такие как низкая точность, высокая сложность внедрения, сложность в управлении, связанная с несколькими стадиями процесса. Существуют технические и эффективностьские ограничения. В этом контексте целью этой работы является разработка универсального подхода, который может объединить эти модули в единую систему, обеспечивая оптимальные результаты в области визуальной позыва и динамического управления. ## Метод PoseDiff представляет собой универсальную систему, которая использует диффузионные модели для решения задач визуальной позыва и динамического управления. Основная идея заключается в том, чтобы объединить эти две задачи в одном решении. PoseDiff работает с помощью диффузионных моделей, которые позволяют построить структурированную модель роботских состояний (например, 3D-кейпоинтов или углов суставов) из однородного РВЖ-образа. Эта модель также решает задачу динамического управления путем генерирования движений в долгосрочном виде с помощью свёрточной архитектуры, которая синхронизирует видео-ключевые кадры с контролируемым динамическим поведением. ## Результаты Подробные эксперименты проводились на DREAM-данных для позыва и Libero-данных для видео-генерируемого управления. В результате, PoseDiff показала значительное улучшение в точности визуальной позыва по сравнению с предыдущими моделями. Для видео-генерируемого управления, PoseDiff показала значительное улучшение успешности задач, даже в строгих условиях оффлайн-режимов. Эти результаты подтверждают, что PoseDiff предоставляет сильную, эффективную и сцепленную модель для решения задач в области Embodied AI. ## Значимость Основное преимущество PoseDiff заключается в том, что она может решать одновременно задачи визуальной позыва и динамического управления в одной модели, что эффективно упрощает архитектуру и уменьшает сложность. Этот подход может быть применён в различных сценариях, включая робототехнику, роботизированные системы и видео-анализ. Его потенциал заключается в улучшении точности, эффективности и управляемости в задачах машинного обучения. ## Выводы PoseDiff представляет собой новый подход к решению задач визуальной позыва и динамического управления в рамках Embodied AI. Он предлагает е

Annotation:

We present PoseDiff, a conditional diffusion model that unifies robot state estimation and control within a single framework. At its core, PoseDiff maps raw visual observations into structured robot states-such as 3D keypoints or joint angles-from a single RGB image, eliminating the need for multi-stage pipelines or auxiliary modalities. Building upon this foundation, PoseDiff extends naturally to video-to-action inverse dynamics: by conditioning on sparse video keyframes generated by world mode...

ID: 2509.24591v1 cs.RO, cs.AI

arXiv PDF

📄 Fidelity-Aware Data Composition for Robust Robot Generalization

2025-10-01

Авторы:

Zizhao Tong, Di Chen, Sicheng Hu, Hongwei Fan, Liliang Chen, Guanghui Ren, Hao Tang, Hao Dong, Ling Shao

## Контекст Общая цель исследования заключается в улучшении общей устойчивости роботов в условиях непредвиденных условий. Это связано с проблемой **shortcut learning**, когда робот опирается на локальные характеристики в тренировочных данных, а не на общие принципы. Это приводит к снижению качества при работе с неизвестными входными данными (out-of-distribution, OOD). Основная проблема, изученная в данной работе, заключается в том, что добавление разнообразия с помощью генеративных методов часто приводит к **коррупции значимости данных**. Таким образом, необходимо разработать методы, которые сочетают разнообразие и целостность информации. ## Метод Методология исследования основывается на создании **fidelity-aware data composition**, которая использует **Coherent Information Fidelity Tuning (CIFT)**. Это процесс, тренирующийся на оценке информационной целостности данных. Основополагающим элементом является **feature-space geometry**, который позволяет определять точку, когда стабильность обучения начинает падать — **Decoherence Point**. Для синтеза разнообразия используется **Multi-View Video Augmentation (MVAug)**, которая синтезирует потоки видео с различных перспектив, избегая нежелательной корреляции между подходами. Таким образом, весь процесс является **optimization-driven** и оперирует не только с точностью, но и с целостностью данных. ## Результаты Эксперименты проводились на политиках $\pi_0$ и Diffusion Policy. Использовались различные генеративные модели для синтеза данных, включая MVAug. Основные показатели: OOD success rate. Было показано, что применение CIFT увеличивает OOD success rate на более чем **54%** в сравнении с традиционными методами. Это указывает на то, что **fidelity-aware composition** является ключевым фактором для улучшения устойчивости общей модели. Кроме того, наблюдалась повышенная стабильность обучения в процессе. ## Значимость Результаты имеют большое значение для **робототехники** и **визуальных роботов**, работающих в нестандартных условиях. Например, в сфере **autonomous driving**, **manufacturing** и **domestic robots**. Основные преимущества: - **Увеличение устойчивости OOD** в различных сценариях. - Мотивация для развития **fidelity-aware методологий** в обзоре данных. - Возможность применения в различных областях, где роботы должны работать вне тренировочных условий. ## Выводы Основной вывод заключается в том, что **fidelity-aware data composition** является не менее важным, чем сам процесс генеративного синтеза данных. Общий подход, используемый в CIFT, может быть расширен для других подобных задач, включая **multimodal data composition** и **dynamic scene understanding**. Дальнейшие исследования будут фокусироваться на расширении этого фреймворка для более сложных областей, таких как **тактическое взаимодействие** с роботом в реальном времени.

Annotation:

Generalist robot policies trained on large-scale, visually homogeneous datasets can be susceptible to shortcut learning, which impairs their out-of-distribution (OOD) generalization. While generative data augmentation is a common approach to introduce diversity, it presents a subtle challenge: data composition. Naively mixing real and synthetic data can corrupt the learning signal, as this process often prioritizes visual diversity at the expense of information fidelity. This paper suggests that...

ID: 2509.24797v1 cs.RO, cs.AI, cs.LG

arXiv PDF

1
2
28
29
30
31
32
54
55

Показано 291 - 300 из 544 записей