📚 Саммари научных статей из arXiv

Найдено 544 результатов по запросу 'cs.RO, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Take That for Me: Multimodal Exophora Resolution with Interactive Questioning for Ambiguous Out-of-View Instructions

2025-08-26

Авторы:

Akira Oyama, Shoichi Hasegawa, Akira Taniguchi, Yoshinobu Hagiwara, Tadahiro Taniguchi

#### Контекст В повседневной жизни поддерживающие роботы должны точно интерпретировать неясные указания, включающие демонстративные слова, такие как "Принеси мне этот стакан". Однако существующие модели сложности имеют при работе в реальных условиях, когда объект или пользователь не виден роботу. Это приводит к неэффективности и ошибкам в робототехнических системах. Недостаточность экзотерических фреймворков, опирающихся только на визуальные данные, требует разработки методов, которые могли бы обеспечивать точность в таких ситуациях. Мы предлагаем Multimodal Interactive Exophora Resolution with User Localization (MIEL) — рамфторму для решения задач exophora, которая включает в себя несколько модальностей и интерактивные вопросы для оптимизации решения. #### Метод Метод MIEL основывается на следующих компонентах: 1. **Semantic Mapping**: Робот строит семантическую карту окружения, что позволяет идентифицировать возможные объекты в зависимости от текстового запроса пользователя. 2. **Sound Source Localization (SSL)**: На основе звуковых сигналов робот определяет положение пользователя, даже если пользователь находится за его областью видимости. 3. **Visual-Language Models (VLMs)**: Инференсные модели, основанные на визуальных и текстовых данных, используются для распознавания объектов и знакомства с их свойствами. 4. **Interactive Questioning**: Если возникают дополнительные неоднозначности, робот активно интерактивно общается с пользователем, используя GPT-4o для формирования уточняющих вопросов. Эта структура позволяет роботу эффективно использовать несколько источников информации, чтобы улучшить интерпретацию неясных указаний. #### Результаты Мы провели эксперименты в реальной среде, сравнивая MIEL с другими существующими системами. Результаты показали, что при видимости пользователя робот выполнял задачи примерно 1,3 раза эффективнее, чем другие методы. Особенно заметно было улучшение при невидимости пользователя — здесь MIEL превысил другие методы в два раза. Эти результаты подтверждают эффективность интерактивного подхода и использования SSL для улучшения точности разрешения exophora в сложных сценариях. #### Значимость Модель MIEL имеет широкие применения в различных сферах, в том числе в системах услуг, помощи в домашних условиях или в роботах для социального взаимодействия. Она предлагает значительные преимущества, такие как увеличение точности и надежности в условиях неполной видимости, что может увеличить удобство использования роботов в реальном мире. Наш подход может сильно повлиять на развитие робототехники, обеспечивая более эффективное взаимодействие с пользователем. #### Выводы В результате нашего ис

Annotation:

Daily life support robots must interpret ambiguous verbal instructions involving demonstratives such as ``Bring me that cup,'' even when objects or users are out of the robot's view. Existing approaches to exophora resolution primarily rely on visual data and thus fail in real-world scenarios where the object or user is not visible. We propose Multimodal Interactive Exophora resolution with user Localization (MIEL), which is a multimodal exophora resolution framework leveraging sound source loca...

ID: 2508.16143v1 cs.RO, cs.AI

arXiv PDF

📄 Comparative Analysis of UAV Path Planning Algorithms for Efficient Navigation in Urban 3D Environments

2025-08-26

Авторы:

Hichem Cheriet, Khellat Kihel Badra, Chouraqui Samira

## Контекст Планирование путей и избежание препятствий являются одними из ключевых проблем для судоходных Управляемых Автономных Легких Летательных Аппаратов (УААЛЛА). Эффективное планирование путей не только повышает эффективность движения, но и обеспечивает безопасность УААЛЛА в трудных условиях. В последние годы развитие технологий и инструментов для планирования путей позволило улучшить производительность и точность. Однако существуют недостатки, такие как высокая сложность вычислений, ограниченная обработка сложных сред и несостоятельность алгоритмов при высокой плотности препятствий. Данная статья основывается на этих проблемах и стремится провести сравнительный анализ трех широко используемых алгоритмов планирования путей в симуляционных 3D-средах, чтобы определить их эффективность и ограничения в различных условиях. ## Метод Методология исследования основывается на симуляционных экспериментах с использованием трех алгоритмов планирования путей: A*, RRT* и Particle Swarm Optimization (PSO). Алгоритм A* является интенсивно вычислительно затратным, но обеспечивает высокое качество путей. RRT* является рандомизированным и показывает высокую универсальность в различных условиях. PSO хорошо подходит для трудных зон с тесными выклочками. Для экспериментов использовались разные размеры городских карт, различные уровни воздушной высоты (изменение высоты полета), разнообразные плотности и размеры препятствий. Эксперименты позволяют проверить как качество пути, так и производительность алгоритмов в разных условиях. ## Результаты Эксперименты были проведены в симуляторе с разными условиями. На основе результатов, A* алгоритм показал себя лучше всех в плане качества пути и производительности вычислений. PSO показал себя эффективным в узких и плотных зонах, где другие алгоритмы сталкивались с проблемами. RRT* показал баланс между качеством и производительностью, действуя хорошо во всем диапазоне условий. Оценка производительности была произведена по количеству шагов и времени, потребовавшихся для построения пути. Эти результаты дали полное представление о производительности каждого алгоритма в разных ситуациях. ## Значимость Результаты имеют высокую значимость в различных областях, включая судоходство, авиацию и робототехнику. Эффективное планирование путей не только обеспечивает безопасность, но и повышает эффективность движения. Алгоритм A* является приоритетным для обычных ситуаций с меньшей плотностью препятствий. PSO, в свою очередь, полезен для сложных сред, где требу

Annotation:

The most crucial challenges for UAVs are planning paths and avoiding obstacles in their way. In recent years, a wide variety of path-planning algorithms have been developed. These algorithms have successfully solved path-planning problems; however, they suffer from multiple challenges and limitations. To test the effectiveness and efficiency of three widely used algorithms, namely A*, RRT*, and Particle Swarm Optimization (PSO), this paper conducts extensive experiments in 3D urban city environm...

ID: 2508.16515v1 cs.RO, cs.AI

arXiv PDF

📄 Hierarchical Decision-Making for Autonomous Navigation: Integrating Deep Reinforcement Learning and Fuzzy Logic in Four-Wheel Independent Steering and Driving Systems

2025-08-26

Авторы:

Yizhi Wang, Degang Xu, Yongfang Xie, Shuzhong Tan, Xianan Zhou, Peng Chen

## Контекст Автоматизированная навигация роботов становится все более важной в сферах промышленности, транспорта и домашних сервисов. Однако на данный момент существуют значительные проблемы, связанные с недостаточной стабильностью и эффективностью существующих алгоритмов. Например, решения, основанные исключительно на deep reinforcement learning (DRL), часто проявляют сильную экспериментальную хаотичность и недостаточную учету физических ограничений. Таким образом, необходимо разработать метод, который объединит высокую точность и стабильность с интуитивно понятной логикой управления. Целью данного исследования является развитие нового фреймворка, который будет обеспечивать безопасную и эффективную навигацию 4WISD-роботов в реальных промышленных условиях. ## Метод Для решения поставленной задачи был разработан фреймворк, объединяющий DRL для высокоуровневого решения и fuzzy logic для низкоуровневого контроля. Функционал DRL используется для построения глобальных команд подвижности, а fuzzy logic занимается регулированием динамических ограничений, таких как механическая нагрузка и подрессоривание колес. Ключевым аспектом является использование нейронных сетей для воспроизведения комплексных динамических процессов, в том числе для оптимизации траектории движения и реакции на динамические условия. Архитектура фреймворка представляет собой сложную систему, где каждая его часть отвечает за определенные слои решения. ## Результаты Для эффективного проверения работы фреймворка были проведены симуляционные эксперименты и реальные тестовые запуски. Результаты показали, что в симуляционных условиях DRL-фреймворк сократил время обучения и улучшил стабильность системы в сравнении с другими методами. Тесты на реальных роботах показали, что улучшенный фреймворк позволяет двигаться безопасно и эффективно в сложных промышленных условиях. Таким образом, результаты экспериментов подтверждают высокую степень надежности и эффективности разработанного подхода в реальных условиях. ## Значимость Разработанный фреймворк предлагает широкие возможности в различных областях, таких как промышленная автоматизация, домашние сервисы и транспорт. Он предлагает значительные преимущества, такие как улучшенная стабильность, эффективность и меньшее вероятность ошибок. Эти достоинства могут повлиять на развитие технологий автономного транспорта и автоматизации, особенно в условиях производственных площадок и логистических центров. Более того, улучшенная стабильность и уменьшенная экспериментальная хаотичность делают данный

Annotation:

This paper presents a hierarchical decision-making framework for autonomous navigation in four-wheel independent steering and driving (4WISD) systems. The proposed approach integrates deep reinforcement learning (DRL) for high-level navigation with fuzzy logic for low-level control to ensure both task performance and physical feasibility. The DRL agent generates global motion commands, while the fuzzy logic controller enforces kinematic constraints to prevent mechanical strain and wheel slippage...

ID: 2508.16574v1 cs.RO, cs.AI

arXiv PDF

📄 Decentralized Vision-Based Autonomous Aerial Wildlife Monitoring

2025-08-23

Авторы:

Makram Chahine, William Yang, Alaa Maalouf, Justin Siriska, Ninad Jadhav, Daniel Vogt, Stephanie Gil, Robert Wood, Daniela Rus

## Контекст Охрана и мониторинг диких животных является важной задачей для сохранения биоразнообразия и эффективного управления природой. Несмотря на прогресс в робототехнике и искусственном интеллекте, существуют значительные вызовы в области эффективного мониторинга и идентификации индивидуальных животных в своих натуральных условиях. Наиболее распространенные подходы заключаются либо в обработке данных с ограниченного набора датчиков, либо в использовании централизованных систем, требующих значительной пропускной способности и высокой надежности связи. Однако эти подходы часто ограничиваются масштабируемостью, гибкостью и надежностью в дикой природе. Мы предлагаем децентрализованную визуальную систему для мониторинга диких животных, которая может работать в реальном времени, используя минимальные сенсоры и обеспечивая масштабируемость для больших групп животных. ## Метод Мы предлагаем децентрализованную архитектуру, основанную на многоквадроторной системе с визуальным подходом для мониторинга животных. Каждый дрон оснащен одной RGB-камерой и использует наши разработанные алгоритмы для обнаружения, идентификации и слежения за животными. Важным аспектом нашего подхода является алгоритм координации, который позволяет квадроторам работать независимо и динамически менять миссии в зависимости от ситуации. Мы использовали набор методов машинного обучения для обнаружения и отслеживания животных, а также алгоритмы сжатия видео для эффективного использования сетевых ресурсов. Наша система не требует централизованного контроля, что делает ее отказоустойчивой и гибкой в работе. ## Результаты Мы проверили нашу систему в реальных условиях на территории леса, где были запущены несколько дронов для мониторинга больших групп животных, включая диких оленей. Наши алгоритмы позволили достичь высокой точности в идентификации и отслеживании животных, даже при движении в тяжелых полярных условиях. Мы также провели эксперименты с разным количеством дронов, продемонстрировав масштабируемость нашей системы. Результаты показали, что наш подход эффективен в разных условиях, обеспечивая надежный мониторинг без необходимости централизованного контроля. ## Значимость Наш подход может быть применен в различных областях, включая охрану природы, исследования диких животных и управление парковыми зонами. Он предлагает преимущества в масштабируемости, низком потреблении ресурсов и надежности в работе. Мы считаем, что наша система может существенно повысить эффек

Annotation:

Wildlife field operations demand efficient parallel deployment methods to identify and interact with specific individuals, enabling simultaneous collective behavioral analysis, and health and safety interventions. Previous robotics solutions approach the problem from the herd perspective, or are manually operated and limited in scale. We propose a decentralized vision-based multi-quadrotor system for wildlife monitoring that is scalable, low-bandwidth, and sensor-minimal (single onboard RGB came...

ID: 2508.15038v1 cs.RO, cs.AI, cs.CV, cs.MA, I.2.9

arXiv PDF

📄 Survey of Vision-Language-Action Models for Embodied Manipulation

2025-08-23

Авторы:

Haoran Li, Yuhui Chen, Wenbo Cui, Weiheng Liu, Kai Liu, Mingcai Zhou, Zhengtao Zhang, Dongbin Zhao

## Контекст Embodied intelligence systems, которые улучшают возможности агентов через непрерывные взаимодействия с окружающим миром, привлекли внимание как академических, так и промышленных команд. Vision-Language-Action (VLA) модели, вдохновленные прогрессом в области больших фундаментальных моделей, представляют собой универсальные фреймворки для робототехнического управления. Они значительно повышают возможности взаимодействия агентов с окружающим миром в системах embodied intelligence. Это расширение открыло новые сценарии применения для embodied AI robot. Настоящая статья посвящена подробному обзору VLA-моделей для embodied manipulation. Она отслеживает эволюцию архитектур VLA, проводит анализ работ по 5 ключевым направлениям: структура моделей, данные для обучения, методы пред- и пост-обучения, а также методы оценки, и выделяет основные проблемы в развитии VLA и их реализации в реальном мире. ## Метод Для построения VLA моделей используется многослойная архитектура, включающая модели глубокого обучения для обработки языка и визуальных сигналов. Эти модели объединяются в единую систему, обменивающуюся информацией в реальном времени. Методология включает в себя несколько этапов: 1. Обработка сигналов визуальных датчиков и текстовых данных. 2. Взаимодействие между моделями языка и визуального распознавания. 3. Генерация и выполнение действий на основе полученных сигналов. Технические решения включают использование больших фундаментальных моделей, предварительных предобучений, а также методики регуляризации и оптимизации. ## Результаты Изучены и проанализированы различные VLA модели с разными структурами и характеристиками. Через эксперименты были определены ключевые преимущества и недостатки различных архитектур. Также проведено сравнение моделей по таким показателям, как точность распознавания объектов, скорость реакции и общая эффективность. Затем были изучены результаты работы моделей на различных данных, включая синтетические и реальные базы, что позволило выделить особенности каждой модели в задаче embodied manipulation. ## Значимость Результаты могут быть применены в различных областях, таких как автоматизация производств, системы помощи для инвалидов, а также в сфере умных домов. VLA модели предлагают следующие преимущества: 1. Увеличение точности и быстродействия визуального распознавания. 2. Улучшение взаимодействия с окружающим миром для embodied agents. 3. Увеличение гибкости и универсальности моделей в различных сценариях применения. ## Выводы Основное достижение заключается в подробном обзоре развития VLA моделей и их применений в embodied manipulation. Будущие иссле

Annotation:

Embodied intelligence systems, which enhance agent capabilities through continuous environment interactions, have garnered significant attention from both academia and industry. Vision-Language-Action models, inspired by advancements in large foundation models, serve as universal robotic control frameworks that substantially improve agent-environment interaction capabilities in embodied intelligence systems. This expansion has broadened application scenarios for embodied AI robots. This survey c...

ID: 2508.15201v1 cs.RO, cs.AI

arXiv PDF

📄 LLM-Driven Self-Refinement for Embodied Drone Task Planning

2025-08-23

Авторы:

Deyu Zhang, Xicheng Zhang, Jiahao Li, Tingting Long, Xunhua Dai, Yongjian Fu, Jinrui Zhang, Ju Ren, Yaoxue Zhang

## Контекст Данная работа выполнена в области развития систем для управления рациональным планированием задач упорядоченных дронов в промышленных условиях. Обратительное планирование — это ключевой фактор для обеспечения надежного, высокоэффективного управления такими системами. Однако существующие подходы сталкиваются с проблемами, такими как недостаточная точность оценки завершения задач в динамических условиях, ограниченная способность адаптироваться к изменяющимся требованиям, и ограниченная интеллектуальная гибкость. Эти ограничения приводят к эффективности снижению и нестабильности применения в реальных условиях. SRDrone предлагает решение для этих проблем, объединяя гибкость и точность в распознавании задач и управлении дронами. ## Метод SRDrone разработана как сложное системное решение, сочетающее несколько ключевых компонентов. Во-первых, она применяет методику непрерывной оценки состояния задач, что позволяет получать более точные оценки процесса выполнения задач в процессе их выполнения. Во-вторых, интегрированная модель верхнеуровневого планирования, основанная на Hierarchical Behavior Tree (BT), позволяет гибко адаптировать стратегии в зависимости от реальных условий и оптимизировать поведение дрона. Эти методы объединены в современном архитектурном подходе, предназначенном для достижения высокой точности и устойчивости в промышленных условиях. ## Результаты Эксперименты показали, что SRDrone превосходит базовые методы в целевом показателе — Success Rate (SR). По отчетам, основная версия системы показала увеличение SR на 44,87% по сравнению с конкурирующими подходами. Более того, реальное применение SRDrone с использованием оптимизированного опытного базирующегося на многократном самоподготовке позволило достичь SR в 96,25% в реальных условиях. Эти результаты демонстрируют высокую эффективность и надежность SRDrone в решении проблем планирования задач упорядоченных дронов. ## Значимость Полученная система SRDrone может быть применена в различных промышленных секторах, где необходима эффективная система управления дронами, в том числе в сферах доставки, просмотра труднодоступных объектов, охраны и многих других. Особые преимущества SRDrone заключаются в том, что она обеспечивает улучшение точности задач, прозрачность решений и гибкость в адаптации к изменяющимся условиям. Потенциальное влияние SRDrone заключается в повышении эффективности промышленных процессов, увеличении безопасности и сокращении затрат в секторах, где рациональное управление дронами критично. ## Выводы Результаты показали, что SRDrone — эффективное решение для самоподготовки планирования задач упорядоченных дро

Annotation:

We introduce SRDrone, a novel system designed for self-refinement task planning in industrial-grade embodied drones. SRDrone incorporates two key technical contributions: First, it employs a continuous state evaluation methodology to robustly and accurately determine task outcomes and provide explanatory feedback. This approach supersedes conventional reliance on single-frame final-state assessment for continuous, dynamic drone operations. Second, SRDrone implements a hierarchical Behavior Tree ...

ID: 2508.15501v1 cs.RO, cs.AI

arXiv PDF

📄 Mind and Motion Aligned: A Joint Evaluation IsaacSim Benchmark for Task Planning and Low-Level Policies in Mobile Manipulation

2025-08-23

Авторы:

Nikita Kachaev, Andrei Spiridonov, Andrey Gorodetsky, Kirill Muravyev, Nikita Oskolkov, Aditya Narendra, Vlad Shakhuro, Dmitry Makarov, Aleksandr I. Panov, Polina Fedotova, Alexey K. Kovalev

## Контекст Область embodied AI (роботизированные системы) требует эффективных инструментов для оценки пограничных областей между задачным планированием и физической исполнительской системой. На сегодняшний день, существуют бенчмарки, сосредоточенные на высокоуровневых задачах (например, понимании естественного языка) и на выполнении простых, одношаговых команд. Однако нет полноценных средств для оценки систем, в которых оба этих аспекта играют ключевую роль. Это препятствует полноценной оценке роботов, которые должны обладать как высокоуровневыми навыками, так и точными физическими способностями. ## Метод Мы предлагаем Kitchen-R — новый бенчмарк, который сочетает в себе оценку задачного планирования и низкоуровневых политик управления в симулированной кухонной среде. Базируясь на IsaacSim, он предлагает более 500 комплексных языковых инструкций для управления мобильным манипулятором. Мы также предоставляем базовые методы, включая визионно-языковую модель для планирования и распределенную политику для низкоуровневого управления. Бенчмарк поддерживает три режима оценки: отдельные модули планирования и управления, а также их интегрированное тестирование. ## Результаты В ходе экспериментов мы отобрали набор данных, опробовали использованные методы и проанализировали результаты. Мы показали, что Kitchen-R позволяет проводить полноценную оценку интегрированных систем, демонстрируя сильные и слабые стороны в различных режимах работы. Бенчмарк демонстрирует, что существуют проблемы в том, как задачи планирования и выполнения взаимодействуют динамически, что может привести к серьезным ошибкам в реальных условиях. ## Значимость Kitchen-R позволяет значительно расширить модель работы роботов, включая в систему как высокоуровневые задачи, так и физические ограничения. Он может быть применен в сферах, где требуется роботизированная помощь в домашних или промышленных условиях. Его ключевое преимущество — возможность оценивать не только отдельные компоненты, но и взаимодействие между ними, что дает более точный и реалистичный результат. ## Выводы Kitchen-R представляет собой ключевой инструмент для продолжения исследований в области embodied AI. Мы выдвигаем перспективы расширения бенчмарка для разных ситуаций и сред, чтобы ещё больше улучшить точность и реалистичность оценок. Будущие исследования будут сфокусированы на динамических сценариях и условиях, чтобы повысить выносливость роботов в реальном мире.

Annotation:

Benchmarks are crucial for evaluating progress in robotics and embodied AI. However, a significant gap exists between benchmarks designed for high-level language instruction following, which often assume perfect low-level execution, and those for low-level robot control, which rely on simple, one-step commands. This disconnect prevents a comprehensive evaluation of integrated systems where both task planning and physical execution are critical. To address this, we propose Kitchen-R, a novel benc...

ID: 2508.15663v1 cs.RO, cs.AI

arXiv PDF

📄 Neural Robot Dynamics

2025-08-23

Авторы:

Jie Xu, Eric Heiden, Iretiayo Akinola, Dieter Fox, Miles Macklin, Yashraj Narang

#### Контекст Симуляция современных роботов представляет собой сложную задачу, особенно для моделирования их высокой степени свободы и сложных механизмов. Традиционные аналитические симуляторы, хотя и эффективны в некоторых случаях, не всегда подходят для решения задач, требующих высокой точности и гибкости. Нейронные симуляторы, в свою очередь, предлагают альтернативу, эффективно предсказывая сложные динамические процессы и адаптируясь к реальному миру. Тем не менее, существующие системы часто ограничены применением к определенным задачам и не могут легко адаптироваться к новым сценариям или окружениям, что ограничивает их широкое применение. #### Метод Мы предлагаем Neural Robot Dynamics (NeRD), новую модель, основанную на нейронных сетях, для моделирования динамики роботов, являющихся структурированными как искусственные тела. NeRD заменяет низкоуровневые динамические и контактные решатели в существующих аналитических моделях, используя уникальное представление состояния, заложенное на робото-центрической системе координат. Модель не только предсказывает динамику, но и интегрируется с современными симуляторами, обеспечивая универсальный и производительный подход к моделированию. #### Результаты В ходе испытаний NeRD продемонстрировала стабильность и точность в тысячах шагов симуляции. Модель показала хорошую общительность, адаптируясь к различным задачам и конфигурациям окружения. Более того, она удачно использовалась для обучения политик в условиях полного использования нейронных моделей, что отличает ее от традиционных симуляторов. НеRD также подвергалась оптимизации на основе реальных данных, чтобы уменьшить разрыв между симуляцией и реальностью. #### Значимость NeRD открывает новые горизонты для моделирования роботов, предоставляя универсальные и точные модели для различных целей. Она может применяться в разработке и тестировании роботов, в киберфизических системах и в сценариях глубокого обучения. Ее преимущество в том, что она не только эффективна в симуляции, но и может быть приспособлена к реальному миру, что повышает ее практическую ценность. #### Выводы Neural Robot Dynamics доказывает свою эффективность как универсальное решение для моделирования динамики роботов. Будущие исследования будут сконцентрированы на расширении модели для более сложных сценариев, внедрении ее в реальные системы и улучшении ее взаимодействия с другими нейронными моделями.

Annotation:

Accurate and efficient simulation of modern robots remains challenging due to their high degrees of freedom and intricate mechanisms. Neural simulators have emerged as a promising alternative to traditional analytical simulators, capable of efficiently predicting complex dynamics and adapting to real-world data; however, existing neural simulators typically require application-specific training and fail to generalize to novel tasks and/or environments, primarily due to inadequate representations...

ID: 2508.15755v1 cs.RO, cs.AI, cs.GR, cs.LG

arXiv PDF

📄 SimGenHOI: Physically Realistic Whole-Body Humanoid-Object Interaction via Generative Modeling and Reinforcement Learning

2025-08-22

Авторы:

Yuhang Lin, Yijia Xie, Jiahong Xie, Yuehao Huang, Ruoyu Wang, Jiajun Lv, Yukai Ma, Xingxing Zuo

## Контекст Генерация реалистичных траекторий тела и рук роботов в условиях взаимодействия с предметами (Humanoid-Object Interaction, HOI) является ключевым заданием в области машинного обучения и робототехники. Однако существующие подходы часто сталкиваются с проблемами, такими как неприродные контакты, проникновения объектов во внутренние тела, неестественность движений, что сказывается на точности выполнения заданий. Эти недостатки ограничивают применение подобных моделей в реальных сценариях взаимодействия роботов с физическим окружением. ## Метод Мы предлагаем SimGenHOI — универсальную систему, которая объединяет мощь генерирующих моделей и управляемость систем управления подкреплением (Reinforcement Learning, RL). Модель генерации SimGenHOI, основанная на Diffusion Transformers, способна предсказывать ключевые движения, основанные на текстовых запросах, геометрии объекта, точечным описанию движения и начальной позе робота. Эти движения гладко интерполируются в общую траекторию. Для обеспечения физической реалистичности, мы разрабатываем политику управления, учитывающую контакты и полностью интегрирующуюся с моделью генерации. Для повышения качества и совместимости, мы применяем стратегию мультиметода, в которой модель и политика управления обучаются друг с другом, улучшая как реалистичность движений, так и их стабильность. ## Результаты Мы проводим эксперименты с различными сценариями HOI, в том числе с применением нескольких действий в течение длительного периода. Модель SimGenHOI продемонстрировала высокую точность и реалистичность траекторий движений, существенно превосходя при этом существующие алгоритмы по степени реалистичности и устойчивости движений. Данные эксперименты подтверждают возможность SimGenHOI генерировать движения, которые могут эффективно использоваться в практических задачах взаимодействия в физических условиях. ## Значимость Модель SimGenHOI может быть применена в области робототехники, визуальных систем, антропоморфного искусственного интеллекта и интерактивных систем. Она превосходит существующие подходы в реалистичности моделирования взаимодействий, что открывает перспективы для её применения в сценариях, требующих точности и безопасности, таких как роботизированные хирургические операции, роботизированные системы сервиса, а также в сфере искусственного интеллекта. ## Выводы Мы представляем SimGenHOI — первый полностью универсальный подход к генерации реалистичных траекторий взаимодействий роботов с предметами. Наши результаты показывают, что SimGenHOI может генерировать контролируемые, физически реалистичные

Annotation:

Generating physically realistic humanoid-object interactions (HOI) is a fundamental challenge in robotics. Existing HOI generation approaches, such as diffusion-based models, often suffer from artifacts such as implausible contacts, penetrations, and unrealistic whole-body actions, which hinder successful execution in physical environments. To address these challenges, we introduce SimGenHOI, a unified framework that combines the strengths of generative modeling and reinforcement learning to pro...

ID: 2508.14120v1 cs.RO, cs.AI

arXiv PDF

📄 Can LLM Agents Solve Collaborative Tasks? A Study on Urgency-Aware Planning and Coordination

2025-08-22

Авторы:

João Vitor de Carvalho Silva, Douglas G. Macharet

## Контекст Современные реалии требуют развития методик, позволяющих управлять множеством агентов, решающих сложные задачи в реальном мире. Одним из ключевых аспектов является координация действий множества агентов, чтобы эффективно решать задачи, включающие разделение труда, приоритизацию и совместное планирование. Большие языковые модели (LLM) доказали сильную эффективность в области общения, планирования и рассуждений, что привело к вопросу о возможности использования таких моделей для поддержки эффективной координации в многоагентных системах. В данном работе изучается возможность применения LLM-агентов для решения задачи спасения жертв, требующей деления ролей, систематического приоритизации и совместного планирования. ## Метод Исследование основывается на создании многоагентной системы, где каждый LLM-агент принимает решения о действиях, основываясь на входных данных и целях. Агенты работают в графовой среде, где каждый узел соответствует комнате, а ребра — путям между ними. Задача состоит в том, чтобы разделить роли между агентами, определить приоритеты, спланировать ресурсы и спасти жертвы с разными уровнями неотложности. Методология включает тщательную оптимизацию архитектуры, использование конкретных метрик, таких как успешность задачи, необходимость в необходимости дублирования действий, конфликты позиций агентов и эффективность в зависимости от приоритета. ## Результаты Эксперименты проводились на симуляционной среде, где каждый LLM-агент получал информацию о положении жертв и их неотложности. Результаты показали, что LLM-агенты могут эффективно распределять роли, приоритизировать действия и спланировать маршруты для эффективного спасения жертв. Однако были выявлены недостатки, такие как некоторая неэффективность при высоком количестве агентов и сложность решения конфликтов в положениях. Общая успешность задачи была высокой, но существуют узкие места, требующие дополнительных исследований. ## Значимость Результаты имеют значительное значение для областей, где требуется эффективная координация множества агентов, такие как поиск и спасение, робототехника и управление роботами. Этот подход демонстрирует мощь LLM-агентов в решении физически связанных задач. Однако необходимо продолжать исследовать узкие места, такие как необходимость улучшения методов приоритетного распределения и решения конфликтов. Будущие исследования будут сконцентрированы на улучшении эффективности и устранении существующих ограничений. ## Выводы LLM-агенты прод

Annotation:

The ability to coordinate actions across multiple agents is critical for solving complex, real-world problems. Large Language Models (LLMs) have shown strong capabilities in communication, planning, and reasoning, raising the question of whether they can also support effective collaboration in multi-agent settings. In this work, we investigate the use of LLM agents to solve a structured victim rescue task that requires division of labor, prioritization, and cooperative planning. Agents operate i...

ID: 2508.14635v1 cs.RO, cs.AI

arXiv PDF

1
2
46
47
48
49
50
54
55

Показано 471 - 480 из 544 записей