📚 Саммари научных статей из arXiv

Найдено 544 результатов по запросу 'cs.RO, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Pre-trained Visual Representations Generalize Where it Matters in Model-Based Reinforcement Learning

2025-09-18

Авторы:

Scott Jones, Liyou Zhou, Sebastian W. Pattinson

## Контекст Моделирование визуальных представлений и их использование в научных и практических задачах, включая робототехнику, задают высокие требования к устойчивости и гибкости алгоритмов. Одна из основных проблем заключается в том, что традиционные подходы, когда политика и кодировщик визуальных данных обучаются одновременно, часто недостаточно устойчивы к изменениям визуальной среды. Это приводит к снижению качества решения задач. Недавние работы показали, что предварительно обученные визуальные модели (PVMs) могут улучшить устойчивость в моделировании свободных от моделирования (MFRL). Однако в моделировании на основе моделей (MBRL) возникла противопоказательная ситуация, когда PVMs оказались менее эффективными. Наша исследовательская задача состоит в том, чтобы рассмотреть эту противоречивную ситуацию и изучить, в каких случаях PVMs могут быть эффективными в MBRL. ## Метод Чтобы изучить эффективность PVMs в MBRL, мы проводили эксперименты с использованием сценариев сильных визуальных доменных сдвигов. Мы сравнивали результаты PVMs с моделями, обучаемыми с нуля. Для контроля уровня допущения использовалась методика полного и частичного файн-тюнинга PVM. Мы использовали выборки данных, отражающие сильные изменения в визуальных сценариях, чтобы оценить способность моделей адаптироваться к изменениям. Эксперименты проводились с использованием тестовых сред, в которых были внесены значительные изменения в цветовом содержании, освещении и других визуальных параметрах. ## Результаты Наши результаты показали, что в ситуациях сильных визуальных доменных сдвигов PVMs значительно превосходят модели, обучаемые с нуля. Особенно выдающимся был результат в сценариях, где визуальная среда была полностью изменена. Мы также выявили, что частичный файн-тюнинг PVM позволяет сохранить высокий уровень производительности в задачах, которые подвергались самым сильным сдвигам в домене. Это свидетельствует о том, что PVMs могут быть эффективными для обеспечения устойчивости визуальных политик в моделировании на основе моделей, даже при существенных изменениях визуальных условий. ## Значимость Наши находки имеют значительное значение для развития робототехники и роботов, которые должны адаптироваться к изменениям визуальных условий в реальном мире. PVMs могут использоваться для улучшения моделей MBRL в таких областях, как автоматизированные системы управления, навигация внешних роботов и многие другие. Этот подход обеспечивает значительное увеличение устойчивости вывода, что делает визуальные модели более надежными для применения в реальных условиях. Это может упростить развитие робото

Annotation:

In visuomotor policy learning, the control policy for the robotic agent is derived directly from visual inputs. The typical approach, where a policy and vision encoder are trained jointly from scratch, generalizes poorly to novel visual scene changes. Using pre-trained vision models (PVMs) to inform a policy network improves robustness in model-free reinforcement learning (MFRL). Recent developments in Model-based reinforcement learning (MBRL) suggest that MBRL is more sample-efficient than MFRL...

ID: 2509.12531v1 cs.RO, cs.AI, cs.LG, cs.SY, eess.SY, 68T07, 68T40 (Primary) 93C85, 62L20 (Secondary), I.2.6; I.2.9; I.4.8; F.2.2

arXiv PDF

📄 ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation

2025-09-18

Авторы:

Zekai Zhang, Weiye Zhu, Hewei Pan, Xiangchen Wang, Rongtao Xu, Xing Sun, Feng Zheng

#### Контекст Vision-and-Language Navigation (VLN) — это задача, в которой агент должен следовать естественным языковым инструкциям и перемещаться по сложным средам. Эта задача требует сильной интеграции визуальной и языковой информации, а также динамической навигации в условиях неопределенности. Традиционно, методы на основе моделей значительного языкового обучения (MLLM) полагаются на имитационное обучение (IL) и, часто, на пост-тренировочные методы типа DAgger для компенсации проблемы ковариатного отклонения. Хотя эффективны, эти подходы требуют больших затрат на сбор данных и обучения. Альтернативным подходом является использование реинforcement learning (RL), но существующие VLN RL-методы часто ограничены динамическим взаимодействием с серым зоной и приходят к ускорению значительного балла с помощью руководств экспертов. Наша мотивация заключается в разработке метода, который бы стимулировал динамическое и активное исследование среды, увеличивая производительность и гибкость в VLN. #### Метод Мы предлагаем ActiveVLN — рамку для VLN, которая использует многоразовый RL для активного исследования. В первой стадии, маленькая доля экспертных траекторий используется для имитационного обучения, чтобы инициализировать агента. Во второй стадии, агент динамически предсказывает и выполняет действия, автоматически собирает разнообразные траектории, и оптимизирует несколько rollouts с помощью объективного оптимизатора GRPO. Для повышения эффективности RL, мы внедрили динамическую стратегию раннего остановка, чтобы урезать длинные траектории, которые могут привести к неудачам. Эти дополнительные оптимизации позволяют уменьшить время обучения и улучшить качество результатов. #### Результаты Мы провели эксперименты на стандартных данных VLN, таких как R2R и Room-to-Room. Наша система ActiveVLN показала существенное улучшение по сравнению с IL-базированными методами, в том числе с DAgger-based подходами. Мы также достигли состязательной производительности с современными RL-методами, несмотря на то, что использовали меньшую модель. Эксперименты показали, что ActiveVLN эффективно использует активное исследование, чтобы открыть различные и достоверные маршруты, которые могут быть пропущены статическими подходами. #### Значимость Наш подход может быть применен в различных сценариях, где требуется динамическое взаимодействие с средой и быстрое обучение. За счет активного исследования, ActiveVLN может быть применен в задачах, включая интерактивное навигационное пространство, автоматизированные системы помощи и даже в сфере робототехники. Также, наша система пре

Annotation:

The Vision-and-Language Navigation (VLN) task requires an agent to follow natural language instructions and navigate through complex environments. Existing MLLM-based VLN methods primarily rely on imitation learning (IL) and often use DAgger for post-training to mitigate covariate shift. While effective, these approaches incur substantial data collection and training costs. Reinforcement learning (RL) offers a promising alternative. However, prior VLN RL methods lack dynamic interaction with the...

ID: 2509.12618v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Deep Learning for Model-Free Prediction of Thermal States of Robot Joint Motors

2025-09-18

Авторы:

Trung Kien La, Eric Guiffo Kaigom

## Контекст Исследование актуально в связи с ростом требований к точности и эффективности динамических систем в сфере робототехники. Одной из ключевых задач в этой области является прогнозирование теплового состояния моторов силовых узлов роботов, что обеспечивает улучшение производительности, долговечности и надежности этих систем. Существующие методы, основанные на традиционных моделях, часто сталкиваются с проблемами связанными с силовой аппроксимацией, сложностью вычислений и неопределенностью данных. Эти ограничения могут привести к неточности прогнозов и нестабильности в работе моделей. Мотивация для данного исследования заключается в развитии метода, который будет устойчив к неопределенности и позволит использовать небольшие объемы данных для прогнозирования теплового режима моторов роботов. ## Метод Для решения данной задачи предлагается использовать глубокие нейронные сети, в частности, модели, состоящие из нескольких скрытых слоев Long Short-Term Memory (LSTM) и полносвязных слоев. Модель является моделью-свободной, то есть не требует подробного описания внутренних механизмов робота для прогнозирования теплового режима. За счет этого модель становится гибкой и может быть применена к различным типам роботов. Архитектура сети включает в себя несколько скрытых слоев LSTM, которые позволяют обрабатывать последовательные данные, и полносвязные слои, которые выполняют прогнозирование. Данные для обучения сети собираются с использованием датчиков, измеряющих трение в системе. Использование нескольких нейронных сетей позволяет увеличить точность прогноза и обеспечить надежность системы. ## Результаты Проводились эксперименты с использованием данных, собранных с помощью системы мониторинга теплового режима моторов семи-узлового робота. Был произведен анализ данных, полученных в результате процесса обучения сети. В результате были получены показатели точности прогноза, которые демонстрируют высокую достоверность модели. Также было проведено сравнение результатов с другими методами, что подтвердило высокую эффективность предлагаемого подхода. На основе этих результатов была проведена оценка влияния подобного подхода на производительность и надежность силовых систем роботов. ## Значимость Предлагаемый подход имеет более широкие применения, в том числе в сферах, где необходимо точное прогнозирование теплового режима моторов роботов. Он может быть использован в автоматизированных системах управления и мониторинга, в разработке систем управления оборудованием. Одним из основных преимуществ является уменьшение времени для подготовки моделей и их адаптации к разли

Annotation:

In this work, deep neural networks made up of multiple hidden Long Short-Term Memory (LSTM) and Feedforward layers are trained to predict the thermal behavior of the joint motors of robot manipulators. A model-free and scalable approach is adopted. It accommodates complexity and uncertainty challenges stemming from the derivation, identification, and validation of a large number of parameters of an approximation model that is hardly available. To this end, sensed joint torques are collected and ...

ID: 2509.12739v1 cs.RO, cs.AI, cs.ET, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Deep Generative and Discriminative Digital Twin endowed with Variational Autoencoder for Unsupervised Predictive Thermal Condition Monitoring of Physical Robots in Industry 6.0 and Society 6.0

2025-09-18

Авторы:

Eric Guiffo Kaigom

## Контекст Индустрия 4.0 определяется своей способностью использовать робототехнику для достижения оптимальной эффективности в рабочей среде. Однако, в рамках Industry 5.0, роботы начинают выполнять более широкие задачи, включая симбиотическое сотрудничество с человеком и поддержку его работы. Эти усилия становятся крайне важными в условиях многобактериального производства и антифрагильного управления. Решения, ориентированные на прогнозирование и адаптацию к ситуациям, связанным с тепловыми нагрузками, приобретают решающее значение для гарантии человеческой безопасности и доступности роботов. Тепловые нагрузки, возникающие в результате перегрева моторов, могут привести к серьезным последствиям, включая повреждение оборудования и нарушение производственного цикла. Ранее, при обнаружении подходящего уровня теплового превышения, были применены меры защиты, такие как немедленное остановление работы робота и запуск процессов охлаждения. Однако, это приводит к прекращению производственной деятельности, что является неэффективным. В настоящее время становится важной задачей предупредить и адаптироваться к таким ситуациям, а также обеспечить самодостаточность робота в условиях выполнения задач, не опираясь на вмешательство человека. ## Метод Для решения этой задачи предлагается использовать цифровые двойники (digital twins), эмбеддированные в систему с помощью генерирующей и дискриминативной нейронной сети. Цифровой двойникой является вариационный автоэнкодер (Variational Autoencoder, VAE), который используется для моделирования сложности тепловых состояний. Модель VAE обучается с помощью данных, собираемых от робота в режиме реального времени, включая температуру моторов, скорость и угол поворота. Основной концепцией является «тепловая сложность», которая определяется как реконструкционная ошибка модели VAE. Эта ошибка позволяет определить показатели теплового баланса робота и прогнозировать потенциальные тепловые опоздания. Благодаря этому, робот может динамично адаптироваться к изменениям условий и принимать решения о состоянии теплового баланса в реальном времени. ## Результаты Для тестирования модели были использованы данные, собранные с реальных роботов в промышленных условиях. Набор данных включал информацию о температуре, скорости и механических параметрах роботов. Результаты показали, что модель VAE способна определять тепловые состояния с высокой точностью и предотвращать импедантные ситуации, когда робот может перегреться. В результате, модель позволяет роботу динамически прогнозировать и антиципировать

Annotation:

Robots are unrelentingly used to achieve operational efficiency in Industry 4.0 along with symbiotic and sustainable assistance for the work-force in Industry 5.0. As resilience, robustness, and well-being are required in anti-fragile manufacturing and human-centric societal tasks, an autonomous anticipation and adaption to thermal saturation and burns due to motors overheating become instrumental for human safety and robot availability. Robots are thereby expected to self-sustain their performa...

ID: 2509.12740v1 cs.RO, cs.AI, cs.ET, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Force-Modulated Visual Policy for Robot-Assisted Dressing with Arm Motions

2025-09-18

Авторы:

Alexis Yihong Hao, Yufei Wang, Navin Sriram Ravie, Bharath Hegde, David Held, Zackory Erickson

#### Контекст Robot-assisted dressing является важной задачей, способной значительно улучшить жизнь людей с мобильными ограничениями. Однако реализация этой задачи требует решения значительных вызовов. Чтобы обеспечить эффективность и комфорт при одевании, робот должен уметь справляться с труднодоступными деформируемыми одеждой, аккуратно применять силы и адаптироваться к движениям тела человека. Однако многие предыдущие работы делали существенные упрощения, такие как статичность тела человека во время одевания, что ограничивало возможности применения таких систем в реальной жизни. #### Метод В настоящей работе разрабатывается система контроля робота, которая может работать в условиях частичного визуального восприятия и корректироваться в реальном времени на основе сигналов силового воздействия. За основу была взята методология обучения с подкреплением в симуляционной среде, где был обучен общий параметрический политический класс, который может работать в условиях частичных визуальных входных данных. Для улучшения точности и безопасности в реальном мире были использованы методы оптимизации, которые включали локальную оптимизацию политики на основе многоmodal'ного воздействия (визуальных и силовых сигналов) и гибкого алгоритма онлайн-обучения. #### Результаты Опытные исследования были проведены в двух сферах: в симуляционной среде с использованием замкнутых ответных моделей тела и в реальном мире с участием 12 человек в течение 264 циклов одевания. Результаты показали, что система может успешно одевать две длинно sleev-одежды на людей, адаптируясь к разным движениям рук. Это превосходит другие подходы в степени комфорта и успешности выполнения задачи. #### Значимость Предлагаемый подход имеет широкие перспективы в использовании в ситуациях, где нужна роботизированная помощь в одевании, например, для пожилых людей или людей с ограниченным двигательным функционированием. Он улучшает безопасность и комфорт при одевании благодаря тому, что адаптируется к движениям тела и реагирует на посторонние воздействия визуально и силово. #### Выводы Разработанная система определяет новый путь в области роботизированных систем для одевания, способных адаптироваться к реальным условиям. Будущие работы будут сфокусированы на расширении возможностей системы, в том числе увеличении количества типов одежды, которые она может одевать, и расширении сценариев применения в реальной жизни.

Annotation:

Robot-assisted dressing has the potential to significantly improve the lives of individuals with mobility impairments. To ensure an effective and comfortable dressing experience, the robot must be able to handle challenging deformable garments, apply appropriate forces, and adapt to limb movements throughout the dressing process. Prior work often makes simplifying assumptions -- such as static human limbs during dressing -- which limits real-world applicability. In this work, we develop a robot-...

ID: 2509.12741v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Toward Ownership Understanding of Objects: Active Question Generation with Large Language Model and Probabilistic Generative Model

2025-09-18

Авторы:

Saki Hashimoto, Shoichi Hasegawa, Tomochika Ishikawa, Akira Taniguchi, Yoshinobu Hagiwara, Lotfi El Hafi, Tadahiro Taniguchi

## Контекст Успешное взаимодействие роботов с человеком в домашних и офисных пространствах требует понимания владения предметами, чтобы выполнять команды, такие как "Принесите мне свою чашку". Однако определение владельца предмета только на основе визуальных признаков оказывается недостаточно надежным. Для решения этой проблемы предлагается новый подход, который объединяет активное получение знаний и использование глубоких языковых моделей. Целью данного исследования является создание фреймворка, позволяющего роботам активно формировать и задавать вопросы, связанные с владением, для эффективного получения необходимой информации. ## Метод Разработанный фреймворк, названный Active Ownership Learning (ActOwL), объединяет две основные компоненты: генеративную модель для выбора наиболее подходящих вопросов и технологии больших языковых моделей для проверки коммуникативности этих вопросов. ActOwL начинает с классификации предметов как общих (не принадлежащих конкретному человеку) или владением конкретного пользователя. Затем, используя модель вероятностной генерации, выбираются вопросы, которые максимизируют информационный потенциал для определения владельца. Эта стратегия обеспечивает эффективное получение знаний об отношениях владения, уменьшая количество необходимых вопросов. ## Результаты Исследования проводились в симуляционной двухкомнатной квартире и на реальных экспериментальных установках. ActOwL показал значительное преимущество по времени и точности в сравнении с базовыми методами. Например, для определения владельца всех предметов в окружении робот требовалось меньше запросов, что демонстрирует эффективность и практическую значимость подхода. Особое внимание уделено тому, что ActOwL способен адаптироваться к различным средам и пользователям, увеличивая производительность и социальное приемлемость. ## Значимость Результаты ActOwL открывают пути для применения в различных сферах, включая удобные домашние ассистенты и системы управления офисными пространствами. Фреймворк позволяет роботам не только более точно выполнять задачи, но и создавать более естественные взаимоотношения с пользователями. Благодаря интеграции глубоких моделей и активного обучения, ActOwL показывает возможность решения социально значимых задач, связанных с пониманием владения и структурированием пространства. ## Выводы Данное исследование подтверждает эффективность стратегии активного запроса информации в сфере определения владения предметами. Оно показывает, что роботы, использующие ActOwL, могут быстрее и точнее получать необходимые знания.

Annotation:

Robots operating in domestic and office environments must understand object ownership to correctly execute instructions such as ``Bring me my cup.'' However, ownership cannot be reliably inferred from visual features alone. To address this gap, we propose Active Ownership Learning (ActOwL), a framework that enables robots to actively generate and ask ownership-related questions to users. ActOwL employs a probabilistic generative model to select questions that maximize information gain, thereby a...

ID: 2509.12754v1 cs.RO, cs.AI, cs.HC, cs.LG

arXiv PDF

📄 Multi-Robot Task Planning for Multi-Object Retrieval Tasks with Distributed On-Site Knowledge via Large Language Models

2025-09-18

Авторы:

Kento Murata, Shoichi Hasegawa, Tomochika Ishikawa, Yoshinobu Hagiwara, Akira Taniguchi, Lotfi El Hafi, Tadahiro Taniguchi

## Контекст В повседневной жизни часто возникают ситуации, требующие выполнения множества задач, например, "Найдите яблоко и банан" или "Подготовитесь к походу". Эти задачи включают поиск нескольких объектов и разбор контекстно зависимых команд. Однако многие существующие системы не могут эффективно разбивать такие задачи на подзадачи и назначать их разным роботам, особенно когда роботы обладают разным местным знанием. Этот вопрос является ключевым для развития робототехники и автоматизации. Наша мотивация заключается в создании системы, которая может легко разбивать задачи на подзадачи и назначать их разным роботам, используя их местные знания и нетерминированные природные языковые команды. ## Метод Мы предлагаем распределенную систему планирования задач для многообъектных задач с использованием распределенных знаний на месте, построенную на базе больших языковых моделей (LLM). Метод работает следующим образом: 1) Он разбирает естественные языковые команды; 2) Инференирует потребности в объектах; 3) Разбивает задачи на подзадачи; 4) Назначает подзадачи разным роботам. Мы также разработали новую стратегию для гибкого обучения с парой образцов, которая позволяет роботам использовать знания о пространстве, наученные в определенной области, для точного выполнения задач. ## Результаты Мы провести эксперименты с целью оценки нашей системы. Мы использовали данные из реальных ситуаций и симуляций. Наши результаты показывают, что наша система выполняла задачи с примерно 94% успешностью при присваивании подзадач роботам, что значительно превосходит производительность систем случайного распределения (56%) и систем, основанных на здравом смысле (52%). Мы также провели квалитативные оценки с помощью двух мобильных роботов, которые подтвердили возможность нашей системы выполнять задачи, включая неожиданные, такие как "Подготовьтесь к походу". ## Значимость Наша работа может применяться в различных областях, таких как управление роботами в сложных средах, услуги доставки, помощь в домашних условиях и многое другое. Она предоставляет несколько преимуществ, включая увеличение эффективности и точности выполнения задач. Мы считаем, что наш подход может оказаться важным для развития робототехники и интеллектуальных систем. ## Выводы Мы представили новую систему планирования задач для многообъектных задач с использованием распределенных знаний и гибкого обучения с парой образцов. Наши эксперименты показали высокую эффективность этой системы. Мы намерены продолжать исследовать возможности роботов в раз

Annotation:

It is crucial to efficiently execute instructions such as "Find an apple and a banana" or "Get ready for a field trip," which require searching for multiple objects or understanding context-dependent commands. This study addresses the challenging problem of determining which robot should be assigned to which part of a task when each robot possesses different situational on-site knowledge-specifically, spatial concepts learned from the area designated to it by the user. We propose a task planning...

ID: 2509.12838v1 cs.RO, cs.AI, cs.MA

arXiv PDF

📄 Out of Distribution Detection in Self-adaptive Robots with AI-powered Digital Twins

2025-09-18

Авторы:

Erblin Isaku, Hassan Sartaj, Shaukat Ali, Beatriz Sanguino, Tongtong Wang, Guoyuan Li, Houxiang Zhang, Thomas Peyrucain

#### Контекст Self-adaptive robots (SARs), работающие в сложных и неопределенных средах, должны активно обнаруживать и устранять аномальные поведения, включая случаи out-of-distribution (OOD). Это необходимо для поддержки устойчивости и надежности работы таких систем. Однако OOD-детекция в SARs представляет сложности ввиду нестандартности и неточности данных. Недостаточность существующих подходов включает неверное отображение OOD-событий, недостаточную интерпретируемость решений и проблемы с масштабируемостью. Эти проблемы могут привести к ограниченной точности детекции или неудачной самоадаптации. #### Метод Мы предлагаем ODiSAR (Out-of-Distribution Detection in SARs) — подход, основанный на digital twin-технологии. ODiSAR использует Transformer-based digital twin для прогнозирования состояний SAR и оценки неопределенности. Для детекции OOD-событий мы используем два ключевых показателя: reconstruction error и predictive variance. Эти показатели объединяются для выявления нестандартных поведений, даже в условиях, ранее не встречавшихся в обучении модели. Кроме того, ODiSAR включает explainability-layer, который связывает OOD-события с конкретными состояниями SAR, повышая прозрачность и поддержку самоадаптации. Мы описываем два сценария: навигация офисной средой и навигация водных транспортных средств. #### Результаты Мы проводили эксперименты для оценки ODiSAR, используя данные, собранные из двух индустриальных SAR: одного для офисной навигации, другого — для водных сред. Результаты показали высокую точность ODiSAR в детекции OOD-событий: AUROC — 98%, TNR@TPR95 — 96%, F1-score — 95%. Эти результаты указывают на эффективность подхода в прогнозировании OOD-событий без необходимости предварительного обучения на конкретных сценариях. Также ODiSAR обеспечивает понятные инсайды, помогающие в самоадаптации SAR. #### Значимость ODiSAR может быть применен в многих областях, где SARs оперируют в нестандартных или неизвестных условиях, включая robotics, maritime и industrial automation. Он предоставляет высокую точность детекции OOD, высокую интерпретируемость решений, а также масштабируемость. Это позволяет улучшить самоадаптацию и надежность SARs в различных сложных средах. #### Выводы ODiSAR достиг высокой точности в детекции OOD-событий в SARs и предоставил интерпретируемые результаты для самоадаптации. Наш подход показал свою эффективность в нескольких сценариях, подтвердив потенциал для улучшения доверия и точности SARs в неизвестных условиях. Будущие исследования будут фокусироваться на улучшении моделей digital twins, оптимизации методов детекции OOD и расширении применения ODiSAR к новым сложным средам.

Annotation:

Self-adaptive robots (SARs) in complex, uncertain environments must proactively detect and address abnormal behaviors, including out-of-distribution (OOD) cases. To this end, digital twins offer a valuable solution for OOD detection. Thus, we present a digital twin-based approach for OOD detection (ODiSAR) in SARs. ODiSAR uses a Transformer-based digital twin to forecast SAR states and employs reconstruction error and Monte Carlo dropout for uncertainty quantification. By combining reconstructio...

ID: 2509.12982v1 cs.RO, cs.AI, cs.SE

arXiv PDF

📄 A Design Co-Pilot for Task-Tailored Manipulators

2025-09-18

Авторы:

Jonathan Külz, Sehoon Ha, Matthias Althoff

## Контекст Роботы-манипуляторы применяются в большом количестве сфер, однако производители часто придерживаются философии "один размер для всех", применяя одинаковые модели в различных условиях. Это приводит к неэффективности, так как генерические конструкции не учитывают специфику задач. Создание настраиваемых, оптимизированных под конкретную задачу манипуляторов становится затруднительным из-за длительных и дорогостоящих циклов разработки, а также высокой стоимости настраиваемого оборудования. Недавно развиваются методы вычислительного проектирования, нацеленные на решение этих проблем. Благодаря модулярным роботам становится возможным быстро и экономически эффективно адаптироваться к новым промышленным условиям. В этой работе предлагается подход к автоматическому проектированию и оптимизации заданных подходов к морфологии роботов, учитывающих конкретную среду. Мы используем обратную кинематику для многообразия модификаций монапуляторов. Основываясь на полностью дифференцируемой структуре, мы можем совершенствовать разработанные кинематические решения и морфологии с помощью градиентного метода. Наш подход сильно ускоряет процесс разработки, превращая комплексные оптимизационные задачи из нескольких часов в несколько секунд, и позволяет роботу-копилятору гибко реагировать на изменения и эффективно работать в сотрудничестве с человеком. ## Метод Метод состоит из двух ключевых компонентов: использование обратной кинематики для обучения и полностью дифференцируемой модели для градиентного оптимизации. Мы обучаем модель нейронных сетей для каждого вида модификации робота, которая может предсказывать положение робота в пространстве при данном входе, учитывая его конструкцию и размеры. Эта модель обеспечивает быстрое и точное воспроизведение сложных манипуляций в различных ситуациях. Далее, мы используем градиентные методы для приближения лучшего решения, чтобы оптимизировать как конструкцию, так и отношение между роботом и средой. Наша модель основывается на нейронных сетях, которые могут быстро скорректировать проект, исходя из изменений входных данных, таких как размеры препятствий или требования к динамике. Эта функция дифференцируемости позволяет проводить эффективные эксперименты и ускоряет поиск оптимальных решений для заданных условий. ## Результаты Мы проверили нашу модель на нескольких сценариях, включая сценарии, где робот должен перемещаться по усложненной среде, а также сценарии, где необходимо оптимальное использование рабочего пространства. Мы проводили эксперименты с различными модификациями, включая модификации

Annotation:

Although robotic manipulators are used in an ever-growing range of applications, robot manufacturers typically follow a ``one-fits-all'' philosophy, employing identical manipulators in various settings. This often leads to suboptimal performance, as general-purpose designs fail to exploit particularities of tasks. The development of custom, task-tailored robots is hindered by long, cost-intensive development cycles and the high cost of customized hardware. Recently, various computational design ...

ID: 2509.13077v1 cs.RO, cs.AI

arXiv PDF

📄 An Uncertainty-Weighted Decision Transformer for Navigation in Dense, Complex Driving Scenarios

2025-09-18

Авторы:

Zhihao Zhang, Chengyang Peng, Minghao Zhu, Ekim Yurtsever, Keith A. Redmill

#### Контекст Автоматическое управление транспортом в тяжелых и динамичных средах требует систем управления, которые могут эффективно использовать информацию о пространстве и длинных хронологических зависимостях, независимо от вероятностных ошибок. Одна из сложных задач — верная навигация в круговых маршрутах (раундаботы), где требуется комплексное объединение локальных стратегий и дальноводных планов. Данная работа призвана развить новую модель, которая бы придала уверенность и эффективность тактического управления в таких средах. #### Метод Предлагаемая модель, **Uncertainty-Weighted Decision Transformer (UWDT)**, сочетает в себе круговые схемы видимости (bird's-eye-view occupancy grids) с моделями последовательного моделирования, основанными на трансформерах. Основным инновационным аспектом является введение механизма, при котором железная модель (teacher) вычисляет показатель энтропии для каждого кванта (токена), который затем используется в тренируемой модели (student) для взвешивания ошибок в процессе обучения. Этот подход создает усиление обучения на более неуверенных, но важных для безопасности состояниях, не нарушая устойчивости модели в более частых, но менее критичных ситуациях. #### Результаты Эксперименты проводились в симуляторе раундаботов, где были использованы различные степени загруженности трафика. Модель UWDT показала значительный выигрыш по отношению к конкурентам по таким показателям, как награда (reward), частота столкновений и стабильность поведения. Наибольшую эффективность UWDT проявила в ситуациях высокой загрузки трафика, где требуется максимальная точность и стабильность решений. #### Значимость Модель UWDT может быть применена в автономных системах управления транспортом, особенно в сложных и плотных городских средах. Ее преимущество заключается в улучшении оценки вероятностных состояний, что приводит к более надежным и эффективным решениям. Это открывает путь к более безопасному и производительному самоуправлению транспорта в трудных условиях. #### Выводы Результаты показывают, что **Uncertainty-Weighted Decision Transformer** является эффективным инструментом для решения проблем неопределенности и неоднородности в задачах автономного управления транспортом. Будущие исследования будут сконцентрированы на расширении модели для других видов сложных сценариев и улучшении ее универсальности в различных условиях движения.

Annotation:

Autonomous driving in dense, dynamic environments requires decision-making systems that can exploit both spatial structure and long-horizon temporal dependencies while remaining robust to uncertainty. This work presents a novel framework that integrates multi-channel bird's-eye-view occupancy grids with transformer-based sequence modeling for tactical driving in complex roundabout scenarios. To address the imbalance between frequent low-risk states and rare safety-critical decisions, we propose ...

ID: 2509.13132v1 cs.RO, cs.AI

arXiv PDF

1
2
36
37
38
39
40
54
55

Показано 371 - 380 из 544 записей