📚 Саммари научных статей из arXiv

Найдено 544 результатов по запросу 'cs.RO, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Bootstrapping Reinforcement Learning with Sub-optimal Policies for Autonomous Driving

2025-09-09

Авторы:

Zhihao Zhang, Chengyang Peng, Ekim Yurtsever, Keith A. Redmill

## Контекст Современные автомобили с автономным управлением широко используют методы машинного обучения, особенно техники оптимизации подкрепления (Reinforcement Learning, RL), для построения эффективных стратегий управления. Однако, RL-агенты часто сталкиваются с проблемами, такими как неэффективность обучения и недостаточность эксплорейшена, что снижает их эффективность в обнаружении оптимальных стратегий управления. Эти проблемы особенно заметны при обучении агентов для задач динамического управления, таких как взаимодействие с другими участниками дорожного движения. Нашим целью является разработка метода, который улучшит обучение RL-систем, используя примерные демонстрации, не требующие высокого уровня оптимизации. ## Метод Мы предлагаем систему, использующую подход, основанный на комбинации Soft Actor Critic (SAC) с правильной демонстрацией. Для этого мы используем правильный контроллер смены полос, который демонстрирует простую стратегию для смены полос, которую RL-система может использовать как начальную точку для обучения. Этот правильный контроллер вводится как дополнение к алгоритму SAC, который руководствует агента в сложных ситуациях на дороге. Мы полагаемся на демонстрационный подход, который значительно улучшает эффективность обучения, особенно в случаях, когда водительские стратегии должны быть устойчивы и стремятся к минимизации ошибок. ## Результаты Мы провели эксперименты на симуляторе автомобиля с автономным управлением, сравнив нашу систему с агентом, обученным только с помощью SAC. Результаты показали, что интеграция демонстрационного контроллера с SAC приводит к значительному улучшению показателей управления, включая более стабильное взаимодействие с другими транспортными средствами и более эффективное обучение, особенно в сложных условиях. Эти результаты подтверждают, что демонстрационный подход может значительно улучшить скорость и качество обучения RL-систем в автономном вождении. ## Значимость Наше решение может быть применено в сфере автономного вождения, где необходимо обеспечить безопасность и эффективность в сложных средах. Благодаря демонстрационному подходу, мы можем уменьшить время обучения и повысить точность стратегий управления. Этот подход может быть расширен для других задач, включая логистику, системы самоуправляемых мобильных устройств и другие ситуации, где необходимо оптимизировать стратегии взаимодействия. ## Выводы Мы разработали метод, который использует примерные демонстрации для улучшения обучения RL-систем в автономном вождении. Этот подход позволяет улучшить эффективность и безопасность д

Annotation:

Automated vehicle control using reinforcement learning (RL) has attracted significant attention due to its potential to learn driving policies through environment interaction. However, RL agents often face training challenges in sample efficiency and effective exploration, making it difficult to discover an optimal driving strategy. To address these issues, we propose guiding the RL driving agent with a demonstration policy that need not be a highly optimized or expert-level controller. Specific...

ID: 2509.04712v1 cs.RO, cs.AI, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 A Knowledge-Driven Diffusion Policy for End-to-End Autonomous Driving Based on Expert Routing

2025-09-09

Авторы:

Chengkai Xu, Jiaqi Liu, Yicheng Guo, Peng Hang, Jian Sun

#### Контекст В области автономного вождения, особенно при использовании методов end-to-end, существуют значительные проблемы. Эти методы должны генерировать многомодальные действия, обеспечивать гармоничность временных событий и генерализовывать поведение в различных сценариях. Несмотря на успехи, существующие методы часто страдают от нехватки модулярности в адаптации, сложности в долгосрочной консистентности и недостатка гибкости при обработке сложных сценариев. Эти проблемы влекут за собой риск высокого количества столкновений, неустойчивости управления и сложности в моделировании. Наша мотивация заключается в разработке продвинутого подхода, который объединит модульность, стабильность и мощь искусственного интеллекта для повышения производительности и безопасности автономных систем. #### Метод Мы предлагаем KDP (Knowledge-Driven Diffusion Policy), который объединяет мощь моделей распределения и механизм спарсе широкого спектра экспертов. Этот подход включает в себя два основных компонента: генерирующую модель распределения, которая генерирует многомодальные и гармоничные последовательности действий, и модульный механизм экспертов, активирующий специализированные эксперты в зависимости от контекста. Выбор экспертов осуществляется с использованием трансформера, что обеспечивает эффективность и точность в адаптации к конкретным сценариям. Такой метод позволяет получать модулируемые, оптимизированные и кросс-сценарийные решения для автономного вождения. #### Результаты Мы провели широкий спектр экспериментов в различных автономных сценариях, включая городские улицы, автомагистрали и сложные крутые дорожные участки. Мы сравнивали KDP с трех текущих парадигм в этих условиях. Результаты показали, что KDP достигает вышего успешности в выполнении задач, снижает риск столкновений и повышает уровень сглаженности управления. Особенно заметна его превосходность в долгосрочных сценариях и ситуациях, требующих высокой модулярности. Анализы абляции подтвердили важность механизма разделения экспертов и значимость трансформера в строительстве модели. Эти результаты показывают, что KDP является эффективным инструментом для модульной интеллектуализации автономных систем. #### Значимость KDP предлагает новый подход к автономному вождению, который может применяться в различных сценариях, включая городские зоны, трассы и условия погоды. Его основные преимущества заключаются в гибкости, модулярности и стабильности. Этот подход может не только повысить безопасность и точность, но и сделать системы

Annotation:

End-to-end autonomous driving remains constrained by the need to generate multi-modal actions, maintain temporal stability, and generalize across diverse scenarios. Existing methods often collapse multi-modality, struggle with long-horizon consistency, or lack modular adaptability. This paper presents KDP, a knowledge-driven diffusion policy that integrates generative diffusion modeling with a sparse mixture-of-experts routing mechanism. The diffusion component generates temporally coherent and ...

ID: 2509.04853v1 cs.RO, cs.AI

arXiv PDF

📄 DeGuV: Depth-Guided Visual Reinforcement Learning for Generalization and Interpretability in Manipulation

2025-09-09

Авторы:

Tien Pham, Xinyun Chi, Khang Nguyen, Manfred Huber, Angelo Cangelosi

#### Контекст Область исследований включает в себя развитие алгоритмов и методов для обеспечения генерализации и интерпретируемости визуальных моделей в системах программирования на основе визуальных входных данных. Особенно актуальным этот вопрос является в рамках робототехники, где системы должны решать задачи в новых средах с минимальным обучением. На сегодняшний день существуют проблемы с обеспечением общейтины и устойчивости визуальных моделей в RL (Reinforcement Learning), так как обычные методы обучения часто терпят неудачи в новых условиях, не входящих в обучающую выборку. Это приводит к необходимости разработки систем, которые способны быстро адаптироваться и обеспечивать прозрачность в своих решениях. #### Метод Предлагаемый метод, DeGuV (Depth-Guided Visual Reinforcement Learning), основывается на использовании маскирования визуальных данных с помощью learnable masker network, который использует глубинные кадры (depth) для формирования маски, контролирующей внимание модели. Эта маска выделяет важные регионы в изображении, предотвращая распыление внимания на ненужные детали. Более того, в процессе обучения внедрена контрастная оценка для Q-значений, чтобы повысить стабильность и эффективность тренировки на разных исходных данных. Эта стратегия позволяет модели быстро адаптироваться к новым условиям и повысить уровень прозрачности в своих решениях. #### Результаты Результаты экспериментов проводились на RL-ViGen бенчмарке с использованием робота Franka Emika. Агент DeGuV показал выдающиеся результаты в zero-shot sim-to-real transfer, то есть в условиях перехода из симулятора в реальный мир без дополнительного обучения. Метод показал высокую устойчивость и эффективность в обучении, существенно превосходя существующие методы по общейтине и скорости обучения. Также DeGuV улучшил интерпретируемость решений за счет выделения важных областей визуальных данных, которые влияют на модель. #### Значимость Проанализированы возможные области применения DeGuV, в том числе в робототехнике, где требуется быстрая адаптация моделей в новых средах. Особенно значимы области, где необходима высокая генерализация и интерпретируемость моделей. Наиболее заметными преимуществами являются улучшенная устойчивость к новым условиям, быстрота обучения и повышенное внимание к ключевым регионам во входных данных. Будущй потенциал исследований заключается в расширении этого подхода на другие типы задач, в том числе не только в робототехнике, но также в различных трехмерных задачах с визуальными входом. #### Выводы Метод DeGuV достиг высоких результатов в области генерализации и инт

Annotation:

Reinforcement learning (RL) agents can learn to solve complex tasks from visual inputs, but generalizing these learned skills to new environments remains a major challenge in RL application, especially robotics. While data augmentation can improve generalization, it often compromises sample efficiency and training stability. This paper introduces DeGuV, an RL framework that enhances both generalization and sample efficiency. In specific, we leverage a learnable masker network that produces a mas...

ID: 2509.04970v1 cs.RO, cs.AI

arXiv PDF

📄 Pointing-Guided Target Estimation via Transformer-Based Attention

2025-09-09

Авторы:

Luca Müller, Hassan Ali, Philipp Allgeuer, Lukáš Gajdošech, Stefan Wermter

#### Контекст Направленные (деиктические) жесты, такие как указательный палец, являются основной формой невербального общения, позволяющей людям указывать на конкретные объекты или места. В контексте Human-Robot Interaction (HRI) становится критически важной способность роботов предсказывать человеческие намерения и реагировать соответствующим образом. Однако, в существующих моделях часто отсутствуют модули, объединяющие в себе визуальные и жестовые сигналы, что приводит к неточностям в определении целей. Мы предлагаем архитектуру Multi-Modality Inter-TransFormer (MM-ITF), которая использует модальности визуальных и жестовых сигналов для точного предсказания объектов на столе в сценарии с NICOL-роботом. #### Метод Модель MM-ITF основана на трансформерной архитектуре и использует входные данные в виде RGB-видео и жестов указателя. Она предназначена для моделирования взаимодействия человека с роботом на основе модулярной архитектуры. Основным механизмом является интер-модальное внимание (inter-modality attention), которое позволяет объединять сигналы с разных модальностей. Данная модель учитывает визуальные и жестовые сигналы, анализируя их взаимодействие и объединяя в себе информацию для более точного предсказания объекта. Кроме того, мы представили метрику - "patch confusion matrix" - для оценки точности предсказания модели на кандидатских областях. #### Результаты Мы проводили эксперименты в управляемой среде с NICOL-роботом, где люди использовали естественные жесты для указания объектов на столе. Модель MM-ITF, обученная на этих данных, показала высокую точность в предсказании преднамеренных объектов. Мы использовали 2D RGB-данные для определения целей, и модель успешно интерпретировала жесты, присваивая каждому кандидату вероятность. Результаты показали, что модель MM-ITF может точно идентифицировать целевые объекты, даже при неоднозначных условиях. Также мы продемонстрировали точность нашей метрики "patch confusion matrix", позволяющей понять, на каких областях модель делает правильные и ошибочные предсказания. #### Значимость Модель MM-ITF может быть применена в различных сценариях Human-Robot Interaction, где необходимо точно определять целевые объекты на основе жестов. Он предоставляет большую точность и надежность в предсказании целей, что может улучшить интерактивность и удобство взаимодействия. Кроме того, использование только 2D RGB-данных делает модель доступной и эффективной для задач в сложных средах. Наша работа также открывает пути для будущих исследований в области моделирования деиктических жестов и их интеграции с трансформерными моделями. #### Выво

Annotation:

Deictic gestures, like pointing, are a fundamental form of non-verbal communication, enabling humans to direct attention to specific objects or locations. This capability is essential in Human-Robot Interaction (HRI), where robots should be able to predict human intent and anticipate appropriate responses. In this work, we propose the Multi-Modality Inter-TransFormer (MM-ITF), a modular architecture to predict objects in a controlled tabletop scenario with the NICOL robot, where humans indicate ...

ID: 2509.05031v1 cs.RO, cs.AI, cs.CV, I.2.9; I.2.10; I.2.6

arXiv PDF

📄 INGRID: Intelligent Generative Robotic Design Using Large Language Models

2025-09-06

Авторы:

Guanglu Jia, Ceng Zhang, Gregory S. Chirikjian

## Контекст Область исследования, связанная с обеспечением роботов интеллектуального дизайна, является ключевой для развития рациональных архитектур роботов. Существующие подходы часто ограничены жесткой связью с конкретными типами рамок и механизмов, что существенно ограничивает гибкость и широту применения. Одной из наиболее затруднительных задач является построение параллельных механизмов, которые могли бы предоставить компромисс между мобильностью и устойчивостью. Это связано с тем, что многие существующие методы требуют ручного вмешательства или опираются на жесткие предварительно определенные архитектуры, что вносит ограничения на широкую применимость. Мотивирующим фактором для настоящего исследования является необходимость автоматизировать процесс проектирования параллельных механизмов, чтобы обеспечить более широкую гибкость в разработке новых роботов. ## Метод Методология разработки INGRID (Intelligent Generative Robotic Design) основывается на сочетании теории механизмов и методов машинного обучения. Фреймворк использует мощь любого большого языкового моделирования (LLM) для разбора и анализа требований к дизайну. Он декомпозирует задачу дизайна на четыре подзадачи: анализ ограничений, генерация символов кинематики, строительство цепей и полный дизайн механизмов. Эти подзадачи выполняются в последовательности, гарантируя, что каждая стадия тесно связана с предыдущей и последующей. Используя глубокую интеграцию с reciprocal screw theory и kinematic synthesis, INGRID предоставляет возможность вывода новых конфигураций механизмов с определяемой мобильностью. ## Результаты В ходе экспериментов были проведены три основных случая использования INGRID. Работа была проверена на моделях, требующих различных уровней мобильности и сложности. В результате фреймворк способен генерировать полностью новые конструкции параллельных механизмов, которые не были описаны в литературе. Например, INGRID может создавать новые роботизированные армы с гибкой мобильностью, удовлетворяющие конкретным задачам, таким как трансформация в пространстве. Кроме того, в результатах показана возможность построения конструкций с использованием различных материалов и структур, что обеспечивает гибкость в проектировании. ## Значимость Значимость INGRID заключается в том, что он предлагает новый подход к разработке параллельных механизмов, который может быть применен в различных областях, таких как авиация, медицина, индустрия, и даже в домашних роботах. Улучшенная гибкость в проектировании позволяет создавать роботы с уникальными

Annotation:

The integration of large language models (LLMs) into robotic systems has accelerated progress in embodied artificial intelligence, yet current approaches remain constrained by existing robotic architectures, particularly serial mechanisms. This hardware dependency fundamentally limits the scope of robotic intelligence. Here, we present INGRID (Intelligent Generative Robotic Design), a framework that enables the automated design of parallel robotic mechanisms through deep integration with recipro...

ID: 2509.03842v1 cs.RO, cs.AI

arXiv PDF

📄 Reactive In-Air Clothing Manipulation with Confidence-Aware Dense Correspondence and Visuotactile Affordance

2025-09-06

Авторы:

Neha Sunil, Megha Tippur, Arnau Saumell, Edward Adelson, Alberto Rodriguez

## Контекст Манипулирование одеждой представляет собой сложную задачу из-за сложной структуры и динамики материала, частых самостоятельных скрытий (self-occlusion) и высокой непредсказуемости. До сих пор, существующие системы часто прибегают к раздражительной простотой, либо предполагают доступность ключевых черт. Наша работа предлагает двойной-рукой (dual-arm) систему с визуотактильным подходом, которая объединяет подходы визуальной корреляции (correspondence) с учитывающей навыки тактильного восприятия (visuotactile affordance). Данная модель позволяет работать с существенно складированными и висующими одежными элементами, обеспечивая более гибкость и достоверность. ## Метод Наша система основана на двойном использовании сенсоров, которые объединяют визуальное и тактильное восприятие. Модель визуальной корреляции воспроизводится на симулированной высокоточной выборке данных, используя распределительный потери (distributional loss), который ловит симметрии ткани и формирует надежные оценки вероятности визуальной корреляции. Эти оценки помогают реактивному менеджеру (reactive state machine) адаптировать свою стратегию корректировки в зависимости от уровня неопределенности оптического восприятия. Одновременно, модель визуально-тактильного сжимания (visuotactile grasp affordance), самостоятельно учитаемая (self-supervised) используя высокоразрешенные тактильные данные, определяет регионы для безопасного захвата. Такой же классификатор используется во время выполнения задач для непосредственного валидации захвата. Благодаря этому подходу, модель может отложить действия в условиях нехватки уверенности, что позволяет ей справляться с высоко-оккультными (highly occluded) ситуациями, такими как работа над столовыми поверхностями и в воздухе. ## Результаты Мы проверили нашу модель на задачах складирования и висания одежды. Наши модели визуальной корреляции и визуально-тактильных захватов показали высокую точность в выполнении задач. В симуляции, а также в реальном мире, наши системы продемонстрировали эффективность в обработке сложных конфигураций одежды, включая складирование на столе и висание на гардеробе. Данные вычисления позволяют нам говорить о достаточной общей способности модели к различным задачам манипулирования одеждой. ## Значимость Мы видим возможности применения нашей модели в различных областях, таких как автоматизация домашних задач, роботизированная модная промышленность или роботизированная помощь лицам с ограниченными физическими возможностями. Наш подход предоставляет несколько преимуществ, включая высокую точность, ус

Annotation:

Manipulating clothing is challenging due to complex configurations, variable material dynamics, and frequent self-occlusion. Prior systems often flatten garments or assume visibility of key features. We present a dual-arm visuotactile framework that combines confidence-aware dense visual correspondence and tactile-supervised grasp affordance to operate directly on crumpled and suspended garments. The correspondence model is trained on a custom, high-fidelity simulated dataset using a distributio...

ID: 2509.03889v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Keypoint-based Diffusion for Robotic Motion Planning on the NICOL Robot

2025-09-06

Авторы:

Lennart Clasmeier, Jan-Gerrit Habekost, Connor Gäde, Philipp Allgeuer, Stefan Wermter

## Контекст Роботическое движение — это важная задача в робототехнике, которая требует высокой точности и эффективности. На данный момент, для решения проблемы планирования движения используются технологии типа RRT (Rapidly-exploring Random Tree) или A*, но они требуют существенного времени для расчетов, особенно при работе с большими данными. Эта проблема становится критичной для реального времени в ситуациях, где робот должен быстро реагировать на изменяющуюся среду. Наша модель Keypoint-based Diffusion предлагает решение этой проблемы, используя методы глубокого обучения для создания более быстрого и точного алгоритма планирования движения. ## Метод Мы предлагаем Keypoint-based Diffusion, модель, основанную на распространении, для планирования движения робота. Модель использует точечные облака, полученные от 3D-сенсора, чтобы выдавать последовательности кейпоинтов для управления роботом. Мы обучаем модель с помощью данных, сгенерированных традиционными планировщиками, но наше абляционное исследование показало, что сеть сложно подстраивается под искажения в точечных облаках. Чтобы улучшить модель, мы удалили эти искажения из данных, что привело к существенному повышению точности и стабильности. Несмотря на то, что использование точечных облаков в качестве входных данных дало дополнительные преимущества, модель вполне способна работать без них, уменьшая задержку в реальном времени. ## Результаты Мы провели эксперименты с нашим алгоритмом на реальном роботе NICOL, который используется для обучения роботов. Мы сравнили нашу модель с традиционными планировщиками, такими как RRT. Наши результаты показали, что Keypoint-based Diffusion работает на порядок быстрее, выполняя планирование за несколько секунд вместо нескольких минут. Мы достигли успешного планирования движения на 90% из тестовых случаев, даже при сложных условиях. Этот результат показывает, что наш алгоритм гораздо эффективнее традиционных методов, особенно в реальном времени. ## Значимость Модель Keypoint-based Diffusion имеет широкие применения в робототехнике. Она может быть использована для планирования движения в сложных интерьерах, а также для применения в автоматизированных системах. Одним из основных преимуществ является уменьшение времени реакции, что важно для реального времени. Этот подход также может быть применен для разработки более эффективных алгоритмов в других областях, таких как системы визуального обозрения и системы самоуправляемых машин. ## Выводы Мы успешно разработали модель Keypoint-based Diffusion для планирования движения роботов, которая оказалась эффективнее существующих методов. Наш алгоритм показал себя как быстрый и точный в реальном времени. Мы планируем

Annotation:

We propose a novel diffusion-based action model for robotic motion planning. Commonly, established numerical planning approaches are used to solve general motion planning problems, but have significant runtime requirements. By leveraging the power of deep learning, we are able to achieve good results in a much smaller runtime by learning from a dataset generated by these planners. While our initial model uses point cloud embeddings in the input to predict keypoint-based joint sequences in its ou...

ID: 2509.04076v1 cs.RO, cs.AI

arXiv PDF

📄 DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation

2025-09-06

Авторы:

Hao-Shu Fang, Branden Romero, Yichen Xie, Arthur Hu, Bo-Ruei Huang, Juan Alvarez, Matthew Kim, Gabriel Margolis, Kavya Anbarasu, Masayoshi Tomizuka, Edward Adelson, Pulkit Agrawal

## Контекст Проблема передачи роботом человеческих декстерных манипуляций остается значитейшей темой в робототехнике. Однако существующие подходы, такие как телеоперация и машинное обучение с подкреплением, имеют ограничения в скорости и точности передачи навыков. Для улучшения этих процессов необходимо создать систему, позволяющую эффективно записывать и передавать человеческие действия на роботы. ## Метод DEXOP (Device for Robotic Transfer of Dexterous Human Manipulation) — это прогрессивный инструмент, который соединяет руки человека и робота механически. Он предлагает несколько ключевых преимуществ: полная совместимость с декстерными руками человека, реальное воспроизведение человеческого мотива в роботе, высококачественный контактный обзор и силовые отзывы. DEXOP способен записывать человеческие действия в различных естественных условиях, увеличивая скорость и точность передачи навыков на робота. ## Результаты Для оценки DEXOP проводились эксперименты с различными декстерными задачами, такими как скребение, сборка и здоровье. Данные, полученные с DEXOP, были использованы для обучения роботу выполнять эти задачи. Результаты показали, что робот, обученный на этих данных, демонстрирует значительное улучшение в скорости и точности выполнения задач по сравнению с телеоперацией. Например, в задаче скребения, робот, используя DEXOP, работал на 20% быстрее, чем при телеоперации. ## Значимость DEXOP открывает широкие перспективы в области передачи декстерной деятельности человека на робота. Он может применяться в различных сферах, включая производство, здравоохранение и домашние роботы. Например, в производстве DEXOP может помочь роботам изготавливать точные движения, в здравоохранении — обеспечить более точные медицинские техники, а в домашних роботах — упростить задачи, такие как уборка и кулинария. ## Выводы DEXOP представляет собой новый подход к передаче человеческих декстерных навыков на роботы. Он подтвердил свою эффективность в ряде задач и демонстрирует потенциал для улучшения передачи навыков в робототехнике. Будущие исследования будут сосредоточены на увеличении точности, улучшении параллелизма между рукой человека и роботом, а также расширении возможностей DEXOP для более сложных задач.

Annotation:

We introduce perioperation, a paradigm for robotic data collection that sensorizes and records human manipulation while maximizing the transferability of the data to real robots. We implement this paradigm in DEXOP, a passive hand exoskeleton designed to maximize human ability to collect rich sensory (vision + tactile) data for diverse dexterous manipulation tasks in natural environments. DEXOP mechanically connects human fingers to robot fingers, providing users with direct contact feedback (vi...

ID: 2509.04441v1 cs.RO, cs.AI, cs.CV, cs.HC

arXiv PDF

📄 Data Retrieval with Importance Weights for Few-Shot Imitation Learning

2025-09-05

Авторы:

Amber Xie, Rahul Chand, Dorsa Sadigh, Joey Hejna

## Контекст Имитационное обучение (IL) является важной методологией для научных и прикладных задач, позволяющей модели роботов осваивать новые окружения и задачи с минимальным числом примеров. Одним из подходов является **ретриев-подход** (retrieval-based imitation learning), который использует богатые и доступные базы данных для увеличения размера демонстрационных данных. Традиционный подход к ретриеву заключается в поиске ближайших соседей (NN) в латентном пространстве, однако он имеет высокий шум и не учитывает распределение данных в основной базе. Это приводит к ограниченности при обучении на небольших наборах данных в неизвестных средах. Мы предлагаем метод **Importance Weighted Retrieval (IWR)**, который учитывает веса источника данных во время выбора обучающих примеров, чтобы улучшить точность и устойчивость IL-методов. ## Метод Мы предложили **Importance Weighted Retrieval (IWR)**, который решает проблему выбора данных в ретриев-подходах, основываясь на оценке веса важности (importance weight) для каждого примера данных. Эти веса вычисляются с помощью гауссовой оценки плотности распределения (Gaussian KDE), учитывая распределение как целевого, так и предварительного набора данных. Чтобы выбрать наиболее подходящие примеры из базы данных, мы используем формулу: $w_i = \frac{p_{\text{target}}(x_i)}{p_{\text{prior}}(x_i)}$, где $w_i$ — веса примера $x_i$, а $p_{\text{target}}(x_i)$ и $p_{\text{prior}}(x_i)$ — распределения в целевой и предварительной базах данных соответственно. Этот подход устраняет неточности выбора примеров, обеспечивая более стабильное и точное обучение в режиме небольших демонстраций (few-shot learning). ## Результаты Мы провели эксперименты на симуляционных средах и на реальных данных с датчиками Bridge. Мы сравнили IWR с традиционным методом выбора NN в латентном пространстве. Результаты показали, что IWR улучшает производительность в задачах нескольких примеров (few-shot learning), даже при небольших изменениях в архитектуре и количестве данных. Мы также проверили эффективность различных гиперпараметров KDE в нашем подходе, установив, что средние значения дают наилучший результат. Эти результаты подтверждают, что IWR способствует более эффективному обучению в ситуациях с малым количеством примеров. ## Значимость Наш метод может быть применен в различных прикладных задачах, включая робототехнику, программирование на основе демонстраций и обучение моделей в сложных окружениях. IWR позволяет повысить точность и устойчивость обучения в режиме небольших демонстраций, что является ключевым для успешного применения в реальном мире. Этот подход имеет потенциал для расширения широты применения IL в сферах, где данных для обучения ограничены, но требуется высокая точ

Annotation:

While large-scale robot datasets have propelled recent progress in imitation learning, learning from smaller task specific datasets remains critical for deployment in new environments and unseen tasks. One such approach to few-shot imitation learning is retrieval-based imitation learning, which extracts relevant samples from large, widely available prior datasets to augment a limited demonstration dataset. To determine the relevant data from prior datasets, retrieval-based approaches most common...

ID: 2509.01657v1 cs.RO, cs.AI

arXiv PDF

📄 Multi-vessel Interaction-Aware Trajectory Prediction and Collision Risk Assessment

2025-09-05

Авторы:

Md Mahbub Alam, Jose F. Rodrigues-Jr, Gabriel Spadon

## Контекст Обеспечение точной и надежной прогнозирования траекторий судов является ключевым аспектом повышения ситуационной осведомленности и предотвращения кораблекрушений. Существующие модели, основанные на данных, часто ограничиваются прогнозированием отдельно взятых судов, без учета характера их взаимодействий. Эти взаимодействия, включая законы обороты, синхронизацию движения, а также конкретные факторы риска столкновений, часто остаются за пределами области внимания. Это создает значительные проблемы для мореплавательных систем, работающих в реальном времени, так как неверно прогнозированные траектории могут привести к возникновению опасных ситуаций. Наша модель предлагает решение этой проблемы, ориентируясь на создание многосудовой модели, учитывающей взаимодействия, и интегрирующую анализ риска столкновений. ## Метод Мы предлагаем преобразователь-основную модель (transformer-based framework), которая состоит из нескольких компонентов. Она начинает с распознавания ближних судов в окрестности целевого судна. Для каждого из этих судов выделяются и предсказываются их движения в двух потоках: один для базовых кинематических параметров, и другой для прогнозирования движения в зависимости от выделенных физических признаков. Используется гибридная система позиционирования, которая учитывает как местные модели движения, так и длинные зависимости в данных. Кроме того, мы применяем сверточные нейронные сети для учета временной локальности. Эта модель позволяет одновременно прогнозировать несколько траекторий и анализировать их взаимодействия, чтобы строить более точные прогнозы и оценивать риск столкновений. ## Результаты Мы проводили эксперименты на большом наборе реальных данных, полученных из автоматической идентификационной системы (AIS). Наши результаты показали, что модель превосходит существующие модели по точности прогнозирования отдельных траекторий, а также по способности оценивать риски столкновений. Мы вычисляли метрики, связанные с качеством прогноза (такие как MAE, RMSE) и сравнивали их с другими моделями. Также мы проводили симуляции взаимодействий между судами, чтобы выявлять потенциальные риски столкновений, и демонстрировали, как модель может предоставлять пользователям сигналы о потенциальных угрозах. ## Значимость Наша модель может быть применена в различных областях, таких как мореплавательная безопасность, автоматизированные системы навигации, а также для повышения оборотов в морских транспортных системах. Обладая более точным прогнозом траекторий и анализом риска столкновений, эта модель может улучшить реагирование на потенциальные уг

Annotation:

Accurate vessel trajectory prediction is essential for enhancing situational awareness and preventing collisions. Still, existing data-driven models are constrained mainly to single-vessel forecasting, overlooking vessel interactions, navigation rules, and explicit collision risk assessment. We present a transformer-based framework for multi-vessel trajectory prediction with integrated collision risk analysis. For a given target vessel, the framework identifies nearby vessels. It jointly predict...

ID: 2509.01836v1 cs.RO, cs.AI, cs.LG

arXiv PDF

1
2
41
42
43
44
45
54
55

Показано 421 - 430 из 544 записей