📚 Саммари научных статей из arXiv

Найдено 126 результатов по запросу 'cs.AI, cs.RO' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Towards Sharper Object Boundaries in Self-Supervised Depth Estimation

2025-09-23

Авторы:

Aurélien Cecille, Stefan Duffner, Franck Davoine, Rémi Agier, Thibault Neveu

```markdown ## Контекст Область трёхмерного понимания сцены широко применяется в сферах, таких как видеонаблюдение, дистанционное замера, автомобильная индустрия и виртуальная реальность. Одна из ключевых задач в этой области — моноокулярное оценивание глубины. Эта задача возникает, когда необходимо из одной изображения определить глубину каждого пикселя, что позволяет построить трёхмерную модель среды. Тем не менее, одной из сложностей в моноокулярном оценивании глубины является то, что существующие методы часто производят размытые размежевые границы между объектами, что приводит к неточностям в трёхмерной модели. Эти размытые границы возникают из-за нехватки точной супервайзированной информации в самоучительных подходах. Наша мотивация заключается в том, чтобы разработать метод, который бы способствовал более точному определению границ объектов в моноокулярном оценивании глубины, при этом используя только самоучительные подходы. ## Метод Мы предлагаем новую модель, которая трактует каждый пиксель как смесь нескольких возможных глубин. Это позволяет передать неопределенность от непосредственного регрессирования глубины к весам смеси. Мы используем парную архитектуру с нейросетью, которая выводит не только оценки глубины, но и распределения вероятности для каждого пикселя. Наша архитектура включает в себя несколько ключевых модулей: 1. **Перспективное преобразование изображений** — для получения разных перспектив на одну и ту же сцену. 2. **Самоучительная нейросеть** — для вывода распределений вероятности для каждого пикселя. 3. **Вариация-осознанная функция потерь** — для включения неопределенности в процесс обучения. Этот подход позволяет нашей модели достигать точность в определении границ, которая не достигалась ранее в самоучительных подходах. ## Результаты Мы провели эксперименты на двух наборах данных: KITTI и VKITTIv2. Наша модель показала существенный выигрыш в точности определения границ объектов по сравнению с состоянием технологии. Мы измерили **"шарпнесс" границ** (boundary sharpness), которая измеряет степень размытости размежевых границ, и получили до 35% улучшения по этому показателю. Также, мы провели оценку качества точности построенного трёхмерного моделирования (point cloud quality). Наши результаты показали улучшение в 25% по сравнению с основным подходом. Эти результаты указывают на то, что наш подход не только способствует точности границ, но и улучшает общую точность моделирования сцены в трёхмерной плоскости. ## Значимость Предлагаемый под

Annotation:

Accurate monocular depth estimation is crucial for 3D scene understanding, but existing methods often blur depth at object boundaries, introducing spurious intermediate 3D points. While achieving sharp edges usually requires very fine-grained supervision, our method produces crisp depth discontinuities using only self-supervision. Specifically, we model per-pixel depth as a mixture distribution, capturing multiple plausible depths and shifting uncertainty from direct regression to the mixture we...

ID: 2509.15987v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 Exploring multimodal implicit behavior learning for vehicle navigation in simulated cities

2025-09-22

Авторы:

Eric Aislan Antonelo, Gustavo Claudio Karl Couto, Christian Möller

#### Контекст Исследование посвящено расширению возможностей Behavior Cloning (BC) в задачах навигации виртуальных автомобилей в симулированных городах. Стандартный BC сталкивается с проблемой невозможности правильно обучаться на многомодальных решениях, когда несколько действий могут быть верными для одной и той же ситуации. Это проблема становится актуальной при разработке интеллектуальных систем, которые должны принимать решения в сложных средах. Наше исследование стремится развить эффективные методы для обучения многомодальных моделей на основе Implicit Behavioral Cloning (IBC) с использованием Energy-Based Models (EBMs). #### Метод Для решения проблемы многомодальности применяется методология Implicit Behavioral Cloning с использованием Energy-Based Models. Мы предлагаем Data-Augmented IBC (DA-IBC), в рамках которого предлагается модифицировать экспертные действия, формируя counterexamples для более точного обучения. Для повышения точности используется усовершенствованная инициализация для наивныхх способов вывода, не требующих частных производных. Архитектура DA-IBC включает в себя энергетические модели для представления динамики действий и методы интерполяции для улучшения обучения. Эксперименты проводятся в симуляторе CARLA с использованием Bird's-Eye View данных, что позволяет эффективно оценивать качество навигационных решений. #### Результаты В ходе экспериментов продемонстрировано, что DA-IBC превосходит стандартный IBC в задачах многомодального обучения для городской навигации. Модель DA-IBC удается правильно представлять многомодальные распределения действий, что является ключевым преимуществом перед стандартным BC. Эксперименты показали, что процесс первичной инициализации и модификации экспертных действий значительно повышает точность и скорость обучения. Данные результаты подтвердят, что DA-IBC эффективно перехватывает комплексность многомодальных сценариев, делая его применимым в реальных ситуациях навигации. #### Значимость Результаты имеют большое значение для развития моделей, которые способны правильно обрабатывать многомодальные решения в задачах автоматизированной навигации. Такие модели могут быть применены в различных областях, включая автономную транспортную систему, системы поддержки принятия решений, а также в системы-роботы для автоматического управления транспортом. Основными преимуществами являются улучшенная точность и универсальность обучения, которые позволяют модели решать более сложные задачи. Будущие исследования будут сфокусированы на высшем качестве представления энергетических моделей и их расширении для более широких сценариев. #### Выводы DA-IBC демонстрирует существенное улучшение в обучении моделей, которые спосо

Annotation:

Standard Behavior Cloning (BC) fails to learn multimodal driving decisions, where multiple valid actions exist for the same scenario. We explore Implicit Behavioral Cloning (IBC) with Energy-Based Models (EBMs) to better capture this multimodality. We propose Data-Augmented IBC (DA-IBC), which improves learning by perturbing expert actions to form the counterexamples of IBC training and using better initialization for derivative-free inference. Experiments in the CARLA simulator with Bird's-Eye ...

ID: 2509.15400v1 cs.LG, cs.AI, cs.RO

arXiv PDF

📄 RoboEye: Enhancing 2D Robotic Object Identification with Selective 3D Geometric Keypoint Matching

2025-09-20

Авторы:

Xingwu Zhang, Guanxuan Li, Zhuocheng Zhang, Zijun Long

## Контекст В последние годы, прогресс в области электронной коммерции привел к появлению большого количества товаров и вариантов упаковки, что сильно усложнило процесс автоматизированной упаковки в складах. Это связано с необходимостью распознавать визуально схожие или редкие товары, а также с увеличением частоты изменения точек зрения, катастрофическим влиянием окклюзий и сложностью распознавания в условиях большого разнообразия упаковок. Традиционные подходы, ориентированные только на 2D-изображения, часто сталкиваются с коллизиями и неточностями, что приводит к значительной потере точности. Данная проблема требует развития новых подходов, которые бы улучшили точность распознавания в условиях высокой разнообразия и сложности. ## Метод Разработанный RoboEye предлагает двухэтапный подход, который объединяет 2D-и 3D-признаки для улучшения точности распознавания. В первом этапе, используется большой объем 2D-данных, извлекаемый с помощью широкого модели, для генерирования кандидатских рейтингов. Далее, легковесный модуль осознания 3D-признаков оценивает качество 3D-данных и определяет, необходимо ли использовать второй этап. Если да, то второй этап включает трансформер Robot 3D Retrieval, который анализирует 3D-геометрические признаки с помощью динамического матчинга ключевых точек. Ключевая особенность этого подхода заключается в использовании RGB-изображений без явного ввода 3D-данных, что позволяет уменьшить накладные расходы на развертывание и увеличить скорость. ## Результаты Проведенные эксперименты показали, что RoboEye превосходит предыдущий состояние искусства RoboLLM на 7.1% в Recall@1. Этот результат был достигнут благодаря эффективному использованию 3D-признаков, которые позволили улучшить достоверность распознавания в сложных условиях. Благодаря легковесной архитектуре, RoboEye работает с ограниченными 3D-данными, что сокращает издержки на развертывание. Также, эксперименты подтвердили высокую скорость и точность работы в условиях различных сценариев упаковки и разных точек зрения. ## Значимость RoboEye может быть применен в сферах автоматизированной упаковки, систем распознавания для электронной коммерции и интеллектуальных складов. Его преимущество в том, что он улучшает точность и скорость распознавания, используя только 2D-данные, что снижает требования к вычислительным ресурсам и упрощает развертывание. Это может привести к значительной экономии затрат и улучшению производительности в складских условиях. ## Выводы Результаты показывают

Annotation:

The rapidly growing number of product categories in large-scale e-commerce makes accurate object identification for automated packing in warehouses substantially more difficult. As the catalog grows, intra-class variability and a long tail of rare or visually similar items increase, and when combined with diverse packaging, cluttered containers, frequent occlusion, and large viewpoint changes-these factors amplify discrepancies between query and reference images, causing sharp performance drops ...

ID: 2509.14966v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 Agentic UAVs: LLM-Driven Autonomy with Integrated Tool-Calling and Cognitive Reasoning

2025-09-19

Авторы:

Anis Koubaa, Khaled Gabr

#### Контекст Unmannned Aerial Vehicles (UAVs) становятся важной частью различных секторов, включая оборону, мониторинг, и поиск-и-спасание. Однако, несмотря на их возможности, большинство UAV-систем закреплены на уровне 2-3 автономии по масштабу SAE. Ограниченные современными правилами управления и широко используемые нейросетевые модели, эти системы сталкиваются с проблемами в адаптации к динамичным и неопределенным ситуациям. Недостаток в контекстно-зависимом разумении, автономном принятии решений, и интеграции с экосистемой ограничивает их эффективность. Кроме того, ни одна из нынешних UAV-платформ не использует мощности Large Language Models (LLM) для реального времени доступа к знаниям. Этот труд раскрывает Agentic UAVs — расширенную платформу, которая обеспечивает UAVs мощью LLM-движения, контекстно-управляемых действий, и интеграции с инструментами и системами. #### Метод Agentic UAVs основываются на фреймворке из пяти слоев: 1) **Perception** (обработка входных данных), 2) **Reasoning** (контекстно-управляемое решающее модуль), 3) **Action** (реализация рекомендаций действий), 4) **Integration** (интеграция с другими системами), и 5) **Learning** (постоянное обучение и адаптация). Фреймворк реализован на ROS2 и Gazebo и интегрирует GPT-4 для LLM-движения, YOLOv11 для объектного распознавания, и Gemma-3 для локального развертывания. UAVs могут вызывать инструменты и системы в реальном времени для повышения производительности. #### Результаты В экспериментах, проводимых в сценариях поиска и спасения, Agentic UAVs показали существенные повышения в производительности по сравнению с существующими системами. Они достигли более высокой уверенности в детекции объектов (0.79 vs. 0.72), улучшили скорость детекции людей (91% vs. 75%), и значительно повысили долю рекомендаций действий (92% vs. 4.5%). Эти результаты доказывают, что небольшой дополнительный вычислительный стоимость дает необходимую мощь для достижения новых уровней автономии и интеграции. #### Значимость Приложения Agentic UAVs могут распространиться на сферы поиска-и-спасения, систем безопасности, и мониторинга. Особые преимущества включают увеличение эффективности, уменьшение времени реагирования, и улучшение адаптации к нестандартным ситуациям. Этот подход может повлиять существенно на развитие технологий UAV, предоставляя новый подход к автономному управлению и интеграции с экосистемой. #### Выводы Agentic UAVs достигли новых высот в автономии UAV-систем, используя LLM-движение и контекстное решающее моделирование. Наша работа подтверждает эффективность этого по

Annotation:

Unmanned Aerial Vehicles (UAVs) are increasingly deployed in defense, surveillance, and disaster response, yet most systems remain confined to SAE Level 2--3 autonomy. Their reliance on rule-based control and narrow AI restricts adaptability in dynamic, uncertain missions. Existing UAV frameworks lack context-aware reasoning, autonomous decision-making, and ecosystem-level integration; critically, none leverage Large Language Model (LLM) agents with tool-calling for real-time knowledge access. T...

ID: 2509.13352v1 cs.AI, cs.RO, 68T07, 68T40, 68T42, I.2.9; I.2.11; I.2.8; I.2.10

arXiv PDF

📄 Shapes of Cognition for Computational Cognitive Modeling

2025-09-18

Авторы:

Marjorie McShane, Sergei Nirenburg, Sanjay Oruganti, Jesse English

## Контекст Шапки (Shapes) — это новый концептуальный подход к компьютерной моделированию умственной деятельности Language-Endowed Intelligent Agents (LEIAs). Шапки представляют собой воспроизводимые структуры сенсорных, языковых, концептуальных, эпизодических и процедурных знаний, которые позволяют агентам упрощать процесс восприятия реального мира, аналогично человеческим методам: ожидая типовых ситуаций, распознавая шаблоны, действуя по привычке, аналогичному разумению, прибегая к предпочтительному решению и стремясь имитировать уменьшение усилий на уровне, допустимом в данной ситуации. Нестандартные исходы обрабатываются при помощи методов шапки, таких как обучение на ходу, запрос помощи человеку или поиск действительного, хотя бы приближенного, понимания ситуации. Хотя термин "шапки" широкий, он определяется конкретными целями, гипотезами, моделированием и исследованиями, которые включены в конкретную когнитивную архитектуру. Такая конкретность необходима для проверки гипотез и достижения практических целей, связанных с разработкой надежных, расширяемых и понятных для пользователя систем. Однако, несмотря на то что шапки ориентированы на LEIAs, их принципы могут быть расширены, чтобы вдохновить новые подходы в области знаний, искусственного интеллекта и гибридных систем. ## Метод Шапки — это новый подход к моделированию, который включает в себя специфические методологии, которые выстраиваются на основе предыдущих работ в области когнитивных моделей и знаний. Основные элементы метода: (1) архитектура LEIA, основанная на концепции шапей, (2) создание теоретических моделей, которые могут объяснить поведение систем, (3) разработка значимых тестовых ситуаций для проверки моделей, (4) разработка конкретных систем, которые могут применяться в реальных условиях, (5) оптимизация взаимодействия между моделями и технологиями, позволяющими имитировать умственную деятельность. Метод опирается на широкий набор технических инструментов, включая моделирование множественных слоев знаний, адаптивные процедуры, алгоритмы для поиска шаблонов и работу с человеческим взаимодействием. Эти инструменты были выбраны для обеспечения гибкости моделирования и его применимости к различным контекстам. ## Результаты В ходе экспериментов были разработаны и реализованы конкретные модели шапей, применяющиеся в различных сценариях, включая обнаружение повреждений, синтез речи, интеллектуальный анализ языка, достижение целей в ситуациях с высоким уровнем неопределенности. Данные, использованные в эксп

Annotation:

Shapes of cognition is a new conceptual paradigm for the computational cognitive modeling of Language-Endowed Intelligent Agents (LEIAs). Shapes are remembered constellations of sensory, linguistic, conceptual, episodic, and procedural knowledge that allow agents to cut through the complexity of real life the same way as people do: by expecting things to be typical, recognizing patterns, acting by habit, reasoning by analogy, satisficing, and generally minimizing cognitive load to the degree sit...

ID: 2509.13288v1 cs.AI, cs.RO

arXiv PDF

📄 Beyond Frame-wise Tracking: A Trajectory-based Paradigm for Efficient Point Cloud Tracking

2025-09-17

Авторы:

BaiChen Fan, Sifan Zhou, Jian Li, Shibo Zhao, Muqing Cao, Qin Wang

## Контекст Одна из ключевых задач в системах робототехники и автономного управления является LiDAR-based 3D single object tracking (3D SOT). Это помогает определять, следить и предсказывать движение объектов вокруг автомобиля. Существующие методы могут быть разделены на два типа: методы на основе двух кадров, которые эффективны, но могут недостаточно учитывать длительный контекст движения, и методы на основе последовательностей, которые обеспечивают более высокую точность, но требуют больших вычислительных ресурсов. Эти проблемы могут приводить к неточности в определении и слежении за движением во временах спада производительности, например в сценах с плохой видимостью или оккультацией. Требуется система, которая обеспечивала бы высокую точность, но при этом была бы эффективной в обработке. ## Метод Мы предлагаем новую модель TrajTrack, основанную на парадигме траекторий, которая улучшает работу двухкадрового системы для моделирования движения. TrajTrack не требует дополнительных точечных облаков для моделирования движения. Вместо этого она использует исторические данные о движении в виде боксиров, что позволяет эффективно определять движение. Модель состоит из двух основных модулей: **Explicit Motion Proposal** и **Implicit Motion Modeling**. Используя предыдущие движения, она строит быстрый предложенный путь, а затем улучшает его с помощью модуля моделирования движения. Это позволяет TrajTrack обеспечить высокую точность с меньшим расходом ресурсов. ## Результаты Мы проверили TrajTrack на бенчмарке NuScenes. Модель показала существенное улучшение в точности слежения за объектом на 4,48% по сравнению с базовым двухкадровым методом. Кроме того, TrajTrack работает с высокой скоростью — 56 кадров в секунду, что делает его эффективным для реального времени. Мы также проверили TrajTrack с разными базовыми моделями и показали, что он обладает сильной генерализуемостью. Эти результаты подтверждают сильную гибкость и эффективность нашего подхода в различных условиях. ## Значимость Модель TrajTrack может быть применена в различных задачах робототехники, в том числе для слежения за объектами в автоматизированном вождении, в системах безопасности, в системах управления роботами. Также TrajTrack обеспечивает высокую точность с меньшими вычислительными затратами, что делает его эффективным для применения на реальных устройствах. Этот подход может существенно повлиять на развитие систем автономного управления, сделав их более точными и надежными. ## Выводы Мы представили новую модель TrajTrack, основанную на парадигме траекторий, которая позволяет улучшить точность слежения за объектом в LiDAR-based 3D SOT. Модель TrajTrack показала высокую

Annotation:

LiDAR-based 3D single object tracking (3D SOT) is a critical task in robotics and autonomous systems. Existing methods typically follow frame-wise motion estimation or a sequence-based paradigm. However, the two-frame methods are efficient but lack long-term temporal context, making them vulnerable in sparse or occluded scenes, while sequence-based methods that process multiple point clouds gain robustness at a significant computational cost. To resolve this dilemma, we propose a novel trajector...

ID: 2509.11453v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 Deceptive Risk Minimization: Out-of-Distribution Generalization by Deceiving Distribution Shift Detectors

2025-09-17

Авторы:

Anirudha Majumdar

## Контекст Изучение области обучения с подкреплением (RL) на предмет обеспечения устойчивой работы агентов в различных средах находится в центре внимания. Одним из ключевых аспектов этой проблемы является обеспечение общезначимости агента, то есть его способности выполнять задачи не только в одной, но и в неизвестных ранее средах. Нестабильность агента часто вызвана спутанными или спутанными сигналами в данных, которые могут привести к ошибкам в оптимизации или неудаче в новых средах. Мотивацией для этой работы является поиск методов, позволяющих агентам обнаруживать и исключать такие спутанные сигналы, чтобы обеспечить более прочную общезначимость. ## Метод Данная работа предлагает механизм, основанный на идее "дезинформации" (deception), для решения проблемы общезначимости в RL. Метод, названный **Deceptive Risk Minimization (DRM)**, использует методы обучения данных, которые делают их показателем независимости и идентичности распределения (iid) для внешнего наблюдателя. Этот подход позволяет идентифицировать стабильные черты данных, удаляя спутанные сигналы и улучшая общую устойчивость. Основная идея заключается в том, что данные, которые кажутся iid для детектора распределения, позволяют агенту избегать недостатков, связанных с нестабильными и спутанными сигналами. Метод DRM реализуется как различностная цель, которая одновременно оптимизирует функцию потерь задачи и уменьшает риск, связанный с распределением, в соответствии с детектором, основанным на мартингале-конформирующих методах. ## Результаты Исследования проводились на двух типах экспериментов: численных экспериментах с концептуальными сдвигами и симулированных экспериментах с ковариатным сдвигом в средах, где робот развертывается. В экспериментах показано, что DRM позволяет агенту выявить стабильные черты, которые влияют на поведение в неизвестных средах. Напротив, методы доступа к данным или предварительной разделки данных на кластеры не позволяют в полной мере обеспечить устойчивость. Для оценки DRM использовались данные, в которых был внедрен концептуальный сдвиг (например, изменение формы объекта), а также данные с ковариатным сдвигом (например, изменение изображения в симуляторе). Результаты показали, что DRM позволяет агенту повысить устойчивость к неизвестным средам, существенно превосходя другие подходы. ## Значимость Результаты DRM могут быть применимы в сферах, где требуется обеспечение высокой общезначимости и неуязвимости к спутанным сигналам. Это могут быть применения в имитационных средах, включая роботизированные системы, системы-модели в картографи

Annotation:

This paper proposes deception as a mechanism for out-of-distribution (OOD) generalization: by learning data representations that make training data appear independent and identically distributed (iid) to an observer, we can identify stable features that eliminate spurious correlations and generalize to unseen domains. We refer to this principle as deceptive risk minimization (DRM) and instantiate it with a practical differentiable objective that simultaneously learns features that eliminate dist...

ID: 2509.12081v1 cs.LG, cs.AI, cs.RO

arXiv PDF

📄 D-CAT: Decoupled Cross-Attention Transfer between Sensor Modalities for Unimodal Inference

2025-09-16

Авторы:

Leen Daher, Zhaobo Wang, Malcolm Mielle

#### Контекст Современные системы сенсорного восприятия часто используют многомодальный подход для обеспечения точности и надежности в распознавании активности. Однако, существуют ситуации, когда доступ к полному набору сенсоров ограничен техническими или экономическими причинами. Например, в системах роботизированного взаимодействия или домашних систем автоматизации может быть невозможно подключить все необходимые сенсоры из-за узких возможностей финансирования или технологических ограничений. Это приводит к снижению точности и надежности моделей классификации. Из этой проблемы возникает потребность в разработке методов, позволяющих передавать знания между модальностями сенсоров для улучшения классификации в условиях ограниченного доступа к сенсорам. #### Метод Мы предлагаем **Decoupled Cross-Attention Transfer (D-CAT)**, фреймворк для передачи кросс-модального знания между модальностями без необходимости их параллельной работы во время обучения или тестирования. Фреймворк состоит из двух основных компонентов: **сингулярного само-восприятия (self-attention)** для извлечения функций от каждой модальности и **кросс-восприятия (cross-attention)** для установления взаимосвязи между модальностями. Особенностью D-CAT является то, что он не требует взаимодействия между модальностями во время выполнения. Решение использует архитектуру, в которой модальности обучаются независимо друг от друга, но затем подключаются с помощью кросс-аттенционного модуля, чтобы улучшить классификацию в случае отсутствия данных из другой модальности. #### Результаты Мы проверили D-CAT на трех многомодальных наборах данных для распознавания активности (IMU, видео, аудио). В сценарии **in-distribution**, где тренировочные и тестовые данные имеют аналогичные свойства, D-CAT показал до 10% увеличения F1-score в сравнении с унимодальными моделями при передаче знаний от высокоэффективных модальностей (например, видео к IMU). В **out-of-distribution** сценарии, когда тренировочные данные от одной модальности используются для классификации другой, D-CAT также показал улучшения в точности, даже если целевая модальность была плохо обучена. Это указывает на то, что D-CAT может обеспечить улучшение классификации даже в условиях несовпадения тренировочных и тестовых данных. #### Значимость D-CAT может быть применен в сценариях, где ресурсы ограничены, например, в создании систем ассистированного взаимодействия и домашних автоматизированных систем. Он позволяет уменьшить требования к оборудованию, поддерживая высокую точность классификации. Помимо этого, D-CAT может быть использован в ситуациях, когда необходимо переключаться м

Annotation:

Cross-modal transfer learning is used to improve multi-modal classification models (e.g., for human activity recognition in human-robot collaboration). However, existing methods require paired sensor data at both training and inference, limiting deployment in resource-constrained environments where full sensor suites are not economically and technically usable. To address this, we propose Decoupled Cross-Attention Transfer (D-CAT), a framework that aligns modality-specific representations withou...

ID: 2509.09747v1 cs.LG, cs.AI, cs.RO

arXiv PDF

📄 ProgD: Progressive Multi-scale Decoding with Dynamic Graphs for Joint Multi-agent Motion Forecasting

2025-09-13

Авторы:

Xing Gao, Zherui Huang, Weiyao Lin, Xiao Sun

## Контекст Проблема аккуратной прогнозирования поведения окружающих агентов является ключевой для безопасного планирования движения автономных транспортных средств. Несмотря на необходимость учета множественных взаимодействий между агентами, существующие подходы часто ограничиваются моделированием отдельных субъектов или используют методы, не учитывающие вариабельность взаимодействий в процессе прогнозирования. Эти ограничения приводят к неточности и нестабильности результатов. Наша мотивация заключается в разработке системы, которая не только учитывает интерактивность агентов, но и адаптируется к изменяющимся сценариям на протяжении прогноза. ## Метод Мы предлагаем **ProgD**, прогрессивную стратегию мультискалевого декодирования с применением динамических графов. Модель основывается на сценарии, описываемым в виде графа с динамическими и гетерогенными структурами. Это позволяет эксплицитно ловить взаимодействия между агентами, которые меняются в процессе прогноза. Для уменьшения неопределенности в мульти-агентных сценариях мы используем перекрывающиеся динамические графы и многоуровневый декодирований. Это позволяет не только учитывать начальные неопределенности, но и прогнозировать более точно динамические изменения взаимодействий. Использование факторизованной архитектуры обеспечивает эффективное обработку спато-временных зависимостей. ## Результаты Мы проверили ProgD на двух важных бенчмарках: INTERACTION и Argoverse 2. Модель показала лучшие результаты по сравнению с состязающимися подходами. Она показала отличный результат в точности прогноза, специально улучшив показатели на задачах, требующих адаптации к изменяющимся взаимодействиям между агентами. Это подтверждается тестами, где ProgD показала существенное преимущество по всем метрикам относительно соревновательных методов. ## Значимость Предлагаемый подход может применяться в автоматизированных системах управления транспортными средствами, где точность прогноза важна для безопасности и эффективности. Он улучшает моделирование сценариев с разными уровнями детализации, что позволяет более точно предсказывать движения в различных условиях. Благодаря динамическим графам ProgD подходит для сложных сценариев с неопределенностью в динамике взаимодействий. ## Выводы Мы представили ProgD, новый подход к многоагентной прогнозированию, который использует динамические графы и многоуровневое декодирование для эффективного моделирования взаимодействий. Наши эксперименты показали, что ProgD значительно превосходит конкурирующие подходы. Мы пла

Annotation:

Accurate motion prediction of surrounding agents is crucial for the safe planning of autonomous vehicles. Recent advancements have extended prediction techniques from individual agents to joint predictions of multiple interacting agents, with various strategies to address complex interactions within future motions of agents. However, these methods overlook the evolving nature of these interactions. To address this limitation, we propose a novel progressive multi-scale decoding strategy, termed P...

ID: 2509.09210v1 cs.AI, cs.RO

arXiv PDF

📄 Curriculum-Based Multi-Tier Semantic Exploration via Deep Reinforcement Learning

2025-09-13

Авторы:

Abdel Hakim Drid, Vincenzo Suriani, Daniele Nardi, Abderrezzak Debilou

#### Контекст Исследование автоматизированного поиска и обозначения объектов в неизвестных и сложных окружениях является ключевым заданием в области робототехники и искусственного интеллекта. Одной из основных проблем является то, что данные задачи требуют не только простых сенсорных данных, но и высокоуровневых семантических оценок. Традиционные RL-методы часто сталкиваются с ограниченностью в семантическом понимании и неэффективностью исследования окружения, что приводит к необходимости использования помощи человека. Это делает необходимость развития более эффективных стратегий исследования и обозначения объектов в робототехнических системах. #### Метод Наша работа предлагает новую архитектуру с Deep Reinforcement Learning (DRL), которая использует Vision-Language Model (VLM) для семантического понимания. Главная инновация заключается в интеграции VLM в агентский процесс отклика с помощью сложной системы вознаграждений, где агент может запрашивать внешнюю информацию только в критических моментах. Это позволяет экономить ресурсы. Для лучшего обучения вводится стратегия курсивного обучения, которая позволяет агенту учиться постепенно, начиная с простых задач и переходя к более сложным. Это надежно обеспечивает устойчивую и эффективную настройку моделей. #### Результаты В ходе экспериментов, проведенных на различных средах, наш агент показал высокую эффективность в обнаружении объектов и стратегическом передвижении по сложным пространствам. Мы оценивали, насколько хорошо агент учится использовать VLM для семантического поиска и насколько эффективным является его использование ресурсов. Результаты показали, что наш агент достиг в среднем вышей скорости обнаружения объектов и стратегически более разумно использует VLM, чем остальные существующие способы. #### Значимость Предложенный подход может применяться в большинстве робототехнических систем, где требуется семантическое понимание окружения. Наш агент может быть использован в системах, которые нуждаются в эффективном исследовании сложных пространств, таких как поисковые роботы, системы для домов или в сфере автоматизации производств. Обладая возможностью стратегического расходования ресурсов, наш агент предоставляет дополнительные преимущества в сложных и непредсказуемых окружениях. #### Выводы Мы представили новую методологию для эффективного и стратегического обнаружения объектов в неизвестных средах, используя Deep Reinforcement Learning и Vision-Language Model. Мы продемонстрировали, что наш подход выполняет семантическое поисковое исследование более эффективно, чем предыдущие методы. В будущем мы планируем расширить эту работу, из

Annotation:

Navigating and understanding complex and unknown environments autonomously demands more than just basic perception and movement from embodied agents. Truly effective exploration requires agents to possess higher-level cognitive abilities, the ability to reason about their surroundings, and make more informed decisions regarding exploration strategies. However, traditional RL approaches struggle to balance efficient exploration and semantic understanding due to limited cognitive capabilities embe...

ID: 2509.09356v1 cs.AI, cs.RO

arXiv PDF

1
2
8
9
10
11
12
13

Показано 91 - 100 из 126 записей