📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MAP: End-to-End Autonomous Driving with Map-Assisted Planning

2025-09-19

Авторы:

Huilin Yin, Yiming Kan, Daniel Watzenig

#### Контекст Исследования в области автономного вождения стремятся решить проблему моделирования пространственных задач с помощью современных алгоритмов машинного обучения. Однако существующие подходы часто недостаточно используют семантические данные, доступные в реальном времени. Это приводит к ограниченной эффективности планирования траекторий, особенно в условиях сложности окружающей среды. MAP (Map-Assisted Planning) — это инновационный подход, который ставит перед собой цель использовать карты для оптимизации траекторий в реальном времени, повышая безопасность и точность движения. #### Метод MAP — это комплексный фреймворк, интегрирующий несколько модулей: **Plan-enhancing Online Mapping**, **Ego-status-guided Planning** и **Weight Adapter**. **Plan-enhancing Online Mapping** использует данные о текущем состоянии автомобиля и семантические признаки карты для тонкой настройки плана. **Ego-status-guided Planning** гарантирует соответствие плана органичности движению. **Weight Adapter** адаптирует веса модели в зависимости от текущего состояния автомобиля. Это сочетание модулей обеспечивает рациональное использование семантических данных карт в планировании траекторий. #### Результаты Эксперименты проводились на датасете DAIR-V2X-seq-SPD. MAP показал следующие результаты: **16.6% уменьшение L2-ошибки дисплейции**, **56.2% снижение показателя выезда с дороги** и **44.5% повышение общего результата** по сравнению с базовым подходом UniV2X. Особенно заметный улучшение стабильности и точности планирования. MAP также занял первое место на Track 2 Международного Чемпионата End-to-End Autonomous Driving through V2X Cooperation Challenge @CVPR2025, побив второе место на 39.5%. Эти результаты подтверждают эффективность MAP в использовании карт для улучшения траекторий. #### Значимость MAP может быть применен в различных сценариях автономного вождения, включая городские условия, автоматизированные парковки и системы V2X-совместимости. Он предлагает высокую точность планирования, уменьшает риски аварий и увеличивает эффективность движения. Использование семантических данных карт открывает новые горизонты для развития методологии планирования в автономных системах. #### Выводы MAP доказал свою эффективность в использовании карт для улучшения планирования траекторий. Будущие исследования будут нацелены на расширение модулей, улучшение точности и устойчивости, а также исследование многоканальных сигналов V2X-совместимости для экспансивного использования в реальных условиях.

Annotation:

In recent years, end-to-end autonomous driving has attracted increasing attention for its ability to jointly model perception, prediction, and planning within a unified framework. However, most existing approaches underutilize the online mapping module, leaving its potential to enhance trajectory planning largely untapped. This paper proposes MAP (Map-Assisted Planning), a novel map-assisted end-to-end trajectory planning framework. MAP explicitly integrates segmentation-based map features and t...

ID: 2509.13926v1 cs.RO, cs.AI, cs.CV, I.2.9; I.2.10

arXiv PDF

📄 Pointing-Guided Target Estimation via Transformer-Based Attention

2025-09-09

Авторы:

Luca Müller, Hassan Ali, Philipp Allgeuer, Lukáš Gajdošech, Stefan Wermter

#### Контекст Направленные (деиктические) жесты, такие как указательный палец, являются основной формой невербального общения, позволяющей людям указывать на конкретные объекты или места. В контексте Human-Robot Interaction (HRI) становится критически важной способность роботов предсказывать человеческие намерения и реагировать соответствующим образом. Однако, в существующих моделях часто отсутствуют модули, объединяющие в себе визуальные и жестовые сигналы, что приводит к неточностям в определении целей. Мы предлагаем архитектуру Multi-Modality Inter-TransFormer (MM-ITF), которая использует модальности визуальных и жестовых сигналов для точного предсказания объектов на столе в сценарии с NICOL-роботом. #### Метод Модель MM-ITF основана на трансформерной архитектуре и использует входные данные в виде RGB-видео и жестов указателя. Она предназначена для моделирования взаимодействия человека с роботом на основе модулярной архитектуры. Основным механизмом является интер-модальное внимание (inter-modality attention), которое позволяет объединять сигналы с разных модальностей. Данная модель учитывает визуальные и жестовые сигналы, анализируя их взаимодействие и объединяя в себе информацию для более точного предсказания объекта. Кроме того, мы представили метрику - "patch confusion matrix" - для оценки точности предсказания модели на кандидатских областях. #### Результаты Мы проводили эксперименты в управляемой среде с NICOL-роботом, где люди использовали естественные жесты для указания объектов на столе. Модель MM-ITF, обученная на этих данных, показала высокую точность в предсказании преднамеренных объектов. Мы использовали 2D RGB-данные для определения целей, и модель успешно интерпретировала жесты, присваивая каждому кандидату вероятность. Результаты показали, что модель MM-ITF может точно идентифицировать целевые объекты, даже при неоднозначных условиях. Также мы продемонстрировали точность нашей метрики "patch confusion matrix", позволяющей понять, на каких областях модель делает правильные и ошибочные предсказания. #### Значимость Модель MM-ITF может быть применена в различных сценариях Human-Robot Interaction, где необходимо точно определять целевые объекты на основе жестов. Он предоставляет большую точность и надежность в предсказании целей, что может улучшить интерактивность и удобство взаимодействия. Кроме того, использование только 2D RGB-данных делает модель доступной и эффективной для задач в сложных средах. Наша работа также открывает пути для будущих исследований в области моделирования деиктических жестов и их интеграции с трансформерными моделями. #### Выво

Annotation:

Deictic gestures, like pointing, are a fundamental form of non-verbal communication, enabling humans to direct attention to specific objects or locations. This capability is essential in Human-Robot Interaction (HRI), where robots should be able to predict human intent and anticipate appropriate responses. In this work, we propose the Multi-Modality Inter-TransFormer (MM-ITF), a modular architecture to predict objects in a controlled tabletop scenario with the NICOL robot, where humans indicate ...

ID: 2509.05031v1 cs.RO, cs.AI, cs.CV, I.2.9; I.2.10; I.2.6

arXiv PDF

📄 A Surveillance Based Interactive Robot

2025-08-21

Авторы:

Kshitij Kavimandan, Pooja Mangal, Devanshi Mehta

## Контекст Развитие технологий сенсорного оборудования, сетей и вычислительных мощностей позволило создавать системы управления, обеспечивающие взаимодействие человека с автоматизированными средствами. Одним из примеров таких систем является мобильный наблюдательный робот, использующий видеопоток в реальном времени и систему управления по голосовым командам. В настоящем исследовании авторы создали робот, который может охранять пространство, реагировать на речевые команды и прокладывать пути, избегая препятствий. Это сделано для улучшения удобства и эффективности мониторинга в различных сферах, включая безопасность, домашний мониторинг и индустриальное применение. Однако существуют проблемы с требованиями к производительности системы и удобством управления. ## Метод Робот оснащён двумя компьютерами Raspberry Pi 4, работающими в паре. Один из них размещён на колесной базе для дифференциального управления и оснащён камерой, микрофоном и динамиком. Второй компьютер выполняет обработку видеопотока и распознавание объектов. Для обмена видеоданными между устройствами используется FFmpeg. Для распознавания объектов используется YOLOv3. Для реализации речевого взаимодействия использованы Python-библиотеки для распознавания речи, перевода и текстового генератора речи. Датчик Kinect предоставляет глубинные данные для распознавания препятствий. Решение основывается на открытых библиотеках, что делает его доступным для повторения и репликации. ## Результаты На бенчмарках внутрипомещения робот достиг точности распознавания объектов в режиме реального времени на CPU, суммируя значительную часть ресурсов процессора. Он успешно распознавал речевые команды на разных языках и выполнял соответствующие действия. Также было продемонстрировано успешное распознавание объектов и препятствий с помощью RGB-D датчика. Основной результат заключается в том, что робот может эффективно выполнять мониторинг и управление в задачах безопасности и интерактивного мониторинга, применяя как программное обеспечение, так и носители хардвара, которые легко доступны. ## Значимость Робот имеет множество приложений, включая домашний мониторинг, поиск людей в здании во время катастроф, проверку безопасности на производственных площадках и даже учёт запасов в хранилищах. Этот робот позволяет сократить время на мониторинг, улучшить точность распознавания и обеспечить безопасность в различных сферах. Здесь также можно рассмотреть дополнительные возможности, такие как интеграция с искусственным интеллектом для обнаружения ли

Annotation:

We build a mobile surveillance robot that streams video in real time and responds to speech so a user can monitor and steer it from a phone or browser. The system uses two Raspberry Pi 4 units: a front unit on a differential drive base with camera, mic, and speaker, and a central unit that serves the live feed and runs perception. Video is sent with FFmpeg. Objects in the scene are detected using YOLOv3 to support navigation and event awareness. For voice interaction, we use Python libraries for...

ID: 2508.13319v1 cs.RO, cs.AI, cs.CV, I.2.9; I.2.10; I.2.7

arXiv PDF