📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Richeek Das, Kostas Daniilidis, Pratik Chaudhari

## Контекст Event-based сенсоры, такие как Dynamic Vision Sensors (DVS), получают данные в виде последовательностей событий, которые достаточно сложно интерпретировать с помощью традиционных методов обработки изображений. Эти сенсоры показывают высокую чувствительность к движению и низкую задержку, но при этом требуют эффективных алгоритмов для интерпретации и предсказания поведения объектов в реальном времени. Отсутствие эффективных математических моделей для представления данных от таких сенсоров ограничивает потенциал их применения в системах супермаркетинга, водительских ассистентах и роботов. Наша мотивация заключается в разработке подробной теоретической модели и алгоритмов, который бы способствовал эффективному представлению данных и позволил бы использовать event-based сенсоры в широком круге задач. ## Метод Разработанная модель, названная Fast Feature Field ($\text{F}^3$), основывается на математической модели, которая предсказывает будущие события на основе прошлых данных. Основной метод состоит в том, чтобы представить каждый слой данных в виде многоканального изображения, которое содержит информацию о спарсе, движении и структуре сцены. Модель использует механизмы "глубинных наборов" (deep sets) и многорезольвенческого хеширования для обработки данных. Эти методы позволяют эффективно обрабатывать данные сенсоров, которые имеют спарсоедненую природу. Алгоритмы работают на высоких частотах (до 440 Гц при разрешении VGA и 120 Гц при разрешении HD), что делает их применимыми для реального времени. ## Результаты Мы провели эксперименты на данных, полученных с трех различных роботизированных платформ (автомобиля, легкого транспорта и воздушного робота) в различных условиях освещения (днем, ночью) и средах (внутренних, внешних, городских и местности). Модель $\text{F}^3$ показала состояние лучшего результата на задачах оценки оптического потока, сегментации сеансов и оценки метрического расстояния. В результате, наши решения достигли высокой точности и эффективности, сохранив высокую частоту работы (до 75 Гц при HD-резолюции). Это делает $\text{F}^3$ применимым в различных сценариях, включая водительские системы, супермаркетинг и роботизированные системы. ## Значимость Предлагаемый подход имеет многочисленные применения в области робототехники, систем управления транспортом и супермаркетинга. Он позволяет эффективно обрабатывать данные, которые требуют сильной зависимости от времени, что делает его идеальным для сценариев, требующих реального времени. Модель $\text{F}^3$ показала свою выносливость в оптическом потоке,
Annotation:
This paper develops a mathematical argument and algorithms for building representations of data from event-based cameras, that we call Fast Feature Field ($\text{F}^3$). We learn this representation by predicting future events from past events and show that it preserves scene structure and motion information. $\text{F}^3$ exploits the sparsity of event data and is robust to noise and variations in event rates. It can be computed efficiently using ideas from multi-resolution hash encoding and dee...
ID: 2509.25146v1 cs.CV, cs.AI, cs.LG, cs.RO
Авторы:

Pei Xu, Zhen Wu, Ruocheng Wang, Vishnu Sarukkai, Kayvon Fatahalian, Ioannis Karamouzas, Victor Zordan, C. Karen Liu

## Контекст Улучшение имитационных моделей спортивных технологий является важной задачей в искусственном интеллекте. Одна из таких задач — создание комплексных контрольных политик для воспроизведения сложных спортивных действий, таких как баскетбольные маневры. Такие задачи характеризуются многоэтапной структурой и приоритетом достижения более широкой цели. Несмотря на развитие методов рекомендательных систем, возникают сложности в создании моделей, которые могут грамотно переключаться между отдельными фазами задачи, обеспечивая безупречные переходы и композицию поведения. Эта проблема вызвана тем, что многие методы не умеют адаптироваться к обстановке с неясными промежуточными стадиями и неэффективно распределяют ресурсы между многофазными задачами. Наша исследовательская группа рассматривает эту проблему, стремясь создать более точные и реалистичные методы композиции спортивных действий. ## Метод Мы предлагаем новую структуру композиции политик, основанную на гибкой интеграции отдельных моделей. Наша методология включает в себя выделение главных фаз задачи и создание отдельных моделей для каждой из них. Для управления переходом между этими фазами мы разрабатываем роутер, использующий мягкие переключения. Модели оснащены возможностью адаптироваться к нестандартным ситуациям, а структура роутера упрощает определение наилучшего пути для перехода. Использование симуляционных и реальных данных позволяет тренировать модели на наборах данных, включающих различные сценарии. Эта процедура обеспечивает высокую точность и реалистичность воспроизведения. ## Результаты Мы проводим эксперименты на наборе симуляционных задач, включающих баскетбольные маневры, такие как передача, забивание и переходы между ними. Модели, обученные нашей системой, показывают высокую точность в выполнении задач и плавные переходы между фазами. Мы также проверяем систему на реальных данных, полученных в процессе игры. Результаты показывают, что модели хорошо адаптируются к различным условиям игры и поддерживают композицию долгосрочных действий с минимальными ошибками. ## Значимость Наш подход имеет широкое применение в спортивных моделях, виртуальных реальностях и играх с высоким уровнем имитации. Он позволяет создавать более точные модели поведения спортсменов и улучшать визуальную составляющую игр. Кроме того, использование мягких роутеров обеспечивает лучшую устойчивость и производительность моделей в условиях реальных ситуаций. Эти достижения открывают пути к будущим исследованиям в области композиции моде
Annotation:
Learning a control policy for a multi-phase, long-horizon task, such as basketball maneuvers, remains challenging for reinforcement learning approaches due to the need for seamless policy composition and transitions between skills. A long-horizon task typically consists of distinct subtasks with well-defined goals, separated by transitional subtasks with unclear goals but critical to the success of the entire task. Existing methods like the mixture of experts and skill chaining struggle with tas...
ID: 2509.22442v1 cs.GR, cs.AI, cs.LG, cs.RO
Авторы:

Juana Valeria Hurtado, Rohit Mohan, Abhinav Valada

#### Контекст Область исследования — семантическое разделение данных hyperspectral imaging (HSI). Несмотря на то, что HSI предоставляет богатые спектральные данные, способствующие расширению мощности роботов в сложных средах, существующие методы семантического разделения либо недостаточно эффективны, либо ориентированы на RGB-данные, не спроектированные для HSI. Это делает необходимым разработку новых подходов, которые бы позволили эффективно использовать HSI в семантическом разделении. Мотивация заключается в том, чтобы сделать HSI более доступным для машинного обучения, оптимизировав его для задач, требующих высокого качества разделения объектов. #### Метод Предлагается новый адаптер для hyperspectral imaging, основанный на vision foundation models. Этот адаптер включает в себя спектральный transformer, который эффективно обрабатывает спектральные данные, и модуль spectrum-aware spatial prior, который учитывает информацию о пространстве. Для улучшения взаимодействия двух моделей вводится modality-aware interaction block, позволяющий лучше интегрировать HSI-данные и фирзеризованные фичи модели Vision Transformer. Эта архитектура гарантирует лучшую обработку данных, учитывая их специфику, и повышает качество семантического разделения. #### Результаты Авторы проводили эксперименты на трех различных датасетах, связанных с autonomous driving. Использовались HSI-данные в качестве входных, чтобы оценить эффективность адаптера. Результаты показали, что архитектура во всех случаях показала лучший результат по сравнению с другими методами семантического разделения. Она демонстрирует высокую точность в распознавании объектов и их классификации, даже в условиях сложного спектрального содержимого и переменного освещения. Это обозначает значительное улучшение перед существующими HSI-методами и RGB-методами. #### Значимость Предлагаемый адаптер может быть применен в следующих областях: автомобильная электроника, системы безопасности, исследования окружающей среды, а также в робототехнике. Он предлагает значительные преимущества, такие как повышение точности распознавания объектов и улучшение производительности HSI в сложных средах. Это может привести к расширению использования HSI в более широких приложениях, включая самоуправляемые автомобили и системы автоматического мониторинга. #### Выводы Адаптер для hyperspectral imaging, основанный на vision foundation models, демонстрирует высокую эффективность в семантическом разделении. Он представляет собой новый подход к обработке HSI-данных, который дополняет существующие архитектуры. Будущие исследования могут сфокусироваться на улучшении модуля modality-aware interaction и исследовании других приложений, в которых HSI может предоставить значите
Annotation:
Hyperspectral imaging (HSI) captures spatial information along with dense spectral measurements across numerous narrow wavelength bands. This rich spectral content has the potential to facilitate robust robotic perception, particularly in environments with complex material compositions, varying illumination, or other visually challenging conditions. However, current HSI semantic segmentation methods underperform due to their reliance on architectures and learning frameworks optimized for RGB inp...
ID: 2509.20107v2 cs.CV, cs.AI, cs.LG, cs.RO
Авторы:

Nikhil Keetha, Norman Müller, Johannes Schönberger, Lorenzo Porzi, Yuchen Zhang, Tobias Fischer, Arno Knapitsch, Duncan Zauss, Ethan Weber, Nelson Antunes, Jonathon Luiten, Manuel Lopez-Antequera, Samuel Rota Bulò, Christian Richardt, Deva Ramanan, Sebastian Scherer, Peter Kontschieder

#### Контекст В последние годы третье измерение стало одной из направленностей развития визуальных технологий. Одним из основных задач является реконструкция трехмерных сцен с помощью различных входных данных, включая изображения, геометрические данные и даже частичные реконструкции. Несмотря на развитие специализированных моделей для отдельных задач, таких как однокамерная глубинная оценка или структура из движения, не получилось создать универсальную модель, которая могла бы объединить в себе все эти задачи. Наша модель MapAnything рассчитана на решение этой проблемы и представляет собой универсальную трансформер-базированную модель, которая вместо разметки в 3D в реальном времени выводит метрическую геометрию трехмерной сцены и камеры. #### Метод MapAnything является трансформер-базированной моделью, которая принимает в качестве входных данных изображения, а также геометрические данные, такие как камерные интринсики, позы, дальности и частичные реконструкции. Основная идея заключается в том, чтобы использовать факторизованное представление много birds-eye-view-geometries, которое включает в себя не только глубинные карты, но и локальные карты лучей, камерные позы, а также метрический коэффициент масштабирования. Это позволяет модели MapAnything переходить от локальной реконструкции к глобальной, сохраняя метрическую консистентность. Модель поддерживает широкий спектр входных данных и может работать с несколькими изображениями, что делает её универсальной и перспективной в разных областях 3D-визуализации. #### Результаты Проведенные эксперименты показали, что MapAnything может решать широкий спектр задач в области 3D-визуализации, включая однокамерный depth estimation, структуру из движения, камерную локализацию и другие. Мы проводили тесты на различных датасетах, включающих KITTI, SUN RGB-D и другие. Результаты показали, что MapAnything не только достигает высокого качества решения отдельных задач, но и превосходит специализированные модели, в то же время обладая более эффективным обучением. Наши эксперименты показали, что модель способна выполнять различные задачи 3D-визуализации в меньший срок и с меньшим потреблением ресурсов, чем специализированные модели. #### Значимость Модель MapAnything имеет широкие возможности в области 3D-визуализации. Она может применяться в различных областях, таких как интерактивные системы, виртуальная и реальность, компьютерное зрение и геолокация. Модель значительно упрощает процесс 3D-реконструкции, предоставляя возможность решать различные задачи в области трехмерного видения в одном простом и универсальном решении. Это не только
Annotation:
We introduce MapAnything, a unified transformer-based feed-forward model that ingests one or more images along with optional geometric inputs such as camera intrinsics, poses, depth, or partial reconstructions, and then directly regresses the metric 3D scene geometry and cameras. MapAnything leverages a factored representation of multi-view scene geometry, i.e., a collection of depth maps, local ray maps, camera poses, and a metric scale factor that effectively upgrades local reconstructions int...
ID: 2509.13414v1 cs.CV, cs.AI, cs.LG, cs.RO
Авторы:

Cameron Reid, Wael Hafez, Amirhossein Nazeri

## Контекст Многие современные Reinforcement Learning (RL) системы применяются в реальном времени в сложных и нестабильных средах. Однако эти системы часто сталкиваются с ограничениями, такими как поломки сенсоров, износ актуаторов и изменения окружающей среды. Эти проблемы могут привести к деградации производительности и непредсказуемости поведения агента. Несмотря на развитие методов RL, не существует достаточно эффективных механизмов для диагностики и адаптации во время выполнения. Отсутствие таких механизмов ограничивает широкое развертывание RL в критичных приложениях, где достоверность и надежность критичны. Целью данной работы является разработка информационно-теоретического фреймворка для выявления и мониторинга динамики RL, а также для извлечения практических инсайдов, которые позволят определять и корректировать неполадки в системах RL во время их работы. ## Метод Мы предлагаем информационно-теоретический подход, основанный на измерении взаимной информации (Mutual Information, MI) между состояниями, действиями и следующими состояниями в RL-системах. Исследования проводились в рамках роботизированного контроля, где использовались тестовые задачи для оценки характеристик информационного поведения агента. Мы разработали методы для измерения MI между состоянием и действием (MI(S, A)), а также между состоянием, действием и следующим состоянием (MI(S, A; S')). Эти метрики были использованы для анализа динамики обучения и для выявления недостатков в системе. Для эмпирического обоснования, мы проводили эксперименты, в которых вводили контролируемые помехи в состояниях и действиях, чтобы исследовать диагностическую способность нашего подхода. ## Результаты Наши эксперименты показали, что успешное обучение RL сопровождается очертанием особых информационных сигнатур. Например, MI(S, A) увеличивается во время обучения, что указывает на то, что агент научился выбирать более значимые действия в зависимости от состояния. Однако MI(S, A; S') демонстрирует инвертированный У-образный тренд, начиная с высоких значений в начале обучения и переходя в низкие значения по мере специализации агента, что указывает на переход от широкой эксплуатации к эффективной эксплуатации. Более того, мы продемонстрировали, что информационные метрики позволяют выявлять различные типы ошибок в системе. Например, шум в обзорном пространстве (например, отказ сенсора) приводит к общему снижению всех информационных каналов, в том числе MI(S, A), что указывает на общую деградацию. Напротив, шум в пространстве действий (например, отказ актуатора) оказывает специфич
Annotation:
Reinforcement Learning (RL) agents deployed in real-world environments face degradation from sensor faults, actuator wear, and environmental shifts, yet lack intrinsic mechanisms to detect and diagnose these failures. We present an information-theoretic framework that reveals both the fundamental dynamics of RL and provides practical methods for diagnosing deployment-time anomalies. Through analysis of state-action mutual information patterns in a robotic control task, we first demonstrate that ...
ID: 2509.10423v1 cs.AI, cs.LG, cs.RO
Авторы:

Niels Balemans, Ali Anwar, Jan Steckel, Siegfried Mercelis

## Контекст Одна из основных задач в поле автоматизированного вождения и робототехники заключается в обеспечении надежной и точной картографирования окружающей среды. Несмотря на то, что технологии LiDAR (Light Detection and Ranging) широко используются для построения точных трехмерных моделей окружающих объектов, они часто сталкиваются с ограничениями в характеристиках качества и стоимости. Другие сенсоры, такие как радары и системы синтезу аудиосигналов (sonar), могут предоставить дополнительные данные, но их интеграция с LiDAR часто сталкивается с проблемами временной неконсистентности и неточностью. Целью данной работы является расширение существующей multmodal fusion framework, LiDAR-BIND, для улучшения временной консистентности и качества реконструкции. ## Метод LiDAR-BIND-T расширяет LiDAR-BIND, добавив новые механизмы для принудительной временной консистентности. Эти механизмы включают: (i) **temporal embedding similarity**, который выравнивает последовательные тензоры в латентном пространстве LiDAR, (ii) **motion-aligned transformation loss**, который синхронизирует движение между предсказанными и реальными LiDAR-данными, и (iii) **windowed temporal fusion**, основанную на специальном модуле для объединения данных в определенных временных окнах. Также была обновлена архитектура модели для лучшего сохранения пространственной структуры. Эти улучшения позволяют LiDAR-BIND-T сохранять модульность и гибкость в интеграции различных сенсоров, при этом значительно повышая точность и надежность результатов. ## Результаты Использовав определенные данные с радарами и sonar, авторы проводили эксперименты для сравнения новой модели с исходной версией LiDAR-BIND. Оценка производилась с помощью различных метрик, включая **Absolute Trajectory Error (ATE)** и **Occupancy Map Accuracy**. Результаты показали, что LiDAR-BIND-T обеспечивает значительное улучшение временной и пространственной консистентности. Например, она снизила Absolute Trajectory Error в дорожных сценариях, улучшила точность построения карты окружающей области в Cartographer-based SLAM. Для оценки качества временной консистентности также были предложены новые метрики, например, Fréchet Video Motion Distance (FVMD) и correlation-peak distance, которые дают более точные показатели временного качества. ## Значимость LiDAR-BIND-T может применяться в различных областях, включая автоматизированное вождение, робототехнику и виртуальную реальность. Она предлагает преимущества в своей модульной структуре, которая позволяет легко интегрировать различные типы сенсоров. Более того, усовершенствованная модель обеспечивает лучшую точность и надежность в задачах SLAM (Simultaneous Localization and Mapping), что может существенно повысить производительность в системах автоматизированного управления. Эти достижения открывают путь к более
Annotation:
This paper extends LiDAR-BIND, a modular multi-modal fusion framework that binds heterogeneous sensors (radar, sonar) to a LiDAR-defined latent space, with mechanisms that explicitly enforce temporal consistency. We introduce three contributions: (i) temporal embedding similarity that aligns consecutive latents, (ii) a motion-aligned transformation loss that matches displacement between predictions and ground truth LiDAR, and (iii) windows temporal fusion using a specialised temporal module. We ...
ID: 2509.05728v1 cs.CV, cs.AI, cs.LG, cs.RO
Авторы:

Pembe Gizem Özdil, Chuanfang Ning, Jasper S. Phelps, Sibo Wang-Chen, Guy Elisha, Alexander Blanke, Auke Ijspeert, Pavan Ramdya

## Контекст Определена цель исследования — разработка компьютерных моделей для изучения сложных механизмов, регулирующих поведение животных. Особое внимание уделяется генетическим моделям Drosophila melanogaster, чья центральная нервная система, мышечная система и скелет (exoskeleton) почти полностью реконструированы. Тем не менее, конкретные модели мышц ног, использующие анатомически и физически обоснованные параметры, до сих пор отсутствовали. Этот пробел мешал объяснению процесса генерирования движений в позвоночных животных. Определена цель разработки анатомически точной модели ног D. melanogaster, позволяющей изучать отношение между мышечным активностью и движениями суставов. ## Метод Использована методология, основанная на кросс-дисциплинарном подходе, что включает моделирование, имитацию и экспериментирование. Разработана первая 3D-модель мышц ног D. melanogaster, реализованная в симуляционных окружениях OpenSim и MuJoCo. Модель основывается на данных из Х-образующих сканов, полученных с фиксированных особей. Оптимизированы неизвестные параметры модели, в том числе параметры Hill-типа, используя изображения с морфологическими данными. Для достижения реалистичного поведения использованы 3D-данные о позе летучих, реплицируя их движения в симуляторах. Также разрабатывались имитационные политики в MuJoCo для тестирования различных условий статических свойств суставов. ## Результаты Получена рабочая 3D-модель, которая позволяет моделировать движения ног в зависимости от мышечной активности. Модель удалось отразить координированные мышечные синергии в различных поведенческих сценариях, вроде ходьбы и уходы. Особое внимание уделено экспериментам, в которых тренировались модели для обучения политик с использованием МуЖоКо. Доказано, что различные условия вязкости и упругости суставов влияют на ускорение обучения. Также получено заключение, что эти модели могут отражать действительные процессы управления движениями в животных. ## Значимость Модель может применяться в различных областях, включая исследования моторного контроля, робототехнику и развитие систем артифициального интеллекта. Она позволяет симулировать естественно сложные движения ног, что может использоваться для развития более живых и природных моделей в симуляциях. Также, модель может применяться для контроля имитационных агентов и улучшения технологий виртуальных сред. Установлено, что она может помочь понять, как биомеханика влияет на генерацию движений в разных поведенческих сценариях. ## Выводы Разработана первая модель мышц ног D. melanogaster, являюща
Annotation:
Computational models are critical to advance our understanding of how neural, biomechanical, and physical systems interact to orchestrate animal behaviors. Despite the availability of near-complete reconstructions of the Drosophila melanogaster central nervous system, musculature, and exoskeleton, anatomically and physically grounded models of fly leg muscles are still missing. These models provide an indispensable bridge between motor neuron activity and joint movements. Here, we introduce the ...
ID: 2509.06426v1 q-bio.NC, cs.AI, cs.LG, cs.RO
Авторы:

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari

Обработка 3D-точечных множеств — важный вопрос для приложений в сферах автоматизированного вождения, робототехники и аugmented reality. Однако, основной датасет ModelNet40 имеет ряд ограничений: непоследовательные метки, 2D-данные, несоответствие размеров данных, недостаточное различие классов. Эти недостатки сильно влияют на качество моделей. Мы предлагаем ModelNet-R — улучшенную версию ModelNet40 с исправленными этими проблемами. Также мы предлагаем Point-SkipNet — легковесную графовую нейронную сеть, основывающуюся на эффективном выборе точек, группировке соседей и skip-подключениях. Она значительно сокращает количество параметров, повышая точность классификации. Эксперименты показали, что Point-SkipNet достигает state-of-the-art на ModelNet-R с меньшим количеством параметров по сравнению с современными моделями. Это показывает, что высокое качество данных ключевое для эффективного обучения моделей в 3D-классификации.
Annotation:
The classification of 3D point clouds is crucial for applications such as autonomous driving, robotics, and augmented reality. However, the commonly used ModelNet40 dataset suffers from limitations such as inconsistent labeling, 2D data, size mismatches, and inadequate class differentiation, which hinder model performance. This paper introduces ModelNet-R, a meticulously refined version of ModelNet40 designed to address these issues and serve as a more reliable benchmark. Additionally, this pape...
ID: 2509.05198v1 cs.CV, cs.AI, cs.LG, cs.RO
Авторы:

Pedram Fekri, Mehrdad Zadeh, Javad Dargahi

#### Контекст Улучшение технологий мониторинга и визуализации в катехеризации требует повышения точности оценки взаимодействия медицинского оборудования с организмом пациента. Одной из ключевых задач является сочетание данных визуального и тактильного типа для повышения точности интерпретации данных. Для этого широко используются многозадачные нейросетевые модели, которые объединяют в себе различные задачи, такие как сегментация изображений и оценка трения. Эти задачи имеют прикладное значение в медицинской практике, поскольку позволяют улучшить точность и эффективность процедур катехеризации. Однако существуют проблемы с ресурсоемкостью и недостаточной точностью, которые существенно ограничивают практическое применение таких моделей. #### Метод Мы предлагаем TransForSeg — модель, основанную на Vision Transformer, которая обрабатывает два входных изображения в качестве последовательностей. Модель учитывает длинные зависимости между патчами изображений с разных углов, не требуя их последовательного расширения. Для каждого входа используется отдельный сегментационный блок, а для оценки трения — регрессионный блок, объединяющий результаты двух сегментационных блоков. Наша модель обеспечивает синхронную оценку сегментации и трения с помощью контекстно-зависимой моделирования, которая использует возможности Vision Transformer для передачи длинных зависимостей. #### Результаты Мы провели тщательные эксперименты на синтетических X-X-ray изображениях с разными уровнями шума. Модель была сравнена с современными моделями для сегментации изображений, задач оценки трения, а также с многозадачными моделями. Результаты показали, что TransForSeg превосходит существующие модели по качеству сегментации и точности оценки трения. Она установила новый стандарт в области катехеризации, позволив улучшить качество обработки изображений и точность тренировочных моделей. #### Значимость Модель TransForSeg может быть применена в различных областях, где требуется синхронная оценка геометрии и трения. Например, в медицинских процедурах, визуальном мониторинге и анализе трения. Основной преимуществом TransForSeg является её многозадачность, которая позволяет эффективно обрабатывать изображения и оценивать физические взаимодействия. Это открывает путь к улучшению точности и эффективности в медицинских процедурах. #### Выводы Мы представили TransForSeg — модель, которая демонстрирует высокую точность в сегментации изображений и оценке трения. Наши результаты показывают, что модель может стать новым стандартом в синхронной оценке сегментации и трения. Будущие исследования будут сконцентрированы на расширени
Annotation:
Recently, the emergence of multitask deep learning models has enhanced catheterization procedures by providing tactile and visual perception data through an end-to-end architecture. This information is derived from a segmentation and force estimation head, which localizes the catheter in X-ray images and estimates the applied pressure based on its deflection within the image. These stereo vision architectures incorporate a CNN-based encoder-decoder that captures the dependencies between X-ray im...
ID: 2509.01605v1 cs.CV, cs.AI, cs.LG, cs.RO
Авторы:

Fachri Najm Noer Kartiman, Rasim, Yaya Wihardi, Nurul Hasanah, Oskar Natan, Bambang Wahono, Taufik Ibnu Salim

## Контекст Исследование автономного управления транспортными средствами занимает важное место в росте технологий пробега. Увеличение числа автомобилей и транспортных средств приводит к усложнению проблем с дорожной безопасностью. Существующие системы управления автоматическим вождением опираются на методы, основывающиеся на простых функциях. Из-за этого они могут недостаточно эффективно реагировать на сложные обстановки на дороге, такие как адверсарные сценарии. Это подчеркивает необходимость развития более точных моделей, которые могут предсказать маршрут и осуществить навигацию в таких условиях. ## Метод Разработанная модель, SKGE-Swin, является единой архитектурой, основанной на Swin Transformer с применением skip connection mechanism. Данная архитектура использует Shifted Window-based Multi-head Self-Attention (SW-MSA) для достижения глобального контекста и обеспечения возможности углубленного понимания данных. Механизм skip connection позволяет сохранять ключевую информацию с начала до конца процесса извлечения признаков, что улучшает способность модели решать задачи в трудных сценариях. ## Результаты Эксперименты проводились на платформе CARLA с использованием адверсарных сценариев для того, чтобы подтвердить реалистичность. Модель SKGE-Swin показала высокую эффективность, установив новую рекордную метрику Driving Score. Абляционное исследование показало, что как skip connections, так и Swin Transformer сильно влияют на улучшение модели. Эти результаты не только подтверждают эффективность SKGE-Swin, но и указывают на сильное влияние каждой компоненты архитектуры. ## Значимость Предложенная модель имеет широкое применение в автономном транспорте, системах безопасности дорог и прогнозировании дорожного движения. Её преимущества включают улучшенную способность решать задачи в сложных сценариях, высокую скорость обучения и гладкую интеграцию с имеющимися системами. Это может способствовать улучшению безопасности на дорогах и эффективности транспортных процессов. ## Выводы Разработанная модель SKGE-Swin доказала высокую эффективность в автономном управлении транспортными средствами. Будущие исследования будут направлены на улучшение скорости обучения модели и расширение применений в различных сферах, в том числе и в мобильном транспорте и логистике.
Annotation:
Focusing on the development of an end-to-end autonomous vehicle model with pixel-to-pixel context awareness, this research proposes the SKGE-Swin architecture. This architecture utilizes the Swin Transformer with a skip-stage mechanism to broaden feature representation globally and at various network levels. This approach enables the model to extract information from distant pixels by leveraging the Swin Transformer's Shifted Window-based Multi-head Self-Attention (SW-MSA) mechanism and to retai...
ID: 2508.20762v1 cs.CV, cs.AI, cs.LG, cs.RO
Показано 21 - 30 из 34 записей