📚 Саммари научных статей из arXiv

Найдено 101 результатов по запросу 'cs.LG, cs.RO' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Self-Improving Embodied Foundation Models

2025-09-20

Авторы:

Seyed Kamyar Seyed Ghasemipour, Ayzaan Wahid, Jonathan Tompson, Pannag Sanketi, Igor Mordatch

## Контекст Современные роботизированные системы часто оперируют на основе тренировочных данных, полученных при помощи ограниченных задач супервизорного обучения. Это приводит к проблемам, таким как ограниченная общность, высокая необходимость в ручном вмешательстве и сложности с адаптацией к новым условиям. Хотя искусственные нейронные сети уже доказали свою эффективность в обработке данных, технологии повышения качества управления роботом по-прежнему требуют дополнительного развития. Задача самоулучшающихся обобщаемых моделей в робототехнике включает в себя не только супервизорное обучение, но и автономный процесс улучшения с помощью самостоятельного практикования. Это требует новых подходов, которые могли бы снизить количество необходимых для тренировки данных и улучшить точность результатов. ## Метод Мы предлагаем двухэтапный построчный подход для повышения эффективности обучения моделей в области робототехники. Основной идеей является улучшение поведения робота в реальном времени, используя алгоритмы управления, полученные из широкого диапазона предварительно обученных моделей. Это позволяет эффективно применять техники, такие как супервизорное обучение (Supervised Fine-Tuning), для настройки моделей на конкретные задачи. Второй этап — Self-Improvement — позволяет модели максимально автономно улучшать свои результаты в процессе непрерывного практикования, используя для этого новые полученные данные и анализ ошибок. Метод основывается на использовании мощных сетей, предобученных на больших объемах данных, что позволяет лучше адаптироваться к различным ситуациям. ## Результаты Мы проводили эксперименты с виртуальными и реальными роботами, используя различные задачи, такие как подхват предметов, перемещение по лабиринту и другие. Выяснилось, что наши модели показали значительные улучшения в скорости обучения и точности. Например, для задачи подхвата предметов наши модели смогли достичь более высокого уровня успешности с меньшим количеством данных для обучения по сравнению с методами без Self-Improvement. Также мы проанализировали несколько аспектов эффективности, включая оценку сложности обучения и устойчивости моделей в процессе практикования. Эти результаты подчеркивают преимущества нашего подхода в сравнении с другими методами. ## Значимость Метод, представленный в нашей работе, может быть применен в различных сферах, включая автоматизацию производств, транспортные системы и умные дома. Он позволяет улучшить качество управления роботами, сократить время и стоимость обучения, а также повысить уровень безопасности. Одним из основных преимуществ является возможность моделей а

Annotation:

Foundation models trained on web-scale data have revolutionized robotics, but their application to low-level control remains largely limited to behavioral cloning. Drawing inspiration from the success of the reinforcement learning stage in fine-tuning large language models, we propose a two-stage post-training approach for robotics. The first stage, Supervised Fine-Tuning (SFT), fine-tunes pretrained foundation models using both: a) behavioral cloning, and b) steps-to-go prediction objectives. I...

ID: 2509.15155v1 cs.LG, cs.RO

arXiv PDF

📄 Dynamic Aware: Adaptive Multi-Mode Out-of-Distribution Detection for Trajectory Prediction in Autonomous Vehicles

2025-09-19

Авторы:

Tongfei Guo, Lili Su

#### Контекст Траjectory prediction является ключевым компонентом для безопасного и эффективного функционирования автономных автомобилей (AV). Однако в реальной операции модели прогнозирования траекторий сталкиваются с распределениями, отличающимися от тех, которые были в ходе обучения. Изменения данных могут привести к ситуациям "out-of-distribution" (OOD), когда сценарии, такие как редкие или непредсказуемые поведения, становятся важными. Несмотря на то, что многие работы по OOD-обнаружению в AV-системах фокусируются на обработке изображений (например, объектное распознавание и сегментация), анализ траекторий на уровне "out-of-distribution" остается недостаточно исследованным. Недавняя работа сформулировала данную проблему в рамках быстрого изменения данных (QCD), где установлены формальные гарантии по отношению между временем обнаружения и ложноположительными сигналами. На этой основе, мы предлагаем новую адаптивную модель, которая улучшает процесс обнаружения в сложных условиях движения. #### Метод Мы предлагаем новую архитектуру, которая включает в себя адаптивные механизмы для моделирования и обнаружения различных режимов прогнозирования ошибок. Наша модель выделяет режимы динамики, которые влияют на ошибки прогноза в различных сценариях. Мы используем методы изменения распределений для определения и анализа этих режимов, что позволяет модели адаптироваться к изменениям в данных во время операции. Эта архитектура включает в себя моделирование ошибок на уровне сценариев, что дает возможность к внедрению в реальных условиях. Также, мы включаем механизмы, которые позволяют мгновенно отреагировать на изменения, чтобы обеспечить безопасность в трафике. #### Результаты Мы провели эксперименты на нескольких реальных данных, включая записи с различных сценариев движения. Наши результаты показали, что данная модель дает значительные улучшения в обнаружении OOD-случаев по сравнению с другими методами, такими как визуальные OOD-методы и UQ-подходы. Мы обнаружили, что модель обнаруживает OOD-случаи с более высокой точностью и быстрее, чем предыдущие подходы. Эксперименты также показали, что наш подход имеет высокую эффективность в вычислительных затратах и может быть эффективно использован в реальных условиях. #### Значимость Наш подход может быть применен в различных автономных системах, включая AV и системы поддержки принятия решений водителю. Он предоставляет значительные преимущества в скорости и точности обнаружения OOD-случаев, что может существенно улучшить безопасность и надежность систем. Будущие исследования будут фокусироваться на расширении этой модели для многомо

Annotation:

Trajectory prediction is central to the safe and seamless operation of autonomous vehicles (AVs). In deployment, however, prediction models inevitably face distribution shifts between training data and real-world conditions, where rare or underrepresented traffic scenarios induce out-of-distribution (OOD) cases. While most prior OOD detection research in AVs has concentrated on computer vision tasks such as object detection and segmentation, trajectory-level OOD detection remains largely underex...

ID: 2509.13577v1 cs.CV, cs.LG, cs.RO

arXiv PDF

📄 MapAnything: Universal Feed-Forward Metric 3D Reconstruction

2025-09-19

Авторы:

Nikhil Keetha, Norman Müller, Johannes Schönberger, Lorenzo Porzi, Yuchen Zhang, Tobias Fischer, Arno Knapitsch, Duncan Zauss, Ethan Weber, Nelson Antunes, Jonathon Luiten, Manuel Lopez-Antequera, Samuel Rota Bulò, Christian Richardt, Deva Ramanan, Sebastian Scherer, Peter Kontschieder

#### Контекст В последние годы третье измерение стало одной из направленностей развития визуальных технологий. Одним из основных задач является реконструкция трехмерных сцен с помощью различных входных данных, включая изображения, геометрические данные и даже частичные реконструкции. Несмотря на развитие специализированных моделей для отдельных задач, таких как однокамерная глубинная оценка или структура из движения, не получилось создать универсальную модель, которая могла бы объединить в себе все эти задачи. Наша модель MapAnything рассчитана на решение этой проблемы и представляет собой универсальную трансформер-базированную модель, которая вместо разметки в 3D в реальном времени выводит метрическую геометрию трехмерной сцены и камеры. #### Метод MapAnything является трансформер-базированной моделью, которая принимает в качестве входных данных изображения, а также геометрические данные, такие как камерные интринсики, позы, дальности и частичные реконструкции. Основная идея заключается в том, чтобы использовать факторизованное представление много birds-eye-view-geometries, которое включает в себя не только глубинные карты, но и локальные карты лучей, камерные позы, а также метрический коэффициент масштабирования. Это позволяет модели MapAnything переходить от локальной реконструкции к глобальной, сохраняя метрическую консистентность. Модель поддерживает широкий спектр входных данных и может работать с несколькими изображениями, что делает её универсальной и перспективной в разных областях 3D-визуализации. #### Результаты Проведенные эксперименты показали, что MapAnything может решать широкий спектр задач в области 3D-визуализации, включая однокамерный depth estimation, структуру из движения, камерную локализацию и другие. Мы проводили тесты на различных датасетах, включающих KITTI, SUN RGB-D и другие. Результаты показали, что MapAnything не только достигает высокого качества решения отдельных задач, но и превосходит специализированные модели, в то же время обладая более эффективным обучением. Наши эксперименты показали, что модель способна выполнять различные задачи 3D-визуализации в меньший срок и с меньшим потреблением ресурсов, чем специализированные модели. #### Значимость Модель MapAnything имеет широкие возможности в области 3D-визуализации. Она может применяться в различных областях, таких как интерактивные системы, виртуальная и реальность, компьютерное зрение и геолокация. Модель значительно упрощает процесс 3D-реконструкции, предоставляя возможность решать различные задачи в области трехмерного видения в одном простом и универсальном решении. Это не только

Annotation:

We introduce MapAnything, a unified transformer-based feed-forward model that ingests one or more images along with optional geometric inputs such as camera intrinsics, poses, depth, or partial reconstructions, and then directly regresses the metric 3D scene geometry and cameras. MapAnything leverages a factored representation of multi-view scene geometry, i.e., a collection of depth maps, local ray maps, camera poses, and a metric scale factor that effectively upgrades local reconstructions int...

ID: 2509.13414v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 SafeDiver: Cooperative AUV-USV Assisted Diver Communication via Multi-agent Reinforcement Learning Approach

2025-09-17

Авторы:

Tinglong Deng, Hang Tao, Xinxiang Wang, Yinyan Wang, Hanjiang Luo

#### Контекст Поддержка долгосрочных и надежных способов связи между плавающими под водой и поверхностью является ключевым заданием для поддержки успешных и безопасных подводных работ. Наиболее распространенными технологиями связи в подводных условиях являются акустические системы, но они имеют ограниченную пропускную способность и высокое расхождение. Из этой проблемы возникает необходимость развития более совершенных систем связи, которые могут обеспечить более высокую чувствительность и надежность. В этом контексте предлагается использовать технологии машинного обучения для улучшения эффективности и надежности систем связи под водой. #### Метод Предлагаемая модель "SafeDiver" основывается на методе многоагентного риечения учений (MARL). Для достижения цели координированных действий нескольких независимых агентов (в этом случае, нескольких автономных подводных роботов), мы разрабатываем методы, которые позволяют каждому агенту принимать решения в зависимости от своего локального окружения. Мы основываемся на технологии обмена данными между множеством малых роботов, которые создают сеть для передачи данных между подводными роботами и поверхности. Алгоритмы используют модель оптимального распределения ресурсов для обеспечения надежной передачи данных, минимизируя потери сигнала и повышая скорость передачи. #### Результаты Мы проводили эксперименты с использованием симулятора для моделирования подводных ситуаций и протестировали различные сценарии связи. Наши результаты показывают, что "SafeDiver" позволяет достичь заметного улучшения в скорости передачи и надежности связи в сравнении с существующими методами. Мы также проверили, как различные типы сетей могут влиять на эффективность обмена данными в различных условиях водного пространства. Наши результаты показали, что оптимальный выбор сетей может существенно повысить производительность системы. #### Значимость "SafeDiver" предлагает большой потенциал для применения в различных подводных задачах, таких как поиск и спасение, сдавливание и другие подводные работы, где уверенная и надежная связь является ключевым фактором. Эта модель также может быть использована для улучшения взаимодействия между подводными роботами и поверхностными системами в различных других областях, таких как системы поддержки решений в реальном времени, охрана природы и мониторинг окружающей среды. #### Выводы Мы доказали, что "SafeDiver" может стать мощным инструментом для улучшения связи под водой, обеспечивая более надежную и быструю связь между подводными роботами и поверхностию. В дальнейшем исследовании мы планируем расширить модель,

Annotation:

As underwater human activities are increasing, the demand for underwater communication service presents a significant challenge. Existing underwater diver communication methods face hurdles due to inherent disadvantages and complex underwater environments. To address this issue, we propose a scheme that utilizes maritime unmanned systems to assist divers with reliable and high-speed communication. Multiple AUVs are equipped with optical and acoustic multimodal communication devices as relay node...

ID: 2509.11508v1 cs.MA, cs.LG, cs.RO

arXiv PDF

📄 Cross-Platform Scaling of Vision-Language-Action Models from Edge to Cloud GPUs

2025-09-17

Авторы:

Amir Taherin, Juyi Lin, Arash Akbari, Arman Akbari, Pu Zhao, Weiwei Chen, David Kaeli, Yanzhi Wang

## Контекст Vision-Language-Action (VLA) модели представляют собой мощные общие политики для роботизированного управления, которые могут объединять сигналы визуального восприятия и текстовых справочников для управления действиями. Однако их поведение при масштабировании по архитектурам моделей и типам железа, а также их влияние на энергопотребление, остаются недостаточно изученными. Экономичность и эффективность масштабирования VLA-моделей крайне важны для их применения в реальных мировых средах, в том числе для решения проблем в области роботизированных систем, которые требуют быстрого принятия решений в реальном времени. Это исследование стремится оценить свойства масштабирования VLA-моделей, охватив различные архитектуры и платформы графических процессоров. ## Метод Для исследования масштабирования VLA-моделей были использованы пять представительных моделей, включая две новые архитектуры. Модели были эвалируемы на двух типах платформ: устройствах с ограниченным энергопотреблением (edge) и высокопроизводительных системах датацентров (datacenter) с GPU-акселерораторами. Использовался LIBERO бенчмарк для измерения точности моделей (accuracy) и системных метрик: задержки (latency), пропускной способности (throughput) и максимальному потреблению памяти (peak memory usage). Эксперименты проводились с разными конфигурациями энергопотребления на edge-устройствах и различными уровнями производительности на GPU-платформах. ## Результаты Исследование показало, что архитектурные решения, такие как размер модели и токенизация действий, оказывают существенное влияние на пропускную способность и потребление памяти. На устройствах с ограниченным энергопотреблением были выявлены нелинейные деградации производительности, при которых некоторые конфигурации edge-устройств показывали подобные результаты, как и более старые системы датацентров. Было также установлено, что модели с высокой пропускной способностью могут достигаться без существенной потери точности. Эти результаты оспособляют на практическом применении VLA-моделей, при этом вызывая вопросы о приоритете датацентров для инференса в области робототехники. ## Значимость Результаты имеют значимые последствия для различных областей применения, включая роботизированные системы, системы распознавания речи и обработку естественного языка. Возможности масштабирования на GPU-платформах от edge до cloud дают новые возможности для эффективного использования ресурсов и гибкости в развертывании. Это делает VLA-модели более привлекательными для реализации в реальных приложениях. Будущие исследования будут сконцентрированы

Annotation:

Vision-Language-Action (VLA) models have emerged as powerful generalist policies for robotic control, yet their performance scaling across model architectures and hardware platforms, as well as their associated power budgets, remain poorly understood. This work presents an evaluation of five representative VLA models -- spanning state-of-the-art baselines and two newly proposed architectures -- targeting edge and datacenter GPU platforms. Using the LIBERO benchmark, we measure accuracy alongside...

ID: 2509.11480v1 cs.AI, cs.CV, cs.ET, cs.LG, cs.RO

arXiv PDF

📄 Off Policy Lyapunov Stability in Reinforcement Learning

2025-09-16

Авторы:

Sarvan Gill, Daniela Constantinescu

## Контекст Решение задач контроля в средах с неубывающим временем работы часто требует обеспечения стабильности системы. Однако, традиционные алгоритмы реинфорсментного обучения (RL) не обеспечивают стабильности по своей природе. Недавние разработки, использующие самообучаемые Lyapunov-функции, призваны решить эту проблему. Однако, эти Lyapunov-функции обучаются с использованием on-policy методов, что приводит к высокой экспериментальной неэффективности. Предложенный подход нацелен на решение этих проблем, предлагая метод для обучения Lyapunov-функций с использованием off-policy методов. Этот подход может быть интегрирован с уже существующими методами обучения RL, чтобы обеспечить лучшую эффективность и стабильность обучения. Это важно для применения в системах, требующих высокой точности и надежности, например, в авиации и робототехнике. ## Метод Предлагаемый подход включает несколько ключевых технических решений. Во-первых, разработана методология для обучения Lyapunov-функций с использованием off-policy методов, что позволяет эффективно использовать данные с большим объемом в реальном времени. Во-вторых, внедрена архитектура, которая позволяет интегрировать эту Lyapunov-функцию в алгоритмы Soft Actor Critic (SAC) и Proximal Policy Optimization (PPO). Это позволяет эти алгоритмы использовать для получения более точных и стабильных решений в задачах контроля. Эта архитектура включает несколько модулей, таких как нейронные сети для вычисления Lyapunov-функций и методы восстановления данных для эффективного использования off-policy методов. Это позволяет избежать некоторых проблем, связанных с on-policy методами, таких как ограниченность объема данных и высокая стоимость экспериментов. ## Результаты В ходе экспериментов, проведенных на моделях инвертированного пендюла и квадротора, были получены следующие результаты. Алгоритмы SAC и PPO, внедренные с Lyapunov-функцией, показали значительное улучшение в стабильности и эффективности сравнительно с оригинальными алгоритмами. Были проведены сравнения с традиционными методами, показав значительное преимущество в эффективности обучения и стабильности решения. Представленные результаты показывают, что основным преимуществом является улучшение эффективности обучения благодаря использованию off-policy методов. Это позволяет использовать большие объемы данных для эффективного обучения Lyapunov-функций, что делает эти алгоритмы более пригодными для применения в реальных системах, где необходима высокая стабильность и точность. ## Значимость Результаты работы имеют большое значение для развития методологий RL, особенно

Annotation:

Traditional reinforcement learning lacks the ability to provide stability guarantees. More recent algorithms learn Lyapunov functions alongside the control policies to ensure stable learning. However, the current self-learned Lyapunov functions are sample inefficient due to their on-policy nature. This paper introduces a method for learning Lyapunov functions off-policy and incorporates the proposed off-policy Lyapunov function into the Soft Actor Critic and Proximal Policy Optimization algorith...

ID: 2509.09863v1 eess.SY, cs.LG, cs.RO, cs.SY

arXiv PDF

📄 DGFusion: Depth-Guided Sensor Fusion for Robust Semantic Perception

2025-09-16

Авторы:

Tim Broedermannn, Christos Sakaridis, Luigi Piccinelli, Wim Abbeloos, Luc Van Gool

#### Контекст Для обеспечения безопасной и эффективной самостоятельной навигации автомобилей необходимо устойчивое сенсорное восприятие окружающей среды. Однако современные автомобили оснащаются разнородным комплектом сенсоров, которые обладают своими сильными и слабыми сторонами. Объединение этих сенсоров в единый поток данных для получения устойчивого представления окружающего мира — это вызов, который еще не был полностью решен. Особенно сложно становится при высоких скоростях или при условиях плохого видимости, когда некоторые сенсоры могут давать ненадёжные данные. Наша статья предлагает новую методологию, которая использует глубину (depth) как устойчивый признак для улучшения сенсорной фуссионации. #### Метод Предлагаемая методология, DGFusion (Depth-Guided Fusion), представляет собой усовершенствованный подход к сенсорной фуссионации, основанный на глубинных данных. Мы предполагаем, что каждый сенсор вкладывает в свои данные своих сильных и слабых сторон, которые зависят от условий. Мы предлагаем использовать лидар (laser scanner) как основной источник глубинных данных, так как он достаточно стабилен в погодных условиях. Наша сеть DGFusion подходит к многомодальной сегментации как к задаче многозадачного обучения: лидар используется как входной сенсор и, с другой стороны, как тренировочная подсистема для обучения глубины. Мы также предлагаем специальный ауксоiliary depth head, который извлекает depth-aware features и кодирует их в виде токенов, которые динамически управляют кросс-модальной фуссионацией. Этот подход позволяет переключаться между модами в зависимости от условий, обеспечивая устойчивый результат. #### Результаты Мы проверили нашу модель на двух трудной классификации датасетах: MUSES и DELIVER. Для сравнения, мы использовали предыдущие решения, такие как MMF, PON, и BRUNO. Наши результаты показали, что DGFusion превосходит эти модели в сегментации панорамы (panoptic segmentation) и семантической сегментации. Помимо этого, мы проверили влияние внедрения токенов глубины на потери, используя нашу произвольную функцию loss. Эти эксперименты подтвердили, что DGFusion не только повышает точность, но и повышает устойчивость перцепции в условиях плохой видимости. #### Значимость Наш подход может применяться в различных областях, включая самоуправляемые транспортные средства, интеллектуальные города, а также системы умных домов, где необходима устойчивая обработка сенсорных данных. Главное преимущество DGFusion заключается в том, что он устойчив к переменным условиям, и это достигается благодаря применению глубины как устойчивого признака. Это может привести к улучшению

Annotation:

Robust semantic perception for autonomous vehicles relies on effectively combining multiple sensors with complementary strengths and weaknesses. State-of-the-art sensor fusion approaches to semantic perception often treat sensor data uniformly across the spatial extent of the input, which hinders performance when faced with challenging conditions. By contrast, we propose a novel depth-guided multimodal fusion method that upgrades condition-aware fusion by integrating depth information. Our netwo...

ID: 2509.09828v1 cs.CV, cs.LG, cs.RO

arXiv PDF

📄 Mutual Information Tracks Policy Coherence in Reinforcement Learning

2025-09-16

Авторы:

Cameron Reid, Wael Hafez, Amirhossein Nazeri

## Контекст Многие современные Reinforcement Learning (RL) системы применяются в реальном времени в сложных и нестабильных средах. Однако эти системы часто сталкиваются с ограничениями, такими как поломки сенсоров, износ актуаторов и изменения окружающей среды. Эти проблемы могут привести к деградации производительности и непредсказуемости поведения агента. Несмотря на развитие методов RL, не существует достаточно эффективных механизмов для диагностики и адаптации во время выполнения. Отсутствие таких механизмов ограничивает широкое развертывание RL в критичных приложениях, где достоверность и надежность критичны. Целью данной работы является разработка информационно-теоретического фреймворка для выявления и мониторинга динамики RL, а также для извлечения практических инсайдов, которые позволят определять и корректировать неполадки в системах RL во время их работы. ## Метод Мы предлагаем информационно-теоретический подход, основанный на измерении взаимной информации (Mutual Information, MI) между состояниями, действиями и следующими состояниями в RL-системах. Исследования проводились в рамках роботизированного контроля, где использовались тестовые задачи для оценки характеристик информационного поведения агента. Мы разработали методы для измерения MI между состоянием и действием (MI(S, A)), а также между состоянием, действием и следующим состоянием (MI(S, A; S')). Эти метрики были использованы для анализа динамики обучения и для выявления недостатков в системе. Для эмпирического обоснования, мы проводили эксперименты, в которых вводили контролируемые помехи в состояниях и действиях, чтобы исследовать диагностическую способность нашего подхода. ## Результаты Наши эксперименты показали, что успешное обучение RL сопровождается очертанием особых информационных сигнатур. Например, MI(S, A) увеличивается во время обучения, что указывает на то, что агент научился выбирать более значимые действия в зависимости от состояния. Однако MI(S, A; S') демонстрирует инвертированный У-образный тренд, начиная с высоких значений в начале обучения и переходя в низкие значения по мере специализации агента, что указывает на переход от широкой эксплуатации к эффективной эксплуатации. Более того, мы продемонстрировали, что информационные метрики позволяют выявлять различные типы ошибок в системе. Например, шум в обзорном пространстве (например, отказ сенсора) приводит к общему снижению всех информационных каналов, в том числе MI(S, A), что указывает на общую деградацию. Напротив, шум в пространстве действий (например, отказ актуатора) оказывает специфич

Annotation:

Reinforcement Learning (RL) agents deployed in real-world environments face degradation from sensor faults, actuator wear, and environmental shifts, yet lack intrinsic mechanisms to detect and diagnose these failures. We present an information-theoretic framework that reveals both the fundamental dynamics of RL and provides practical methods for diagnosing deployment-time anomalies. Through analysis of state-action mutual information patterns in a robotic control task, we first demonstrate that ...

ID: 2509.10423v1 cs.AI, cs.LG, cs.RO

arXiv PDF

📄 Global Optimization of Stochastic Black-Box Functions with Arbitrary Noise Distributions using Wilson Score Kernel Density Estimation

2025-09-13

Авторы:

Thorbjørn Mosekjær Iversen, Lars Carøe Sørensen, Simon Faarvang Mathiesen, Henrik Gordon Petersen

## Контекст Поиск оптимальных решений во многих областях робототехники требует оптимизации сложных, временнодорогих функций, которые часто описываются через стохастические модели. Эти функции, называемые "черновыми", не имеют прямых выражений, а требуют экспериментального измерения или симуляции. Добавленная стохастичность из-за неизмеримых разбросов в реальных условиях делает такую оптимизацию вызовом. Байесовская оптимизация предлагает эффективный подход, используя модель вероятности для оценки функции. Несмотря на это, её эффективность определяется качеством оценок доверительных интервалов, формируемых при помощи функционального оценивания. ## Метод Для решения этой проблемы предлагается использовать Wilson Score Kernel Density Estimation (WS-KDE), который обеспечивает надежные доверительные интервалы для любой стохастической функции, имеющей выход в диапазоне [0;1]. Техника основывается на подходах к вычислению доверительных интервалов Уилсона и технике оценки плотности KDE. Эта комбинация позволяет удачно использовать WS-KDE в качестве рабочей модели для оценки доверительных интервалов в стохастических задачах оптимизации. ## Результаты В ходе экспериментов показано, что WS-KDE не только обеспечивает точные оценки доверительных интервалов, но также демонстрирует высокую стабильность при работе с различными стохастическими задачами. Набор экспериментальных данных, включающий моделирование симуляций и реальных экспериментов с вибрационными питательными устройствами, подтверждает эффективность WS-KDE в глобальной оптимизации таких задач. ## Значимость Полученный подход имеет широкие применения в робототехнике, где необходима оптимизация затратных временем и сложных симуляционных моделей. WS-KDE позволяет достичь более качественной оптимизации за счёт точных оценок доверительных интервалов, не зависящих от распределения функции вывода. Также, применимость к различным сценариям демонстрируется на задаче автоматизированного проектирования ловушек для вибрационных питательных устройств. ## Выводы Результаты демонстрируют перспективу применения WS-KDE в байесовской оптимизации, в том числе для сложных и стохастических задач. Будущие исследования могут сфокусироваться на расширении WS-KDE на адаптивные модели, чтобы улучшить эффективность и обеспечить более гибкие оптимизационные стратегии в различных приложениях.

Annotation:

Many optimization problems in robotics involve the optimization of time-expensive black-box functions, such as those involving complex simulations or evaluation of real-world experiments. Furthermore, these functions are often stochastic as repeated experiments are subject to unmeasurable disturbances. Bayesian optimization can be used to optimize such methods in an efficient manner by deploying a probabilistic function estimator to estimate with a given confidence so that regions of the search ...

ID: 2509.09238v1 stat.ML, cs.LG, cs.RO

arXiv PDF

📄 Model-Agnostic Open-Set Air-to-Air Visual Object Detection for Reliable UAV Perception

2025-09-13

Авторы:

Spyridon Loukovitis, Anastasios Arsenos, Vasileios Karampinis, Athanasios Voulodimos

## Контекст Управление дронами в реальных условиях требует высокоточного визуального распознавания объектов. Однако существующие системы часто сталкиваются с проблемами, такими как неточность в распознавании неизвестных объектов и неустойчивость при помехах в данных. Эти ограничения могут привести к небезопасным ситуациям в случае применения дронов в критически важных задачах, таких как поиск-спасательные операции или системы безопасности. Для решения этих проблем необходимо развить методы, обеспечивающие надежную детекцию в условиях динамической среды, включая распознавание неизвестных объектов и устойчивость к помехам. ## Метод Предлагаемый подход является модельно-независимым и специально разработанным для работы с визуальными детекторами, основанными на подходе на основе инкубирующих представлений (embedding-based detectors). Он реализует механизм отклонения неизвестных объектов, используя модель на основе ентропии в пространстве инкубирующих представлений. Для повышения отклика системы при работе с помехами в данных введены спектральная нормализация и температурная масштабирование. Эта архитектура обеспечивает улучшение отклика системы на некоторые семантические изменения в данных, что позволяет лучше отличать искомые объекты от фоновых элементов. ## Результаты Результаты экспериментов проведены на сложной аэроизображенной выборке AOT и в реальных условиях полета дрона. Метод показал значительное улучшение в отклике на неизвестные объекты с расширенным интервалом вероятности (AUROC), достигая при этом высокой точности в распознавании целевых объектов. Кроме того, добавление функции отсева фоновых элементов способствует дальнейшему повышению устойчивости детектора без ущерба для точности распознавания. ## Значимость Предлагаемый подход может быть применен в системах автономного управления дронов в задачах поиска-спасения, системах безопасности и других критически важных применениях. Он обеспечивает улучшенную устойчивость к помехам, высокую точность распознавания и гибкость в работе с неизвестными объектами. Эти преимущества позволяют расширить область использования дронов в реальных сценариях, улучшив надежность и безопасность. ## Выводы Предложенный метод является модельно-независимым и эффективным для улучшения отклика управления дронами в реальных условиях. Результаты показывают преимущества метода над существующими алгоритмами в области отклика на неизвестные объекты и устойчивости к помехам. Будущие исследования будут сконцентрированы на расширении функционала детектора в работе с более

Annotation:

Open-set detection is crucial for robust UAV autonomy in air-to-air object detection under real-world conditions. Traditional closed-set detectors degrade significantly under domain shifts and flight data corruption, posing risks to safety-critical applications. We propose a novel, model-agnostic open-set detection framework designed specifically for embedding-based detectors. The method explicitly handles unknown object rejection while maintaining robustness against corrupted flight data. It es...

ID: 2509.09297v1 cs.CV, cs.LG, cs.RO

arXiv PDF

1
2
6
7
8
9
10
11

Показано 71 - 80 из 101 записей