📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Marc Schneider, Walter Fichter
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
This paper presents a novel approach to many-vs-many missile guidance using
virtual targets (VTs) generated by a Normalizing Flows-based trajectory
predictor. Rather than assigning n interceptors directly to m physical targets
through conventional weapon target assignment algorithms, we propose a
centralized strategy that constructs n VT trajectories representing
probabilistic predictions of maneuvering target behavior. Each interceptor is
guided toward its assigned VT using Zero-Effort-Miss gui...
Авторы:
Chenxu Ke, Congling Tian, Kaichen Xu, Ye Li, Lingcong Bao
## Контекст
Развитие нейронных сетей (NN) в сочетании с методами управления позволяет решать задачи в условиях сложности и неопределенности. Однако использование таких методов в контроле, например, в образно-ориентированной визуальной сервоподлюбке (image-based visual servoing, IBVS) для дронов, сталкивается с проблемами. Нейронные сети, используемые в качестве управляющих структур, часто требуют большого объема данных в начальной стадии обучения, что приводит к проблемам с производительностью и устойчивостью. Эти проблемы затрудняют применение таких методов в прикладных задачах, таких как захват изображений с помощью дронов.
## Метод
Предлагаемый подход основывается на стабилизированных методах управления, используя теорию Ляпунова для обеспечения стабильности нейронной сети в начальном этапе обучения. Метод заключается в построении набора данных, соответствующих условиям стабильности системы. Этот набор используется для инициализации нейронной сети управления, что позволяет сократить время обучения и улучшить качество результатов. Технически, метод включает в себя построение Lyapunov-функции, динамическую модель системы и структурированное набор данных, обеспечивающий условия устойчивости.
## Результаты
Эксперименты проводились на модели IBVS для легкого дрона. Начальная нейронная сеть была инициализирована с помощью построенных данных, что позволило достичь стабильного решения задачи управления. Результаты показали, что инициализированный подход позволил улучшить затраты на обучение и повысить точность контроля. Было достигнуто возможность достижения скорости захвата изображения в 15 м/с с помощью обученной нейронной сети. Это свидетельствует о практической эффективности метода.
## Значимость
Предлагаемый метод может быть применен в различных прикладных задачах, таких как сервоподъемники, роботы-инспекторы и дроны. Он позволяет существенно сократить время обучения нейронных сетей и повысить их надежность. Это имеет применение в робототехнике, видеонаблюдении, а также в задачах роботизированного управления. Эффективность метода подтверждена симуляционными и реальными испытаниями, что мотивирует его использование в разработке будущих систем управления.
## Выводы
Предложенный метод инициализации нейронных сетей является эффективным средством для ускорения обучения и повышения качества управления. Он работает в ситуациях, требующих высокой устойчивости и точности. В будущем планируется расширить его применение на другие типы управления, такие как мобильные роботы и многозеркальные системы. Также будут проводиться исследования по улучшению с
Annotation:
Reinforcement learning-based controller design methods often require
substantial data in the initial training phase. Moreover, the training process
tends to exhibit strong randomness and slow convergence. It often requires
considerable time or high computational resources. Another class of
learning-based method incorporates Lyapunov stability theory to obtain a
control policy with stability guarantees. However, these methods generally
require an initially stable neural network control policy at ...
Авторы:
Manish Prajapat, Johannes Köhler, Melanie N. Zeilinger, Andreas Krause
## Контекст
В современных системах автоматизированного управления, включая автомобильную автономную технику и дроны, поддержание баланса между достижением оптимального результата и обеспечением безопасности является ключевым заданием. Однако это становится сложнее в ситуациях, когда динамика системы неизвестна или плохо моделируется, что часто встречается в реальном мире. Традиционные методы, ориентированные на оптимальность, часто рискуют нарушением безопасности, в то время как методы, способствующие обеспечению безопасности, часто страдают от неэффективности в обучении или ограничений в производительности. Это сделало задачу безопасного обучения динамики системы открытой проблемой в области искусственного интеллекта и робототехники. Наша мотивация заключается в разработке фреймворка, который обеспечивает постоянную безопасность и максимально эффективное обучение динамик системы в реальном времени.
## Метод
Мы предлагаем фреймворк, основанный на методе $\textit{pessimistically safe exploration}$ (пессимистическое безопасное обучение), который оптимистично исследует информативные состояния, при этом не достигая их из-за неопределенности модели. Данный подход обеспечивает непрерывное обучение динамик в режиме онлайн в процессе исполнения, не требуя запусков с нуля. Наша модель использует $\textit{probabilistic models}$ для оценки безопасности и динамик, а также $\textit{exploration strategy}$, которая максимизирует информационность каждого состояния при сохранении безопасности. Мы используем $\textit{Lyapunov-based approach}$ для моделирования безопасности и $\textit{finite-time convergence}$ теорем для гарантии достижения необходимой точности модели в квантифицированный промежуток времени.
## Результаты
Мы проводим эксперименты в сложных сценариях, включая автомобильную гонку и летучую роботизированную технику, где безопасность является критически важной. Используя наши методы, мы показываем, что модель динамик может быть успешно изучена до установленного порога точности (с учетом шума) в ограниченном времени. Мы также показываем, что наш фреймворк позволяет максимизировать производительность (реализовав максимально возможный признак безопасности и баланса между безопасностью и производительностью), в то же время обеспечивая непрерывную безопасность во время обучения. Данные результаты по сравнению с традиционными методами RL (например, PPO или DDPG) показали значительное улучшение в безопасности и эффективности.
## Значимость
Наш фреймворк имеет потенциал для широкого применения в реальном мире, включая автономную автомобильную технику,
Annotation:
Ensuring both optimality and safety is critical for the real-world deployment
of agents, but becomes particularly challenging when the system dynamics are
unknown. To address this problem, we introduce a notion of maximum safe
dynamics learning via sufficient exploration in the space of safe policies. We
propose a $\textit{pessimistically}$ safe framework that
$\textit{optimistically}$ explores informative states and, despite not reaching
them due to model uncertainty, ensures continuous online ...
📄 Delay compensation of multi-input distinct delay nonlinear systems via neural operators
2025-09-24Авторы:
Filip Bajraktari, Luke Bhan, Miroslav Krstic, Yuanyuan Shi
## Контекст
Область исследования связана с интеллектуальным управлением систем, в которых возникают задержки в управлении. Такие системы встречаются в различных приложениях, таких как робототехника, авиация и системы саморегулирующегося регулирования. Задержки в управлении могут приводить к ухудшению производительности и даже к нестабильности системы. Одним из ключевых вопросов является достижение стабильности и эффективности управления в условиях существующих задержек. Наличие нескольких входов и различных задержек усложняет динамику системы, что делает её моделирование и компенсацию задержек высокоточным и сложным заданием.
## Метод
Методология, предложенная в работе, основывается на преобразовании задачи компенсации задержек в управлении нелинейными системами с несколькими входами в задачу решения транспортного уравнения Лапласа. Для этого применяется подход, основанный на нейронных операторах, которые позволяют представить сложные нелинейные зависимости в виде дискретных операторов. Архитектура основывается на применении нейронных сетей с динамическим поведением для построения модели, которая корректно отражает неструктурированную динамику системы. Это позволяет преодолеть ограничения существующих методов, таких как неполная моделирования задержек и неточности в оценке нелинейных процессов.
## Результаты
На основе предложенного подхода проводился экспериментальный анализ системы мобильного робота с несколькими входами и разными задержками. Для этих целей была применена модель, построенная на нейронных операторах, чтобы проверить её эффективность в условиях реальных задач. Эксперименты показали, что модель не только корректно компенсирует задержки, но и достигает высокой точности в предсказаниях динамики системы. Это продемонстрировано на примере мобильного робота, где компенсированная модель позволила более точно управлять роботом в условиях заданных задержек.
## Значимость
Результаты данной работы имеют значительное значение для развития технологий управления нелинейными системами с разными задержками. Изложенный подход может быть применён в различных областях, включая робототехнику, автоматизированные системы и системы саморегулирующегося регулирования. Одним из основных преимуществ является улучшение точности и скорости управления системами, что приводит к избыточной производительности и большей надежности. Будущие исследования будут нацелены на расширение применения этого подхода к более сложным системам и дальнейшее улучшение моделей нейронных операторов для решения задач управления.
## Выводы
Основные достижения этой работы заключаются в пре
Annotation:
In this work, we present the first stability results for approximate
predictors in multi-input non-linear systems with distinct actuation delays. We
show that if the predictor approximation satisfies a uniform (in time) error
bound, semi-global practical stability is correspondingly achieved. For such
approximators, the required uniform error bound depends on the desired region
of attraction and the number of control inputs in the system. The result is
achieved through transforming the delay int...
Авторы:
Sarvan Gill, Daniela Constantinescu
## Контекст
Решение задач контроля в средах с неубывающим временем работы часто требует обеспечения стабильности системы. Однако, традиционные алгоритмы реинфорсментного обучения (RL) не обеспечивают стабильности по своей природе. Недавние разработки, использующие самообучаемые Lyapunov-функции, призваны решить эту проблему. Однако, эти Lyapunov-функции обучаются с использованием on-policy методов, что приводит к высокой экспериментальной неэффективности.
Предложенный подход нацелен на решение этих проблем, предлагая метод для обучения Lyapunov-функций с использованием off-policy методов. Этот подход может быть интегрирован с уже существующими методами обучения RL, чтобы обеспечить лучшую эффективность и стабильность обучения. Это важно для применения в системах, требующих высокой точности и надежности, например, в авиации и робототехнике.
## Метод
Предлагаемый подход включает несколько ключевых технических решений. Во-первых, разработана методология для обучения Lyapunov-функций с использованием off-policy методов, что позволяет эффективно использовать данные с большим объемом в реальном времени. Во-вторых, внедрена архитектура, которая позволяет интегрировать эту Lyapunov-функцию в алгоритмы Soft Actor Critic (SAC) и Proximal Policy Optimization (PPO). Это позволяет эти алгоритмы использовать для получения более точных и стабильных решений в задачах контроля.
Эта архитектура включает несколько модулей, таких как нейронные сети для вычисления Lyapunov-функций и методы восстановления данных для эффективного использования off-policy методов. Это позволяет избежать некоторых проблем, связанных с on-policy методами, таких как ограниченность объема данных и высокая стоимость экспериментов.
## Результаты
В ходе экспериментов, проведенных на моделях инвертированного пендюла и квадротора, были получены следующие результаты. Алгоритмы SAC и PPO, внедренные с Lyapunov-функцией, показали значительное улучшение в стабильности и эффективности сравнительно с оригинальными алгоритмами. Были проведены сравнения с традиционными методами, показав значительное преимущество в эффективности обучения и стабильности решения.
Представленные результаты показывают, что основным преимуществом является улучшение эффективности обучения благодаря использованию off-policy методов. Это позволяет использовать большие объемы данных для эффективного обучения Lyapunov-функций, что делает эти алгоритмы более пригодными для применения в реальных системах, где необходима высокая стабильность и точность.
## Значимость
Результаты работы имеют большое значение для развития методологий RL, особенно
Annotation:
Traditional reinforcement learning lacks the ability to provide stability
guarantees. More recent algorithms learn Lyapunov functions alongside the
control policies to ensure stable learning. However, the current self-learned
Lyapunov functions are sample inefficient due to their on-policy nature. This
paper introduces a method for learning Lyapunov functions off-policy and
incorporates the proposed off-policy Lyapunov function into the Soft Actor
Critic and Proximal Policy Optimization algorith...