📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Learning to Ball: Composing Policies for Long-Horizon Basketball Moves

2025-09-30

Авторы:

Pei Xu, Zhen Wu, Ruocheng Wang, Vishnu Sarukkai, Kayvon Fatahalian, Ioannis Karamouzas, Victor Zordan, C. Karen Liu

## Контекст Улучшение имитационных моделей спортивных технологий является важной задачей в искусственном интеллекте. Одна из таких задач — создание комплексных контрольных политик для воспроизведения сложных спортивных действий, таких как баскетбольные маневры. Такие задачи характеризуются многоэтапной структурой и приоритетом достижения более широкой цели. Несмотря на развитие методов рекомендательных систем, возникают сложности в создании моделей, которые могут грамотно переключаться между отдельными фазами задачи, обеспечивая безупречные переходы и композицию поведения. Эта проблема вызвана тем, что многие методы не умеют адаптироваться к обстановке с неясными промежуточными стадиями и неэффективно распределяют ресурсы между многофазными задачами. Наша исследовательская группа рассматривает эту проблему, стремясь создать более точные и реалистичные методы композиции спортивных действий. ## Метод Мы предлагаем новую структуру композиции политик, основанную на гибкой интеграции отдельных моделей. Наша методология включает в себя выделение главных фаз задачи и создание отдельных моделей для каждой из них. Для управления переходом между этими фазами мы разрабатываем роутер, использующий мягкие переключения. Модели оснащены возможностью адаптироваться к нестандартным ситуациям, а структура роутера упрощает определение наилучшего пути для перехода. Использование симуляционных и реальных данных позволяет тренировать модели на наборах данных, включающих различные сценарии. Эта процедура обеспечивает высокую точность и реалистичность воспроизведения. ## Результаты Мы проводим эксперименты на наборе симуляционных задач, включающих баскетбольные маневры, такие как передача, забивание и переходы между ними. Модели, обученные нашей системой, показывают высокую точность в выполнении задач и плавные переходы между фазами. Мы также проверяем систему на реальных данных, полученных в процессе игры. Результаты показывают, что модели хорошо адаптируются к различным условиям игры и поддерживают композицию долгосрочных действий с минимальными ошибками. ## Значимость Наш подход имеет широкое применение в спортивных моделях, виртуальных реальностях и играх с высоким уровнем имитации. Он позволяет создавать более точные модели поведения спортсменов и улучшать визуальную составляющую игр. Кроме того, использование мягких роутеров обеспечивает лучшую устойчивость и производительность моделей в условиях реальных ситуаций. Эти достижения открывают пути к будущим исследованиям в области композиции моде

Annotation:

Learning a control policy for a multi-phase, long-horizon task, such as basketball maneuvers, remains challenging for reinforcement learning approaches due to the need for seamless policy composition and transitions between skills. A long-horizon task typically consists of distinct subtasks with well-defined goals, separated by transitional subtasks with unclear goals but critical to the success of the entire task. Existing methods like the mixture of experts and skill chaining struggle with tas...

ID: 2509.22442v1 cs.GR, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 Wonder Wins Ways: Curiosity-Driven Exploration through Multi-Agent Contextual Calibration

2025-09-27

Авторы:

Yiyuan Pan, Zhe Liu, Hesheng Wang

## Контекст Autonomous exploration в области multi-agent reinforcement learning (MARL) с sparse rewards является ключевым заданием, требующим эффективной intrinsic motivation для успешного выполнения задач. Несмотря на развитие artificial curiosity, оно часто путает environmental stochasticity с meaningful novelty, а существующие curiosity mechanisms применяют uniform novelty bias, обрабатывая все unexpected observations одинаково. В decentralized, communication-free MARL settings это приводит к suboptimal exploration. Вдохновлены значимым подходом, когда human children adaptive регулируют свои exploratory behaviors при наблюдении за peers, предлагается новый framework CERMIC. Он позволяет agents стабильно фильтровать noisy surprise signals и гибко calibrate intrinsic curiosity с помощью многоагентского context. Благодаря этому, agents могут выделять state transitions с высоким information gain. ## Метод CERMIC предлагает principled framework для calibration multi-agent exploration. Основное отличие заключается в использовании inferred multi-agent context для dynamic adjustment intrinsic curiosity. Для этого используется метод, который моделирует latent task dynamics на основе peer behavior. Это позволяет agents не только обнаруживать unexpected observations, но и понимать их relevance в контексте global task objectives. Для того, чтобы обеспечить robust filtering noisy signals, CERMIC вводит theoretically-grounded intrinsic reward, который выделяет state transitions с высоким information gain. ## Результаты Используя benchmark suites, включающие VMAS, Meltingpot и SMACv2, были проведены эксперименты для оценки CERMIC. Результаты показывают, что exploration с использованием CERMIC существенно outperforms SoTA algorithms в sparse-reward environments. Например, в Meltingpot, CERMIC показал значительное увеличение reward даже с ограниченным количеством communication. В SMACv2, он достиг high win rate в задачах с sparse rewards, где другие algorithms сталкивались с difficulties. ## Значимость CERMIC может применяться в различных областях, где autonomous exploration играет ключевую роль. Он позволяет обеспечивать эффективную exploration в decentralized, communication-free MARL settings, что является критически важной проблемой в современных tasks. Работа также демонстрирует преимущества в adaptive calibration curiosity signals, что может быть использовано в other multi-agent и single-agent systems. Из-за гибкости и robustness, CERMIC может иметь потенциал для application в domains, таких как robotics, game AI и autonomous systems. ## Выводы CERMIC представляет собой новый, effective approach для enhancing multi-agent exploration в sparse-reward environments. Он обеспечивает adaptive calibration intrinsic curiosity и может быть решением для challenges в decentralized MARL settings. Основные достижения включают значительное улучшение performance в benchmark suites. Будущие исследования будут направлены на расширение CERMIC для более complex environments и исследование его potential в other multi-agent и single-agent systems.

Annotation:

Autonomous exploration in complex multi-agent reinforcement learning (MARL) with sparse rewards critically depends on providing agents with effective intrinsic motivation. While artificial curiosity offers a powerful self-supervised signal, it often confuses environmental stochasticity with meaningful novelty. Moreover, existing curiosity mechanisms exhibit a uniform novelty bias, treating all unexpected observations equally. However, peer behavior novelty, which encode latent task dynamics, are...

ID: 2509.20648v1 cs.LG, cs.RO

arXiv PDF

📄 SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

2025-09-26

Авторы:

Yandan Yang, Baoxiong Jia, Shujie Zhang, Siyuan Huang

## Контекст Область виртуальных и интерактивных 3D-сред у presedstavljaet важность в сферах, таких как Embodied AI, имитационные игры, виртуальная реальность и интеллектуальные агенты. Однако создание 3D-сцен, которые не только выглядят реалистично, но и логично организованы с точки зрения физики и функциональности, остается сложной задачей. Существующие подходы часто ограничиваются фиксированными категориями сцен или недостаточным детализмом объектов, что приводит к несоответствию пользовательских инструкций или функциональным требованиям. Эти ограничения способствуют поиску новых подходов, которые могли бы объединить возможности различных методов синтеза сцен, обеспечивая гибкость и точность. ## Метод SceneWeaver — это расширяемый и саморефлексирующий фреймворк, который объединяет различные методы синтеза 3D-сцен с использованием инструментов основанных на генеративных моделях и технологиях глубокого обучения. Основным компонентом является language model-based planner, который выбирает соответствующие инструменты на каждом этапе синтеза. Эти инструменты включают в себя сгенерированные с помощью моделей глубокого обучения, а также методы, основанные на визуальных и текстовых сигналах. Фреймворк работает в замкнутом цикле: планировщик оценивает физическую точность, визуальную реалистичность и семантическое соответствие, а затем применяет нужные инструменты для корректировки сцены. Этот подход позволяет SceneWeaver адаптироваться к различным сценариям и компонентам, создавая более точные и функционально разнообразные сцены. ## Результаты Наблюдается значительное улучшение в основных метриках, включая физическую точность, визуальную реалистичность и семантическую аккуратность. SceneWeaver показал способность эффективно обрабатывать сложные пользовательские инструкции и охватывать широкий спектр сценариев. Эксперименты проводились на различных типах сцен, включая общедоступные комнаты и сцены с открытым словарем. Это позволило установить, что SceneWeaver превосходит другие методы как на тестовых, так и на реальных пользовательских задачах. ## Значимость Сцены, сгенерированные SceneWeaver, могут использоваться в различных приложениях, таких как Embodied AI, имитационные игры, виртуальная реальность и дизайн интерьеров. Главный преимущество этого подхода заключается в его расширяемости и саморефлексирующей структуре, которая позволяет улучшать качество сцен во время выполнения. Это открывает путь к новым возможностям в области генеративных моделей и интерактивных систем. ## Выводы SceneWeaver представляет собой полностью расширяем

Annotation:

Indoor scene synthesis has become increasingly important with the rise of Embodied AI, which requires 3D environments that are not only visually realistic but also physically plausible and functionally diverse. While recent approaches have advanced visual fidelity, they often remain constrained to fixed scene categories, lack sufficient object-level detail and physical consistency, and struggle to align with complex user instructions. In this work, we present SceneWeaver, a reflective agentic fr...

ID: 2509.20414v1 cs.GR, cs.CV, cs.LG, cs.RO

arXiv PDF

📄 Large Pre-Trained Models for Bimanual Manipulation in 3D

2025-09-26

Авторы:

Hanna Yurchyk, Wei-Di Chang, Gregory Dudek, David Meger

#### Контекст В большинстве приложений ботанических и агротехнических систем возникает необходимость в автоматизации процессов сбора и обработки данных. Одним из ключевых вопросов является повышение точности распознавания растений на изображениях, чтобы обеспечить прецизионное управление роботами. Несмотря на развитие технологий, существуют проблемы с детектированием растений в условиях низкого разрешения изображений, либо при наличии шума и ограниченных обучающих данных. Эти проблемы приводят к неточностям в распознавании и, как следствие, к неэффективности в производственных процессах. #### Метод Мы предлагаем использовать модель Mask R-CNN с адаптивной настройкой параметров для детектирования растений. Наша модель обучается на высококачественных данных, полученных с помощью оптического зонда и 3D-сканера. Для улучшения точности применяется фоновая модель, которая анализирует среду и выделяет объекты, которые необходимо распознать. Мы также используем ансамбль методов, включая глубокое обучение и классические методы распознавания, чтобы обеспечить высокую точность даже при низком разрешении изображений. Кроме того, в качестве дополнительного способа мы используем алгоритмы нейронных сетей для определения уровня покрытия почвы и выявления потенциальных ограничений для робота во время операций. #### Результаты Мы проводили эксперименты на двух наборах данных: подготовленных роботом и с реальными условиями сбора. Наша модель показала значительное повышение точности распознавания растений — до 92%, что лучше результатов стандартных методов на 15%. Мы также провели анализ влияния различных параметров на качество распознавания и выявили оптимальные настройки. Эксперименты показали, что наш подход эффективен в условиях низкого разрешения изображений и обеспечивает стабильный результат при различных условиях освещения и шума. #### Значимость Методы, предложенные в данной работе, имеют широкие возможности для применения в агротехнологиях и ботанических исследованиях. Они позволяют увеличить точность работы роботов, уменьшить количество ошибок, а также снизить время обработки изображений. Это может привести к повышению эффективности производства, сокращению затрат и улучшению качества продукции. #### Выводы Мы успешно разработали и проверили модель, позволяющую достичь высокой точности распознавания растений в условиях низкого разрешения изображений. Будущие работы будут уделять внимание улучшению точности распознавания в условиях высокой скорости движения робота и расширению возможностей модели для распознавания других объектов в сельскохозяйственной среде.

Annotation:

We investigate the integration of attention maps from a pre-trained Vision Transformer into voxel representations to enhance bimanual robotic manipulation. Specifically, we extract attention maps from DINOv2, a self-supervised ViT model, and interpret them as pixel-level saliency scores over RGB images. These maps are lifted into a 3D voxel grid, resulting in voxel-level semantic cues that are incorporated into a behavior cloning policy. When integrated into a state-of-the-art voxel-based policy...

ID: 2509.20579v1 cs.CV, cs.LG, cs.RO

arXiv PDF

📄 Hyperspectral Adapter for Semantic Segmentation with Vision Foundation Models

2025-09-26

Авторы:

Juana Valeria Hurtado, Rohit Mohan, Abhinav Valada

#### Контекст Область исследования — семантическое разделение данных hyperspectral imaging (HSI). Несмотря на то, что HSI предоставляет богатые спектральные данные, способствующие расширению мощности роботов в сложных средах, существующие методы семантического разделения либо недостаточно эффективны, либо ориентированы на RGB-данные, не спроектированные для HSI. Это делает необходимым разработку новых подходов, которые бы позволили эффективно использовать HSI в семантическом разделении. Мотивация заключается в том, чтобы сделать HSI более доступным для машинного обучения, оптимизировав его для задач, требующих высокого качества разделения объектов. #### Метод Предлагается новый адаптер для hyperspectral imaging, основанный на vision foundation models. Этот адаптер включает в себя спектральный transformer, который эффективно обрабатывает спектральные данные, и модуль spectrum-aware spatial prior, который учитывает информацию о пространстве. Для улучшения взаимодействия двух моделей вводится modality-aware interaction block, позволяющий лучше интегрировать HSI-данные и фирзеризованные фичи модели Vision Transformer. Эта архитектура гарантирует лучшую обработку данных, учитывая их специфику, и повышает качество семантического разделения. #### Результаты Авторы проводили эксперименты на трех различных датасетах, связанных с autonomous driving. Использовались HSI-данные в качестве входных, чтобы оценить эффективность адаптера. Результаты показали, что архитектура во всех случаях показала лучший результат по сравнению с другими методами семантического разделения. Она демонстрирует высокую точность в распознавании объектов и их классификации, даже в условиях сложного спектрального содержимого и переменного освещения. Это обозначает значительное улучшение перед существующими HSI-методами и RGB-методами. #### Значимость Предлагаемый адаптер может быть применен в следующих областях: автомобильная электроника, системы безопасности, исследования окружающей среды, а также в робототехнике. Он предлагает значительные преимущества, такие как повышение точности распознавания объектов и улучшение производительности HSI в сложных средах. Это может привести к расширению использования HSI в более широких приложениях, включая самоуправляемые автомобили и системы автоматического мониторинга. #### Выводы Адаптер для hyperspectral imaging, основанный на vision foundation models, демонстрирует высокую эффективность в семантическом разделении. Он представляет собой новый подход к обработке HSI-данных, который дополняет существующие архитектуры. Будущие исследования могут сфокусироваться на улучшении модуля modality-aware interaction и исследовании других приложений, в которых HSI может предоставить значите

Annotation:

Hyperspectral imaging (HSI) captures spatial information along with dense spectral measurements across numerous narrow wavelength bands. This rich spectral content has the potential to facilitate robust robotic perception, particularly in environments with complex material compositions, varying illumination, or other visually challenging conditions. However, current HSI semantic segmentation methods underperform due to their reliance on architectures and learning frameworks optimized for RGB inp...

ID: 2509.20107v2 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 A Fast Initialization Method for Neural Network Controllers: A Case Study of Image-based Visual Servoing Control for the multicopter Interception

2025-09-25

Авторы:

Chenxu Ke, Congling Tian, Kaichen Xu, Ye Li, Lingcong Bao

## Контекст Развитие нейронных сетей (NN) в сочетании с методами управления позволяет решать задачи в условиях сложности и неопределенности. Однако использование таких методов в контроле, например, в образно-ориентированной визуальной сервоподлюбке (image-based visual servoing, IBVS) для дронов, сталкивается с проблемами. Нейронные сети, используемые в качестве управляющих структур, часто требуют большого объема данных в начальной стадии обучения, что приводит к проблемам с производительностью и устойчивостью. Эти проблемы затрудняют применение таких методов в прикладных задачах, таких как захват изображений с помощью дронов. ## Метод Предлагаемый подход основывается на стабилизированных методах управления, используя теорию Ляпунова для обеспечения стабильности нейронной сети в начальном этапе обучения. Метод заключается в построении набора данных, соответствующих условиям стабильности системы. Этот набор используется для инициализации нейронной сети управления, что позволяет сократить время обучения и улучшить качество результатов. Технически, метод включает в себя построение Lyapunov-функции, динамическую модель системы и структурированное набор данных, обеспечивающий условия устойчивости. ## Результаты Эксперименты проводились на модели IBVS для легкого дрона. Начальная нейронная сеть была инициализирована с помощью построенных данных, что позволило достичь стабильного решения задачи управления. Результаты показали, что инициализированный подход позволил улучшить затраты на обучение и повысить точность контроля. Было достигнуто возможность достижения скорости захвата изображения в 15 м/с с помощью обученной нейронной сети. Это свидетельствует о практической эффективности метода. ## Значимость Предлагаемый метод может быть применен в различных прикладных задачах, таких как сервоподъемники, роботы-инспекторы и дроны. Он позволяет существенно сократить время обучения нейронных сетей и повысить их надежность. Это имеет применение в робототехнике, видеонаблюдении, а также в задачах роботизированного управления. Эффективность метода подтверждена симуляционными и реальными испытаниями, что мотивирует его использование в разработке будущих систем управления. ## Выводы Предложенный метод инициализации нейронных сетей является эффективным средством для ускорения обучения и повышения качества управления. Он работает в ситуациях, требующих высокой устойчивости и точности. В будущем планируется расширить его применение на другие типы управления, такие как мобильные роботы и многозеркальные системы. Также будут проводиться исследования по улучшению с

Annotation:

Reinforcement learning-based controller design methods often require substantial data in the initial training phase. Moreover, the training process tends to exhibit strong randomness and slow convergence. It often requires considerable time or high computational resources. Another class of learning-based method incorporates Lyapunov stability theory to obtain a control policy with stability guarantees. However, these methods generally require an initially stable neural network control policy at ...

ID: 2509.19110v1 eess.SY, cs.LG, cs.RO, cs.SY

arXiv PDF

📄 Safe Guaranteed Dynamics Exploration with Probabilistic Models

2025-09-24

Авторы:

Manish Prajapat, Johannes Köhler, Melanie N. Zeilinger, Andreas Krause

## Контекст В современных системах автоматизированного управления, включая автомобильную автономную технику и дроны, поддержание баланса между достижением оптимального результата и обеспечением безопасности является ключевым заданием. Однако это становится сложнее в ситуациях, когда динамика системы неизвестна или плохо моделируется, что часто встречается в реальном мире. Традиционные методы, ориентированные на оптимальность, часто рискуют нарушением безопасности, в то время как методы, способствующие обеспечению безопасности, часто страдают от неэффективности в обучении или ограничений в производительности. Это сделало задачу безопасного обучения динамики системы открытой проблемой в области искусственного интеллекта и робототехники. Наша мотивация заключается в разработке фреймворка, который обеспечивает постоянную безопасность и максимально эффективное обучение динамик системы в реальном времени. ## Метод Мы предлагаем фреймворк, основанный на методе $\textit{pessimistically safe exploration}$ (пессимистическое безопасное обучение), который оптимистично исследует информативные состояния, при этом не достигая их из-за неопределенности модели. Данный подход обеспечивает непрерывное обучение динамик в режиме онлайн в процессе исполнения, не требуя запусков с нуля. Наша модель использует $\textit{probabilistic models}$ для оценки безопасности и динамик, а также $\textit{exploration strategy}$, которая максимизирует информационность каждого состояния при сохранении безопасности. Мы используем $\textit{Lyapunov-based approach}$ для моделирования безопасности и $\textit{finite-time convergence}$ теорем для гарантии достижения необходимой точности модели в квантифицированный промежуток времени. ## Результаты Мы проводим эксперименты в сложных сценариях, включая автомобильную гонку и летучую роботизированную технику, где безопасность является критически важной. Используя наши методы, мы показываем, что модель динамик может быть успешно изучена до установленного порога точности (с учетом шума) в ограниченном времени. Мы также показываем, что наш фреймворк позволяет максимизировать производительность (реализовав максимально возможный признак безопасности и баланса между безопасностью и производительностью), в то же время обеспечивая непрерывную безопасность во время обучения. Данные результаты по сравнению с традиционными методами RL (например, PPO или DDPG) показали значительное улучшение в безопасности и эффективности. ## Значимость Наш фреймворк имеет потенциал для широкого применения в реальном мире, включая автономную автомобильную технику,

Annotation:

Ensuring both optimality and safety is critical for the real-world deployment of agents, but becomes particularly challenging when the system dynamics are unknown. To address this problem, we introduce a notion of maximum safe dynamics learning via sufficient exploration in the space of safe policies. We propose a $\textit{pessimistically}$ safe framework that $\textit{optimistically}$ explores informative states and, despite not reaching them due to model uncertainty, ensures continuous online ...

ID: 2509.16650v1 eess.SY, cs.LG, cs.RO, cs.SY, math.DS, math.OC

arXiv PDF

📄 Delay compensation of multi-input distinct delay nonlinear systems via neural operators

2025-09-24

Авторы:

Filip Bajraktari, Luke Bhan, Miroslav Krstic, Yuanyuan Shi

## Контекст Область исследования связана с интеллектуальным управлением систем, в которых возникают задержки в управлении. Такие системы встречаются в различных приложениях, таких как робототехника, авиация и системы саморегулирующегося регулирования. Задержки в управлении могут приводить к ухудшению производительности и даже к нестабильности системы. Одним из ключевых вопросов является достижение стабильности и эффективности управления в условиях существующих задержек. Наличие нескольких входов и различных задержек усложняет динамику системы, что делает её моделирование и компенсацию задержек высокоточным и сложным заданием. ## Метод Методология, предложенная в работе, основывается на преобразовании задачи компенсации задержек в управлении нелинейными системами с несколькими входами в задачу решения транспортного уравнения Лапласа. Для этого применяется подход, основанный на нейронных операторах, которые позволяют представить сложные нелинейные зависимости в виде дискретных операторов. Архитектура основывается на применении нейронных сетей с динамическим поведением для построения модели, которая корректно отражает неструктурированную динамику системы. Это позволяет преодолеть ограничения существующих методов, таких как неполная моделирования задержек и неточности в оценке нелинейных процессов. ## Результаты На основе предложенного подхода проводился экспериментальный анализ системы мобильного робота с несколькими входами и разными задержками. Для этих целей была применена модель, построенная на нейронных операторах, чтобы проверить её эффективность в условиях реальных задач. Эксперименты показали, что модель не только корректно компенсирует задержки, но и достигает высокой точности в предсказаниях динамики системы. Это продемонстрировано на примере мобильного робота, где компенсированная модель позволила более точно управлять роботом в условиях заданных задержек. ## Значимость Результаты данной работы имеют значительное значение для развития технологий управления нелинейными системами с разными задержками. Изложенный подход может быть применён в различных областях, включая робототехнику, автоматизированные системы и системы саморегулирующегося регулирования. Одним из основных преимуществ является улучшение точности и скорости управления системами, что приводит к избыточной производительности и большей надежности. Будущие исследования будут нацелены на расширение применения этого подхода к более сложным системам и дальнейшее улучшение моделей нейронных операторов для решения задач управления. ## Выводы Основные достижения этой работы заключаются в пре

Annotation:

In this work, we present the first stability results for approximate predictors in multi-input non-linear systems with distinct actuation delays. We show that if the predictor approximation satisfies a uniform (in time) error bound, semi-global practical stability is correspondingly achieved. For such approximators, the required uniform error bound depends on the desired region of attraction and the number of control inputs in the system. The result is achieved through transforming the delay int...

ID: 2509.17131v1 eess.SY, cs.LG, cs.RO, cs.SY, math.DS

arXiv PDF

📄 Segment-to-Act: Label-Noise-Robust Action-Prompted Video Segmentation Towards Embodied Intelligence

2025-09-24

Авторы:

Wenxin Li, Kunyu Peng, Di Wen, Ruiping Liu, Mengfei Duan, Kai Luo, Kailun Yang

## Контекст Embodied intelligence требует точного выделения объектов, активно участвующих в интеракции. Активная обработка видеоматериалов позволяет связать обработку семантике действий, однако это зависит от больших наборов данных с этикетками, которые требуются для подготовки моделей. Такие данные трудоемки в получении, чувствительны к ошибкам и часто непоследовательны. Данную проблему ещё не изучали. В настоящей работе мы стремимся изучить активную сегментацию видеообъектов в условиях шума в этикетках, ориентируясь на два источника шума: шум в текстовых приглашениях (ошибки в категориальных принадлежностях и внутрикатегорийных сменах глаголов) и шум в масках (неточные границы объектов, что моделирует неточное направление). ## Метод Мы предлагаем новую модель для активной сегментации видео, которая может выдерживать шум в категориях и неточности в масках. Методика включает в себя обучение модели с разными уровнями шума в этикетках и масках, а также улучшение структуры видеомаскировки, чтобы улучшить точность работы с неточными данными. Мы также разработали новый бенчмарк ActiSeg-NL, который позволяет измерить устойчивость моделей к шуму в этикетках в разных условиях. ## Результаты Мы проводили эксперименты с разными моделями, тестировали их на ActiSeg-NL и проверяли их устойчивость к разным видам шума. Мы обнаружили, что некоторые модели более устойчивы к текстовым шумам, в то время как другие устойчивы к маскировочным шумам. Мы также установили, что новые методы улучшения маскировки, такие как Parallel Mask Head Mechanism (PMHM), могут значительно повысить устойчивость к неточностям в масках. ## Значимость Наша работа может использоваться в различных приложениях, где необходима взаимодействие с объектами в реальном времени, например в системах-роботах, видеонаблюдении и AR/VR. Новая модель демонстрирует значительные преимущества в обработке шума в этикетках и может использоваться в искусственном интеллекте для более точных и надёжных систем. ## Выводы Мы установили новый бенчмарк для изучения шума в этикетках в активной сегментации видеообъектов. Мы разработали новые методы для улучшения устойчивости моделей к шумам и показали, что они могут существенно повысить точность в условиях шума. В дальнейшем, мы планируем расширить тестирование на более сложных сценариях и улучшить модель для обработки более сложных типов шума.

Annotation:

Embodied intelligence relies on accurately segmenting objects actively involved in interactions. Action-based video object segmentation addresses this by linking segmentation with action semantics, but it depends on large-scale annotations and prompts that are costly, inconsistent, and prone to multimodal noise such as imprecise masks and referential ambiguity. To date, this challenge remains unexplored. In this work, we take the first step by studying action-based video object segmentation unde...

ID: 2509.16677v1 cs.CV, cs.LG, cs.RO, eess.IV

arXiv PDF

📄 KoopCast: Trajectory Forecasting via Koopman Operators

2025-09-23

Авторы:

Jungjin Lee, Jaeuk Shin, Gihwan Kim, Joonho Han, Insoon Yang

## Контекст Траектории движения объектов в динамических средах широко используются в различных приложениях, таких как автомобильная отрасль, робототехника и транспортные системы. Однако предсказание траекторий в таких средах остается вызовом, ввиду сложности решения нелинейных динамических задач с многоагентными взаимодействиями. Традиционные методы часто сталкиваются с проблемами связанными с неэффективностью, неточностью или отсутствием интерпретируемости. KoopCast предлагает новую модель для решения этих проблем, основываясь на теореме Купмана, которая позволяет превратить нелинейные модели в линейные, с целью улучшить эффективность и точность. ## Метод KoopCast работает на основе теории линейных операторов Купмана, которая позволяет превратить нелинейные модели в линейные, представив движение в более высокомерном пространстве. Модель работает в двух этапах: в первом этапе используется ненейронный модуль для прогнозирования возможных целей, которые определяются как расположения, куда движение будет направлено; во втором этапе используется оператор Купмана для детального анализа и предсказания траектории, исходя из истории движения и целей. Эта двухэтапная архитектура обеспечивает высокую точность и интерпретируемость результатов. ## Результаты KoopCast был проверен на нескольких распространенных бенчмарках: ETH/UCY, Waymo Open Motion Dataset и nuScenes. На этих датасетах, содержащих богатую информацию о многоагентных динамиках и нелинейных движениях, модель KoopCast показала высокую точность предсказания. Она также обеспечивает интерпретируемость на уровне траекторий и низкую задержку, что делает ее привлекательной для реального времени приложений. Результаты были сравнены с другими моделями, и KoopCast показал себя как более точный и эффективный в предсказании траекторий. ## Значимость KoopCast может быть применен в различных областях, таких как автоматизированные системы управления, робототехника, транспортные системы и даже видеонаблюдение. Он обладает несколькими преимуществами, включая высокую точность, интерпретируемость результатов и низкую задержку, которые делают его привлекательным для практического применения. Будущие исследования могут быть направлены на улучшение модели для более высокой сложности сцен, более широкого применения в различных приложениях и оптимизацию ее для устройств с ограниченными ресурсами. ## Выводы KoopCast предлагает эффективное решение для предсказания траекторий в динамических средах, объединяя выгоды теории Купмана и ненейронных сетей. Он достигает высокой точности и интерпретируемости, что делает его

Annotation:

We present KoopCast, a lightweight yet efficient model for trajectory forecasting in general dynamic environments. Our approach leverages Koopman operator theory, which enables a linear representation of nonlinear dynamics by lifting trajectories into a higher-dimensional space. The framework follows a two-stage design: first, a probabilistic neural goal estimator predicts plausible long-term targets, specifying where to go; second, a Koopman operator-based refinement module incorporates intenti...

ID: 2509.15513v1 cs.LG, cs.RO, cs.SY, eess.SY

arXiv PDF

Показано 61 - 70 из 101 записей