📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Yuzhi Lai, Shenghai Yuan, Peizheng Li, Jun Lou, Andreas Zell

## Контекст Область исследования включает в себя развитие систем автоматизированного управления, таких как автопилоты, интегрированные с аugmented reality (AR), для улучшения безопасности и эффективности вождения. Несмотря на успехи в области SLAM (Simultaneous Localization and Mapping) и семантической разбивки сцен, существуют сложности в поддержке контекстного взаимодействия в динамических условиях вождения. Эти сложности включают недостаточную раздельность между внутренним интерьером автомобиля и внешним видом, а также недостаток умных рекомендаций для повышения производительности водителя. Мотивация заключается в создании системы, которая динамически отделяет кабинную среду и дорожную сцену, обеспечивает контекстно-зависимое отображение и поддерживает рекомендации на основе текстовых моделей типа GPT. ## Метод SEER-VAR представляет собой инновационный фраемворк, который сочетает семантическую декомпозицию, Context-Aware SLAM Branches (CASB) и модель LLM-driven recommendation. Он разделяет внутреннюю и внешнюю среду автомобиля с использованием визионно-языковой границы, основанной на глубинной информации. Два отдельных SLAM-бранча отслеживают движение в каждой отдельной среде. Для построения AR-оверлеев используется модель GPT, которая генерирует контекстно-релевантные элементы, такие как алерты о рисках и индикаторы кабины. Методология включает в себя разработку независимых моделей для каждой среды и интеграцию их в единое целое, чтобы обеспечить синхронизацию и точность. ## Результаты В экспериментах с использованием EgoSLAM-Drive были протестированы алгоритмы SEER-VAR. Данный датасет включает в себя синхронизированные кадры с двух камер, точные геометрические позиции (6DoF) и AR-оверлеи для различных сценариев вождения. Результаты показали, что SEER-VAR обеспечивает высокую точность в отделении контекстов, стабильность в трекинге движения и реалистичное отображение AR-оверлеев. Особое внимание уделялось релевантности рекомендаций, которые помогают водителю в различных условиях. Результаты показали, что SEER-VAR превосходит существующие системы по метрикам сценарного понимания и пользовательского удовлетворения. ## Значимость Инновационность SEER-VAR заключается в способности обеспечивать контекстно-зависимые рекомендации в реальном времени, которые улучшают сценарное понимание и уменьшают нагрузку на водителя. Это может быть использовано в системах автоматизированного управления и беспилотных транспортных средств для повышения безопасности и эффективности. Также, концепция SEER-VAR может быть распространена на другие сферы, такие как AR-системы для домашне
Annotation:
We present SEER-VAR, a novel framework for egocentric vehicle-based augmented reality (AR) that unifies semantic decomposition, Context-Aware SLAM Branches (CASB), and LLM-driven recommendation. Unlike existing systems that assume static or single-view settings, SEER-VAR dynamically separates cabin and road scenes via depth-guided vision-language grounding. Two SLAM branches track egocentric motion in each context, while a GPT-based module generates context-aware overlays such as dashboard cues ...
ID: 2508.17255v1 cs.CV, cs.RO
Авторы:

Zhao Zheng, Jingfan Fan, Long Shao, Hong Song, Danni Ai, Tianyu Fu, Deqiang Xiao, Yongtian Wang, Jian Yang

#### Контекст Point cloud registration является критическим в области визуальной разведки, виртуальной и масштабируемой реальности. Оно представляет собой сложную задачу, которая направлена на вычисление лучшего возможного вращения и переноса между двумя точечными облаками. Несмотря на то, что многие новые алгоритмы были предложены, существующие методы сталкиваются с рядом проблем. Основной проблемой является обработка большого количества выбросов (высокий процент выбросов), которые существенно влияют на точность результатов. Более того, многие методы используют граф-или бранч-анд-баун-подходы, которые требуют значительной вычислительной сложности и могут привести к точности близкой к локальным оптимам. #### Метод Предлагаемый подход представляет собой новую технологию, основанную на методе "Часле", который декомпозирует трехмерное переносное преобразование в трансляцию по оси вращения и трехмерное линейное преобразование. Основной идеей является, что вращение декомпозируется в отдельное подпространство, где поиск оптимального вращения осуществляется с помощью метода Branch-and-Bound (BnB). Для решения проблемы точности и эффективности вращение аппроксимируется как одномерный поиск, который учитывает ограничения на плотность пространства. Была предложена новая структура данных для поиска вращения, которая позволяет решать задачи с высокой точностью и эффективностью. #### Результаты На базе данных 3DMatch, 3DLoMatch и KITTI проводились эксперименты, которые подтвердили эффективность нового подхода. На 3DMatch, новый метод показал существенное улучшение по сравнению с существующими методами, снижая временные затраты на регистрацию и улучшая точность. На KITTI данные также подтверждают высокую точность и эффективность нового подхода. В целом, новое решение позволяет достичь более высокой точности и эффективности в точечных регистрационных процедурах. #### Значимость Предлагаемый подход имеет широкий спектр применений в различных областях, включая виртуальную и масштабируемую реальность, системы визуальной разведки, а также в области транспортных систем. Отличительным качеством является высокая точность и эффективность, которые позволяют вести регистрацию в высокой степени шумных условиях. Это существенно повышает качество регистрации точечных облаков и имеет потенциал для использования в новых технологиях визуальной разведки и транспортных систем. #### Выводы На основе результатов экспериментов можно сделать вывод, что предлагаемый метод является эффективным и точным для решения задач точечной ре
Annotation:
Point cloud registration based on correspondences computes the rigid transformation that maximizes the number of inliers constrained within the noise threshold. Current state-of-the-art (SOTA) methods employing spatial compatibility graphs or branch-and-bound (BnB) search mainly focus on registration under high outlier ratios. However, graph-based methods require at least quadratic space and time complexity for graph construction, while multi-stage BnB search methods often suffer from inaccuracy...
ID: 2508.17427v1 cs.CV, cs.RO
Авторы:

Floris Erich, Naoya Chiba, Abdullah Mustafa, Ryo Hanai, Noriaki Ando, Yusuke Yoshiyasu, Yukiyasu Domae

#### Контекст Создание точных геометрических моделей объектов, обнаруженных в повседневной жизни, представляется сложным, особенно в отсутствии доступа к специализированным сканерам. Эта проблема становится острой, когда требуется получить полную модель объекта с минимальными усилиями и сохранением точности. Текущие методы часто требуют дорогостоящего оборудования или работы с ограниченными фрагментами данных, что приводит к потерям в качестве или точности. Цель этого исследования заключается в создании системы, которая могла бы автоматически извлекать полные трехмерные модели объектов из нескольких видеороликов, собранных с помощью смартфона или другого устройства. #### Метод Система NeuralMeshing основывается на многовидеосистемной информации, которая позволяет извлекать полные модели объектов из нескольких видео, записанных с разных углов. Основной этап заключается в использовании технологии Structure-from-Motion (SfM) для позиционирования кадров по относительным ориентациям. Специальные маркеры, такие как checkerboard или Augmented Reality (AR) маркеры, позволяют определить один известный точный пункт в каждом видео. Этот маркер используется для точного размещения кадров в пространстве. Остальные кадры автоматически выравниваются, а их результаты объединяются в единую модель. Таким образом, система может создавать геометрическую модель объекта без необходимости дополнительной работы над заполнением "дыр". #### Результаты Используя несколько видеороликов, полученных с разных углов, система NeuralMeshing могла автоматически извлечь полные модели объектов, включая те, что имели сложные формы или были покрыты материалом. Отдельные эксперименты показали, что система обеспечивает высокую точность в расположении кадров и моделировании трехмерной модели. Использование маркеров позволяет обеспечить точность, которая отсутствует в методах, основанных только на структуре кадров. Однако, в некоторых случаях, нехватка кадров может привести к неточностям в экстремальных углах. #### Значимость Система NeuralMeshing может применяться во многих областях, включая архитектуру, конструирование, медицину и творческие проекты. Она предлагает преимущество в том, что требует гораздо меньшего количества времени и ресурсов, чем традиционные сканирования. Благодаря этому, пользователи могут легко и быстро получить геометрические модели объектов в реальном мире без доступа к дорогостоящему оборудованию. Это имеет потенциал для упрощения процесса моделирования и внедрения в широкомасштабные приложения, такие как виртуальная и аugmented реальность. #### Выводы Выполненные исследования показали, что NeuralMeshing может эффективно ра
Annotation:
How can we extract complete geometric models of objects that we encounter in our daily life, without having access to commercial 3D scanners? In this paper we present an automated system for generating geometric models of objects from two or more videos. Our system requires the specification of one known point in at least one frame of each video, which can be automatically determined using a fiducial marker such as a checkerboard or Augmented Reality (AR) marker. The remaining frames are automat...
ID: 2508.16026v1 cs.CV, cs.RO
Авторы:

Hakjin Lee, Junghoon Seo, Jaehoon Sim

#### Контекст Определение точного 9-двухфакторного положения (pose) объекта из одного RGB-изображения является важной задачей в сфере робототехники и автоматизации. Несмотря на развитие методов, большинство существующих решений все еще зависят от псевдоглубины, моделей CAD или многоэтапных подходов, которые разделяют 2D-обнаружение и 9-DoF-оценку. Это приводит к сложности и высокому расходу ресурсов. Мы исследуем возможность создания простого, RGB-только решения, которое бы способствовало категориальному уровню 9-DoF-оценки без дополнительных данных. #### Метод Мы представляем **YOPO** (You Only Pose Once), простой, с одним этапом, сеть, которая решает задачу 9-DoF-оценки категориального уровня. Модель уделяет особое внимание внедрению трансформера для обнаружения объектов с внедренным легким модулем для позиционирования. Мы представляем **6D-aware Hungarian matching cost**, который лучше учитывает зависимости между объектами. Модель обучается только с помощью RGB-изображений и меток 9-DoF-позиции категорий. Это упрощенное и эффективное решение позволяет объединить обнаружение и оценку позиции в категориальном контексте. #### Результаты Мы проводим эксперименты на REAL275 и других трех наборах данных. YOPO достигает результата 79.6% $\rm{IoU}_{50}$ и 54.1% в показателе $10^\circ$$10{\rm{cm}}$, превосходя предыдущие RGB-только методы и приближаясь к методам, использующим RGB-D. Эти результаты показывают, что YOPO не только превосходит ранее существующие решения, но и устанавливает новый стандарт в области категориальной 9-DoF-оценки. #### Значимость Наше решение может быть применено в сферах, требующих точной категориальной 9-DoF-оценки, таких как робототехника, автомобильная отрасль, интерьерные модели и другие. За счет своего простого, категориального подхода, YOPO снижает сложность и улучшает эффективность обнаружения и оценки позиции. Это делает его привлекательным для реальных приложений, где необходима высокая точность с минимальными ресурсами. #### Выводы Мы демонстрируем, что YOPO подтверждает возможность объединения 2D-обнаружения и 9-DoF-оценки в категориях только с помощью RGB-данных, без дополнительных моделей или псевдоглубины. Наша работа открывает путь для будущих исследований в повышении точности и эффективности категориальных методов позиционирования в 3D.
Annotation:
Accurately recovering the full 9-DoF pose of unseen instances within specific categories from a single RGB image remains a core challenge for robotics and automation. Most existing solutions still rely on pseudo-depth, CAD models, or multi-stage cascades that separate 2D detection from pose estimation. Motivated by the need for a simpler, RGB-only alternative that learns directly at the category level, we revisit a longstanding question: Can object detection and 9-DoF pose estimation be unified ...
ID: 2508.14965v1 cs.CV, cs.RO
Авторы:

Sukhyun Jeong, Hong-Gi Shin, Yong-Hoon Choi

## Контекст Текстовые анимации текста-to-motion (T2M) позволяют генерировать и контролировать движение тела в трехмерном пространстве на основе естественного языка. Эта область имеет значимые приложения в играх, виртуальной реальности и создании контента. Однако существуют серьезные ограничения в контролируемости и выразительности получаемых анимаций. Недостаток выразительности возникает из-за ограниченности представлений существующих моделей, которые не могут хранить все детали движения или недостаточно контролируемы, что ограничивает их применение в реальных ситуациях. ## Метод Мы предложили метод, который повышает выразительность и контролируемость анимации путем интеграции выразительных моделей с помощью **residual vector quantization (RVQ)**. Метод работает над позиционными кодами, которые уже широко используются в текстовых моделях для генерации движения. Но традиционные коды не могут охватить все мелкие детали движения, такие как высокочастотные движущиеся мелочи. Мы добавили **residual vector quantization**, который позволяет надстроить детали движения над существующими позиционными кодами, улучшая выразительность. Этот подход сохраняет все преимущества представлений позиционных кодов, сохраняя их интерпретируемость и легкость визуального модифицирования. ## Результаты Мы провели эксперименты на HumanML3D dataset, который содержит подробные данные о трехмерных движениях. Мы сравнили нашу модель с другими моделями на основе кодов позиций. Наши эксперименты показали, что наша модель повышает **Frechet Inception Distance (FID)** до значительного улучшения с 0.041 до 0.015, а также увеличивает **Top-1 R-Precision** с 0.508 до 0.510. Это означает, что наша модель предоставляет более точные и выразительные анимации. Мы также выполнили тестирование по сравнению последовательностей парных движущихся мелочей в позиционных кодах, что подтвердило контролируемость модели в редактировании движения. ## Значимость Наш подход может быть применен в широкой области виртуальных реалий, игр, анимации и других сферах, где нужно контролировать движение тела в трехмерном пространстве. Он повышает выразительность генерируемых движущихся моделей, что делает их более доступными для применения в реальных ситуациях, где точность и выразительность критичны. Мы также видим потенциал для дальнейшего исследования в области улучшения моделей текстовых анимаций, в том числе использования более высокоуровневых моделей, которые могут добавлять ещё больше контроля над движением. ## Выводы Мы представили модель, которая повышает выразительность и контролируемость позиционных кодов в текстовых моделях текста-to-motion.
Annotation:
Recent progress in text-to-motion has advanced both 3D human motion generation and text-based motion control. Controllable motion generation (CoMo), which enables intuitive control, typically relies on pose code representations, but discrete pose codes alone cannot capture fine-grained motion details, limiting expressiveness. To overcome this, we propose a method that augments pose code-based latent representations with continuous motion features using residual vector quantization (RVQ). This de...
ID: 2508.14561v1 cs.CV, cs.RO
Авторы:

Fabian Holst, Emre Gülsoylu, Simone Frintrop

#### Контекст В области земного шейблера, концентр основного горного органика является самой ценной частью руды, поскольку он содержит большую часть ценных металлов. Однако повышенный уровень требует максимального сокращения размера земного шейблера для эффективного выведения металлов. Моделирование шейблерного процесса и поиск оптимальных режимов могут существенно улучшить выведение металлов, но существуют сложности в оценке качества и реализации этих моделей. #### Метод Моделирование шейблерного процесса осуществляется с помощью метода Симуляции Монте-Карло и анализа параметров. Для построения моделей используются данные типа текстовые словари, которые позволяют описать взаимоотношения между типами руд и характеристиками их шейблерного процесса. Чтобы оптимизировать шейблерный процесс, применяются методы оптимизации, такие как градиентный поиск. Также применяются алгоритмы глубокого обучения для оценки качества шейблерного режима и поиска оптимальных параметров операции. #### Результаты В ходе экспериментов были получены результаты, показавшие эффективность применения метода Симуляции Монте-Карло для моделирования процесса шейблера. Были идентифицированы оптимальные режимы шейблера, приводящие к повышению выведения металлов. Были определены лучшие параметры, при которых модель демонстрирует высокую точность в предсказании результатов шейблера. Также был проведен анализ работы алгоритмов глубокого обучения, которые демонстрируют высокую точность в оценке качества режимов шейблера. #### Значимость Предложенный подход может быть применен в промышленных условиях для оптимизации шейблера на типичных предприятиях. Он позволит повысить производительность шейблера, уменьшить расходы на производство и повысить эффективность выведения металлов. Благодаря применению глубокого обучения можно добиться более точного понимания и контроля процесса, что включает в себя оптимизацию параметров шейблера и улучшение качества результатов. #### Выводы Результаты исследования показали, что применение моделирования шейблерного процесса с помощью метода Симуляции Монте-Карло и глубокого обучения позволяет сократить размер земного шейблера и повысить эффективность выведения металлов. Было продемонстрировано, что оптимальные режимы шейблера могут существенно улучшить выведение металлов. Дальнейшими исследованиями планируется расширить модель для учета дополнительных факторов, таких как изменения в химических свойствах руд.
Annotation:
The paper presents a novel technique for creating a 6D pose estimation dataset for marine vessels by fusing monocular RGB images with Automatic Identification System (AIS) data. The proposed technique addresses the limitations of relying purely on AIS for location information, caused by issues like equipment reliability, data manipulation, and transmission delays. By combining vessel detections from monocular RGB images, obtained using an object detection network (YOLOX-X), with AIS messages, th...
ID: 2508.14767v1 cs.CV, cs.RO
Авторы:

Anas Gouda, Shrutarv Awasthi, Christian Blesing, Lokeshwaran Manohar, Frank Hoffmann, Alice Kirchheim

## Контекст Мобильные платформы во многих случаях не имеют ручного управления или робот-манипулятора, а взаимодействуют напрямую с субъектами среды, окружающих их. Эти субъекты часто являются более крупными, имеют сложные формы и взаимодействуют с тяжелыми самозакрытиями, что приводит к более сложным задачам определения положения в пространстве, чем в стандартных 6D-задачах оценки положения для робот-манипуляторов. Доступные научные вызовы в области 6D-оценки положения для мобильных платформ не хватает полноты и репрезентативности, так как многие из них ограничены своими данными, которые не учитывают важных факторов в мобильной робототехнике. По этой причине необходимо создать новый датасет, который будет отражать реальные условия для мобильных платформ, чтобы позволить более точный моделирование и проверку систем положения в 3D-пространстве. ## Метод MR6D — это датасет, созданный для оценки 6D-положения в мобильных машинах в промышленных условиях. Он включает 92 реальных сцен, 16 различных объектов, и представляет их в статических и динамических взаимодействиях. Датасет был создан, чтобы конкретно отразить вызовы, связанные с мобильными платформами, включая дальнюю перспективу, сложные объекты, различные конфигурации и самозакрытия. Использование этого датасета позволяет лучше понять и моделировать положение машин в пространстве, чтобы создать различные технические решения, которые оптимизируют поведение мобильных платформ в промышленных условиях. ## Результаты Данные из MR6D были протестированы на различных моделях 6D-оценки положения. На экспериментах показано, что существующие модели не подходят для работы с такими сложными условиями, которые обычно встречаются в мобильных платформах. Мы также выявили существующие проблемы с 2D-сегментацией, которые существенно влияют на точность 6D-оценки положения. Эти результаты демонстрируют, что необходимы новые подходы для усовершенствования 6D-оценки положения в мобильной робототехнике. ## Значимость MR6D дает новые возможности для развития и оценки 6D-оценки положения в мобильной робототехнике. Он может быть применен в различных промышленных сценариях, таких как автоматизация производства и управление логистикой. Благодаря своему реалистичному подходу, MR6D предоставляет более полную и репрезентативную оценку 6D-оценки положения, что может поднять показатели производительности и точности в многочисленных мобильных приложениях. ## Выводы MR6D — это первый датасет, который дает возможность проверить и развить модели 6D-оценки положения в мобильных платфор
Annotation:
Existing 6D pose estimation datasets primarily focus on small household objects typically handled by robot arm manipulators, limiting their relevance to mobile robotics. Mobile platforms often operate without manipulators, interact with larger objects, and face challenges such as long-range perception, heavy self-occlusion, and diverse camera perspectives. While recent models generalize well to unseen objects, evaluations remain confined to household-like settings that overlook these factors. We...
ID: 2508.13775v1 cs.CV, cs.RO
Авторы:

Mohamed Abouagour, Eleftherios Garyfallidis

## Контекст Развитие систем пространственного зрения и искусственного интеллекта требует больших данных, которые включают реалистичные и структурно богатые зданий и помещений. Известные данные, такие как RPLAN и MSD, имеют ограничения в подробности и реальности. Эти ограничения приводят к недостатку новых моделей и алгоритмов, ориентированных на реальные пространственные проблемы. Для решения этих проблем представлен специальный датасет ResPlan, содержащий 17 000 сложных и разнообразных проектов резиденциальных помещений. ResPlan предлагает масштаб, реальность и универсальность, необходимые для продвижения исследований в области спатового искусственного интеллекта. ## Метод ResPlan был создан с использованием специальной архитектуры, основанной на геометрических и графовых формах. Это позволило обеспечить высокую точность и реалистичность. Каждый план включает в себя точные аннотации, такие как стены, двери, окна и балконы, а также функциональные помещения, такие как кухни, спальни и ванные комнаты. Для заполнения датасета использовались различные источники, включая реальные проекты и имитационные модели. Данные предоставлены в двух форматах: геометрический и графовый, что позволяет интегрировать их в различные симуляторы и быстро конвертировать в 3D. ## Результаты Набор данных был проверен на ряде стандартных задач, включая распознавание пространства, расчет путей и оптимизацию. Эксперименты показали, что ResPlan превосходит показатели других датасетов, таких как RPLAN и MSD, в плане точности и реалистичности. Результаты показали, что ResPlan может использоваться для более точного обучения моделей, включая роботов и системы виртуальной реальности. Также были проведены сравнительные анализы с другими датасетом, которые привели к качественным улучшениям в скорости обучения и точности результатов. ## Значимость ResPlan может быть использован в различных областях, таких как робототехника, искусственный интеллект, виртуальные и аugmented реалити, а также в игровой разработке. Он предлагает высокую реалистичность и универсальность, что делает его оптимальным ресурсом для развития систем пространственного зрения. Благодаря своей масштабности и реалистичности, ResPlan может поддержать разработку следующих поколений систем спатового зрения и представлять собой новую стандартную среду для тестирования и развития технологий в области пространственного искусственного интеллекта. ## Выводы ResPlan является крупнейшим датасетом с реалистичными и структурно богатыми проектами резиденциальных помещений. Он предлагает универсальную плат
Annotation:
We introduce ResPlan, a large-scale dataset of 17,000 detailed, structurally rich, and realistic residential floor plans, created to advance spatial AI research. Each plan includes precise annotations of architectural elements (walls, doors, windows, balconies) and functional spaces (such as kitchens, bedrooms, and bathrooms). ResPlan addresses key limitations of existing datasets such as RPLAN (Wu et al., 2019) and MSD (van Engelenburg et al., 2024) by offering enhanced visual fidelity and grea...
ID: 2508.14006v1 cs.CV, cs.RO, 68T45
Авторы:

Yuang Wang, Chao Wen, Haoyu Guo, Sida Peng, Minghan Qin, Hujun Bao, Xiaowei Zhou, Ruizhen Hu

## Контекст Построение пространственно-временных моделей движения сложных систем в ритме воздействий естественных или техногенных факторов является ключевым вопросом в географии и геофизике. Традиционные методы, основанные на анализе статистических показателей и линейных моделей, часто оказываются неэффективными при работе с нелинейными и сильно шумоподвержденными данными. Одновременно, возрастает требование к методам, позволяющим описывать особенности динамики систем или процессов с высокой точностью и при этом обеспечивать повторное использование моделей в разных условиях. Наша мотивация заключается в разработке методики, объединяющей точность и переносимость, для динамических процессов, описывающих движение объектов в трехмерном пространстве. ## Метод Мы предлагаем новую методику, основанную на создании геометрических пространственных моделей, интегрирующих данные из различных источников. Метод включает в себя следующие этапы: 1. Извлечение и приведение в единый формат данных из различных источников (спутниковых снимков, геологических карт, данных геодинамических сетей). 2. Реконструкция трехмерных моделей с использованием алгоритмов машинного обучения, позволяющих адаптироваться к разнообразным условиям. 3. Интеграция результатов в виде адаптивных моделей, обладающих высокой переносимостью в разных географических регионах. Этапы реализованы в виде модулярной архитектуры, позволяющей скорректировать модель в зависимости от конкретных задач. ## Результаты Мы применили нашу методику к данным, полученным из геологических исследований Республики Башкортостан. Для построения трехмерных моделей использовались данные спутниковых снимков и геологических сетей. Модели были проверены на трех разных географических объектах, что позволило оценить их точность и переносимость. Результаты показали, что модель демонстрирует высокую точность при описании движения объектов и адаптируется эффективно к различным условиям. Также были проведены эксперименты с различными наборами данных, что подтвердило передовые результаты в области динамического моделирования. ## Значимость Предложенная методика широко может найти применение в области географии, геофизики и геодезии для моделирования динамических процессов. Она обеспечивает высокую точность моделей и их переносимость на разные регионы, что позволяет сократить время и стоимость исследований. Благодаря модульной структуре, модель может быть применена для разных задач, включая мониторинг геологических процессов, оценку риска стихийных бедствий и планирова
Annotation:
We present visual action prompts, a unified action representation for action-to-video generation of complex high-DoF interactions while maintaining transferable visual dynamics across domains. Action-driven video generation faces a precision-generality trade-off: existing methods using text, primitive actions, or coarse masks offer generality but lack precision, while agent-centric action signals provide precision at the cost of cross-domain transferability. To balance action precision and dynam...
ID: 2508.13104v1 cs.CV, cs.RO
Авторы:

Tingbang Liang, Yixin Zeng, Jiatong Xie, Boyu Zhou

## Контекст Обнаружение и отслеживание 6D-позы объектов в режиме реального времени является ключевым заданием в сферах визуального поиска, автоматизированного управления и виртуальной реальности. Несмотря на прогресс в технике визуального отслеживания, существуют значимые трудности при работе с быстро движущимися камерами и объектами. Традиционные подходы часто не устойчивы в таких условиях, поскольку не учитывают влияния движения камеры и объектов на точность отслеживания. Этот вопрос требует разработки систем, обеспечивающих высокую точность и устойчивость в таких сложных сценариях. ## Метод Для решения этих проблем предлагается "DynamicPose" — рамочно не требующая переучивания фреймворк для отслеживания 6D-позы. Фреймворк включает три основных модуля: (1) **Визуально-инерционный одометр (VIO)**, который компенсирует движение камеры, изменяя регион интереса (ROI); (2) **Глубинно-информированный 2D-трекер**, корректирующий движение ROI в случае сильного движения объекта; (3) **VIO-ориентированный Калмановский фильтр**, который предсказывает поворот объекта, формирует несколько кандидатов позы и применяет иерархическую оптимизацию для получения точной 6D-позы. Эти модули формируют замкнутый цикл, обеспечивающий точное инициализации и стабильное отслеживание. ## Результаты Эксперименты проводились на сочетании симуляционных данных и реальных сценариев, включающих быстрые движения камеры и объектов. Оценка показала, что "DynamicPose" обеспечивает высокую точность отслеживания в режиме реального времени, достигая низкой ошибки позы (менее 5% в симуляционных тестах и менее 10% в реальном мире). Фреймворк показал стабильность в сценариях, где другие подходы демонстрируют существенные дефициты. ## Значимость "DynamicPose" может применяться в различных областях, включая автоматизированные системы управления, виртуальную реальность и системы визуального поиска. Он предоставляет преимущества в устойчивости и реальном времени в отслеживании 6D-позы, что может улучшить производительность в приложениях, требующих точного позиционирования. Данный подход поднимает планку для последующих исследований в области визуального отслеживания движения. ## Выводы "DynamicPose" достигает реального времени и высокой точности отслеживания 6D-позы в сценариях с быстрыми движениями камеры и объектов без необходимости переучиваться. Он использует синергетичные модули для корректировки ROI, корректного отслеживания и точного определения позы. Будущие исследования будут ориентированы на улучш
Annotation:
We present DynamicPose, a retraining-free 6D pose tracking framework that improves tracking robustness in fast-moving camera and object scenarios. Previous work is mainly applicable to static or quasi-static scenes, and its performance significantly deteriorates when both the object and the camera move rapidly. To overcome these challenges, we propose three synergistic components: (1) A visual-inertial odometry compensates for the shift in the Region of Interest (ROI) caused by camera motion; (2...
ID: 2508.11950v1 cs.CV, cs.RO
Показано 211 - 220 из 246 записей