📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Aria Gen 2 Pilot Dataset
2025-10-22Авторы:
Chen Kong, James Fort, Aria Kang, Jonathan Wittmer, Simon Green, Tianwei Shen, Yipu Zhao, Cheng Peng, Gustavo Solaira, Andrew Berkovich, Nikhil Raina, Vijay Baiyya, Evgeniy Oleinik, Eric Huang, Fan Zhang, Julian Straub, Mark Schwesinger, Luis Pesqueira, Xiaqing Pan, Jakob Julian Engel, Carl Ren, Mingfei Yan, Richard Newcombe
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The Aria Gen 2 Pilot Dataset (A2PD) is an egocentric multimodal open dataset
captured using the state-of-the-art Aria Gen 2 glasses. To facilitate timely
access, A2PD is released incrementally with ongoing dataset enhancements. The
initial release features Dia'ane, our primary subject, who records her daily
activities alongside friends, each equipped with Aria Gen 2 glasses. It
encompasses five primary scenarios: cleaning, cooking, eating, playing, and
outdoor walking. In each of the scenarios, ...
Авторы:
Anilkumar Swamy, Vincent Leroy, Philippe Weinzaepfel, Jean-Sébastien Franco, Grégory Rogez
## Контекст
Руко-предметное взаимодействие и трехмерное воспроизведение сцен являются ключевыми аспектами в приложениях для человеко-роботного взаимодействия и иммерсивных AR/VR-опытов. Однако, трехмерное воспроизведение рук и предметов на основе RGB-видео становится сложной задачей из-за различной геометрии объектов, слабых текстур, и руко-предметных оккультаций. Наиболее распространенным подходом является двухэтапная модель, включающую 3D-трекинг руки и предмета, а затем много birds-eye-view 3D-воспроизведение. В настоящее время, существующие методы полагаются на детекторы ключевых точек, такие как Structure from Motion (SfM) и руко-ключевая оптимизация, которые страдают от недостатка гибкости, нестеганности и ограниченной общимости. Мы предлагаем HOSt3R, первый технологический подход к руко-предметному трехмерному воспроизведению без использования ключевых точек, который обеспечивает широкую гибкость и улучшенную общимость для различных приложений.
## Метод
Чтобы справиться со сложностями трехмерного воспроизведения руки и предмета, мы предлагаем HOSt3R, новый класс методов, основанный на детектировании 3D-трансформаций руки и предмета без использования ключевых точек. Мы используем сильно нейросетевые архитектуры для автоматического выявления руки и предмета в каждом кадре. Далее, мы реализуем много birds-eye-view 3D-воспроизведение, используя последовательность изображений. Мы интегрируем наши модели с общедоступным SHOWMe-benchmark-датасетом, а также нашей собственной моделью тренировки, которая позволяет проверить нашу подходную модель в нескольких сценах. Наше 3D-моделирующее решение выдает гораздо точные и гибкие результаты по сравнению с другими методами.
## Результаты
Мы проверили нашу модель на двух открытых датасетах: SHOWMe и HO3D. Мы проводили эксперименты с различными руко-предметными сценами, включая нестандартные объекты и сильно оккультирующие руки и предметы, чтобы проверить гибкость и общимость наших методов. Мы получили результаты, которые превосходят существующие методы в трехмерном воспроизведении рук и предметов, используя только RGB-изображения без дополнительных сенсоров. Наш предложенный подход показал самые высокие показатели точности и обобщаемости по сравнению с другими текущими системами.
## Значимость
Наш подход имеет широкие применения в области человеко-роботного взаимодействия, иммерсивных AR/VR-технологий и даже в сфере глубокого обучения. Наш метод освобождает пользователей от требовани
Annotation:
Hand-object 3D reconstruction has become increasingly important for
applications in human-robot interaction and immersive AR/VR experiences. A
common approach for object-agnostic hand-object reconstruction from RGB
sequences involves a two-stage pipeline: hand-object 3D tracking followed by
multi-view 3D reconstruction. However, existing methods rely on keypoint
detection techniques, such as Structure from Motion (SfM) and hand-keypoint
optimization, which struggle with diverse object geometries...