📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Xiaoyin Yang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Eye tracking has become increasingly important in virtual and augmented reality applications; however, the current gaze accuracy falls short of meeting the requirements for spatial computing. We designed a gaze collection framework and utilized high-precision equipment to gather the first precise benchmark dataset, GazeTrack, encompassing diverse ethnicities, ages, and visual acuity conditions for pupil localization and gaze tracking. We propose a novel shape error regularization method to const...
ID: 2511.22607v1 cs.CV, cs.AI, cs.HC, cs.LG
Авторы:

ANK Zaman, Prosenjit Chatterjee, Rajat Sharma

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
A long road trip is fun for drivers. However, a long drive for days can be tedious for a driver to accommodate stringent deadlines to reach distant destinations. Such a scenario forces drivers to drive extra miles, utilizing extra hours daily without sufficient rest and breaks. Once a driver undergoes such a scenario, it occasionally triggers drowsiness during driving. Drowsiness in driving can be life-threatening to any individual and can affect other drivers' safety; therefore, a real-time det...
ID: 2511.12438v1 cs.CV, cs.AI, cs.HC, cs.LG
Авторы:

Yoshihiro Maruyama

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We propose CatEquiv, a category-equivariant neural network for Human Activity Recognition (HAR) from inertial sensors that systematically encodes temporal, amplitude, and structural symmetries. We introduce a symmetry category that jointly represents cyclic time shifts, positive gain scalings, and the sensor-hierarchy poset, capturing the categorical symmetry structure of the data. CatEquiv achieves equivariance with respect to the categorical symmetry product. On UCI-HAR under out-of-distributi...
ID: 2511.01139v2 cs.CV, cs.AI, cs.HC, cs.LG
Авторы:

Chen Kong, James Fort, Aria Kang, Jonathan Wittmer, Simon Green, Tianwei Shen, Yipu Zhao, Cheng Peng, Gustavo Solaira, Andrew Berkovich, Nikhil Raina, Vijay Baiyya, Evgeniy Oleinik, Eric Huang, Fan Zhang, Julian Straub, Mark Schwesinger, Luis Pesqueira, Xiaqing Pan, Jakob Julian Engel, Carl Ren, Mingfei Yan, Richard Newcombe

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The Aria Gen 2 Pilot Dataset (A2PD) is an egocentric multimodal open dataset captured using the state-of-the-art Aria Gen 2 glasses. To facilitate timely access, A2PD is released incrementally with ongoing dataset enhancements. The initial release features Dia'ane, our primary subject, who records her daily activities alongside friends, each equipped with Aria Gen 2 glasses. It encompasses five primary scenarios: cleaning, cooking, eating, playing, and outdoor walking. In each of the scenarios, ...
ID: 2510.16134v1 cs.CV, cs.AI, cs.HC, cs.LG, cs.RO
Авторы:

Dominik Pegler, David Steyrl, Mengfan Zhang, Alexander Karner, Jozsef Arato, Frank Scharnowski, Filip Melinscak

## Контекст Боязнь ловкости (arachnophobia) — одна из наиболее распространенных фобий, влияющая на качество жизни и мотивацию к лечению у большинства пациентов. Обычно для снижения этой боязни используется классическая терапия, но выявление эффективных визуальных стимулов и их динамическое настройирование в процессе лечения могут ускорить процесс. Экспозурная терапия, воспользовавшись структурированным набором визуальных стимулов, может быть оптимизирована, если модели ИИ смогут точно предсказывать потенциальное потребление страху от изображений. В настоящем исследовании мы исследовали возможность использования предобученных зрения-моделей для точного предсказания человеческих оценок страха от спидер-связанных изображений. ## Метод Мы использовали три различных предобученные компьютерно-визуальные модели, которые были дообучены для предсказания человеческих оценок страха от спидер-связанных изображений (на шкале от 0 до 100). Модели были обучены с использованием переобучения (transfer learning) на наших данных. Мы провели кросс-валидацию, чтобы оценить точность предсказаний. Для анализа интерпретируемости моделей мы провели оценки, показав, какие части изображений влияют на предсказания. Для категорий-ошибок мы проанализировали условия, приводящие к высоким ошибкам (например, дальние виды, изображения с артефактами). ## Результаты Мы достигли среднего значения матожидания абсолютной ошибки (MAE) в пределах от 10.1 до 11.0. Наши результаты показали, что уменьшение размера обучающей выборки значительно повлияло на точность модели, но при увеличении данных не было значительных улучшений. Изучение зрения отдельных категорий показало, что модели становятся менее точными при дальних видах и изображениях с артефактами. ## Значимость Наши результаты указывают на потенциал использования предобученных моделей зрения для предсказания страха от визуальных стимулов в целях лечения. Это может позволить повысить эффективность терапии, предоставив данные для динамического регулирования террапийных материалов. Ценность этого подхода также заключается в том, что модели могут быть объяснены, что значительно улучшает доверие к их результатам. ## Выводы Мы показали, что предобученные модели зрения могут точно предсказать человеческие оценки страха в отношении спидер-связанных изображений. Наши результаты подкрепляют роль моделей зрения в клинических приложениях, связанных с терапией страха. Мы также выделили необходимость увеличивать размер обучающих данных для повышения точности и улучшать модели с учетом
Annotation:
Advances in computer vision have opened new avenues for clinical applications, particularly in computerized exposure therapy where visual stimuli can be dynamically adjusted based on patient responses. As a critical step toward such adaptive systems, we investigated whether pretrained computer vision models can accurately predict fear levels from spider-related images. We adapted three diverse models using transfer learning to predict human fear ratings (on a 0-100 scale) from a standardized dat...
ID: 2509.04889v1 cs.CV, cs.AI, cs.HC, cs.LG
Авторы:

Honglu Zhou, Xiangyu Peng, Shrikant Kendre, Michael S. Ryoo, Silvio Savarese, Caiming Xiong, Juan Carlos Niebles

## Контекст На сегодняшний день существуют Video Large Language Models (Video LLMs), которые в наибольшей степени обладают пониманием динамических видеозаписей. Однако они сталкиваются с рядом ограничений при решении задач, затрагивающих спатиотмениальные ссылки в средством обычного видеопонимания. Такие модели не умеют работать с запросами, которые требуют легкого интерпретирования положения объектов в пространстве, а также временальных ссылок для понимания их расположения во времени. Более того, они не могут распространяться на сложные задачи в контексте реальных условий. В этом контексте возникает потребность в развитии Video LLMs, которые бы могли также работать с конкретными спатиотмениальными задачами и ситуациями. ## Метод Для этого была разработана новая синтетическая фреймворка Strefer. Она основывается на подходе, который генерирует инструкции на основе видеометаданных. Данные фреймворка позволяют получить масштабируемый набор данных, содержащий информацию о расположении и действиях объектов в пространстве и времени. Метод Strefer использует данные о масклетах, временных диапазонах, объектах, их свойствах и действиях. Такой подход позволяет создавать синтетический набор данных, который может корректно интерпретировать видео-LLMs для работы с запросами, требующими определенных спатиотмениальных ссылок. ## Результаты Результаты испытаний и экспериментов показали, что с помощью фреймворка Strefer модели Video LLMs становятся более точными в понимании спатиотмениальных характеристик. Модели, обученные на данных, сгенерированных Strefer, показали значительное улучшение в выполнении задач, которые требуют различения спатиотмениальных ссылок, сопоставления объектов и расположения в течение времени. Эти модели показали свое превосходство в сравнении с базовыми моделями в задачах решения спатиотмениальных проблем. ## Значимость Полученные модели могут быть применены в различных областях, в том числе в сфере робототехники, видеомониторинга, здравоохранения и развитии AI-компаньонов. Strefer обеспечивает моделям Video LLMs более тонкий интерпретации пространственных и временных связей, что позволяет им быть более удобными в сложных и реальных условиях. Этот подход также снижает затраты на аннотацию данных, так как основывается на синтетической генерировании метаданных вместо ручной работы. ## Выводы Выводы, сделанные на основе экспериментов, показали, что модели, обученные на данных, сгенерированных фреймворком Strefer, обладают более развитыми возможностями в спатиотмениальном рассуждении. Это стало новым шагом в развитии Video LLMs для использования в реальных ситуациях. В бу
Annotation:
Next-generation AI companions must go beyond general video understanding to resolve spatial and temporal references in dynamic, real-world environments. Existing Video Large Language Models (Video LLMs), while capable of coarse-level comprehension, struggle with fine-grained, spatiotemporal reasoning, especially when user queries rely on time-based event references for temporal anchoring, or gestural cues for spatial anchoring to clarify object references and positions. To bridge this critical g...
ID: 2509.03501v1 cs.CV, cs.AI, cs.HC, cs.LG
Авторы:

Anilkumar Swamy, Vincent Leroy, Philippe Weinzaepfel, Jean-Sébastien Franco, Grégory Rogez

## Контекст Руко-предметное взаимодействие и трехмерное воспроизведение сцен являются ключевыми аспектами в приложениях для человеко-роботного взаимодействия и иммерсивных AR/VR-опытов. Однако, трехмерное воспроизведение рук и предметов на основе RGB-видео становится сложной задачей из-за различной геометрии объектов, слабых текстур, и руко-предметных оккультаций. Наиболее распространенным подходом является двухэтапная модель, включающую 3D-трекинг руки и предмета, а затем много birds-eye-view 3D-воспроизведение. В настоящее время, существующие методы полагаются на детекторы ключевых точек, такие как Structure from Motion (SfM) и руко-ключевая оптимизация, которые страдают от недостатка гибкости, нестеганности и ограниченной общимости. Мы предлагаем HOSt3R, первый технологический подход к руко-предметному трехмерному воспроизведению без использования ключевых точек, который обеспечивает широкую гибкость и улучшенную общимость для различных приложений. ## Метод Чтобы справиться со сложностями трехмерного воспроизведения руки и предмета, мы предлагаем HOSt3R, новый класс методов, основанный на детектировании 3D-трансформаций руки и предмета без использования ключевых точек. Мы используем сильно нейросетевые архитектуры для автоматического выявления руки и предмета в каждом кадре. Далее, мы реализуем много birds-eye-view 3D-воспроизведение, используя последовательность изображений. Мы интегрируем наши модели с общедоступным SHOWMe-benchmark-датасетом, а также нашей собственной моделью тренировки, которая позволяет проверить нашу подходную модель в нескольких сценах. Наше 3D-моделирующее решение выдает гораздо точные и гибкие результаты по сравнению с другими методами. ## Результаты Мы проверили нашу модель на двух открытых датасетах: SHOWMe и HO3D. Мы проводили эксперименты с различными руко-предметными сценами, включая нестандартные объекты и сильно оккультирующие руки и предметы, чтобы проверить гибкость и общимость наших методов. Мы получили результаты, которые превосходят существующие методы в трехмерном воспроизведении рук и предметов, используя только RGB-изображения без дополнительных сенсоров. Наш предложенный подход показал самые высокие показатели точности и обобщаемости по сравнению с другими текущими системами. ## Значимость Наш подход имеет широкие применения в области человеко-роботного взаимодействия, иммерсивных AR/VR-технологий и даже в сфере глубокого обучения. Наш метод освобождает пользователей от требовани
Annotation:
Hand-object 3D reconstruction has become increasingly important for applications in human-robot interaction and immersive AR/VR experiences. A common approach for object-agnostic hand-object reconstruction from RGB sequences involves a two-stage pipeline: hand-object 3D tracking followed by multi-view 3D reconstruction. However, existing methods rely on keypoint detection techniques, such as Structure from Motion (SfM) and hand-keypoint optimization, which struggle with diverse object geometries...
ID: 2508.16465v2 cs.CV, cs.AI, cs.HC, cs.LG, cs.RO
Авторы:

Wenqing Wang, Yun Fu

#### Контекст Эмоции являются ключевым компонентом искусственного социального интеллекта. Однако, несмотря на то, что нынешние методы достигли высокой точности в синтезе говорящих голов и качества изображения, они часто сталкиваются с проблемой точного генерирования эмоциональных выражений, сохраняя при этом точность идентификации субъекта. Это приводит к неестественности и неподходящим эмоциональным реакциям. Для решения этой проблемы мы предлагаем RealTalk — новую систему для создания реалистичных эмоциональных говорящих голов, которая обеспечивает высокую точность в определении эмоций, эмоциональную контролируемость и надежные результаты в сохранении идентичности. #### Метод RealTalk основывается на комбинации вариационного автоэнкодера (VAE) и модели ResNet-based landmark deformation model (LDM). Аудиосигнал обучает VAE для генерирования 3D-фасетов лица. Эти фасетов затем конкатенируются с эмоциональными этикетками, используя LDM, чтобы создавать эмоционально-специфические фасетовые деформации. Эти деформации, вместе с фасетовыми коэффициентами лица, подаются в NeRF с три-плоскостным аутентификатором для создания реалистичных эмоциональных говорящих голов. Наша архитектура работает на базе NeRF, но применяет дополнительные эмоциональные признаки для улучшения реализма и контроля. #### Результаты Мы провели серию экспериментов на различных данных, включая говорящие головы с различными эмоциями. Наши результаты показывают, что RealTalk превосходит существующие методы в области точности, контроля и сохранения идентичности. Мы также провели сравнительный анализ с наиболее популярными моделями, подтвердив, что RealTalk обеспечивает более естественные и точные эмоциональные выражения. Эти результаты подтверждают ценность нашего подхода в создании систем, которые могут эмоционально взаимодействовать с пользователями. #### Значимость Применение RealTalk может иметь значительные последствия в области искусственного интеллекта, в частности для создания социально интеллектуальных систем. Наши результаты демонстрируют повышенную точность и контроль эмоциональных выражений, что может быть удобно для видеоконференций, геймдизайна, робототехники и других приложений, требующих эмоциональной интерактивности. Помимо этого, RealTalk может быть использован в области психологии для исследования эмоциональных реакций и в обучении искусственного интеллекта. #### Выводы Мы представили RealTalk — новую модель для эмоционального синтеза говорящих голов, которая обеспечивает высокую точность эмоционального выражения, эмоциональную контролируемость и надежную идентичность. Наши результаты показывают, что RealTalk п
Annotation:
Emotion is a critical component of artificial social intelligence. However, while current methods excel in lip synchronization and image quality, they often fail to generate accurate and controllable emotional expressions while preserving the subject's identity. To address this challenge, we introduce RealTalk, a novel framework for synthesizing emotional talking heads with high emotion accuracy, enhanced emotion controllability, and robust identity preservation. RealTalk employs a variational a...
ID: 2508.12163v1 cs.CV, cs.AI, cs.HC, cs.LG, I.4; I.3; I.2