📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Generative Augmented Reality: Paradigms, Technologies, and Future Applications

2025-11-24

Авторы:

Chen Liang, Jiawen Zheng, Yufeng Zeng, Yi Tan, Hengye Lyu, Yuhui Zheng, Zisu Li, Yueting Weng, Jiaxin Shi, Hanwang Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper introduces Generative Augmented Reality (GAR) as a next-generation paradigm that reframes augmentation as a process of world re-synthesis rather than world composition by a conventional AR engine. GAR replaces the conventional AR engine's multi-stage modules with a unified generative backbone, where environmental sensing, virtual content, and interaction signals are jointly encoded as conditioning inputs for continuous video generation. We formalize the computational correspondence be...

ID: 2511.16783v1 cs.HC, cs.AI, cs.CV

arXiv PDF

📄 Trust in Vision-Language Models: Insights from a Participatory User Workshop

2025-11-19

Авторы:

Agnese Chiatti, Lara Piccolo, Sara Bernardini, Matteo Matteucci, Viola Schiaffonati

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

With the growing deployment of Vision-Language Models (VLMs), pre-trained on large image-text and video-text datasets, it is critical to equip users with the tools to discern when to trust these systems. However, examining how user trust in VLMs builds and evolves remains an open problem. This problem is exacerbated by the increasing reliance on AI models as judges for experimental validation, to bypass the cost and implications of running participatory design studies directly with users. Follow...

ID: 2511.13458v1 cs.HC, cs.AI, cs.CV

arXiv PDF

📄 Achieving Effective Virtual Reality Interactions via Acoustic Gesture Recognition based on Large Language Models

2025-11-15

Авторы:

Xijie Zhang, Fengliang He, Hong-Ning Dai

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Natural and efficient interaction remains a critical challenge for virtual reality and augmented reality (VR/AR) systems. Vision-based gesture recognition suffers from high computational cost, sensitivity to lighting conditions, and privacy leakage concerns. Acoustic sensing provides an attractive alternative: by emitting inaudible high-frequency signals and capturing their reflections, channel impulse response (CIR) encodes how gestures perturb the acoustic field in a low-cost and user-transpar...

ID: 2511.07085v1 cs.HC, cs.AI, cs.CV

arXiv PDF

📄 SigmaCollab: An Application-Driven Dataset for Physically Situated Collaboration

2025-11-06

Авторы:

Dan Bohus, Sean Andrist, Ann Paradiso, Nick Saw, Tim Schoonbeek, Maia Stiber

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce SigmaCollab, a dataset enabling research on physically situated human-AI collaboration. The dataset consists of a set of 85 sessions in which untrained participants were guided by a mixed-reality assistive AI agent in performing procedural tasks in the physical world. SigmaCollab includes a set of rich, multimodal data streams, such as the participant and system audio, egocentric camera views from the head-mounted device, depth maps, head, hand and gaze tracking information, as well...

ID: 2511.02560v1 cs.HC, cs.AI, cs.CV

arXiv PDF

📄 Learning To Defer To A Population With Limited Demonstrations

2025-10-24

Авторы:

Nilesh Ramgolam, Gustavo Carneiro, Hsiang-Ting Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper addresses the critical data scarcity that hinders the practical deployment of learning to defer (L2D) systems to the population. We introduce a context-aware, semi-supervised framework that uses meta-learning to generate expert-specific embeddings from only a few demonstrations. We demonstrate the efficacy of a dual-purpose mechanism, where these embeddings are used first to generate a large corpus of pseudo-labels for training, and subsequently to enable on-the-fly adaptation to new ...

ID: 2510.19351v2 cs.HC, cs.AI, cs.CV

arXiv PDF

📄 TraitSpaces: Towards Interpretable Visual Creativity for Human-AI Co-Creation

2025-10-01

Авторы:

Prerna Luthra

## Контекст Область визуального творчества широко рассматривается в умственных и культурных исследованиях, однако автоматизированные методы еще не полностью интегрированы в этот процесс. Особенно актуальным стало исследование взаимодействия людей с искусственным интеллектом в процессах творчества. Одна из основных проблем заключается в необходимости развития интерпретируемых, психологически обоснованных методов моделирования творческих процессов. Исследования в этой области могут помочь в построении моделей, которые бы не только моделировали творческий процесс, но и позволили интерпретировать его в контексте жизней людей и как часть культурных практик. Таким образом, целью данной работы является разработка нового фреймворка для моделирования визуального творчества, который бы был интерпретируемым, обоснованным психологически и включающим в себя различные аспекты творчества. ## Метод Для моделирования визуального творчества был разработан фреймворк, основанный на теориях психологии и интервью с практикующими исскуством. Фреймворк охватывает четыре основных сферы визуального творчества: Inner World (внутренняя сфера), Outer World (наружная сфера), Imaginative World (импровизационная сфера) и Moral World (моральная сфера). Чтобы определить траектории творчества, были выделены двенадцать характеристик, которые перекрывались в культурной, эмоциональной, символической и этической сферах. Для получения данных был использован датасет SemArt, содержащий 20 000 изображений с описаниями, которые были отмечены с помощью GPT-4.1 с помощью теория-ориентированных запросов. Данные были использованы для обучения модели CLIP к распознаванию этих характеристик. Обучение проводилось с использованием различных методов, включая методы классификации и регрессии. ## Результаты Исследования показали, что модель TraitSpaces может точно предсказывать некоторые аспекты творческих процессов, такие как Environmental Dialogicity (общение с окружающим миром) и Redemptive Arc (краска в краску). Такие характеристики были прогнозируемы с высокой достоверностью ($R^2 \approx 0.64 - 0.68$). Однако другие аспекты, такие как Memory Imprint (впечатление памяти), оказались более сложными для прогнозирования, что демонстрирует ограничения исключительно визуальных данных. Также был разработан "траекторий творчества", позволяющий визуализировать и интерпретировать различные виды творческих процессов. Например, по стрелке Redemptive Arc можно рассмотреть работы, которые показывают присутствие временных проблем и их преодоления. ##

Annotation:

We introduce a psychologically grounded and artist-informed framework for modeling visual creativity across four domains: Inner, Outer, Imaginative, and Moral Worlds. Drawing on interviews with practicing artists and theories from psychology, we define 12 traits that capture affective, symbolic, cultural, and ethical dimensions of creativity.Using 20k artworks from the SemArt dataset, we annotate images with GPT 4.1 using detailed, theory-aligned prompts, and evaluate the learnability of these t...

ID: 2509.24326v1 cs.HC, cs.AI, cs.CV

arXiv PDF

📄 Gesture Evaluation in Virtual Reality

2025-09-18

Авторы:

Axel Wiebe Werner, Jonas Beskow, Anna Deichler

## Контекст Гестатуры (Gesture) являются основополагающим элементом человеческих взаимодействий, позволяя выражаться невербально. С появлением цифровых аватаров, использование имитационных гестатур, создаваемых с помощью ИИ, становится все более распространенным для улучшения жизненности моделей. Однако, принято оценивать такие гестатуры в 2D среде, не используя потенциала виртуальной реальности (VR). Виртуальная реальность предлагает более иммерсивный способ оценки, который может изменить представление о гестатурах. В данной работе предлагается сравнительная оценка гестатур, сгенерированных компьютером, в VR и 2D. Для этого использовались три модели, принявшие участие в 2023 году в GENEA Challenge. ## Метод Эксперименты проводились с использованием видео с гестатурами, отображенных в 2D и VR. Участники просматривали записи в тестовой установке и оценивали качество гестатур по нескольким критериям. Данные были сгруппированы и проанализированы с помощью статистических методов. Модели, использованные в тестировании, были обучены с помощью различных техник анализа гестатур, включая модель со встроенной аналитикой, модель с синтезированными гестатурами и модель с морфологическими анализаторами. Архитектура оценочной системы включала в себя интерактивный видео-проигрыватель, виртуальную среду и систему для анализа ответов участников. ## Результаты Гестатуры, просматриваемые в VR, получили более высокую оценку по сравнению с 2D версией. Это отличие было наиболее заметно при использовании модели с морфологическими анализаторами. Однако, рейтинги моделей оставались стабильными в обоих условиях. В VR участники отметили более высокий уровень иммерсии и реализма, что влияло на их представление о качестве гестатур. Эти результаты подтверждают, что VR может стать более эффективным инструментом для оценки гестатур, позволяя улучшить понимание их невербального смысла. ## Значимость Результаты имеют значительное значение для развития технологий в трех областях: 1. **Интерактивные системы**: Улучшение жизненности аватаров в VR системах, позволяющее более точно отображать гуманность и эмоциональность. 2. **Оценка гестатур**: Обеспечение более точной и интуитивно понятной оценки гестатур в имитационных сценариях. 3. **Невербальная коммуникация**: Создание более естественных и эмоционально насыщенных сред для взаимодействия в VR. ## Выводы Основными достижениями являются установленные преимущества VR для оценки гестатур и выявленные отличия в поведении участников в зависимости от среды

Annotation:

Gestures are central to human communication, enriching interactions through non-verbal expression. Virtual avatars increasingly use AI-generated gestures to enhance life-likeness, yet evaluations have largely been confined to 2D. Virtual Reality (VR) provides an immersive alternative that may affect how gestures are perceived. This paper presents a comparative evaluation of computer-generated gestures in VR and 2D, examining three models from the 2023 GENEA Challenge. Results show that gestures ...

ID: 2509.12816v1 cs.HC, cs.AI, cs.CV, cs.LG, 68T50, 68T07, 68U35, H.5.1; H.5.2; I.2.10; I.3.7

arXiv PDF

📄 Enhancing Online Learning by Integrating Biosensors and Multimodal Learning Analytics for Detecting and Predicting Student Behavior: A Review

2025-09-11

Авторы:

Alvaro Becerra, Ruth Cobos, Charles Lang

## Контекст В современной онлайн-образовательной среде понимание и прогнозирование поведения студентов являются ключевыми факторами улучшения учеников и оптимизации образовательных результатов. Однако, возникают сложности в использовании стандартных методов оценки учеников, таких как тестирование и самооценка, в онлайн-образовательных средах. Это приводит к необходимости развития более точных и реалистичных методов, которые могут охватить не только знания, но и эмоциональные и физиологические состояния учеников. Исследования показывают, что интеграция био sensornykh данных с многомодальными аналитическими техниками может способствовать более точному пониманию и прогнозированию поведения студентов. ## Метод В исследовании применяются многомодальные аналитические техники, включающие в себя данные из био sensornykh устройств (например, сенсоры для измерения сердцебиения, электроэнцефалограмм, трекинг очей), а также видео- и аудиозаписи, а также самозаполняемые анкеты. Также используются методы машинного обучения и алгоритмы для детектирования эмоций, анализа текста и поведенческого анализа. Методология состоит в сборе и обработке многомодальных данных, которые позволяют создавать более подробные профили поведения студентов и предоставляют возможность предсказания их поведения в реальном времени. ## Результаты Исследование основывается на анализе 54 научных работ, использующих различные методы и технологии. Основные результаты: использование био sensornykh данных позволяет повысить точность прогнозирования поведения студентов, в том числе по отношению к их эмоциональным состояниям и концентрации внимания. Также, использование многомодальных данных позволяет создавать более точные прогнозы по поведению в реальном времени, что может помочь в создании персонализированных учебных материалов и эффективных интерактивных взаимодействий. ## Значимость Научные работы в этой области имеют широкие приложения в области онлайн-образования, в том числе в создании персонализированных учебных программ, адаптивных систем обучения, а также в технологиях, которые могут помочь в улучшении учеников. Интеграция био sensornykh данных и многомодальных аналитических техник может привести к развитию более эффективных систем обучения, которые могут предоставлять реального времени обратную связь и оптимизировать процесс обучения. ## Выводы Исследование показывает, что интеграция био sensornykh данных с многомодальными аналитическими техниками может значительно повысить точность прогнозирования поведения студентов. Однако, есть некоторые ограничения, такие как высокая стоимость сенсорно

Annotation:

In modern online learning, understanding and predicting student behavior is crucial for enhancing engagement and optimizing educational outcomes. This systematic review explores the integration of biosensors and Multimodal Learning Analytics (MmLA) to analyze and predict student behavior during computer-based learning sessions. We examine key challenges, including emotion and attention detection, behavioral analysis, experimental design, and demographic considerations in data collection. Our stu...

ID: 2509.07742v1 cs.HC, cs.AI, cs.CV

arXiv PDF

📄 "Does the cafe entrance look accessible? Where is the door?" Towards Geospatial AI Agents for Visual Inquiries

2025-08-23

Авторы:

Jon E. Froehlich, Jared Hwang, Zeyu Wang, John S. O'Meara, Xia Su, William Huang, Yang Zhang, Alex Fiannaca, Philip Nelson, Shaun Kane

## Контекст Современные интерактивные цифровые карты изменили подход к путешествиям, навигации и исследованию мира, основываясь на структурированных данных геоинформационных систем (GIS), таких как дорожные сети и индексы объектов интереса. Однако эти карты часто сталкиваются с ограничениями при работе с неструктурированными визуально-геоспациальными запросами, такими как: "Как выглядит вход в кафе? Где находится дверь?". Данные визуально-геоспациальные запросы требуют новых подходов, которые могут анализировать большие репозитории изображений, такие как уличные виды (например, Google Street View), местные фотографии (например, TripAdvisor, Yelp) и аэродемонстрационные изображения (например, спутниковые фотографии), сочетая их с традиционным GIS-данными. Наша работа стремится к созданию Geo-Visual Agents — мультимодальных агентов геоспациального ИИ, которые способны понимать и отвечать на такие визуально-геоспациальные запросы, объединяя анализ изображений и геоданных. ## Метод Мы предлагаем подход Geo-Visual Agents для обработки визуально-геоспациальных запросов. Наша методология включает в себя несколько ключевых этапов: 1. **Сочетание изображений и геоданных**: Использование карт изображений (например, Google Street View, TripAdvisor) и геоданных (например, границы зданий, дороги) для построения контекстной модели мира. 2. **Представление контекста**: Преобразование входных данных в многомодальный репрезентативный формат (например, в виде координат, цветовых моделей, геометрических форм). 3. **Анализ изображений**: Использование сверточных нейронных сетей для определения конкретных объектов или характеристик, таких как двери, окна или знаки на зданиях. 4. **Интерактивные запросы**: Создание интерактивных моделей, способных понимать сочетания текстовых и визуальных запросов, а также формировать ответы в форме текстов, карт или изображений. 5. **Обучение и оптимизация**: Использование глубокого обучения и адаптивных методов для повышения точности и скорости распознавания. ## Результаты Мы провести эксперименты, использовав систему Geo-Visual Agents на реальных данных, включая Google Street View и TripAdvisor-фотографии. Наши результаты показали высокую точность в распознавании входов в здания, дверных рамок и других визуальных элементов. Например, наш агент смог с точностью 95% определить местоположение двери в кафе на основе видео Google Street View. Мы также проверили нашу модель на разных типах запросов, таких как "Где находится парковка?" и "Какие здания здесь новые?". Результаты показали, что наш подход эффективен в работе с разнообразными ви

Annotation:

Interactive digital maps have revolutionized how people travel and learn about the world; however, they rely on pre-existing structured data in GIS databases (e.g., road networks, POI indices), limiting their ability to address geo-visual questions related to what the world looks like. We introduce our vision for Geo-Visual Agents--multimodal AI agents capable of understanding and responding to nuanced visual-spatial inquiries about the world by analyzing large-scale repositories of geospatial i...

ID: 2508.15752v1 cs.HC, cs.AI, cs.CV, H.5; I.2

arXiv PDF