📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Learning with Category-Equivariant Architectures for Human Activity Recognition

2025-11-07

Авторы:

Yoshihiro Maruyama

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We propose CatEquiv, a category-equivariant neural network for Human Activity Recognition (HAR) from inertial sensors that systematically encodes temporal, amplitude, and structural symmetries. We introduce a symmetry category that jointly represents cyclic time shifts, positive gain scalings, and the sensor-hierarchy poset, capturing the categorical symmetry structure of the data. CatEquiv achieves equivariance with respect to the categorical symmetry product. On UCI-HAR under out-of-distributi...

ID: 2511.01139v2 cs.CV, cs.AI, cs.HC, cs.LG

arXiv PDF

📄 Effect of Reporting Mode and Clinical Experience on Radiologists' Gaze and Image Analysis Behavior in Chest Radiography

2025-10-22

Авторы:

Mahta Khoobi, Marc Sebastian von der Stueck, Felix Barajas Ordonez, Anca-Maria Iancu, Eric Corban, Julia Nowak, Aleksandar Kargaliev, Valeria Perelygina, Anna-Sophie Schott, Daniel Pinto dos Santos, Christiane Kuhl, Daniel Truhn, Sven Nebelung, Robert Siepmann

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Structured reporting (SR) and artificial intelligence (AI) may transform how radiologists interact with imaging studies. This prospective study (July to December 2024) evaluated the impact of three reporting modes: free-text (FT), structured reporting (SR), and AI-assisted structured reporting (AI-SR), on image analysis behavior, diagnostic accuracy, efficiency, and user experience. Four novice and four non-novice readers (radiologists and medical students) each analyzed 35 bedside chest radiogr...

ID: 2510.16070v1 cs.CV, cs.AI, cs.HC, eess.IV, H.5.5; H.1.2; I.4.0

arXiv PDF

📄 Aria Gen 2 Pilot Dataset

2025-10-22

Авторы:

Chen Kong, James Fort, Aria Kang, Jonathan Wittmer, Simon Green, Tianwei Shen, Yipu Zhao, Cheng Peng, Gustavo Solaira, Andrew Berkovich, Nikhil Raina, Vijay Baiyya, Evgeniy Oleinik, Eric Huang, Fan Zhang, Julian Straub, Mark Schwesinger, Luis Pesqueira, Xiaqing Pan, Jakob Julian Engel, Carl Ren, Mingfei Yan, Richard Newcombe

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The Aria Gen 2 Pilot Dataset (A2PD) is an egocentric multimodal open dataset captured using the state-of-the-art Aria Gen 2 glasses. To facilitate timely access, A2PD is released incrementally with ongoing dataset enhancements. The initial release features Dia'ane, our primary subject, who records her daily activities alongside friends, each equipped with Aria Gen 2 glasses. It encompasses five primary scenarios: cleaning, cooking, eating, playing, and outdoor walking. In each of the scenarios, ...

ID: 2510.16134v1 cs.CV, cs.AI, cs.HC, cs.LG, cs.RO

arXiv PDF

📄 Towards Safer and Understandable Driver Intention Prediction

2025-10-14

Авторы:

Mukilan Karuppasamy, Shankar Gangisetty, Shyam Nandan Rai, Carlo Masone, C V Jawahar

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Autonomous driving (AD) systems are becoming increasingly capable of handling complex tasks, mainly due to recent advances in deep learning and AI. As interactions between autonomous systems and humans increase, the interpretability of decision-making processes in driving systems becomes increasingly crucial for ensuring safe driving operations. Successful human-machine interaction requires understanding the underlying representations of the environment and the driving task, which remains a sign...

ID: 2510.09200v1 cs.CV, cs.AI, cs.HC

arXiv PDF

📄 Talking Tennis: Language Feedback from 3D Biomechanical Action Recognition

2025-10-08

Авторы:

Arushi Dashore, Aryan Anumala, Emily Hui, Olivia Yang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Automated tennis stroke analysis has advanced significantly with the integration of biomechanical motion cues alongside deep learning techniques, enhancing stroke classification accuracy and player performance evaluation. Despite these advancements, existing systems often fail to connect biomechanical insights with actionable language feedback that is both accessible and meaningful to players and coaches. This research project addresses this gap by developing a novel framework that extracts key ...

ID: 2510.03921v1 cs.CV, cs.AI, cs.HC, I.2.10; I.5.4; I.2.7

arXiv PDF

📄 Intelligent 5S Audit: Application of Artificial Intelligence for Continuous Improvement in the Automotive Industry

2025-10-04

Авторы:

Rafael da Silva Maciel, Lucio Veraldo Jr

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The evolution of the 5S methodology with the support of artificial intelligence techniques represents a significant opportunity to improve industrial organization audits in the automotive chain, making them more objective, efficient and aligned with Industry 4.0 standards. This work developed an automated 5S audit system based on large-scale language models (LLM), capable of assessing the five senses (Seiri, Seiton, Seiso, Seiketsu, Shitsuke) in a standardized way through intelligent image analy...

ID: 2510.00067v1 cs.CV, cs.AI, cs.HC, 68T05, 90B30, I.2.1; H.4.2; J.6

arXiv PDF

📄 Guiding Multimodal Large Language Models with Blind and Low Vision People Visual Questions for Proactive Visual Interpretations

2025-10-04

Авторы:

Ricardo Gonzalez Penuela, Felipe Arias-Russi, Victor Capriles

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Multimodal large language models (MLLMs) have been integrated into visual interpretation applications to support Blind and Low Vision (BLV) users because of their accuracy and ability to provide rich, human-like interpretations. However, these applications often default to comprehensive, lengthy descriptions regardless of context. This leads to inefficient exchanges, as users must go through irrelevant details rather than receiving the specific information they are likely to seek. To deliver mor...

ID: 2510.01576v1 cs.CV, cs.AI, cs.HC, I.2.m; H.5.2

arXiv PDF

📄 UI-UG: A Unified MLLM for UI Understanding and Generation

2025-10-01

Авторы:

Hao Yang, Weijie Qiu, Ru Zhang, Zhou Fang, Ruichao Mao, Xiaoyu Lin, Maji Huang, Zhaosong Huang, Teng Guo, Shuoyang Liu, Hai Rao

#### Контекст Современные User Interfaces (UI) становятся все более сложными, включая в себя не только текстовую информацию, но и изображения, звук и видео. Это приводит к росту сложности их понимания и генерации, что требует развития эффективных методов. Однако существующие Multimodal Large Language Models (MLLMs) часто сталкиваются с проблемами точности и качества при работе с UI-задачами. Эти ограничения мотивируют разработку специализированных моделей, которые бы сбалансировали точность и скорость работы, а также смогли бы повысить качество генерации интерфейсов. #### Метод Мы предлагаем UI-UG — модель, которая объединяет возможности понимания и генерации UI в единой структуре на основе Multimodal Large Language Models. Для понимания UI используется **Supervised Fine-tuning (SFT)** в сочетании с **Group Relative Policy Optimization (GRPO)**, что позволяет улучшить точность и мелкогранулярность понимания. Для генерации UI применяется **Direct Preference Optimization (DPO)**, чтобы модель могла сгенерировать интерфейсы, соответствующие предпочтениям пользователей. Также мы предлагаем **LLM-friendly DSL** (доменно-специализированный язык), **оптимизированные стратегии обучения**, процессы рендеринга и подробные **метрики оценки**, чтобы улучшить производительность в реальных условиях. #### Результаты В экспериментах мы проверили модель UI-UG на различных датасетах по пониманию и генерации UI. Модель показала **state-of-the-art (SOTA)** результаты в понимании UI, превосходя как более крупные general-purpose MLLMs, так и модели специализированные на UI, но с меньшим компьютерным воздействием. В генерации UI UI-UG показала результаты, сравнимые с крупными MLLMs, при значительно меньших затратах ресурсов. Мы также продемонстрировали, что объединение понимания и генерации UI может улучшить качество как понимания, так и генерации. Результаты были получены с использованием **данных из сети** и **задачных наборов**, чтобы продемонстрировать реальную эффективность модели. #### Значимость Модель UI-UG имеет многочисленные применения в области UI-дизайна, в том числе в создании интерактивных приложений, генерации UI-компонентов, анализе и модернизации существующих интерфейсов. Одним из основных преимуществ является способность модели работать со сложными UI-данными, оптимизировав как понимание, так и генерацию. Это приводит к повышению качества и точности в оба направления. Будущие исследования будут направлены на улучшение скорости работы, уменьшение потребления ресурсов и расширение доменных моделей, чтобы сделать модель UI-UG еще более универсальной и эффективной. #### Выводы Разработанная модель UI-UG доказывает свою эффективность в области понимания и генерации интерфейсов.

Annotation:

Although Multimodal Large Language Models (MLLMs) have been widely applied across domains, they are still facing challenges in domain-specific tasks, such as User Interface (UI) understanding accuracy and UI generation quality. In this paper, we introduce UI-UG (a unified MLLM for UI Understanding and Generation), integrating both capabilities. For understanding tasks, we employ Supervised Fine-tuning (SFT) combined with Group Relative Policy Optimization (GRPO) to enhance fine-grained understan...

ID: 2509.24361v2 cs.CV, cs.AI, cs.HC

arXiv PDF

📄 Lightweight Structured Multimodal Reasoning for Clinical Scene Understanding in Robotics

2025-09-30

Авторы:

Saurav Jha, Stefan K. Ehrlich

#### Контекст Область робототехники в медицине становится все более важной для обеспечения безопасности и эффективности в динамичных клинических средах. Необходима внедрение развитых возможностей мультимодального понимания и рассуждения для адекватного взаимодействия роботов с окружающим миром. Несмотря на прогресс в области Vision-Language Models (VLMs), они до сих пор имеют ограничения в области логического и временного рассуждения, оценки неопределенности, а также в поддержке структурированных выводов, необходимых для точного робототехнического планирования. Эта статья предлагает новую модель, способную работать с видео и текстом и обеспечивающую структурированный вывод, чтобы улучшить понимание клинических сценариев в робототехнике. #### Метод Предложенная модель сочетает в себе Qwen2.5-VL-3B-Instruct с моделью SmolAgent. Модель Qwen2.5-VL-3B-Instruct обеспечивает сильную обработку текста и изображений, а SmolAgent добавляет свойства агентской модели, включая цепочки мыслей (chain-of-thought) и динамичную вызов функций. Модель включает гибкую систему восстановления информации, позволяющую адаптироваться к различным видам аналогичных данных. Кроме того, она использует гибридную систему смысловой разборки, которая позволяет строить структурированные графы сцены и анализировать видео поток в реальном времени. Эта архитектура позволяет роботу выполнять более точные и адаптивные операции в клинических условиях. #### Результаты На платформе Video-MME и на определенной клинической выборке, модель показала высокую точность и стабильность в сравнении с современными VLMs. Она существенно улучшила способность робота понимать видео-сценарии в реальном времени, оценивать неопределенность, и применять структурированные выводы для точного планирования действий. Результаты показывают, что модель превосходит текущие модели по метрикам точности и устойчивости в клинических условиях. Это указывает на сильный потенциал модели в применении к робототехнике в медицине, включая роботов-хирургов и системы мониторинга пациентов. #### Значимость Предлагаемая модель имеет широкие возможности применения в медицинской робототехнике, в том числе в таких областях, как роботовая хирургия, мониторинг пациентов и поддержка клинических решений. Ее особенностью является возможность гибкого интерактивного взаимодействия, что позволяет роботу еще более эффективно участвовать в клинических процессах. Модель также может повысить безопасность и эффективность в клинической практике, особенно при работе с нестандартными или неоднозначными ситуаци

Annotation:

Healthcare robotics requires robust multimodal perception and reasoning to ensure safety in dynamic clinical environments. Current Vision-Language Models (VLMs) demonstrate strong general-purpose capabilities but remain limited in temporal reasoning, uncertainty estimation, and structured outputs needed for robotic planning. We present a lightweight agentic multimodal framework for video-based scene understanding. Combining the Qwen2.5-VL-3B-Instruct model with a SmolAgent-based orchestration la...

ID: 2509.22014v1 cs.CV, cs.AI, cs.HC, cs.RO

arXiv PDF

📄 SpiderNets: Estimating Fear Ratings of Spider-Related Images with Vision Models

2025-09-09

Авторы:

Dominik Pegler, David Steyrl, Mengfan Zhang, Alexander Karner, Jozsef Arato, Frank Scharnowski, Filip Melinscak

## Контекст Боязнь ловкости (arachnophobia) — одна из наиболее распространенных фобий, влияющая на качество жизни и мотивацию к лечению у большинства пациентов. Обычно для снижения этой боязни используется классическая терапия, но выявление эффективных визуальных стимулов и их динамическое настройирование в процессе лечения могут ускорить процесс. Экспозурная терапия, воспользовавшись структурированным набором визуальных стимулов, может быть оптимизирована, если модели ИИ смогут точно предсказывать потенциальное потребление страху от изображений. В настоящем исследовании мы исследовали возможность использования предобученных зрения-моделей для точного предсказания человеческих оценок страха от спидер-связанных изображений. ## Метод Мы использовали три различных предобученные компьютерно-визуальные модели, которые были дообучены для предсказания человеческих оценок страха от спидер-связанных изображений (на шкале от 0 до 100). Модели были обучены с использованием переобучения (transfer learning) на наших данных. Мы провели кросс-валидацию, чтобы оценить точность предсказаний. Для анализа интерпретируемости моделей мы провели оценки, показав, какие части изображений влияют на предсказания. Для категорий-ошибок мы проанализировали условия, приводящие к высоким ошибкам (например, дальние виды, изображения с артефактами). ## Результаты Мы достигли среднего значения матожидания абсолютной ошибки (MAE) в пределах от 10.1 до 11.0. Наши результаты показали, что уменьшение размера обучающей выборки значительно повлияло на точность модели, но при увеличении данных не было значительных улучшений. Изучение зрения отдельных категорий показало, что модели становятся менее точными при дальних видах и изображениях с артефактами. ## Значимость Наши результаты указывают на потенциал использования предобученных моделей зрения для предсказания страха от визуальных стимулов в целях лечения. Это может позволить повысить эффективность терапии, предоставив данные для динамического регулирования террапийных материалов. Ценность этого подхода также заключается в том, что модели могут быть объяснены, что значительно улучшает доверие к их результатам. ## Выводы Мы показали, что предобученные модели зрения могут точно предсказать человеческие оценки страха в отношении спидер-связанных изображений. Наши результаты подкрепляют роль моделей зрения в клинических приложениях, связанных с терапией страха. Мы также выделили необходимость увеличивать размер обучающих данных для повышения точности и улучшать модели с учетом

Annotation:

Advances in computer vision have opened new avenues for clinical applications, particularly in computerized exposure therapy where visual stimuli can be dynamically adjusted based on patient responses. As a critical step toward such adaptive systems, we investigated whether pretrained computer vision models can accurately predict fear levels from spider-related images. We adapted three diverse models using transfer learning to predict human fear ratings (on a 0-100 scale) from a standardized dat...

ID: 2509.04889v1 cs.CV, cs.AI, cs.HC, cs.LG

arXiv PDF

Показано 11 - 20 из 27 записей