📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 NeuroSwift: A Lightweight Cross-Subject Framework for fMRI Visual Reconstruction of Complex Scenes

2025-10-04

Авторы:

Shiyi Zhang, Dong Liang, Yihang Zhou

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Reconstructing visual information from brain activity via computer vision technology provides an intuitive understanding of visual neural mechanisms. Despite progress in decoding fMRI data with generative models, achieving accurate cross-subject reconstruction of visual stimuli remains challenging and computationally demanding. This difficulty arises from inter-subject variability in neural representations and the brain's abstract encoding of core semantic features in complex visual inputs. To a...

ID: 2510.02266v1 cs.CV, cs.HC

arXiv PDF

📄 Editing Physiological Signals in Videos Using Latent Representations

2025-10-02

Авторы:

Tianwen Zhou, Akshay Paruchuri, Josef Spjut, Kaan Akşit

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Camera-based physiological signal estimation provides a non-contact and convenient means to monitor Heart Rate (HR). However, the presence of vital signals in facial videos raises significant privacy concerns, as they can reveal sensitive personal information related to the health and emotional states of an individual. To address this, we propose a learned framework that edits physiological signals in videos while preserving visual fidelity. First, we encode an input video into a latent space vi...

ID: 2509.25348v2 cs.CV, cs.HC, cs.MM

arXiv PDF

📄 VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing

2025-09-30

Авторы:

Ke Wang, Houxing Ren, Zimu Lu, Mingjie Zhan, Hongsheng Li

## Контекст Voice-first AI assistants, возникшие в свете развития крупных языковых моделей и мультимодальных систем, предлагают новые возможности для взаимодействия через голос. Однако текущие бенчмарки не могут полностью охватить их разнообразные способности, ограничиваясь одним или несколькими аспектами. Например, существующие бенчмарки могут оценивать только способность распознавания речи или дорожного знака, но не могут оценить взаимодействие между этими способностями. Для более полного исследования ряда трудностей, связанных с многомодальными системами (например, обработка звука и визуальных данных вместе), необходимо новый подход к оценке. Одним из ключевых вопросов является то, могут ли мелкие модели соответствовать большим в области мультимодальных возможностей. Данный рабочий ход включает в себя изучение возможностей мультимодальных AI-моделей в сценариях, основанных на реальных задачах, позволяя протестировать их с помощью задач, которые требуют использования нескольких модальностей. ## Метод VoiceAssistant-Eval представляет собой новый подход к оценке мультимодальных AI-моделей. Он представляет 13 задач, разделенных на три категории: **"Listening"** (слушание), **"Speaking"** (говорение) и **"Viewing"** (видение). Задачи в каждой категории включают разные сценарии, такие как распознавание различных звуков, цифровой имитации голосов, ролевых игр и визуальной обработки изображений. Каждая задача имеет свой собственный набор данных, который может включать сложные реальные сценарии и визуальные данные. Бенчмарк отличается тем, что он использует 10,497 акуратно подготовленных примеров для тестирования, что позволяет оценить качество ответов моделей на различных типах задач, включая многоключевые диалоги, анализ звука и визуальное восприятие. Этот подход позволяет протестировать как количественные аспекты (например, точность распознавания), так и качественные аспекты (например, естественность реплик) моделей. ## Результаты VoiceAssistant-Eval был протестирован на 21 моделях, включая 20 опен-сорсных моделей и одну проприетарную модель GPT-4o-Audio. Результаты показали, что некоторые модели, даже если они меньше, могут показать лучшую производительность по сравнению с более крупными моделями. Например, модель Step-Audio-2-mini (7B) показала более двойной точности распознавания звука по сравнению с LLaMA-Omni2-32B-Bilingual. Однако были выявлены трудности в обработке мультимодальных входных данных (звук + вид) и ролевых имитаций голоса. Было также выявлено, что некоторые модели, несмотря на их простоту, выдают результаты, которые сопоставимы с

Annotation:

The growing capabilities of large language models and multimodal systems have spurred interest in voice-first AI assistants, yet existing benchmarks are inadequate for evaluating the full range of these systems' capabilities. We introduce VoiceAssistant-Eval, a comprehensive benchmark designed to assess AI assistants across listening, speaking, and viewing. VoiceAssistant-Eval comprises 10,497 curated examples spanning 13 task categories. These tasks include natural sounds, music, and spoken dia...

ID: 2509.22651v1 cs.CL, cs.AI, cs.CV, cs.HC, cs.SD

arXiv PDF

📄 Queryable 3D Scene Representation: A Multi-Modal Framework for Semantic Reasoning and Robotic Task Planning

2025-09-26

Авторы:

Xun Li, Rodrigo Santa Cruz, Mingze Xi, Hu Zhang, Madhawa Perera, Ziwei Wang, Ahalya Ravendran, Brandon J. Matthews, Feng Xu, Matt Adcock, Dadong Wang, Jiajun Liu

## Контекст В последние годы наблюдается стремительное развитие робототехники и искусственного интеллекта, которое открыло новые возможности для интерактивного взаимодействия с трехмерными средами. Однако полноценное понимание инструкций в человеческом языке и их перевод на конкретные действия для роботов в трехмерных средах остается сложной задачей. Особенностью этой проблемы является необходимость объединения геометрической структуры окружающей среды с ее семантическим описанием. Эта связанность необходима для точного выполнения команд, включая поиск предметов, перемещения и выполнения комплексных задач. На данный момент существуют попытки объединить эти аспекты, однако они либо ограничены в объеме данных, либо недостаточно эффективны в выполнении сложных задач. ## Метод Мы предлагаем новую методологию, которая объединяет три ключевых аспекта трехмерного представления окружающей среды: 1. **3D-consistent novel view rendering and segmentation**: Эта часть позволяет построить точный трехмерный рендеринг среды с использованием методов реконструкции и сегментации. Она обеспечивает геометрическую точность и позволяет идентифицировать объекты в среде. 2. **Precise geometry from 3D point clouds**: Использование точечных облаков для построения точных геометрических моделей среды, что позволяет использовать эти модели для роботов в задачах планирования. 3. **Structured, scalable organization via 3D scene graphs**: Организация среды в виде графов с объектами, свойствами и их взаимосвязями, чтобы эффективно организовать информацию о среде. Также мы интегрировали этот фреймворк с большими моделями зрения-языка (Vision-Language Models, VLM), что позволяет выполнять семантические запросы и получать объектно-уровневую информацию о геометрии, визуальных признаках и семантических описаниях. ## Результаты Мы проверили нашу модель в двух сценариях: 1. **Simulated robotic task planning in Unity**: Мы использовали симулятор Unity и эксперименты на основе научной базы данных Replica. Здесь мы проверяли возможность нашего фреймфорка понимать и выполнять команды в симулированной среде. 2. **Wet lab environment**: Мы применили нашу модель в реальной среде лаборатории, где робот должен выполнять задачи, такие как поиск инструментов или материалов в условиях ограниченного времени. Результаты показали, что наш фреймворк эффективно объединяет геометрию и семантику, что позволяет роботу понимать и выполнять сложные задачи в трехмерных средах. Мы также наблюдали улучшение в точности выполнения задач при использовании нашей модели в сравнении с другими подходами. ## Значимость Наш фреймворк имеет широкие применения в сферах, таких как робо

Annotation:

To enable robots to comprehend high-level human instructions and perform complex tasks, a key challenge lies in achieving comprehensive scene understanding: interpreting and interacting with the 3D environment in a meaningful way. This requires a smart map that fuses accurate geometric structure with rich, human-understandable semantics. To address this, we introduce the 3D Queryable Scene Representation (3D QSR), a novel framework built on multimedia data that unifies three complementary 3D rep...

ID: 2509.20077v1 cs.RO, cs.CV, cs.HC

arXiv PDF

📄 UIPro: Unleashing Superior Interaction Capability For GUI Agents

2025-09-24

Авторы:

Hongxin Li, Jingran Su, Jingfan Chen, Zheng Ju, Yuntao Chen, Qing Li, Zhaoxiang Zhang

## Контекст Графические пользовательские интерфейсы (GUI) широко используются в современных технологиях и требуют сложных интерактивных механизмов для эффективного взаимодействия. Автоматизация процессов, взаимодействия с GUI и создание грамотных агентов для этих задач являются ключевыми задачами в области машинного обучения и искусственного интеллекта. Однако существующие методы сталкиваются с ограниченными сценариями, недостаточным размером данных и хетерогенностью пространств действий. Эти факторы существенно сковывают возможности создания общих агентов GUI, которые могли бы оперировать в различных средах и случаях. Мотивация заключается в разработке универсальной системы, которая может выполнять различные задачи взаимодействия с GUI, обеспечивая унифицированное понимание и решение. ## Метод "UIPro" является разработанным агентом GUI, обученным с использованием обширного набора данных, включающих 20.6 миллионов задач по пониманию GUI. Этот набор данных обеспечивает сильную возможность понимания GUI, которая является ключевой для развития задач, основанных на взаимодействии с GUI. Для решения проблемы хетерогенности пространств действий была предложена архитектура, позволяющая объединить различные данные задач в единое пространство действий. Это позволяет агенту обучаться в условиях разнообразных сценариев и задач. Для тренировки и оценки использовалось широкое количество многофункциональных и многоплатформенных данных, которые обеспечивают рост гибкости и обобщаемости агента. ## Результаты Набор экспериментов был проведен на различных GUI-задачах, включающих понимание интерфейсов, планирование действий и выполнение задач в различных средах. Результаты показали, что UIPro превосходит другие методы по многим показателям, включая точность понимания и корректность выполнения задач. Данные результаты были получены на разных платформах и сценариях, что подтверждает универсальность и эффективность предложенной модели. ## Значимость Предложенная модель имеет широкие применения в области автоматизации GUI, реализации систем автоматического взаимодействия и улучшения интерактивных процессов. Основные преимущества UIPro заключаются в универсальной архитектуре, обеспечивающей гибкость и мощь обработки различных типов задач. Это может привести к повышению эффективности в различных сферах применения, включая технологии помощников, управления и диагностику. ## Выводы Результаты показали, что UIPro является мощным инструментом для решения задач взаимодействия с GUI и может значительно повысить эффективность в различных сценариях примен

Annotation:

Building autonomous agents that perceive and operate graphical user interfaces (GUIs) like humans has long been a vision in the field of artificial intelligence. Central to these agents is the capability for GUI interaction, which involves GUI understanding and planning capabilities. Existing methods have tried developing GUI agents based on the multi-modal comprehension ability of vision-language models (VLMs). However, the limited scenario, insufficient size, and heterogeneous action spaces hi...

ID: 2509.17328v1 cs.CV, cs.HC

arXiv PDF

📄 From Development to Deployment of AI-assisted Telehealth and Screening for Vision- and Hearing-threatening diseases in resource-constrained settings: Field Observations, Challenges and Way Forward

2025-09-23

Авторы:

Mahesh Shakya, Bijay Adhikari, Nirsara Shrestha, Bipin Koirala, Arun Adhikari, Prasanta Poudyal, Luna Mathema, Sarbagya Buddhacharya, Bijay Khatri, Bishesh Khanal

#################### ## Контекст #################### Проблемы с зрением и слухом, вызванные визуально- и слуховыми заболеваниями, являются значимым источником инвалидности в многих регионах, особенно в ресурсо-ограниченных средах (Resource-Constrained Settings, RCS). Эти регионы часто страдают от недостатка специалистов и недостаточного количества средств для раннего диагностирования. Большинство заболеваний могут быть устранены или хотя бы существенно смягчены при раннем выявлении, однако в RCS широко распространены бумажные рабочие процессы и недостаточное использование технологий. AI-assisted telehealth и массовое скрининговое знакомство с этой технологией могут стать решением для раннего выявления, но перенос таких программ в реальные условия оказывается сложным. Документированный опыт построения таких программ в реальных условиях ограничен, что создает проблемы при построении эффективных, удобных и доступных виртуальных платформ. Наша исследовательская группа стремится раскрыть главные задачи и определить направления для успешной реализации AI-assisted telehealth и массового скрининга в RCS. #################### ## Метод #################### Мы применяли итеративный подход, включающий early prototyping, shadow deployment (незаметное развертывание для оценки реальных условий) и continuous feedback (постоянный обмен обратной связью). Эти методы позволили улучшить рабочие процессы, снизить риски знакомства с новыми технологиями и увеличить удобство их применения. Мы работали с общедоступными данными и моделями AI, которые, несмотря на свои ограничения в условиях RCS, оказались полезными. Это позволило нам идентифицировать необходимые решения для обеспечения высокого качества изображений и повышения точности диагностических моделей. Мы также разработали автоматические инструменты для проверки качества изображений, чтобы улучшить их готовность для дальнейшего анализа. #################### ## Результаты #################### Мы проводили эксперименты в реальных условиях, используя данные, собранные на массовых мероприятиях в RCS. Наши результаты показали, что iterative co-design (интерактивная разработка) и постоянное обновление рабочих процессов существенно повышают эффективность и доступность AI-assisted telehealth. Мы отметили, что существующие общедоступные данные и модели AI, несмотря на их ограничения, являются полезными для обучения и оценки качества. Однако мы заметили, что их точность может быть снижена из-за потерь при переходе на новые условия. Мы также показали, что необходимость в автоматических инструментах для проверки качества изображений, чтобы обеспечить точность диагностики в высоком объеме. #################### ## Значимость #################### Наши находки имеют важное значение для многих областей, включая здравоохранение, информатизацию здравоохранения и развитие AI в

Annotation:

Vision- and hearing-threatening diseases cause preventable disability, especially in resource-constrained settings(RCS) with few specialists and limited screening setup. Large scale AI-assisted screening and telehealth has potential to expand early detection, but practical deployment is challenging in paper-based workflows and limited documented field experience exist to build upon. We provide insights on challenges and ways forward in development to adoption of scalable AI-assisted Telehealth a...

ID: 2509.15558v1 cs.CV, cs.HC

arXiv PDF

📄 Simulating Clinical AI Assistance using Multimodal LLMs: A Case Study in Diabetic Retinopathy

2025-09-18

Авторы:

Nadim Barakat, William Lotter

#### Контекст Диабетическая ретинопатия (DR) является одной из наиболее распространенных причин слепоты в мире. Для ее диагностики используется фотография фонда глаза, но существующие АИ-системы, одобренные FDA, ограничиваются простыми бинарными рекомендациями (например, референс или нет). Этот ограниченный формат вывода ограничивает доверие к системам среди клинических специалистов и повышает риск упущений диагноза. В этом контексте возникает вопрос о том, какой формат вывода лучше всего повышает эффективность взаимодействия клиниканта с системой AI. Однако определить эффективность разных форматов вывода в разных условиях является сложной задачей, которую трудно проверить в масштабах. В настоящем исследовании мы исследовали возможности многомодальных large language models (MLLMs) для решения этой проблемы. #### Метод Для эмуляции AI-помощника в диагностике DR мы использовали две модели: GPT-4o (общего назначения) и MedGemma (специализированная модель для медицины). Мы провели три эксперимента: 1. **Базовая оценка** — сравнение моделей на двух наборах данных (IDRiD и Messidor-2). 2. **Симуляция AI-помощи** — искусственные предсказания, вводимые в модели, чтобы эмулировать работу AI-системы. 3. **AI-to-AI коллаборация** — использование выводов GPT-4o в качестве ввода для MedGemma и наоборот. Мы использовали различные форматы вывода: от простых бинарных предсказаний до подробных диагностических отчетов. Таким образом, мы проанализировали, какие форматы вывода наиболее эффективны для повышения доверия к системе и улучшения диагностической точности. #### Результаты MedGemma показала лучший базовый результат, выдавая более высокую точность и AUROC по сравнению с GPT-4o. Однако GPT-4o показал высокую специфичность, но с малой чувствительностью. В экспериментах с симуляцией, MedGemma была более устойчивой к ошибкам в вводе, в то время как GPT-4o сильно страдала от неверных вводов. Наконец, в AI-to-AI коллаборации, GPT-4o демонстрировал выдающиеся результаты, когда работал со структурированными и подробными выводами MedGemma. Это указывает на то, что MLLMs могут улучшить циклы диагностики DR, а также служить моделями для эмуляции различных форматов взаимодействия AI с клиникантом. #### Значимость Наши результаты показывают, что MLLMs могут значительно улучшить существующие пайплайны диагностики DR, делая их более точными и доверительными. Модели, такие как MedGemma, могут быть особенно полезны в более низкообеспеченных регионах, где доступ к специалистам ограничен. Более подробные и описательные выводы могут повысить доверие

Annotation:

Diabetic retinopathy (DR) is a leading cause of blindness worldwide, and AI systems can expand access to fundus photography screening. Current FDA-cleared systems primarily provide binary referral outputs, where this minimal output may limit clinical trust and utility. Yet, determining the most effective output format to enhance clinician-AI performance is an empirical challenge that is difficult to assess at scale. We evaluated multimodal large language models (MLLMs) for DR detection and their...

ID: 2509.13234v1 cs.AI, cs.CV, cs.HC

arXiv PDF

📄 DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation

2025-09-09

Авторы:

Hao-Shu Fang, Branden Romero, Yichen Xie, Arthur Hu, Bo-Ruei Huang, Juan Alvarez, Matthew Kim, Gabriel Margolis, Kavya Anbarasu, Masayoshi Tomizuka, Edward Adelson, Pulkit Agrawal

## Контекст Дексторальное манипулирование является ключевым аспектом во многих прикладных задачах, включая производство, робототехнику и здравоохранение. Однако создание роботов, способных выполнять такие задачи с высокой точностью и эффективностью, остается вызовом. Одной из основных проблем является нехватка эффективных методов для сбора и передачи человеческих дексторальных навыков на роботов. Данные, собираемые с помощью телеоперационных систем, часто неэффективны, поскольку не учитывают человеческие возможности и ограничения. Существуют необходимость и мотивация для разработки систем, которые были бы более естественными для человеческих пользователей и более передаваемыми для роботов. ## Метод DEXOP (Device for Robotic Transfer of Dexterous Human Manipulation) представляет собой устройство, позволяющее сенсоризировать и записывать человеческое дексторальное манипулирование, максимизируя его передачу на роботов. Это устройство — пассивная рукоятка-экзоскелет, которая способствует максимальному использованию человеческих возможностей для сбора данных с высокой плотностью сенсорной информации (вид + тактильная информация). Дексторный экзоскелет связывает человеческие пальцы с роботскими пальцами, что позволяет пользователю получать ощущение владения и визуально видеть роботскую руку, которая повторяет его движения. Это устройство также предоставляет пользователю силовую обратную связь, что делает демонстрации задач более естественными по сравнению с телеоперацией. Эти характеристики улучшают точность и скорость демонстраций. ## Результаты Работа подтверждает высокую эффективность DEXOP в сборе данных для дексторальных задач. Наборы данных, собранные с помощью DEXOP, позволяют роботам выполнять задачи с меньшим количеством данных и с меньшими ошибками. Эксперименты показали, что роботы, обученные на данных DEXOP, демонстрируют значительно более высокую производительность по сравнению с телеоперацией. Это делает DEXOP эффективной системой для улучшения дексторальной робототехники. ## Значимость DEXOP может применяться в широком кругу областей, включая сбор данных для обучения роботов, инструментальное манипулирование, роботизированные лечебные процедуры и упаковка. Он предлагает несколько преимуществ: удобство использования для пользователей, улучшение точности и скорости демонстраций, а также передаваемость данных для роботов. Его потенциал заключается в том, что он может существенно улучшить эффективность и точность в различных прикладных задачах, а также способствовать развитию робототехники в области дексторального манипулирования. ## Вывод

Annotation:

We introduce perioperation, a paradigm for robotic data collection that sensorizes and records human manipulation while maximizing the transferability of the data to real robots. We implement this paradigm in DEXOP, a passive hand exoskeleton designed to maximize human ability to collect rich sensory (vision + tactile) data for diverse dexterous manipulation tasks in natural environments. DEXOP mechanically connects human fingers to robot fingers, providing users with direct contact feedback (vi...

ID: 2509.04441v2 cs.RO, cs.AI, cs.CV, cs.HC

arXiv PDF

📄 SparkUI-Parser: Enhancing GUI Perception with Robust Grounding and Parsing

2025-09-09

Авторы:

Hongyi Jing, Jiafu Chen, Chen Rao, Ziqiang Dang, Jiajie Teng, Tianyi Chu, Juncheng Mo, Shuo Fang, Huaizhong Lin, Rui Lv, Chenguang Ma, Lei Zhao

#### Контекст Multimodal Large Language Models (MLLMs) представляют собой мощный инструмент для обработки информации, объединяя текстовые данные с другими видами данных. Одна из перспективных областей использования MLLMs — обработка интерфейсов пользователей (GUI). Несмотря на прогресс, достигнутый существующими решениями, существуют недостатки. Многие методы оперируют дискретными координатами, используя авторегрессионные механизмы, что приводит к низкой точности локализации и дорогостоящему времени выполнения. Кроме того, эти модели способны распознавать только предопределенные элементы, не обладая возможностью полного парсинга интерфейса. Это ограничивает их применение в различных сценариях и ограничивает потенциал для поддержки подсистемных задач. Наша цель — разработать систему, обеспечивающую высокую точность и гибкость в распознавании интерфейсов. #### Метод Мы предлагаем SparkUI-Parser — новую модель, которая обеспечивает полный парсинг интерфейса и высокую точность локализации. Модель основывается на предварительно обученном MLLM и имеет два ключевых компонента: **токен-руссет** и **координатный декодер**. Вместо дискретного моделирования координат, SparkUI-Parser использует непрерывное моделирование, что позволяет избежать ограничений авторегрессионных методов. Для улучшения стабильности ввода вводится **режим реагирования**, основанный на модифицированном алгоритме Ханжамана. Это позволяет модели отбрасывать несуществующие элементы, уменьшая ложные срабатывания. Также мы представляем **ScreenParse**, новую базу данных для оценки структурного распознавания GUI, которая позволяет сравнивать модели в различных сценариях. #### Результаты Мы провели ряд экспериментов на множестве задач, включая ScreenSpot, ScreenSpot-v2, CAGUI-Grounding и ScreenParse. Модель SparkUI-Parser показала значительное превосходство по сравнению с состоянием технологий (SOTA) во всех этих зонах. Она достигла высокой точности локализации, быстроты выполнения и общей гибкости при обработке различных типов интерфейсов. Эксперименты подтвердили, что наш подход не только повышает точность, но и увеличивает скорость работы, что делает его применимым для реального времени. #### Значимость SparkUI-Parser может быть применен в различных областях, где требуется автоматизированное распознавание интерфейсов, например, в системах автоматического тестирования, видеоидентификации и разработке пользовательских интерфейсов. Он предлагает ряд преимуществ, включая высокую точность, быстроту и гибкость. Благодаря этому, модель может существенно улучшить производительность и надежность приложений, основанных на распозна

Annotation:

The existing Multimodal Large Language Models (MLLMs) for GUI perception have made great progress. However, the following challenges still exist in prior methods: 1) They model discrete coordinates based on text autoregressive mechanism, which results in lower grounding accuracy and slower inference speed. 2) They can only locate predefined sets of elements and are not capable of parsing the entire interface, which hampers the broad application and support for downstream tasks. To address the ab...

ID: 2509.04908v1 cs.AI, cs.CL, cs.CV, cs.HC

arXiv PDF

📄 DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation

2025-09-06

Авторы:

Hao-Shu Fang, Branden Romero, Yichen Xie, Arthur Hu, Bo-Ruei Huang, Juan Alvarez, Matthew Kim, Gabriel Margolis, Kavya Anbarasu, Masayoshi Tomizuka, Edward Adelson, Pulkit Agrawal

## Контекст Проблема передачи роботом человеческих декстерных манипуляций остается значитейшей темой в робототехнике. Однако существующие подходы, такие как телеоперация и машинное обучение с подкреплением, имеют ограничения в скорости и точности передачи навыков. Для улучшения этих процессов необходимо создать систему, позволяющую эффективно записывать и передавать человеческие действия на роботы. ## Метод DEXOP (Device for Robotic Transfer of Dexterous Human Manipulation) — это прогрессивный инструмент, который соединяет руки человека и робота механически. Он предлагает несколько ключевых преимуществ: полная совместимость с декстерными руками человека, реальное воспроизведение человеческого мотива в роботе, высококачественный контактный обзор и силовые отзывы. DEXOP способен записывать человеческие действия в различных естественных условиях, увеличивая скорость и точность передачи навыков на робота. ## Результаты Для оценки DEXOP проводились эксперименты с различными декстерными задачами, такими как скребение, сборка и здоровье. Данные, полученные с DEXOP, были использованы для обучения роботу выполнять эти задачи. Результаты показали, что робот, обученный на этих данных, демонстрирует значительное улучшение в скорости и точности выполнения задач по сравнению с телеоперацией. Например, в задаче скребения, робот, используя DEXOP, работал на 20% быстрее, чем при телеоперации. ## Значимость DEXOP открывает широкие перспективы в области передачи декстерной деятельности человека на робота. Он может применяться в различных сферах, включая производство, здравоохранение и домашние роботы. Например, в производстве DEXOP может помочь роботам изготавливать точные движения, в здравоохранении — обеспечить более точные медицинские техники, а в домашних роботах — упростить задачи, такие как уборка и кулинария. ## Выводы DEXOP представляет собой новый подход к передаче человеческих декстерных навыков на роботы. Он подтвердил свою эффективность в ряде задач и демонстрирует потенциал для улучшения передачи навыков в робототехнике. Будущие исследования будут сосредоточены на увеличении точности, улучшении параллелизма между рукой человека и роботом, а также расширении возможностей DEXOP для более сложных задач.

Annotation:

ID: 2509.04441v1 cs.RO, cs.AI, cs.CV, cs.HC

arXiv PDF

Показано 31 - 40 из 54 записей