📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 See-Control: A Multimodal Agent Framework for Smartphone Interaction with a Robotic Arm

2025-12-10

Авторы:

Haoyu Zhao, Weizhong Ding, Yuhao Yang, Zheng Tian, Linyi Yang, Kun Shao, Jun Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent advances in Multimodal Large Language Models (MLLMs) have enabled their use as intelligent agents for smartphone operation. However, existing methods depend on the Android Debug Bridge (ADB) for data transmission and action execution, limiting their applicability to Android devices. In this work, we introduce the novel Embodied Smartphone Operation (ESO) task and present See-Control, a framework that enables smartphone operation via direct physical interaction with a low-DoF robotic arm, ...

ID: 2512.08629v1 cs.AI, cs.CV, cs.HC

arXiv PDF

📄 Learning with Category-Equivariant Representations for Human Activity Recognition

2025-11-07

Авторы:

Yoshihiro Maruyama

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Human activity recognition is challenging because sensor signals shift with context, motion, and environment; effective models must therefore remain stable as the world around them changes. We introduce a categorical symmetry-aware learning framework that captures how signals vary over time, scale, and sensor hierarchy. We build these factors into the structure of feature representations, yielding models that automatically preserve the relationships between sensors and remain stable under realis...

ID: 2511.00900v1 cs.LG, cs.AI, cs.CV, cs.HC

arXiv PDF

📄 Using Salient Object Detection to Identify Manipulative Cookie Banners that Circumvent GDPR

2025-11-04

Авторы:

Riley Grossman, Michael Smith, Cristian Borcea, Yi Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The main goal of this paper is to study how often cookie banners that comply with the General Data Protection Regulation (GDPR) contain aesthetic manipulation, a design tactic to draw users' attention to the button that permits personal data sharing. As a byproduct of this goal, we also evaluate how frequently the banners comply with GDPR and the recommendations of national data protection authorities regarding banner designs. We visited 2,579 websites and identified the type of cookie banner im...

ID: 2510.26967v1 cs.CY, cs.AI, cs.CV, cs.HC

arXiv PDF

📄 Identifying & Interactively Refining Ambiguous User Goals for Data Visualization Code Generation

2025-10-14

Авторы:

Mert İnan, Anthony Sicilia, Alex Xie, Saujas Vaduguru, Daniel Fried, Malihe Alikhani

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Establishing shared goals is a fundamental step in human-AI communication. However, ambiguities can lead to outputs that seem correct but fail to reflect the speaker's intent. In this paper, we explore this issue with a focus on the data visualization domain, where ambiguities in natural language impact the generation of code that visualizes data. The availability of multiple views on the contextual (e.g., the intended plot and the code rendering the plot) allows for a unique and comprehensive a...

ID: 2510.09390v1 cs.CL, cs.AI, cs.CV, cs.HC, cs.MA

arXiv PDF

📄 VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing

2025-09-30

Авторы:

Ke Wang, Houxing Ren, Zimu Lu, Mingjie Zhan, Hongsheng Li

## Контекст Voice-first AI assistants, возникшие в свете развития крупных языковых моделей и мультимодальных систем, предлагают новые возможности для взаимодействия через голос. Однако текущие бенчмарки не могут полностью охватить их разнообразные способности, ограничиваясь одним или несколькими аспектами. Например, существующие бенчмарки могут оценивать только способность распознавания речи или дорожного знака, но не могут оценить взаимодействие между этими способностями. Для более полного исследования ряда трудностей, связанных с многомодальными системами (например, обработка звука и визуальных данных вместе), необходимо новый подход к оценке. Одним из ключевых вопросов является то, могут ли мелкие модели соответствовать большим в области мультимодальных возможностей. Данный рабочий ход включает в себя изучение возможностей мультимодальных AI-моделей в сценариях, основанных на реальных задачах, позволяя протестировать их с помощью задач, которые требуют использования нескольких модальностей. ## Метод VoiceAssistant-Eval представляет собой новый подход к оценке мультимодальных AI-моделей. Он представляет 13 задач, разделенных на три категории: **"Listening"** (слушание), **"Speaking"** (говорение) и **"Viewing"** (видение). Задачи в каждой категории включают разные сценарии, такие как распознавание различных звуков, цифровой имитации голосов, ролевых игр и визуальной обработки изображений. Каждая задача имеет свой собственный набор данных, который может включать сложные реальные сценарии и визуальные данные. Бенчмарк отличается тем, что он использует 10,497 акуратно подготовленных примеров для тестирования, что позволяет оценить качество ответов моделей на различных типах задач, включая многоключевые диалоги, анализ звука и визуальное восприятие. Этот подход позволяет протестировать как количественные аспекты (например, точность распознавания), так и качественные аспекты (например, естественность реплик) моделей. ## Результаты VoiceAssistant-Eval был протестирован на 21 моделях, включая 20 опен-сорсных моделей и одну проприетарную модель GPT-4o-Audio. Результаты показали, что некоторые модели, даже если они меньше, могут показать лучшую производительность по сравнению с более крупными моделями. Например, модель Step-Audio-2-mini (7B) показала более двойной точности распознавания звука по сравнению с LLaMA-Omni2-32B-Bilingual. Однако были выявлены трудности в обработке мультимодальных входных данных (звук + вид) и ролевых имитаций голоса. Было также выявлено, что некоторые модели, несмотря на их простоту, выдают результаты, которые сопоставимы с

Annotation:

The growing capabilities of large language models and multimodal systems have spurred interest in voice-first AI assistants, yet existing benchmarks are inadequate for evaluating the full range of these systems' capabilities. We introduce VoiceAssistant-Eval, a comprehensive benchmark designed to assess AI assistants across listening, speaking, and viewing. VoiceAssistant-Eval comprises 10,497 curated examples spanning 13 task categories. These tasks include natural sounds, music, and spoken dia...

ID: 2509.22651v1 cs.CL, cs.AI, cs.CV, cs.HC, cs.SD

arXiv PDF

📄 Simulating Clinical AI Assistance using Multimodal LLMs: A Case Study in Diabetic Retinopathy

2025-09-18

Авторы:

Nadim Barakat, William Lotter

#### Контекст Диабетическая ретинопатия (DR) является одной из наиболее распространенных причин слепоты в мире. Для ее диагностики используется фотография фонда глаза, но существующие АИ-системы, одобренные FDA, ограничиваются простыми бинарными рекомендациями (например, референс или нет). Этот ограниченный формат вывода ограничивает доверие к системам среди клинических специалистов и повышает риск упущений диагноза. В этом контексте возникает вопрос о том, какой формат вывода лучше всего повышает эффективность взаимодействия клиниканта с системой AI. Однако определить эффективность разных форматов вывода в разных условиях является сложной задачей, которую трудно проверить в масштабах. В настоящем исследовании мы исследовали возможности многомодальных large language models (MLLMs) для решения этой проблемы. #### Метод Для эмуляции AI-помощника в диагностике DR мы использовали две модели: GPT-4o (общего назначения) и MedGemma (специализированная модель для медицины). Мы провели три эксперимента: 1. **Базовая оценка** — сравнение моделей на двух наборах данных (IDRiD и Messidor-2). 2. **Симуляция AI-помощи** — искусственные предсказания, вводимые в модели, чтобы эмулировать работу AI-системы. 3. **AI-to-AI коллаборация** — использование выводов GPT-4o в качестве ввода для MedGemma и наоборот. Мы использовали различные форматы вывода: от простых бинарных предсказаний до подробных диагностических отчетов. Таким образом, мы проанализировали, какие форматы вывода наиболее эффективны для повышения доверия к системе и улучшения диагностической точности. #### Результаты MedGemma показала лучший базовый результат, выдавая более высокую точность и AUROC по сравнению с GPT-4o. Однако GPT-4o показал высокую специфичность, но с малой чувствительностью. В экспериментах с симуляцией, MedGemma была более устойчивой к ошибкам в вводе, в то время как GPT-4o сильно страдала от неверных вводов. Наконец, в AI-to-AI коллаборации, GPT-4o демонстрировал выдающиеся результаты, когда работал со структурированными и подробными выводами MedGemma. Это указывает на то, что MLLMs могут улучшить циклы диагностики DR, а также служить моделями для эмуляции различных форматов взаимодействия AI с клиникантом. #### Значимость Наши результаты показывают, что MLLMs могут значительно улучшить существующие пайплайны диагностики DR, делая их более точными и доверительными. Модели, такие как MedGemma, могут быть особенно полезны в более низкообеспеченных регионах, где доступ к специалистам ограничен. Более подробные и описательные выводы могут повысить доверие

Annotation:

Diabetic retinopathy (DR) is a leading cause of blindness worldwide, and AI systems can expand access to fundus photography screening. Current FDA-cleared systems primarily provide binary referral outputs, where this minimal output may limit clinical trust and utility. Yet, determining the most effective output format to enhance clinician-AI performance is an empirical challenge that is difficult to assess at scale. We evaluated multimodal large language models (MLLMs) for DR detection and their...

ID: 2509.13234v1 cs.AI, cs.CV, cs.HC

arXiv PDF

📄 DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation

2025-09-09

Авторы:

Hao-Shu Fang, Branden Romero, Yichen Xie, Arthur Hu, Bo-Ruei Huang, Juan Alvarez, Matthew Kim, Gabriel Margolis, Kavya Anbarasu, Masayoshi Tomizuka, Edward Adelson, Pulkit Agrawal

## Контекст Дексторальное манипулирование является ключевым аспектом во многих прикладных задачах, включая производство, робототехнику и здравоохранение. Однако создание роботов, способных выполнять такие задачи с высокой точностью и эффективностью, остается вызовом. Одной из основных проблем является нехватка эффективных методов для сбора и передачи человеческих дексторальных навыков на роботов. Данные, собираемые с помощью телеоперационных систем, часто неэффективны, поскольку не учитывают человеческие возможности и ограничения. Существуют необходимость и мотивация для разработки систем, которые были бы более естественными для человеческих пользователей и более передаваемыми для роботов. ## Метод DEXOP (Device for Robotic Transfer of Dexterous Human Manipulation) представляет собой устройство, позволяющее сенсоризировать и записывать человеческое дексторальное манипулирование, максимизируя его передачу на роботов. Это устройство — пассивная рукоятка-экзоскелет, которая способствует максимальному использованию человеческих возможностей для сбора данных с высокой плотностью сенсорной информации (вид + тактильная информация). Дексторный экзоскелет связывает человеческие пальцы с роботскими пальцами, что позволяет пользователю получать ощущение владения и визуально видеть роботскую руку, которая повторяет его движения. Это устройство также предоставляет пользователю силовую обратную связь, что делает демонстрации задач более естественными по сравнению с телеоперацией. Эти характеристики улучшают точность и скорость демонстраций. ## Результаты Работа подтверждает высокую эффективность DEXOP в сборе данных для дексторальных задач. Наборы данных, собранные с помощью DEXOP, позволяют роботам выполнять задачи с меньшим количеством данных и с меньшими ошибками. Эксперименты показали, что роботы, обученные на данных DEXOP, демонстрируют значительно более высокую производительность по сравнению с телеоперацией. Это делает DEXOP эффективной системой для улучшения дексторальной робототехники. ## Значимость DEXOP может применяться в широком кругу областей, включая сбор данных для обучения роботов, инструментальное манипулирование, роботизированные лечебные процедуры и упаковка. Он предлагает несколько преимуществ: удобство использования для пользователей, улучшение точности и скорости демонстраций, а также передаваемость данных для роботов. Его потенциал заключается в том, что он может существенно улучшить эффективность и точность в различных прикладных задачах, а также способствовать развитию робототехники в области дексторального манипулирования. ## Вывод

Annotation:

We introduce perioperation, a paradigm for robotic data collection that sensorizes and records human manipulation while maximizing the transferability of the data to real robots. We implement this paradigm in DEXOP, a passive hand exoskeleton designed to maximize human ability to collect rich sensory (vision + tactile) data for diverse dexterous manipulation tasks in natural environments. DEXOP mechanically connects human fingers to robot fingers, providing users with direct contact feedback (vi...

ID: 2509.04441v2 cs.RO, cs.AI, cs.CV, cs.HC

arXiv PDF

📄 DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation

2025-09-06

Авторы:

Hao-Shu Fang, Branden Romero, Yichen Xie, Arthur Hu, Bo-Ruei Huang, Juan Alvarez, Matthew Kim, Gabriel Margolis, Kavya Anbarasu, Masayoshi Tomizuka, Edward Adelson, Pulkit Agrawal

## Контекст Проблема передачи роботом человеческих декстерных манипуляций остается значитейшей темой в робототехнике. Однако существующие подходы, такие как телеоперация и машинное обучение с подкреплением, имеют ограничения в скорости и точности передачи навыков. Для улучшения этих процессов необходимо создать систему, позволяющую эффективно записывать и передавать человеческие действия на роботы. ## Метод DEXOP (Device for Robotic Transfer of Dexterous Human Manipulation) — это прогрессивный инструмент, который соединяет руки человека и робота механически. Он предлагает несколько ключевых преимуществ: полная совместимость с декстерными руками человека, реальное воспроизведение человеческого мотива в роботе, высококачественный контактный обзор и силовые отзывы. DEXOP способен записывать человеческие действия в различных естественных условиях, увеличивая скорость и точность передачи навыков на робота. ## Результаты Для оценки DEXOP проводились эксперименты с различными декстерными задачами, такими как скребение, сборка и здоровье. Данные, полученные с DEXOP, были использованы для обучения роботу выполнять эти задачи. Результаты показали, что робот, обученный на этих данных, демонстрирует значительное улучшение в скорости и точности выполнения задач по сравнению с телеоперацией. Например, в задаче скребения, робот, используя DEXOP, работал на 20% быстрее, чем при телеоперации. ## Значимость DEXOP открывает широкие перспективы в области передачи декстерной деятельности человека на робота. Он может применяться в различных сферах, включая производство, здравоохранение и домашние роботы. Например, в производстве DEXOP может помочь роботам изготавливать точные движения, в здравоохранении — обеспечить более точные медицинские техники, а в домашних роботах — упростить задачи, такие как уборка и кулинария. ## Выводы DEXOP представляет собой новый подход к передаче человеческих декстерных навыков на роботы. Он подтвердил свою эффективность в ряде задач и демонстрирует потенциал для улучшения передачи навыков в робототехнике. Будущие исследования будут сосредоточены на увеличении точности, улучшении параллелизма между рукой человека и роботом, а также расширении возможностей DEXOP для более сложных задач.

Annotation:

ID: 2509.04441v1 cs.RO, cs.AI, cs.CV, cs.HC

arXiv PDF

📄 Towards Human-AI Collaboration System for the Detection of Invasive Ductal Carcinoma in Histopathology Images

2025-08-13

Авторы:

Shuo Han, Ahmed Karam Eldaly, Solomon Sunday Oyelere

#### Контекст Одна из наиболее распространенных форм рака молочной железы — инвазивный дукатский карцинома (IDC). Оперативное и точное диагностирование IDC является критически важной задачей для улучшения перспектив выживания пациентов и оптимизации терапии. Однако диагностика IDC часто сталкивается с вызовами, такими как многообразие сочетаний симптомов и неоднозначность в интерпретации клинических данных. Это открывает простор для развития новых методов, которые могут повысить точность диагностики. Использование глубокого обучения в сочетании с знаниями медицинских экспертов может стать мощным инструментом для улучшения роли AI в диагностике IDC. #### Метод Предлагаемая модель основывается на EfficientNetV2S — высокоэффективной сверточной нейронной сети. Эта модель используется в качестве основного диагностического средства для идентификации IDC в изображениях гистопатологии. Она предлагает первичную диагностику, которая последующим образом оценивается или корректируется медицинским экспертом. Для создания цикла взаимодействия между AI и человеком используется технология human-in-the-loop (HITL). В этой модели люди могут исправлять неточные диагнозы модели, и эти изменения включаются в обучающий набор данных. Эта модель обладает сверточной архитектурой и адаптивным обучением, что позволяет ей выполняться с высокой точностью и эффективностью. #### Результаты Модель EfficientNetV2S была протестирована на большом наборе данных исторических изображений. Она достигла без HITL-системы точности 93,65%. В экспериментальных испытаниях, в которых применялись исправления от людей, точность повысилась до 94,89% при использовании 4-х групп многообразия ключевых ошибок. Это показало, что HITL-система может значительно улучшить точность диагностики, при этом учитывая знания экспертов. Эти результаты демонстрируют потенциал комбинации AI и человеческих знаний для повышения точности в диагностике IDC. #### Значимость Предлагаемый подход может применяться в медицине для раннего и точного диагностирования IDC, что может существенно повысить вероятность успешного лечения. Он также может быть применен в других областях медицинской диагностики, где требуется высокая точность и быстрота. Система HITL улучшает стандарты проверки данных в медицине, обеспечивая более точный и эффективный подход. Этот подход может повлиять на будущие исследования в области AI-ассистированных диагностических систем, продвигая их в высокоточную и многоуровневую диагностику. #### Выводы В результате, текущая модель показывает перспективу в раз

Annotation:

Invasive ductal carcinoma (IDC) is the most prevalent form of breast cancer, and early, accurate diagnosis is critical to improving patient survival rates by guiding treatment decisions. Combining medical expertise with artificial intelligence (AI) holds significant promise for enhancing the precision and efficiency of IDC detection. In this work, we propose a human-in-the-loop (HITL) deep learning system designed to detect IDC in histopathology images. The system begins with an initial diagnosi...

ID: 2508.07875v1 eess.IV, cs.AI, cs.CV, cs.HC

arXiv PDF