📚 Саммари научных статей из arXiv

Найдено 54 результатов по запросу 'cs.CV, cs.HC' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 AppCopilot: Toward General, Accurate, Long-Horizon, and Efficient Mobile Agent

2025-09-05

Авторы:

Jingru Fan, Yufan Dang, Jingyao Wu, Huatao Li, Runde Yang, Xiyuan Yang, Yuheng Wang, Zhong Zhang, Yaxi Lu, Yankai Lin, Zhiyuan Liu, Dahai Li, Chen Qian

#### Контекст Мобильные агенты, поддерживающие взаимодействие с пользователями через мобильные приложения, становятся все более важной частью современных систем. Однако существуют некоторые значительные проблемы, которые должны быть решены для того, чтобы эти системы могли обеспечить практический и масштабируемый вклад. Основными вызовами являются: (1) общействование по всему спектру задач, моделей и устройств; (2) высокая точность выполнения напрямую на экране устройства; (3) устойчивость в ходе выполнения многошаговых задач; (4) эффективность, чтобы работать с ограниченными ресурсами и занимать минимальное время. Наше исследование направлено на развитие системы, которая бы решала эти проблемы и позволяла построить более универсальные и эффективные мобильные агенты. #### Метод Мы предлагаем AppCopilot, который представляет собой многомодальную, многоагентную модель, работающую на устройстве, позволяющую удовлетворить потребности пользователей в различных приложениях. Эта модель работает в рамках полного цикла, начиная с сбора данных и заканчивая развертыванием модели и разработкой приложений. Мы использовали архитектуру, основанную на цепочке мышления, цепочке задач и взаимодействии многоагентной системы для решения задач. Многомодальность позволяет AppCopilot работать с текстом, изображениями и другими модальностями, что делает его универсальным. Мы также оптимизировали модель для эффективности в терминах загрузки процессора, памяти и энергопотребления на ресурсно-ограниченных устройствах. #### Результаты Мы провели эксперименты для оценки AppCopilot, сопоставив его с другими моделями в пределах тех же задач. Мы использовали реальные данные, собранные из различных мобильных приложений, и оценили его на точности выполнения задач, возможности общействования, многошаговых задач и эффективности работы. Опытными результатами показано, что AppCopilot превосходит другие модели по всем основным критериям: он демонстрирует более высокую общинность, точность внутри приложений, долгосрочную надежность и эффективность выполнения. #### Значимость AppCopilot может применяться в различных областях, таких как управление устройствами, помощь в жизненных ситуациях, улучшение работы мобильных приложений и автоматизация рутинных задач. Он обеспечивает высокую точность, универсальность и эффективность, что делает его привлекательным для разработчиков мобильных приложений и пользователей, желающих использовать более мощные и надежные мобильные агенты. #### Выводы Наше исследование показало, что AppCopilot является прорывным в области мобильных а

Annotation:

With the raid evolution of large language models and multimodal foundation models, the mobile-agent landscape has proliferated without converging on the fundamental challenges. This paper identifies four core problems that must be solved for mobile agents to deliver practical, scalable impact: (1) generalization across tasks, modalities, apps, and devices; (2) accuracy, specifically precise on-screen interaction and click targeting; (3) long-horizon capability for sustained, multi-step goals; an...

ID: 2509.02444v1 cs.AI, cs.CL, cs.CV, cs.HC

arXiv PDF

📄 UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

2025-09-05

Авторы:

Haoming Wang, Haoyang Zou, Huatong Song, Jiazhan Feng, Junjie Fang, Junting Lu, Longxiang Liu, Qinyu Luo, Shihao Liang, Shijue Huang, Wanjun Zhong, Yining Ye, Yujia Qin, Yuwen Xiong, Yuxin Song, Zhiyong Wu, Bo Li, Chen Dun, Chong Liu, Fuxing Leng, Hanbin Wang, Hao Yu, Haobin Chen, Hongyi Guo, Jing Su, Jingjia Huang, Kai Shen, Kaiyu Shi, Lin Yan, Peiyao Zhao, Pengfei Liu, Qinghao Ye, Renjie Zheng, Wayne Xin Zhao, Wen Heng, Wenhao Huang, Wenqian Wang, Xiaobo Qin, Yi Lin, Youbin Wu, Zehui Chen, Zihao Wang, Baoquan Zhong, Xinchun Zhang, Xujing Li, Yuanfan Li, Zhongkai Zhao, Chengquan Jiang, Faming Wu, Haotian Zhou, Jinlin Pang, Li Han, Qianli Ma, Siyao Liu, Songhua Cai, Wenqi Fu, Xin Liu, Zhi Zhang, Bo Zhou, Guoliang Li, Jiajun Shi, Jiale Yang, Jie Tang, Li Li, Taoran Lu, Woyu Lin, Xiaokang Tong, Xinyao Li, Yichi Zhang, Yu Miao, Zhengxuan Jiang, Zili Li, Ziyuan Zhao, Chenxin Li, Dehua Ma, Feng Lin, Ge Zhang, Haihua Yang, Hangyu Guo, Hongda Zhu, Jiaheng Liu, Junda Du, Kai Cai, Kuanye Li, Lichen Yuan, Meilan Han, Minchao Wang, Shuyue Guo, Tianhao Cheng, Xiaobo Ma, Xiaojun Xiao, Xiaolong Huang, Xinjie Chen, Yidi Du, Yilin Chen, Yiwen Wang, Zhaojian Li, Zhenzhu Yang, Zhiyuan Zeng, Chaolin Jin, Chen Li, Hao Chen, Haoli Chen, Jian Chen, Qinghao Zhao, Guang Shi

## Контекст На визуальных интерфейсах (GUI) происходит большая часть современного взаимодействия с компьютерами. Однако создание автономных агентов для работы с GUI остается вызовом в области искусственного интеллекта (AI). Решение этой задачи требует реализации сложных процессов, таких как визуальное восприятие, решение задач и запоминание. Несмотря на некоторые успехи, существуют проблемы, такие как нехватка масштабируемых данных, нестабильность среды, ограниченность GUI-только операций, а также недостаточное удовлетворение многократных задач. UI-TARS-2 является новым GUI-агентом, который рассчитан на то, чтобы решить эти проблемы и улучшить производительность в различных сценариях взаимодействия. ## Метод UI-TARS-2 является результатом систематического развития GUI-агента. Он основывается на использовании **двухтактного подхода** для улучшения масштабируемости данных. Используется **интегрированная среда**, включающая в себя файловые системы и терминалы. Агент тренируется в рамках **органичной тренировки**, что позволяет ему выполнять более сложные задачи в течение нескольких шагов. Благодаря **эволюционному движку**, UI-TARS-2 может быть масштабирован на больших данных. Кроме того, **платформа для моделирования рисков** и **обучение с подкреплением** позволяют агенту решать сложные задачи в различных средах, включая игровые и профессиональные. ## Результаты Проведены эксперименты для оценки производительности UI-TARS-2. На бенчмарках, таких как **Online-Mind2Web**, **OSWorld**, **WindowsAgentArena** и **AndroidWorld**, UI-TARS-2 показал признаки улучшения в сравнении с предшественником, достигнув оценки 88.2, 47.5, 50.6 и 73.3, соответственно. На игровых бенчмарках он достиг значения 59.8, что составляет около 60% от значения на уровне человека, и оказался конкурентоспособным с такими фронтерными моделями, как **OpenAI o3**. Агент также показал хорошую общинность на задачах, таких как **long-horizon information-seeking tasks** и **software engineering benchmarks**, значительно увеличив производительность в этих областях. ## Значимость UI-TARS-2 может быть применен в различных областях, включая **игровые окружения**, **GUI-операции**, **информационные поисковые задачи** и **профессиональные приложения**. Он обеспечивает улучшение производительности, устойчивость и возможность решения более сложных задач. Для развития AI в области GUI он представляет собой показательный шаг вперед. Улучшение обучения с подкреплением, объединение различных сред и масштабирование данных делают этот агент более универсальным и эффективным для реальных сценариев. ## Выводы Результаты показывают, что UI-TARS-

Annotation:

The development of autonomous agents for graphical user interfaces (GUIs) presents major challenges in artificial intelligence. While recent advances in native agent models have shown promise by unifying perception, reasoning, action, and memory through end-to-end learning, open problems remain in data scalability, multi-turn reinforcement learning (RL), the limitations of GUI-only operation, and environment stability. In this technical report, we present UI-TARS-2, a native GUI-centered agent m...

ID: 2509.02544v1 cs.AI, cs.CL, cs.CV, cs.HC

arXiv PDF

📄 Is the medical image segmentation problem solved? A survey of current developments and future directions

2025-08-30

Авторы:

Guoping Xu, Jayaram K. Udupa, Jax Luo, Songlin Zhao, Yajun Yu, Scott B. Raymond, Hao Peng, Lipeng Ning, Yogesh Rathi, Wei Liu, You Zhang

#### Контекст Область медицинской изображения играет ключевую роль в диагностике, терапии и мониторинге различных заболеваний. Медицинская изображедная сегментация, как важная подсистема этой области, направлена на выделение интересующих объектов (например, органов, тканей или заболеваний) на изображениях. Несмотря на прогрессы, включая развитие методов глубокого обучения, проблемы, такие как несогласованность сегментации, отсутствие достаточных данных и недостаточность представления контекста, остаются актуальными. Мотивация для этого исследования заключается в оценке текущего состояния технологий, выявлении пробелов и изложении направлений для будущих исследований. #### Метод Работа основывается на обзоре и анализе литературы, а также на изучении и выделении основных направлений в развитии медицинской изображедной сегментации. Авторы проанализировали ключевые компоненты сетей сегментации (такие как энкодер, боттленек, пропуски, декодер) и рассмотрели их взаимосвязь с такими принципами, как мультискалевый анализ, аугментация, прикладная теория и простая архитектура. Набор данных включал ключевые работы из последних десяти лет, охватывающих различные модели, методы и приложения. Результаты обзора были организованы по семь экспертным осям, касающимся развития методов и их применения. #### Результаты Исследования показали, что модели сегментации развились из простых детерминированных подходов к более сложным моделям, использующим глубокое обучение, а также к подходам, использующим пространственное взаимодействие и прикладную теорию. Особое внимание уделено развитию методов, которые решают проблемы недостаточного обучения и несогласованности сегментации. Например, авторы выделяют развитие методов, использующих нейронные сети с аугментацией, позволяющих учитывать контекст и повышать точность. Были рассмотрены работы, в которых использовались различные модели для разных задач, включая 2D, 3D и даже 4D сегментацию. #### Значимость Результаты этого исследования имеют значительное значение для развития медицинских изображений и сегментации. Они могут быть применены в различных областях, таких как ранняя диагностика, мониторинг терапии и диагностика заболеваний. Развитие методов, таких как простая архитектура и аугментация, может улучшить точность и скорость сегментации. Более широкое применение агентов сегментации может повысить эффективность в медицинских задачах, в том числе в сложных задачах, таких как многомодальная сегментация и доменный адаптивный анализ. #### Выводы На основе это

Annotation:

Medical image segmentation has advanced rapidly over the past two decades, largely driven by deep learning, which has enabled accurate and efficient delineation of cells, tissues, organs, and pathologies across diverse imaging modalities. This progress raises a fundamental question: to what extent have current models overcome persistent challenges, and what gaps remain? In this work, we provide an in-depth review of medical image segmentation, tracing its progress and key developments over the p...

ID: 2508.20139v1 eess.IV, cs.CV, cs.HC, cs.LG

arXiv PDF

📄 MedFoundationHub: A Lightweight and Secure Toolkit for Deploying Medical Vision Language Foundation Models

2025-08-30

Авторы:

Xiao Li, Yanfan Zhu, Ruining Deng, Wei-Qi Wei, Yu Wang, Shilin Zhao, Yaohong Wang, Haichun Yang, Yuankai Huo

## Контекст Настоящие достижения в области медицинских визуально-языковых моделей (VLMs) открывают возможности для различных клинических применений, включая автоматическое составление отчетов, копилоты для врачей и оценку неопределенности. Однако эти модели сопряжены с серьезными проблемами безопасности, такими как риск раскрытия Защищенных Данных Здоровья (ПДЗ), утечки данных и уязвимость к кибератакам. Эти опасности особенно критичны в средах государственных и приватных медицинских учреждений. Даже при использовании моделей для исследовательских целей или вне клинических применений, организации должны принять меры к снижению рисков. Целью данного исследования является разработка инструментария, который обеспечит доступ к VLMs для неэкспертов в медицине, обеспечит простой деплоймент моделей и обеспечит безопасность при интерпретации данных. ## Метод Разработанная платформа, MedFoundationHub, представляет собой графический интерфейс (GUI), который позволяет неэкспертным пользователям, таким как врачи, выбирать и использовать множество моделей без необходимости в глубоких знаниях программирования. Для инженеров, MedFoundationHub предоставляет среду для эффективного деплоймента VLMs с помощью простого "плаги-энд-плей" подхода, с интеграцией моделей от Hugging Face. Высокая безопасность и доступность обеспечивается через использование Docker, что позволяет развернуть модели на оффлайн локальных рабочих станциях с одним NVIDIA A6000 GPU. Это решение позволяет использовать модели в условиях обычного оборудования академических исследовательских лабораторий, не требуя высоких ресурсов. ## Результаты Платформа была протестирована путем взаимодействия с семью современными VLMs, включая Google-MedGemma3-4B, Qwen2-VL-7B-Instruct, Qwen2.5-VL-7B-Instruct, LLaVA-1.5-7B и LLaVA-1.5-13B. Экспертным судебом состоялись 1015 оценок, проведенных специалистами по патологии. Оценки были проведены на двух клинических наборах данных: случаи рака колона и почек. Результаты показали, что модели имеют существенные ограничения, такие как неточные ответы, неполная разъясняющая логика и непоследовательность терминов в области патологии. ## Значимость MedFoundationHub может быть применен в различных сферах, включая клинические приложения, обучение новым врачам и исследовательские задачи. Он обеспечивает безопасность и защиту данных, позволяя развертывать модели в безопасной среде. Преимуществом является удобство использования для неэкспертных пользователей благодаря интуитивно понятному интерфейсу, а также возможность использования мощных VLMs без

Annotation:

Recent advances in medical vision-language models (VLMs) open up remarkable opportunities for clinical applications such as automated report generation, copilots for physicians, and uncertainty quantification. However, despite their promise, medical VLMs introduce serious security concerns, most notably risks of Protected Health Information (PHI) exposure, data leakage, and vulnerability to cyberthreats - which are especially critical in hospital environments. Even when adopted for research or n...

ID: 2508.20345v1 cs.CV, cs.HC

arXiv PDF

📄 \textit{adder-viz}: Real-Time Visualization Software for Transcoding Event Video

2025-08-23

Авторы:

Andrew C. Freeman, Luke Reinkensmeyer

## Контекст В последние годы в области компьютерного зрения и анализа видеороликов происходит бурное развитие. Особое внимание привлекают эвент-видео (event video), которые отличаются от стандартных видеофреймов потоком асинхронных пери-пиксельных интенсивностей. Эти данные возникают при использовании эвент-камер, которые используются для решения различных задач, включая низкопотребляющий режим, высокую скорость изображения и высокую динамику. Однако в существующих методах существуют ограничения в гибкости, производительности и сжатии, что ограничивает их применение. Чтобы решить эти проблемы, мы предложили обобщенную систему AD{\Delta}ER для улучшения производительности и гибкости в обработке эвент-видео. Наша цель — развитие программного обеспечения для реального времени, которое поможет визуализировать процессы прозеркаливания (transcoding) эвент-видео и внедрение в приложения в цикле обратной связи. ## Метод Для решения задачи был разработан программный модуль \textit{adder-viz}, который позволяет в реальном времени визуализировать процессы прозеркаливания эвент-видео. Методология опирается на обобщенную систему AD{\Delta}ER, которая улучшает сжатие, скорость и гибкость обработки данных в процессе прозеркаливания. Технический подход включает реализацию мощного визуализатора, поддерживающего различные представления и оптимизации, чтобы обеспечить быстрое и точное визуальное представление процессов. Архитектура \textit{adder-viz} основана на модульной структуре, что позволяет легко интегрировать новые модели и алгоритмы в существующую систему. ## Результаты Проведенные эксперименты показали, что \textit{adder-viz} эффективно визуализирует процессы прозеркаливания в реальном времени. Мы протестировали систему на различных типах эвент-видео и получили высокую скорость обработки и точность визуализации. Использовалась большая выборка данных для тестирования, включающую разные условия и задачи. Результаты показали, что \textit{adder-viz} значительно улучшает качество визуализации, уменьшает время ответа и увеличивает гибкость в работе с различными моделями и представлениями. ## Значимость Программное обеспечение \textit{adder-viz} может быть применено в различных областях, включая компьютерное зрение, машинное обучение и системы анализа видео. Оно предоставляет пользователю возможность эффективно проверять и корректировать процессы прозеркаливания в реальном времени, что повышает точность и уменьшает время разработки. Также, \textit{adder-viz} демонстрирует высокую производительность и гибкость, которые могут быть использованы для решения различных задач в области анализа виде

Annotation:

Recent years have brought about a surge in neuromorphic ``event'' video research, primarily targeting computer vision applications. Event video eschews video frames in favor of asynchronous, per-pixel intensity samples. While much work has focused on a handful of representations for specific event cameras, these representations have shown limitations in flexibility, speed, and compressibility. We previously proposed the unified AD{\Delta}ER representation to address these concerns. This paper in...

ID: 2508.14996v1 cs.MM, cs.CV, cs.HC, eess.IV

arXiv PDF

📄 E3RG: Building Explicit Emotion-driven Empathetic Response Generation System with Multimodal Large Language Model

2025-08-20

Авторы:

Ronghao Lin, Shuai Shen, Weipeng Hu, Qiaolin He, Aolin Xiong, Li Huang, Haifeng Hu, Yap-peng Tan

## Контекст Многомодальная эмпатическая генерация ответов (MERG) является ключевым компонентом создания эмоционально интеллектуальных взаимодействий между людьми и компьютерами. Несмотря на то, что большие языковые модели (LLMs) улучшили текстовую эмоциональную генерацию ответов, остаются сложности в обработке многомодального эмоционального контента и сохранении консистентности личности. Эти проблемы ограничивают эффективность текущих систем. Чтобы сделать MERG более эмоционально богатым и идентичным, необходимо использовать более совершенные подходы, которые учитывают комплексность эмоциональных сигналов и поддерживают консистентность личности в ходе взаимодействия. ## Метод Мы предлагаем E3RG, систему эмоционального эмпатического генерирования ответов на основе многомодальных LLMs. Методология E3RG декомпозирует задачу MERG на три модуля: понимание эмоций многомодального контента, восстановление эмоциональной памяти и многомодальное генерирование ответов. Эти модули используют новейшие модели для генерации речи и видео, что позволяет E3RG генерировать ответы, описывающие эмоциональное состояние, без дополнительной подготовки. Благодаря этому, E3RG обеспечивает натуральность, эмоциональную богатство и консистентность личности в ответах. ## Результаты В ходе экспериментов мы проверили E3RG на двух уровнях: zero-shot и few-shot. Мы использовали различные наборы данных для оценки системы на способности понимать эмоции и генерировать ответы. Результаты показали, что E3RG показывает высокую точность и эмоциональную корректность в сравнении с другими подходами. Наша система стала лидером на соревновании Avatar-based Multimodal Empathy Challenge в рамках ACM MM 2025. ## Значимость E3RG может применяться в различных сферах, включая области социальных роботов, виртуальных ассистентов и медицинских приложений, где эмоциональная коммуникация играет ключевую роль. Основные преимущества E3RG заключаются в том, что он сохраняет консистентность личности, быстро реагирует на эмоциональные сигналы и обеспечивает натуральную эмоциональную реакцию. Его потенциал заключается в улучшении качества взаимодействия с пользователем и создании более эмоционально приятных и естественных интерфейсов. ## Выводы Мы представили E3RG, мощную многомодальную систему для эмоционального эмпатического генерирования ответов. Наши эксперименты показали, что E3RG превосходит другие подходы в zero-shot и few-shot режимах. Мы посвятим будущим исследованиям улучшение моделей и их применение в различных сценариях, чтобы дальше улучшить эмоциональное понимание и генерирова

Annotation:

Multimodal Empathetic Response Generation (MERG) is crucial for building emotionally intelligent human-computer interactions. Although large language models (LLMs) have improved text-based ERG, challenges remain in handling multimodal emotional content and maintaining identity consistency. Thus, we propose E3RG, an Explicit Emotion-driven Empathetic Response Generation System based on multimodal LLMs which decomposes MERG task into three parts: multimodal empathy understanding, empathy memory re...

ID: 2508.12854v1 cs.AI, cs.CL, cs.CV, cs.HC, cs.MM

arXiv PDF

📄 UWB-PostureGuard: A Privacy-Preserving RF Sensing System for Continuous Ergonomic Sitting Posture Monitoring

2025-08-19

Авторы:

Haotang Li, Zhenyu Qi, Sen He, Kebin Peng, Sheng Tan, Yili Ren, Tomas Cerny, Jiyue Zhao, Zi Wang

#### Контекст Проблема неправильного сидячего положения при длительном употреблении компьютеров приобрела значительное масштабирование в современном обществе. Это приводит к развитию заболеваний спины, шеи и даже позвоночника. Оптимальное решение этой проблемы требует систем, которые могут постоянно и точно отслеживать положение тела, обеспечивая конфиденциальность и удобство. Настоящая статья предлагает UWB-PostureGuard, систему подключения пульсации (UWB), которая использует радиочастотное измерение для непрерывного, контактного мониторинга положения сидячего человека. Наше решение призвано устранить помехи, связанные с традиционными методами, такими как камеры (приватность) или носимые датчики (ношение). #### Метод UWB-PostureGuard основывается на технологии UWB, которая предоставляет точные расчеты скорости и дистанции. Мы используем сложную обработку данных и выделение признаков, чтобы извлечь специфические признаки сидячего положения. Наш алгоритм PoseGBDT, основанный на градиентном бустинге, отлично справляется с задачей моделирования последовательности положений, что позволяет точно определять комплексные паттерны сидячего поведения. Эта архитектура позволяет системе эффективно распознавать положения в реальном времени, даже при изменении факторов, таких как одежда, аксессуары или помехи в окружающей среде. #### Результаты Мы проверили UWB-PostureGuard на 10 участниках, которые сидели в 19 различных позициях. Наши эксперименты показали, что система достигла 99,11% точности в определении позиции, независимо от условий окружения. Мы также проверили систему на устойчивость к переменам, таким как толщина одежды, наличие дополнительных устройств и различные мебельные конфигурации. Результаты указывают на высокую точность и надёжность нашего подхода в различных условиях. #### Значимость UWB-PostureGuard представляет собой новый подход к мониторингу сидячего положения, который может быть использован как в медицинских учреждениях, так и в домашних условиях. Он обеспечивает конфиденциальность, так как не требует камер или носимых датчиков. Наш подход может быть интегрирован в существующие мобильные технологии, делая его доступным для широкого круга пользователей. Это не только повысит качество жизни, но и снизит затраты на лечение заболеваний, связанных с неправильным сидячем положением. #### Выводы Мы успешно демонстрировали, что UWB-PostureGuard является эффективным и практичным решением для мониторинга сидячего положения. Наш подход может быть применен для профилактического управления здоровьем, улучшения качества жизни и сокращения ра

Annotation:

Improper sitting posture during prolonged computer use has become a significant public health concern. Traditional posture monitoring solutions face substantial barriers, including privacy concerns with camera-based systems and user discomfort with wearable sensors. This paper presents UWB-PostureGuard, a privacy-preserving ultra-wideband (UWB) sensing system that advances mobile technologies for preventive health management through continuous, contactless monitoring of ergonomic sitting posture...

ID: 2508.11115v1 cs.CV, cs.HC, eess.SP

arXiv PDF

📄 Toward Human-Robot Teaming: Learning Handover Behaviors from 3D Scenes

2025-08-15

Авторы:

Yuekun Wu, Yik Lung Pang, Andrea Cavallaro, Changjae Oh

#### Контекст Human-robot teaming (HRT) представляет собой взаимодействие между роботами и людьми, в основном для выполнения задач в условиях близкого соприкосновения. Одна из самых важных задач в данной области — human-to-robot handover (передача предметов роботу человеком). Эта задача требует точности и надежности в поведении робота, чтобы избежать коллизий и обеспечить безопасность во время передачи. Однако, создание эффективных моделей поведения робота для такой задачи требует больших объемов данных и проведения многочисленных робото-демонстраций. Это вызывает проблему коллекции данных в реальном мире и ограничения в симуляторах из-за различий визуального пространства. Нашим целью является развитие метода, позволяющего обучать роботу для handover-задач из сырых данных, при этом исключая необходимость физической демонстрации в реальном мире. #### Метод Мы предлагаем метод обучения HRT-политик, основанный на генерации демонстрационных данных с использованием Gaussian Splatting. Мы используем RGB-камеру, установленную на роботской хватке, для получения изображений в реальном времени. Затем, мы используем метод Gaussian Splatting для реконструкции сцены, в которой робот получает предмет с человека. Этот подход позволяет генерировать данные визуального положения робота в пространстве, не используя физический симулятор. После этого мы обучаем модель распознавания действий на основе этих данных. Метод также использует детальную архитектуру для обеспечения точности и надежности в процессе обучения. #### Результаты Мы проводим эксперименты для оценки нашего метода в двух средах: сценах, полученных с помощью Gaussian Splatting, и реальном мире. Для обучения используются RGB-данные, полученные с камеры-хватки, и в реальном мире мы проводим тестирование на живых людях. Наши результаты показывают, что наш подход позволяет роботу научиться правильно получать предметы в реальных условиях, избегая коллизий и обеспечивая стабильность хватки. Это демонстрирует эффективность нашей модели в условиях близкого соприкосновения и подтверждает ее пригодность для реального применения в HRT. #### Значимость Метод, предложенный в нашей работе, имеет широкие приложения в сфере HRT, особенно в задачах, требующих близкого сотрудничества между роботом и человеком. Он предоставляет способ обучения роботов без необходимости ручных демонстраций в реальном мире, что существенно уменьшает затраты на обучение. Это особенно важно в ситуациях, когда доступ к реальному роботу ограничен. Благодаря нашей модели, роботы могут быть обучены быстрее и эффективнее, что имеет потенциал для улучшения производительности в различных

Annotation:

Human-robot teaming (HRT) systems often rely on large-scale datasets of human and robot interactions, especially for close-proximity collaboration tasks such as human-robot handovers. Learning robot manipulation policies from raw, real-world image data requires a large number of robot-action trials in the physical environment. Although simulation training offers a cost-effective alternative, the visual domain gap between simulation and robot workspace remains a major limitation. We introduce a m...

ID: 2508.09855v1 cs.RO, cs.CV, cs.HC

arXiv PDF

📄 QueryCraft: Transformer-Guided Query Initialization for Enhanced Human-Object Interaction Detection

2025-08-14

Авторы:

Yuxiao Wang, Wolin Liang, Yu Lei, Weiying Xue, Nan Zhuang, Qi Liu

#### Контекст Human-Object Interaction (HOI) detection — это задача, которая предполагает локализацию пар человек-объект на изображении и идентификацию их взаимодействий. Несмотря на то, что DETR-based методы стали новым стандартом в этой области, они еще не решили основную проблему: случайно инициализированные запросы не имеют явных семантических признаков, что приводит к неэффективности в поиске и распознавании. Это ставит достаточно серьезные ограничения на качество детектирования HOI. QueryCraft предлагается как решение этой проблемы, обеспечивая семантические признаки и улучшенное обучение при помощи transformer-guided query initialization. #### Метод QueryCraft — это новая plug-and-play HOI detection система, которая использует transformer-based query initialization для повышения точности. Ее центральная часть — **ACTOR** (Aсtion-aware Crosse-modal Tгansformer), который объединяет визуальные регионы и текстовые стимулы для создания признаков, относящихся к действию. Отличительная черта ACTOR заключается в том, что он использует языковую направленность для выявления семантики взаимодействия и формирования семантически значимых запросов. Для более точной инициализации объектных запросов, мы предлагаем **PDQD** (Perceptual Distilled Query Decoder), который использует предварительно обученный детектор для добавления категорий объектов в запросы. Эти два механизма обеспечивают более интерпретируемый и эффективный поиск HOI. #### Результаты Мы проводили эксперименты на двух наборах данных: HICO-Det и V-COCO. Результаты показывают, что QueryCraft превосходит существующие методы в поиске HOI, показывая более высокую точность и стабильность. Эти результаты достигнуты благодаря значительному повышению точности интерпретации взаимодействий с помощью transformer-guided initialization. Эксперименты также подтверждают широкую общину нашего подхода к различным условиям детекции. #### Значимость QueryCraft может применяться в различных областях, где требуется точное распознавание взаимодействий между людьми и объектами, таких как видеонаблюдение, автоматизация и системы помощи. Он предлагает существенные преимущества в том числе повышение точности, более оптимальное использование ресурсов и улучшение общей эффективности HOI-систем. Будущие исследования будут уделять большее внимание добавлению динамических признаков и усовершенствованию обучения на больших данных. #### Выводы QueryCraft достигает нового состояния искусства в HOI detection, с помощью transformer-guided query initialization. Этот подход не только улучшает точность, но и обеспечивает лучшую интерпретируемость результатов. В будущем, мы будем работать над улучшением обучения на больших данных и выявлением динамических признаков для дальнейшего повышения эффективности.

Annotation:

Human-Object Interaction (HOI) detection aims to localize human-object pairs and recognize their interactions in images. Although DETR-based methods have recently emerged as the mainstream framework for HOI detection, they still suffer from a key limitation: Randomly initialized queries lack explicit semantics, leading to suboptimal detection performance. To address this challenge, we propose QueryCraft, a novel plug-and-play HOI detection framework that incorporates semantic priors and guided f...

ID: 2508.08590v1 cs.CV, cs.HC

arXiv PDF

📄 ColorGPT: Leveraging Large Language Models for Multimodal Color Recommendation

2025-08-14

Авторы:

Ding Xia, Naoto Inoue, Qianru Qiu, Kotaro Kikuchi

## Контекст Цвета являются важной составляющей дизайна векторных графических документов, влияя на визуальный аппеал, связь, удобство использования и доступность. Однако рекомендация цветов для завершения или улучшения дизайна часто сталкивается с проблемами, связанными с синтетичностью цветового дизайна и нехваткой данных. Традиционные методы часто не справлялись с этими задачами из-за сложности цветового дизайна и ограниченности доступной информации. В данном исследовании мы рассматриваем возможность использования предварительно обученных Large Language Models (LLMs) с их мощными возможностями рационального мышления для решения задач рекомендации цветов. Мы задали вопрос: могут ли LLMs действительно стать выдающимися дизайнерами для рекомендаций по цветовому дизайну? ## Метод Мы разработали ColorGPT — продвинутую многомодальную систему рекомендации цветов, основанную на LLMs. Методология ColorGPT построена на систематических экспериментах с различными представлениями цветов и эффективными техниками продвинутого приглашения модели. Целью стало решение задачи рекомендации цветов в виде завершения цветовой палитры, когда одна или несколько цветов отсутствуют или требуют изменения. Кроме того, наша модель может расширяться для полной генерации цветовой палитры на основе текстового описания. Мы оценивали ColorGPT на различных задачах, включая завершение цветовой палитры и генерацию цветовой палитры из текста. ## Результаты Эксперименты показали, что наша модель ColorGPT превосходит существующие методы в точности рекомендации цветов в задаче завершения цветовой палитры. Мы измеряли точность рекомендации, распределение цветов в палитре и устойчивость результатов. На задаче генерации цветовой палитры наша модель также демонстрировала улучшения в разнообразии цветов и их сходстве с целевыми цветовыми схемами, сравниваемыми с другими подходами. Эти результаты обосновывают потенциал LLMs в решении задач цветового дизайна. ## Значимость Результаты ColorGPT открывают новые перспективы в области рекомендации цветов для векторной графики и дизайна графических интерфейсов. Модель показала выдающиеся результаты в области завершения цветовых палитр, а также продемонстрировала способность генерировать цветовые палитры на основе текстовых описаний. Ее применение может оказаться полезным для дизайнеров, программного обеспечения для дизайна и систем, требующих высококачественных рекомендаций по цвету. Будущие исследования будут сконцентрированы на расширении возможностей ColorGPT, включая лучшую интеграцию с другими моделями и расширение ее применения в других зонах д

Annotation:

Colors play a crucial role in the design of vector graphic documents by enhancing visual appeal, facilitating communication, improving usability, and ensuring accessibility. In this context, color recommendation involves suggesting appropriate colors to complete or refine a design when one or more colors are missing or require alteration. Traditional methods often struggled with these challenges due to the complex nature of color design and the limited data availability. In this study, we explor...

ID: 2508.08987v1 cs.CV, cs.HC

arXiv PDF

1
2
3
4
5
6

Показано 41 - 50 из 54 записей