📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

2025-11-06

Авторы:

Shijie Zhou, Viet Dac Lai, Hao Tan, Jihyung Kil, Wanrong Zhu, Changyou Chen, Ruiyi Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Graphical user interface (GUI) grounding is a key function of computer-use agents, which maps natural-language instructions to actionable screen regions. Existing approaches based on Multimodal Large Language Models (MLLMs) typically formulate it as a text-based coordinate generation task, yet directly generating precise coordinates from visual inputs remains challenging and computationally intensive. An intuitive way to implement GUI grounding is to first select visual patches relevant to the i...

ID: 2511.00810v1 cs.CV, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 UISim: An Interactive Image-Based UI Simulator for Dynamic Mobile Environments

2025-09-30

Авторы:

Jiannan Xiang, Yun Zhu, Lei Shu, Maria Wang, Lijun Yu, Gabriel Barcik, James Lyon, Srinivas Sunkara, Jindong Chen

#### Контекст Разработка и тестирование пользовательских интерфейсов (UI), а также обучение интеллектуальных агентов для взаимодействия с ними, представляют собой значительные вызовы в условиях динамичных и разнообразных реальных мобильных сред. Существующие подходы часто ограничены использованием физических устройств или анализом статических скриншотов, что приводит к ограниченности возможностей для масштабного тестирования и создания интеллектуальных интерфейсов. Мы предлагаем UISim — инновационную систему, реализующую имитацию UI с использованием изображений и обеспечивающую динамическое интерактивное моделирование процессов в мобильных средах. #### Метод UISim основывается на двух этапах: предсказании абстрактной структуры следующего UI-состояния и генерации нового визуально согласованного изображения на его основе. Исходным изображением является экран мобильного устройства, а действием — пользовательский ввод. Алгоритм UISim использует сочетание методов машинного обучения и графической синтезирования для точного представления сложных динамических сценариев в реальных условиях. Эта методология обеспечивает реалистичное моделирование переходов между UI-состояниями, что упрощает тестирование, прототипирование и синтез данных. #### Результаты Мы провели эксперименты сравнительного анализа UISim с другими подходами в области генерации UI. Результаты показали, что UISim превосходит в показателях реализм и консистентности полученных изображений. Были использованы реальные скриншоты для тестирования, и мы продемонстрировали, как UISim эффективно моделирует UI-транзи션ы, даже при высокой степени динамических изменений. Эти результаты подтверждают ряд преимуществ системы: высокую точность, масштабируемость и практическую значимость. #### Значимость UISim может применяться в разработке UI, генерации синтетических данных и обучении интеллектуальных агентов. Он позволяет упростить процессы тестирования, сократить время разработки и повысить качество интеллектуальных интерфейсов. В то же время, динамическая природа UISim открывает новые возможности для выполнения задач, таких как планирование маршрутов взаимодействия для AI-агентов. Это может привести к расширению возможностей в области интеллектуальных систем. #### Выводы Мы представили UISim — систему, которая предлагает новый подход к имитации UI в мобильных средах. Наши результаты показали высокую эффективность и практическую значимость этого подхода. Мы считаем, что UISim может стать ключевым инструментом для упрощения процессов разработки и обучения AI-систем. Н

Annotation:

Developing and testing user interfaces (UIs) and training AI agents to interact with them are challenging due to the dynamic and diverse nature of real-world mobile environments. Existing methods often rely on cumbersome physical devices or limited static analysis of screenshots, which hinders scalable testing and the development of intelligent UI agents. We introduce UISim, a novel image-based UI simulator that offers a dynamic and interactive platform for exploring mobile phone environments pu...

ID: 2509.21733v1 cs.CV, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 ChainReaction! Structured Approach with Causal Chains as Intermediate Representations for Improved and Explainable Causal Video Question Answering

2025-08-29

Авторы:

Paritosh Parmar, Eric Peh, Basura Fernando

#### Контекст Видео-вопросание (VideoQA) является ключевым заданием в области обработки видео, которое призвано извлечь обоснованные ответы на вопросы, основанные на видеоконтенте. Несмотря на существующие модели, они часто сталкиваются с проблемами в высоком рассуждении и логическом обосновании ответов. Это возникает из-за скрытого характера моделей, которые используют опасные, монолитные трубы, соединяющие интерпретацию видео, казуальное выводение и генерацию ответов. Такие подходы отличаются неэффективностью и непрозрачностью, что вносит существенные ограничения на интерпретируемость и надежность моделей. Мы предлагаем новый модульный подход, который разделяет работу на казуальные цепочки в качестве интерпретируемых посредников. Этот подход вдохновлен моделями человеческого рассудка и позволяет создавать логически корректные и понятные ответы. #### Метод Предлагаемая модель, ChainReaction!, состоит из двух стадий: **Causal Chain Extractor (CCE)** и **Causal Chain-Driven Answerer (CCDA)**. CCE является модулем, который извлекает упрощенные и логически точные цепочки причин-следствий из пар видео и вопроса. Эти цепочки используются в качестве посредников для обоснованного вывода. CCDA, в свою очередь, генерирует ответы, ориентируясь на цепочки. Мы также предлагаем новую методику генерации качественных причинно-следственных цепочек с использованием бо LLM. Это позволяет улучшить качество данных для обучения моделей, которым недостаточно естественно-языковых причинных цепочек в существующих коллекциях. Мы также предлагаем новый показатель CauCo для оценки качества ответов на видеозадачу в свете причинных отношений. #### Результаты Мы провели эксперименты на трех крупных бенчмарках в области VideoQA, включая ShARC, SocialVideoQA и VQA-HIC. Наш подход показал значительные улучшения по сравнению с состоянием искусства в трех областях: точность ответов, вывод и интерпретируемость. Модель ChainReaction! обеспечила дополнительные выигрыши в понимании и логическом обосновании ответов. Также, модель демонстрирует повышенный уровень повторного использования в разных сценариях, таких как урокные видео, социальные ролики и трансляции спортивных событий. Эта гибкость указывает на перспективу CCE в качестве модуля для причинного вывода в разных областях. #### Значимость Наш подход имеет относительную значимость в нескольких областях. Во-первых, он предлагает передовые результаты в VideoQA, особенно в задачах, требующих высокого уровня анализа и обоснования. Во-вторых, он позволяет создавать ответы, имеющие теоретический языковой формат, что увеличивает надежность и

Annotation:

Existing Causal-Why Video Question Answering (VideoQA) models often struggle with higher-order reasoning, relying on opaque, monolithic pipelines that entangle video understanding, causal inference, and answer generation. These black-box approaches offer limited interpretability and tend to depend on shallow heuristics. We propose a novel, modular framework that explicitly decouples causal reasoning from answer generation, introducing natural language causal chains as interpretable intermediate ...

ID: 2508.21010v1 cs.CV, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF