📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 GPT-5 Model Corrected GPT-4V's Chart Reading Errors, Not Prompting

2025-10-10

Авторы:

Kaichun Yang, Jian Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We present a quantitative evaluation to understand the effect of zero-shot large-language model (LLMs) and prompting uses on chart reading tasks. We asked LLMs to answer 107 visualization questions to compare inference accuracies between the agentic GPT-5 and multimodal GPT-4V, for difficult image instances, where GPT-4V failed to produce correct answers. Our results show that model architecture dominates the inference accuracy: GPT5 largely improved accuracy, while prompt variants yielded only ...

ID: 2510.06782v1 cs.HC, cs.CL, cs.CV

arXiv PDF

📄 Chronotome: Real-Time Topic Modeling for Streaming Embedding Spaces

2025-09-05

Авторы:

Matte Lim, Catherine Yeh, Martin Wattenberg, Fernanda Viégas, Panagiotis Michalatos

## Контекст В настоящее время существует множество реального мира данных, включая тексты, изображения, аудио и другие виды данных, которые меняются с течением времени. Эти изменения могут отражать авторские стили, тематические изменения или динамику взаимодействия. Однако существующие методы, такие как статическая визуализация, не могут правильно отражать эти изменения во времени. Это создает проблему для анализа и понимания временных потоков данных. Мы предлагаем Chronotome, инструмент, который позволяет визуализировать эти изменения в реальном времени. ## Метод Чтобы построить Chronotome, мы использовали гибридную архитектуру, которая объединяет силовое проектирование с методами кластеризации. Силовое проектирование позволяет структурировать данные в пространственно-временной модели, а кластеризация позволяет отслеживать изменения в тематических пространствах. Эти методы тесно интегрированы с потоковыми алгоритмами, чтобы обеспечить реальное время визуализации. Мы также использовали методы сокращения размерности, такие как t-SNE и UMAP, для эффективного представления данных. ## Результаты Мы проверили Chronotome на нескольких наборах данных, включая текстовые данные и изображения. Наши эксперименты показали, что Chronotome может эффективно отражать изменения тем в реальном времени. Например, при анализе текстовых данных, таких как твиты, мы увидели, как темы изменяются с течением времени. Аналогичные результаты были получены при анализе изображений, где Chronotome могла отобразить изменения в тематических областях, таких как мода или стили. ## Значимость Chronotome может быть применен в различных областях, таких как анализ социальных сетей, мониторинг медиа-трендов и анализ исторических данных. Он предоставляет новый способ понимания временных тем в данных. Его преимущество заключается в реальном времени обновлении данных, что делает его крайне полезным для аналитиков и исследователей, которые работают с динамическими данными. ## Выводы Chronotome представляет собой перспективный подход к визуализации временных тем в данных. Наши результаты показали, что он может эффективно отражать изменения в тематических пространствах в реальном времени. Будущие исследования будут сосредоточены на улучшении точности кластеризации и интеграции дополнительных функций, таких как интерактивная настройка.

Annotation:

Many real-world datasets -- from an artist's body of work to a person's social media history -- exhibit meaningful semantic changes over time that are difficult to capture with existing dimensionality reduction methods. To address this gap, we introduce a visualization technique that combines force-based projection and streaming clustering methods to build a spatial-temporal map of embeddings. Applying this technique, we create Chronotome, a tool for interactively exploring evolving themes in ti...

ID: 2509.01051v1 cs.HC, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 Morae: Proactively Pausing UI Agents for User Choices

2025-09-02

Авторы:

Yi-Hao Peng, Dingzeyu Li, Jeffrey P. Bigham, Amy Pavel

## Контекст Область исследования сосредоточена на развитии пользовательских интерфейсов (UI), которые облегчают доступ к сложной или недоступной информации для людей с ограниченным зрением (BLV). Несмотря на преимущества UI-агентов, их текущая реализация часто приводит к уменьшению пользовательского влияния. Они выполняют задачи с искусственным интеллектом без участия пользователя в критических выборах или предупреждении о важной контекстной информации. Например, в одном из исследований BLV-участник хотел купить спарклинг-воду по самой низкой цене, но агент автоматически выбрал одну без упоминания других вариантов с разными вкусами или лучшими оценками. Эта проблема мешает пользователям эффективно использовать агенты, что является мотивацией для разработки Morae. ## Метод Morae — это инновационный подход, который активно вовлекает пользователей в ключевые решения. Он использует мощные модели мультимодального анализа для интерпретации пользовательских запросов, разбора кода UI и скриншотов. Когда агент обнаруживает решающий момент, он приостанавливает свою работу, чтобы пользователь мог внести вклад в выбор. Это стратегия гармонизирует выгоду от автоматизации с возможностью выражения пользовательских предпочтений. Архитектура Morae основана на динамической идентификации решений и интерактивном взаимодействии с пользователем. ## Результаты Модель была проверена на реальных задачах в интернете с участием BLV-участников. Результаты показали, что Morae позволила выполнить больше задач по сравнению с базовыми агентами, включая OpenAI Operator. Кроме того, пользователи Morae сделали выбор, более соответствующий их предпочтениям. Эти результаты демонстрируют улучшенную эффективность и преимущества в смешанной инициативе, где автоматизация и пользовательские предпочтения одновременно применяются. ## Значимость Morae может применяться в различных сферах, где требуется оптимизация пользовательского опыта, таких как доступ к сложной информации, торговля и управление информационными системами. Он предоставляет более интерактивную и удобную платформу для пользователей, повышая их самостоятельность. Этот подход может стать пионерским в развитии новых пользовательских интерфейсов, которые будут учитывать не только технические возможности, но и потребности пользователей, обеспечивая более эффективное и точное выполнение задач. ## Выводы Morae продемонстрировал эффективность в улучшении доступности и эффективности пользовательских интерфейсов для BLV-пользователей. Будущие исследования будут направлены на улуч

Annotation:

User interface (UI) agents promise to make inaccessible or complex UIs easier to access for blind and low-vision (BLV) users. However, current UI agents typically perform tasks end-to-end without involving users in critical choices or making them aware of important contextual information, thus reducing user agency. For example, in our field study, a BLV participant asked to buy the cheapest available sparkling water, and the agent automatically chose one from several equally priced options, with...

ID: 2508.21456v1 cs.HC, cs.CL, cs.CV

arXiv PDF