📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 A Reproducible Framework for Neural Topic Modeling in Focus Group Analysis

2025-11-26

Авторы:

Heger Arfaoui, Mohammed Iheb Hergli, Beya Benzina, Slimane BenMiled

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Focus group discussions generate rich qualitative data but their analysis traditionally relies on labor-intensive manual coding that limits scalability and reproducibility. We present a rigorous, reproducible computational framework for applying neural topic modeling to focus group transcripts, addressing fundamental methodological challenges: hyperparameter sensitivity, model stability, and validation of interpretability. Using BERTopic applied to ten focus groups exploring HPV vaccine percepti...

ID: 2511.18843v1 cs.CL, cs.HC, cs.LG

arXiv PDF

📄 DigiData: Training and Evaluating General-Purpose Mobile Control Agents

2025-11-15

Авторы:

Yuxuan Sun, Manchen Wang, Shengyi Qian, William R. Wong, Eric Gan, Pierluca D'Oro, Alejandro Castillejo Munoz, Sneha Silwal, Pedro Matias, Nitin Kamra, Satwik Kottur, Nick Raines, Xuanyi Zhao, Joy Chen, Joseph Greer, Andrea Madotto, Allen Bolourchi, James Valori, Kevin Carlberg, Karl Ridgeway, Joseph Tighe

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

AI agents capable of controlling user interfaces have the potential to transform human interaction with digital devices. To accelerate this transformation, two fundamental building blocks are essential: high-quality datasets that enable agents to achieve complex and human-relevant goals, and robust evaluation methods that allow researchers and practitioners to rapidly enhance agent performance. In this paper, we introduce DigiData, a large-scale, high-quality, diverse, multi-modal dataset design...

ID: 2511.07413v2 cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

2025-11-06

Авторы:

Shijie Zhou, Viet Dac Lai, Hao Tan, Jihyung Kil, Wanrong Zhu, Changyou Chen, Ruiyi Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Graphical user interface (GUI) grounding is a key function of computer-use agents, which maps natural-language instructions to actionable screen regions. Existing approaches based on Multimodal Large Language Models (MLLMs) typically formulate it as a text-based coordinate generation task, yet directly generating precise coordinates from visual inputs remains challenging and computationally intensive. An intuitive way to implement GUI grounding is to first select visual patches relevant to the i...

ID: 2511.00810v1 cs.CV, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 Operationalizing AI: Empirical Evidence on MLOps Practices, User Satisfaction, and Organizational Context

2025-10-15

Авторы:

Stefan Pasch

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Organizational efforts to utilize and operationalize artificial intelligence (AI) are often accompanied by substantial challenges, including scalability, maintenance, and coordination across teams. In response, the concept of Machine Learning Operations (MLOps) has emerged as a set of best practices that integrate software engineering principles with the unique demands of managing the ML lifecycle. Yet, empirical evidence on whether and how these practices support users in developing and operati...

ID: 2510.09968v1 cs.SE, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 Asking For It: Question-Answering for Predicting Rule Infractions in Online Content Moderation

2025-10-10

Авторы:

Mattia Samory, Diana Pamfile, Andrew To, Shruti Phadke

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Online communities rely on a mix of platform policies and community-authored rules to define acceptable behavior and maintain order. However, these rules vary widely across communities, evolve over time, and are enforced inconsistently, posing challenges for transparency, governance, and automation. In this paper, we model the relationship between rules and their enforcement at scale, introducing ModQ, a novel question-answering framework for rule-sensitive content moderation. Unlike prior class...

ID: 2510.06350v1 cs.CY, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 UISim: An Interactive Image-Based UI Simulator for Dynamic Mobile Environments

2025-09-30

Авторы:

Jiannan Xiang, Yun Zhu, Lei Shu, Maria Wang, Lijun Yu, Gabriel Barcik, James Lyon, Srinivas Sunkara, Jindong Chen

#### Контекст Разработка и тестирование пользовательских интерфейсов (UI), а также обучение интеллектуальных агентов для взаимодействия с ними, представляют собой значительные вызовы в условиях динамичных и разнообразных реальных мобильных сред. Существующие подходы часто ограничены использованием физических устройств или анализом статических скриншотов, что приводит к ограниченности возможностей для масштабного тестирования и создания интеллектуальных интерфейсов. Мы предлагаем UISim — инновационную систему, реализующую имитацию UI с использованием изображений и обеспечивающую динамическое интерактивное моделирование процессов в мобильных средах. #### Метод UISim основывается на двух этапах: предсказании абстрактной структуры следующего UI-состояния и генерации нового визуально согласованного изображения на его основе. Исходным изображением является экран мобильного устройства, а действием — пользовательский ввод. Алгоритм UISim использует сочетание методов машинного обучения и графической синтезирования для точного представления сложных динамических сценариев в реальных условиях. Эта методология обеспечивает реалистичное моделирование переходов между UI-состояниями, что упрощает тестирование, прототипирование и синтез данных. #### Результаты Мы провели эксперименты сравнительного анализа UISim с другими подходами в области генерации UI. Результаты показали, что UISim превосходит в показателях реализм и консистентности полученных изображений. Были использованы реальные скриншоты для тестирования, и мы продемонстрировали, как UISim эффективно моделирует UI-транзи션ы, даже при высокой степени динамических изменений. Эти результаты подтверждают ряд преимуществ системы: высокую точность, масштабируемость и практическую значимость. #### Значимость UISim может применяться в разработке UI, генерации синтетических данных и обучении интеллектуальных агентов. Он позволяет упростить процессы тестирования, сократить время разработки и повысить качество интеллектуальных интерфейсов. В то же время, динамическая природа UISim открывает новые возможности для выполнения задач, таких как планирование маршрутов взаимодействия для AI-агентов. Это может привести к расширению возможностей в области интеллектуальных систем. #### Выводы Мы представили UISim — систему, которая предлагает новый подход к имитации UI в мобильных средах. Наши результаты показали высокую эффективность и практическую значимость этого подхода. Мы считаем, что UISim может стать ключевым инструментом для упрощения процессов разработки и обучения AI-систем. Н

Annotation:

Developing and testing user interfaces (UIs) and training AI agents to interact with them are challenging due to the dynamic and diverse nature of real-world mobile environments. Existing methods often rely on cumbersome physical devices or limited static analysis of screenshots, which hinders scalable testing and the development of intelligent UI agents. We introduce UISim, a novel image-based UI simulator that offers a dynamic and interactive platform for exploring mobile phone environments pu...

ID: 2509.21733v1 cs.CV, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 VoXtream: Full-Stream Text-to-Speech with Extremely Low Latency

2025-09-23

Авторы:

Nikita Torgashov, Gustav Eje Henter, Gabriel Skantze

## Контекст В последние годы текстовые- Na по-речевые системы (TTS) стали важной частью цифровых технологий, используясь в различных областях, от смартфонов и автомобилей до умных домов и роботов. Однако многие существующие системы страдают от долгого времени отклика, что ограничивает их применение в реальном времени. Требуется новая подход, позволяющий осуществлять стриминговый TTS с минимальным задержкой, чтобы обеспечить быструю и надежную реализацию речи в различных сценариях. ## Метод VoXtream представляет собой полностью авторегрессионную, нулевой-задержкочную стриминговую систему TTS, которая начинает говорить с первого слова. Она использует монотоническую схему выравнивания и динамическую внешнесть, позволяющую не дожидаться задержки до начала речи. Архитектура VoXtream основана на трех основных компонентах: инкрементальном трансформере фонем, трансформере временных характеристик, прогнозирующему семантические и длительностные токены, и трансформере акустических характеристик, который производит аудиотокены. Эта структура обеспечивает высокую скорость и качество речевого анализа и генерации. ## Результаты Используя 9к-часовую корпус, VoXtream была тестирована в различных условиях, включая выходной стриминговый режим и полностью стриминговый набор. Она показала сравнительное качество с более крупными системами, при этом удовлетворяя требованиям к минимальной задержке. На GPU VoXtream достигла задержки в 102 мс, что является одним из наилучших результатов среди доступных TTS. ## Значимость VoXtream может применяться в различных ситуациях, где необходима быстрая и надежная реагирования, таких как помощьные технологии, умные дома и нейротехнологии. Ее минимальная задержка и высокое качество говорения делают ее привлекательной для развития реального времени TTS. ## Выводы VoXtream достигает своего целевого качества и минимальной задержки благодаря инновационной архитектуре и монотоническому выравниванию. Будущие исследования будут сфокусированы на улучшении качества вывода и оптимизации архитектуры для различных устройств и сценариев.

Annotation:

We present VoXtream, a fully autoregressive, zero-shot streaming text-to-speech (TTS) system for real-time use that begins speaking from the first word. VoXtream directly maps incoming phonemes to audio tokens using a monotonic alignment scheme and a dynamic look-ahead that does not delay onset. Built around an incremental phoneme transformer, a temporal transformer predicting semantic and duration tokens, and a depth transformer producing acoustic tokens, VoXtream achieves, to our knowledge, th...

ID: 2509.15969v1 eess.AS, cs.CL, cs.HC, cs.LG, cs.SD

arXiv PDF

📄 HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants

2025-09-12

Авторы:

Benjamin Sturgeon, Daniel Samuelson, Jacob Haimes, Jacy Reese Anthis

#### Контекст В последние годы мощности и универсальность широкого спектра ИИ-систем наглядно продемонстрировали способность автоматизировать и упростить человеческие задачи. Однако эта мощь сопрягается с риском потери контроля над своими личными и общественными будущими. Уже сейчас простые алгоритмы управляют человеческими решениями: системы рекомендаций социальных сетей формируют поведение пользователей, приводя их к ненамеренному вредоносному времяпрепровождению. Этот тенденционный сдвиг в пользу ИИ требует новых подходов к оценке и оптимизации поддержки человеческой агентности в ИИ-системах. Основной целью данного исследования является разработка формализованного подхода к оценке поддержки человеческого агентства в ИИ-системах, а также разработка нового бенчмарка для эффективного тестирования и валидации этих подходов в условиях реальности. #### Метод Разработка HumanAgencyBench (HAB) основывается на интеграции философских и научных теорий человеческой агентности с техническими методами оценки. HAB строится на шести характеристиках человеческой агентности: 1. **Ask Clarifying Questions** – готовность выяснять неясности в пользовательских запросах. 2. **Avoid Value Manipulation** – избегание влияния на ценностные представления пользователя. 3. **Correct Misinformation** – корректировка неверных или неточных ответов. 4. **Defer Important Decisions** – отказ от решения в случаях нехватки достаточных данных. 5. **Encourage Learning** – поощрение саморазвития и поиска информации. 6. **Maintain Social Boundaries** – соблюдение конфиденциальности и пределов взаимоотношений. HAB применяет технологии больших лингвистических моделей (LLM) для симуляции пользовательских запросов и оценки ответов ИИ-систем. Метод использует технические методы моделирования, включая множественно-документный фреймворк и адаптивные тесты, чтобы эффективно проверить поддержку человеческой агентности в различных условиях. #### Результаты Экспериментальная оценка HAB проводилась на широком наборе данных, включающих различные сценарии и задачи, стандартных для применения ИИ. Наибольшую поддержку человеческой агентности показали модели Anthropic LLM, но даже они имели следствия в контексте Avoid Value Manipulation. Более стабильные и склонные к значительным различиям в результатах показали целенаправленность и потенциальную необходимость улучшения архитектур. Основные выводы: низко-модераторная поддержка агентности в современных ИИ-системах, выявленные несогласованности в поддержке отдельных аспектов. #### Значимость Результаты HAB открывают путь к развитию систем, более эффективно поддерживающи

Annotation:

As humans delegate more tasks and decisions to artificial intelligence (AI), we risk losing control of our individual and collective futures. Relatively simple algorithmic systems already steer human decision-making, such as social media feed algorithms that lead people to unintentionally and absent-mindedly scroll through engagement-optimized content. In this paper, we develop the idea of human agency by integrating philosophical and scientific theories of agency with AI-assisted evaluation met...

ID: 2509.08494v1 cs.CY, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 ChainReaction! Structured Approach with Causal Chains as Intermediate Representations for Improved and Explainable Causal Video Question Answering

2025-08-29

Авторы:

Paritosh Parmar, Eric Peh, Basura Fernando

#### Контекст Видео-вопросание (VideoQA) является ключевым заданием в области обработки видео, которое призвано извлечь обоснованные ответы на вопросы, основанные на видеоконтенте. Несмотря на существующие модели, они часто сталкиваются с проблемами в высоком рассуждении и логическом обосновании ответов. Это возникает из-за скрытого характера моделей, которые используют опасные, монолитные трубы, соединяющие интерпретацию видео, казуальное выводение и генерацию ответов. Такие подходы отличаются неэффективностью и непрозрачностью, что вносит существенные ограничения на интерпретируемость и надежность моделей. Мы предлагаем новый модульный подход, который разделяет работу на казуальные цепочки в качестве интерпретируемых посредников. Этот подход вдохновлен моделями человеческого рассудка и позволяет создавать логически корректные и понятные ответы. #### Метод Предлагаемая модель, ChainReaction!, состоит из двух стадий: **Causal Chain Extractor (CCE)** и **Causal Chain-Driven Answerer (CCDA)**. CCE является модулем, который извлекает упрощенные и логически точные цепочки причин-следствий из пар видео и вопроса. Эти цепочки используются в качестве посредников для обоснованного вывода. CCDA, в свою очередь, генерирует ответы, ориентируясь на цепочки. Мы также предлагаем новую методику генерации качественных причинно-следственных цепочек с использованием бо LLM. Это позволяет улучшить качество данных для обучения моделей, которым недостаточно естественно-языковых причинных цепочек в существующих коллекциях. Мы также предлагаем новый показатель CauCo для оценки качества ответов на видеозадачу в свете причинных отношений. #### Результаты Мы провели эксперименты на трех крупных бенчмарках в области VideoQA, включая ShARC, SocialVideoQA и VQA-HIC. Наш подход показал значительные улучшения по сравнению с состоянием искусства в трех областях: точность ответов, вывод и интерпретируемость. Модель ChainReaction! обеспечила дополнительные выигрыши в понимании и логическом обосновании ответов. Также, модель демонстрирует повышенный уровень повторного использования в разных сценариях, таких как урокные видео, социальные ролики и трансляции спортивных событий. Эта гибкость указывает на перспективу CCE в качестве модуля для причинного вывода в разных областях. #### Значимость Наш подход имеет относительную значимость в нескольких областях. Во-первых, он предлагает передовые результаты в VideoQA, особенно в задачах, требующих высокого уровня анализа и обоснования. Во-вторых, он позволяет создавать ответы, имеющие теоретический языковой формат, что увеличивает надежность и

Annotation:

Existing Causal-Why Video Question Answering (VideoQA) models often struggle with higher-order reasoning, relying on opaque, monolithic pipelines that entangle video understanding, causal inference, and answer generation. These black-box approaches offer limited interpretability and tend to depend on shallow heuristics. We propose a novel, modular framework that explicitly decouples causal reasoning from answer generation, introducing natural language causal chains as interpretable intermediate ...

ID: 2508.21010v1 cs.CV, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 Mixed-Initiative Dialog for Human-Robot Collaborative Manipulation

2025-08-09

Авторы:

Albert Yu, Chengshu Li, Luca Macesanu, Arnav Balaji, Ruchira Ray, Raymond Mooney, Roberto Martín-Martín

**Резюме** В поиске эффективных систем развития коллаборативных задач в условиях долгосрочного сотрудничества между роботом и человеком возникает необходимость в гибкой и эффективной системе общения. Рассмотрена Mixed-Initiative dialog paradigm, которая позволяет как роботу, так и человеку, свободно предлагать, принимать или отклонять идеи в процессе работы. Мы представляем MICoBot — систему, решающую задачи в диалоге с роботом, который может предлагать решения и самостоятельно решать, кто лучше выполнит какой-то шаг задачи. MICoBot работает на трех уровнях: (1) метапланирование для формирования глобальной стратегии, (2) планирование для оптимального распределения действий между роботом и человеком, и (3) действия, реализуемые роботом. Успешность MICoBot была проверена в реальном мире с 18 участниками в тестировании на протяжении 27 часов. Эта методика демонстрирует высокую эффективность, превосходя базовый основанный на LLM и другие модели.

Annotation:

Effective robotic systems for long-horizon human-robot collaboration must adapt to a wide range of human partners, whose physical behavior, willingness to assist, and understanding of the robot's capabilities may change over time. This demands a tightly coupled communication loop that grants both agents the flexibility to propose, accept, or decline requests as they coordinate toward completing the task effectively. We apply a Mixed-Initiative dialog paradigm to Collaborative human-roBot teaming...

ID: 2508.05535v1 cs.RO, cs.CL, cs.HC, cs.LG, cs.MA, I.2.9; I.2.7; I.2.6

arXiv PDF