📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Is Passive Expertise-Based Personalization Enough? A Case Study in AI-Assisted Test-Taking

2025-12-02

Авторы:

Li Siyan, Jason Zhang, Akash Maharaj, Yuanming Shi, Yunyao Li

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Novice and expert users have different systematic preferences in task-oriented dialogues. However, whether catering to these preferences actually improves user experience and task performance remains understudied. To investigate the effects of expertise-based personalization, we first built a version of an enterprise AI assistant with passive personalization. We then conducted a user study where participants completed timed exams, aided by the two versions of the AI assistant. Preliminary result...

ID: 2511.23376v1 cs.HC, cs.CL

arXiv PDF

📄 Designing and Evaluating Hint Generation Systems for Science Education

2025-10-28

Авторы:

Anubhav Jangra, Smaranda Muresan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models are influencing the education landscape, with students relying on them in their learning process. Often implemented using general-purpose models, these systems are likely to give away the answers, which could hinder conceptual understanding and critical thinking. We study the role of automatic hint generation as a pedagogical strategy to promote active engagement with the learning content, while guiding learners toward the answers. Focusing on scientific topics at the secon...

ID: 2510.21087v1 cs.HC, cs.CL

arXiv PDF

📄 Real-Time World Crafting: Generating Structured Game Behaviors from Natural Language with Large Language Models

2025-10-22

Авторы:

Austin Drake, Hang Dong

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We present a novel architecture for safely integrating Large Language Models (LLMs) into interactive game engines, allowing players to "program" new behaviors using natural language. Our framework mitigates risks by using an LLM to translate commands into a constrained Domain-Specific Language (DSL), which configures a custom Entity-Component-System (ECS) at runtime. We evaluated this system in a 2D spell-crafting game prototype by experimentally assessing models from the Gemini, GPT, and Claude...

ID: 2510.16952v1 cs.HC, cs.CL, H.5.2; I.2.7

arXiv PDF

📄 GPT-5 Model Corrected GPT-4V's Chart Reading Errors, Not Prompting

2025-10-10

Авторы:

Kaichun Yang, Jian Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We present a quantitative evaluation to understand the effect of zero-shot large-language model (LLMs) and prompting uses on chart reading tasks. We asked LLMs to answer 107 visualization questions to compare inference accuracies between the agentic GPT-5 and multimodal GPT-4V, for difficult image instances, where GPT-4V failed to produce correct answers. Our results show that model architecture dominates the inference accuracy: GPT5 largely improved accuracy, while prompt variants yielded only ...

ID: 2510.06782v1 cs.HC, cs.CL, cs.CV

arXiv PDF

📄 Taxonomy of User Needs and Actions

2025-10-09

Авторы:

Renee Shelby, Fernando Diaz, Vinodkumar Prabhakaran

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The growing ubiquity of conversational AI highlights the need for frameworks that capture not only users' instrumental goals but also the situated, adaptive, and social practices through which they achieve them. Existing taxonomies of conversational behavior either overgeneralize, remain domain-specific, or reduce interactions to narrow dialogue functions. To address this gap, we introduce the Taxonomy of User Needs and Actions (TUNA), an empirically grounded framework developed through iterativ...

ID: 2510.06124v1 cs.HC, cs.CL

arXiv PDF

📄 LLM Agent Meets Agentic AI: Can LLM Agents Simulate Customers to Evaluate Agentic-AI-based Shopping Assistants?

2025-09-30

Авторы:

Lu Sun, Shihan Fu, Bingsheng Yao, Yuxuan Lu, Wenbo Li, Hansu Gu, Jiri Gesi, Jing Huang, Chen Luo, Dakuo Wang

## Контекст Появление Agentic AI, таких как Amazon Rufus для покупок или GitHub Copilot для кодирования, представляет новую модель взаимодействия через естественный язык. Эти системы могут выполнять сложные задачи, активируясь по простым командам от пользователей. Однако их оценка представляет собой значительную проблему, так как традиционные методы оценки человеком становятся быстро неадекватными, успевая не до конца отставать за темпами инноваций. Наблюдается рост интереса к использованию Логических Лингвистических Моделей (LLM Agents) для создания "цифровых двойников" пользователей, которые могут духовно воспроизводить поведение каждого отдельного человека. Однако вопрос о том, насколько точно LLM Agent может отобразить социально-культурные и психологические особенности человека в многократном взаимодействии с Agentic AI, остается открытым. ## Метод Исследование включало 40 человек-участников, которые покупали товары с помощью Amazon Rufus, а затем создавались "цифровые двойники", которые повторяли тот же процесс. Цифровые двойники построились на основе анализа интервью, журналов пользователей и отзывов о UX. Методом сравнения парных трасс (human-digital twin) проводилась оценка того, насколько хорошо цифровые двойники могут воспроизводить поведение многократного взаимодействия. Данные о поведении взаимодействия (например, выбор товаров, вопросы, которые задавались, дизайнерские комментарии) были сборены и сравнивались между реальными людьми и их цифровыми двойниками. ## Результаты Логические Лингвистические Модели в своих цифровых двойниках способны воспроизводить многократные пользовательские взаимодействия с Agentic AI в тех же областях, что и реальные пользователи. Эксперименты показали, что цифровые двойники могут делать дизайнерские выводы похожими на те, что делают реальные пользователи. Кроме того, LLM Agents могут хорошо отражать человеческие стратегии интеракции, включая интересы, предпочтения и факторы, влияющие на оптимизацию полезности. Это позволяет имитировать поведение пользователей в условиях реального мира, чтобы оценить работоспособность Agentic AI. ## Значимость Этот подход может иметь широкое применение в сценариях, где необходимо эффективно оценивать новые системы общения с Agentic AI. Например, он может использоваться для тестирования новых сервисов покупок, технологий поддержки клиентов, или даже для создания более интеллектуальных чат-ботов. Этот подход также может увеличить эффективность разработки систем Agentic AI, устраняя необходимость в частом вмешательстве людьми в процесс. ## Выводы Исследование показало, что LLM Agents

Annotation:

Agentic AI is emerging, capable of executing tasks through natural language, such as Copilot for coding or Amazon Rufus for shopping. Evaluating these systems is challenging, as their rapid evolution outpaces traditional human evaluation. Researchers have proposed LLM Agents to simulate participants as digital twins, but it remains unclear to what extent a digital twin can represent a specific customer in multi-turn interaction with an agentic AI system. In this paper, we recruited 40 human part...

ID: 2509.21501v1 cs.HC, cs.CL

arXiv PDF

📄 What Makes LLM Agent Simulations Useful for Policy? Insights From an Iterative Design Engagement in Emergency Preparedness

2025-09-30

Авторы:

Yuxuan Li, Sauvik Das, Hirokazu Shirado

## Контекст Область исследования сосредоточена на применении бо LLM (Large Language Models) в качестве агентов для социальных симуляций, нацеленных на формирование политик. Несмотря на рост интереса к таким системам, реальное применение остается ограниченным. Авторы исследования стремятся ответить на вопрос: каким образом LLM-симуляции могут стать действительно полезными для политических решений? Для этого они провели годовой эксперимент в сотрудничестве с командой по подготовке к чрезвычайным ситуациям университета. Этот проект включал разработку системы из 13 000 LLM-агентов, моделирующих поведение людей во время крупных массовых мероприятий в условиях различных чрезвычайных ситуаций. Эти симуляции не только использовались для воспитания сознательности, но и влияли на формирование политики, включая тренировку волонтеров, разработку протоколов эвакуации и планирование инфраструктуры. ## Метод Методология основывалась на итеративном подходе к разработке системы симуляционных агентов. Авторы применяли многоэтапную модель, начиная с простых сценариев для установления доверия, затем расширяя систему сложными сценариями, включающими поведение людей и сетевые взаимодействия. Использовались инструменты для анализа данных и моделирования поведения, чтобы выявить ключевые факторы влияющие на эффективность реагирования на ситуации. Основными техническими решениями были использование моделей языка для агентов, интеграция данных о реальных мероприятиях и разработка интерактивной системы для моделирования. ## Результаты В результате исследования были получены три основных типа результатов. Во-первых, симуляционные системы оказались эффективными для того, чтобы проверять гипотезы и выявлять незаметные факторы, которые могут повлиять на реакцию на чрезвычайные ситуации. Во-вторых, система в порядке эксперимента помогла усовершенствовать текущие протоколы, включая тренировку волонтеров и коммуникацию во время массовых событий. Наконец, симуляции стали ключевым инструментом для формирования политики, влияя на мероприятия, посвященные планированию инфраструктуры для более безопасного массового собрания. Эти результаты подтверждают потенциал LLM-симуляций в политическом контексте. ## Значимость Симуляции LLM-агентов могут применяться в различных областях, включая безопасность, экономические стратегии и управление гуманитарными катастрофами. Их преимущества заключаются в том, что они могут помочь во внедрении решений, основанных на реальных данных, а также способствовать более эффективному сотрудничеству

Annotation:

There is growing interest in using Large Language Models as agents (LLM agents) for social simulations to inform policy, yet real-world adoption remains limited. This paper addresses the question: How can LLM agent simulations be made genuinely useful for policy? We report on a year-long iterative design engagement with a university emergency preparedness team. Across multiple design iterations, we iteratively developed a system of 13,000 LLM agents that simulate crowd movement and communication...

ID: 2509.21868v1 cs.HC, cs.CL

arXiv PDF

📄 Human-AI Narrative Synthesis to Foster Shared Understanding in Civic Decision-Making

2025-09-26

Авторы:

Cassandra Overney, Hang Jiang, Urooj Haider, Cassandra Moe, Jasmine Mangat, Frank Pantano, Effie G. McMillian, Paul Riggins, Nabeel Gillani

## Контекст Представительные политические процессы, такие как планирование зон для школ, часто сталкиваются с проблемой обработки больших объемов обратной связи от граждан. Эти процессы требуют эффективных методов анализа и синтеза, чтобы обеспечить общее понимание между городскими властями и гражданами. Несогласие и непонимание могут привести к разделению сообщества и снижению доверия к государственным учреждениям. Исследователи намерены использовать искусственный интеллект (AI) для синтеза повествовательных текстов, которые могут помочь объединить различные точки зрения и повысить уровень доверия и уважения в обществе. ## Метод Исследователи разработали пайплайн **StoryBuilder**, который совмещает человеческую и AI-компоненты для синтеза повествовательных текстов. За основу взяты 2480 обратных заявок от граждан в рамках процесса перераспределения зон для школ. AI анализировал эти отзывы и генерировал 124 совместных повествовательных текстов, каждый из которых представлял собой совместное восприятие заявителей. Эти тексты были размещены в интерфейсе **StorySharer**, доступном для мобильных устройств. Исследование включило не только экспериментальные данные, но и контролируемые эксперименты, которые изучали, как различные стили текстов влияют на участников. ## Результаты На телефонах и мобильных устройствах граждане могли просматривать и обсуждать повествовательные тексты, которые доступны для понимания и нейтральны в их оценке. Эксперименты показали, что повествовательные тексты, основанные на опыте, вызывали больше доверия и уважения, чем те, что были ориентированы на обобщенные мнения. Это показало, что AI может помочь сформировать более универсальное понимание в обществе. Исследование также показало, что пользователи готовы использовать такие системы в жизненных ситуациях. ## Значимость **StoryBuilder** может быть применен в различных областях, где требуется объединить различные точки зрения, таких как планирование городов, управление бедствиями и другие общественные процессы. Эта система облегчает синтез повествовательных текстов, которые могут помочь объединить различные группы в обществе. Она также показывает, что AI может играть важную роль в повышении доверия и содействии в общественном управлении. ## Выводы **StoryBuilder** доказал свою эффективность в реальном мире, помогая объединять различные точки зрения в городском планировании. Будущие исследования будут сконцентрированы на улучшении системы, в том числе повышении точности и эффективности синтеза, а также расширении ее применения в других областях, где необходимо объединение различных точе

Annotation:

Community engagement processes in representative political contexts, like school districts, generate massive volumes of feedback that overwhelm traditional synthesis methods, creating barriers to shared understanding not only between civic leaders and constituents but also among community members. To address these barriers, we developed StoryBuilder, a human-AI collaborative pipeline that transforms community input into accessible first-person narratives. Using 2,480 community responses from an ...

ID: 2509.19643v1 cs.HC, cs.CL

arXiv PDF

📄 An Evaluation-Centric Paradigm for Scientific Visualization Agents

2025-09-20

Авторы:

Kuangshi Ai, Haichao Miao, Zhimin Li, Chaoli Wang, Shusen Liu

## Контекст Область исследования, связанная с автоматизированными системами визуализации данных, является ключевой для обеспечения эффективного взаимодействия пользователей с большими наборами данных в сложных сферах, таких как научное исследование, технический анализ и промышленность. Традиционные подходы к визуализации часто требуют значительных усилий от пользователя для создания и анализа визуальных представлений. Существует необходимость в развитии самостоятельных агентов, способных адаптироваться к потребностям пользователей, преобразовывать их запросы в визуальные представления и даже улучшать свои производительности в реальном времени. Несмотря на прогресс в области многомодальных больших языковых моделей (MLLMs), существуют значительные проблемы, в том числе отсутствие комплексных бенчмаров для оценки развития таких агентов, особенно в сфере научной визуализации (SciVis), где требования к точности, ясности и интерпретируемости визуальных представлений высоки. Работа посвящена изучению этих проблем и предлагает подход, сконцентрированный на этапе оценки, для развития эффективных моделей визуализации. ## Метод Разработка самостоятельных агентов визуализации, использующих многомодальные модели языка, требует уточненного подхода к оценке их качества. Методология, предлагаемая в работе, включает несколько ключевых этапов: (1) определение критериев оценки, включающих точность, масштабируемость, интерактивность и понятность визуальных представлений; (2) создание эталонных данных, охватывающих различные научные дисциплины и сложности задач визуализации; (3) разработка прогностических моделей, которые не только отображают данные, но и анализируют пользовательские запросы, изменяя свои модели на основе реакции на эти запросы; (4) внедрение методов самообучения, позволяющих агентам улучшать свои результаты с помощью обратной связи от пользователей. Эталонная архитектура предлагает возможность моделирования различных сценариев визуализации и сравнения производительности разных агентов. ## Результаты Работа представляет результаты экспериментов, проведенных с использованием различных научных наборов данных, включающих данные геномов, спутниковой съемки и метеорологических данных. Использовались несколько существующих моделей визуализации, а также новые модели, разработанные в рамках этой работы. Были проведены эксперименты для оценки точности визуализации, скорости выполнения задач, возможности интерактивности и качества пользовательского интерфейса. Основные резуль

Annotation:

Recent advances in multi-modal large language models (MLLMs) have enabled increasingly sophisticated autonomous visualization agents capable of translating user intentions into data visualizations. However, measuring progress and comparing different agents remains challenging, particularly in scientific visualization (SciVis), due to the absence of comprehensive, large-scale benchmarks for evaluating real-world capabilities. This position paper examines the various types of evaluation required f...

ID: 2509.15160v1 cs.HC, cs.CL, cs.GR

arXiv PDF

📄 When Avatars Have Personality: Effects on Engagement and Communication in Immersive Medical Training

2025-09-19

Авторы:

Julia S. Dollis, Iago A. Brito, Fernanda B. Färber, Pedro S. F. B. Ribeiro, Rafael T. Sousa, Arlindo R. Galvão Filho

## Контекст Виртуальная реальность (VR) позволяет эффективно моделировать физические окружения, однако её применение в обучении социально-психологических навыков сталкивается с рядом проблем. Одной из них является недостаточная психологическая правдоподобность виртуальных людей. Это особенно актуально в высокорисковых областях, таких как медицинское образование, где коммуникативные навыки являются критически важными. Данное исследование фокусируется на развитии инновационного подхода, который интегрирует ларжейш с LLM для создания виртуальных пациентов с уникальными, консистентными личностями. Мотивация заключается в развитии систем, которые не только правдоподобно воспроизводят медицинский контекст, но и способствуют развитию коммуникативных навыков врачей с помощью свободного общения. ## Метод Разработанная система основывается на модульной архитектуре, которая позволяет декомпозировать личность виртуального пациента от клинической информации. Ларжейш используется для генерации реалистичных ответов, в то время как LLM обеспечивает консистентность и глубину личности. Методология включает в себя разработку сценариев симуляции, сбор данных о пациентах в медицинских учебных заведениях, а также создание VR-среды, где врачи могут взаимодействовать с виртуальными пациентами. Для оценки эффективности использовались методы смешанных предметных групп и внутреннего сравнения, чтобы измерить уровень увлеченности и эффективность обучения. ## Результаты Выполненные эксперименты показали, что виртуальные пациенты с личностью не только значительно усиливают увлеченность учащихся, но и повышают эффективность обучения. Данные показали, что медики ощущают систему как естественную и полезную в ситуациях, где необходимо развитие коммуникативных навыков. Было выявлено несколько ключевых принципов дизайна, таких как "парадокс реализма-вербости", когда менее громкие виртуальные пациенты могут показаться более искусственными, и важность создания задач, которые учащиеся предполагают настоящими, чтобы быть эффективными для обучения. ## Значимость Предложенная система имеет широкие перспективы применения в обучении медицинских специалистов, где необходимо развитие компетенций в области коммуникации. Особый потенциал имеет применение в обучении докторов и медсестер, где необходимо быстрое принятие решений и эффективные коммуникационные навыки. Значительным преимуществом является возможность индивидуализации обучения, которая позволяет регулировать трудности и стимулировать пости

Annotation:

While virtual reality (VR) excels at simulating physical environments, its effectiveness for training complex interpersonal skills is limited by a lack of psychologically plausible virtual humans. This is a critical gap in high-stakes domains like medical education, where communication is a core competency. This paper introduces a framework that integrates large language models (LLMs) into immersive VR to create medically coherent virtual patients with distinct, consistent personalities, built o...

ID: 2509.14132v1 cs.HC, cs.CL

arXiv PDF

Показано 1 - 10 из 24 записей