📚 Саммари научных статей из arXiv

Найдено 239 результатов по запросу 'cs.HC, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 DoubleAgents: Exploring Mechanisms of Building Trust with Proactive AI

2025-09-18

Авторы:

Tao Long, Xuanming Zhang, Sitong Wang, Zhou Yu, Lydia B Chilton

## Контекст Динамические и agentic системы, которые действуют на бэкграунде, обещают повысить эффективность, но их принятие зависит от уровня доверия пользователей к технологиям, действующим от их имени. Это доверие определяется степенью прозрачности системы, контроля, который она предоставляет, и того, насколько эффективно она адаптируется к пользовательским потребностям. Несмотря на развитие AI, многие пользователи страдают от "мыслительного брешя", когда они предпочитают отказаться от системы в пользу ручного управления. Этот феномен становится ключевым барьером для распространения прозрачных и agentic систем. Мотивацией для DoubleAgents является создание прозрачной и контролируемой системы, которая позволяет пользователям узнать, насколько можно доверять AI, и как эффективно его использовать. ## Метод DoubleAgents — это agentic planning tool, который интегрирует несколько механизмов для построения доверия. Он включает в себя: 1. **Расширенную прозрачность**: Отображение текущего состояния и истории действий системы. 2. **Значение-ориентированные политики**: Система адаптируется к пользовательским значениям, чтобы принимать решения, отражающие их приоритеты. 3. **Прояснение неопределенности**: Отображение неопределенности в решениях и предложении возможности интервенции. 4. **Имитационный модуль**: Обучающий модуль, позволяющий пользователям тестировать и развивать свои стратегии в условиях реальной ситуации. 5. **Проверка неопределенности**: Флаги неопределенности в решениях, которые могут потребовать вмешательства пользователя. ## Результаты В ходе лабораторного исследования (n=10) и двух реальных развертываний (n=2), DoubleAgents показал, что пользователи, сначала сомневавшиеся в доверии AI, значительно увеличили свой уровень доверия по мере улучшения прозрачности и контроля. В лабораторном эксперименте, измерявший использование и надёжность, показал, что пользователи расширяли свою инициативу в зависимости от того, насколько хорошо они понимали систему и её решения. Результаты реальных развертываний показали, что DoubleAgents мог отвечать на увеличение сложности задач и достаточно эффективно использовать контекстные данные для принятия решений. ## Значимость DoubleAgents может быть применен в различных областях, где необходимо agentic planning и доверие к системам. Он позволяет пользователям решать задачи более эффективно, снижая усилия, необходимые для ручного мониторинга. Это система с меньшей вероятностью ошибок, чем ручное управление. Одним из основных преимуществ DoubleAgents является возможность пользователя взаимодействовать с системой, учитывая её неопределенности, что позволяет не только расширить доверие к си

Annotation:

Agentic workflows promise efficiency, but adoption hinges on whether people actually trust systems that act on their behalf. We present DoubleAgents, an agentic planning tool that embeds transparency and control through user intervention, value-reflecting policies, rich state visualizations, and uncertainty flagging for human coordination tasks. A built-in respondent simulation generates realistic scenarios, allowing users to rehearse, refine policies, and calibrate their reliance before live us...

ID: 2509.12626v1 cs.HC, cs.AI, cs.CY, cs.ET

arXiv PDF

📄 Gesture Evaluation in Virtual Reality

2025-09-18

Авторы:

Axel Wiebe Werner, Jonas Beskow, Anna Deichler

## Контекст Гестатуры (Gesture) являются основополагающим элементом человеческих взаимодействий, позволяя выражаться невербально. С появлением цифровых аватаров, использование имитационных гестатур, создаваемых с помощью ИИ, становится все более распространенным для улучшения жизненности моделей. Однако, принято оценивать такие гестатуры в 2D среде, не используя потенциала виртуальной реальности (VR). Виртуальная реальность предлагает более иммерсивный способ оценки, который может изменить представление о гестатурах. В данной работе предлагается сравнительная оценка гестатур, сгенерированных компьютером, в VR и 2D. Для этого использовались три модели, принявшие участие в 2023 году в GENEA Challenge. ## Метод Эксперименты проводились с использованием видео с гестатурами, отображенных в 2D и VR. Участники просматривали записи в тестовой установке и оценивали качество гестатур по нескольким критериям. Данные были сгруппированы и проанализированы с помощью статистических методов. Модели, использованные в тестировании, были обучены с помощью различных техник анализа гестатур, включая модель со встроенной аналитикой, модель с синтезированными гестатурами и модель с морфологическими анализаторами. Архитектура оценочной системы включала в себя интерактивный видео-проигрыватель, виртуальную среду и систему для анализа ответов участников. ## Результаты Гестатуры, просматриваемые в VR, получили более высокую оценку по сравнению с 2D версией. Это отличие было наиболее заметно при использовании модели с морфологическими анализаторами. Однако, рейтинги моделей оставались стабильными в обоих условиях. В VR участники отметили более высокий уровень иммерсии и реализма, что влияло на их представление о качестве гестатур. Эти результаты подтверждают, что VR может стать более эффективным инструментом для оценки гестатур, позволяя улучшить понимание их невербального смысла. ## Значимость Результаты имеют значительное значение для развития технологий в трех областях: 1. **Интерактивные системы**: Улучшение жизненности аватаров в VR системах, позволяющее более точно отображать гуманность и эмоциональность. 2. **Оценка гестатур**: Обеспечение более точной и интуитивно понятной оценки гестатур в имитационных сценариях. 3. **Невербальная коммуникация**: Создание более естественных и эмоционально насыщенных сред для взаимодействия в VR. ## Выводы Основными достижениями являются установленные преимущества VR для оценки гестатур и выявленные отличия в поведении участников в зависимости от среды

Annotation:

Gestures are central to human communication, enriching interactions through non-verbal expression. Virtual avatars increasingly use AI-generated gestures to enhance life-likeness, yet evaluations have largely been confined to 2D. Virtual Reality (VR) provides an immersive alternative that may affect how gestures are perceived. This paper presents a comparative evaluation of computer-generated gestures in VR and 2D, examining three models from the 2023 GENEA Challenge. Results show that gestures ...

ID: 2509.12816v1 cs.HC, cs.AI, cs.CV, cs.LG, 68T50, 68T07, 68U35, H.5.1; H.5.2; I.2.10; I.3.7

arXiv PDF

📄 Vibe Coding for UX Design: Understanding UX Professionals' Perceptions of AI-Assisted Design and Development

2025-09-17

Авторы:

Jie Li, Youyang Hou, Laura Lin, Ruihao Zhu, Hancheng Cao, Abdallah El Ali

## Контекст Generative AI, в том числе технологии "vibe coding", всё больше проникают в различные сферы проектирования и разработки, в том числе и в область UX-дизайна. "Vibe coding" представляет собой метод, в котором UX-специалисты описывают свои идеи в естественном языке, а система AI преобразует эти указания в функциональные прототипы и код. Из-за этой технологии процессы разработки становятся более быстрыми и гибкими, но при этом были признаны и новые возможные проблемы, такие как отношение к доверию, социальные статусы в командах и уровень делегирования ответственности. Однако, несмотря на скорость их развития, недостаточно учтены аспекты, связанные с повлиянием этих новых технологий на рабочие процессы, навыки и социальные отношения в профессиональных командах. Целью данного исследования является раскрытие этих вопросов, а также того, как "vibe coding" влияет на UX-дизайн и взаимодействие в командах. ## Метод Для исследования были проведены 20 интервью с UX-специалистами различных уровней и сфер - от крупных корпораций до стартапов и учебных заведений. Интервью были направлены на выявление процессов работы и ощущений от использования AI в проектировании. Чтобы дополнительно понять как AI влияет на творческие процессы, были изучены рабочие процессы, включающие несколько этапов: идеография, генерация AI, отладка и ревью. Также проводилась аналитическая модель по 4 этапам, чтобы выявить, как эти этапы воздействуют на уровень творчества, цифровой доверительности и отношения в рабочей команде. Это помогло понять как "vibe coding" влияет на уровень участия и уровень ответственности в процессе UX-дизайна. ## Результаты Из интервью выяснилось, что "vibe coding" вводит новый шаблон работы, который ускоряет процессы идеографии и генерации, но при этом может сказаться и на качестве инструментов. UX-специалисты отмечают, что AI может помочь снизить барьеры для пользователей, но при этом возникают проблемы с неподготовленностью AI-систем к определенным задачам, в том числе выводом неточного кода, несовместимостью с другими инструментами, и более широкой проблемой - "дезиллюзией", когда люди начинают доверять системе слишком много. Также были выявлены узкие места, такие как проблемы с сотрудничеством в командах, когда пользователи начинают искать виноватого в случае неудачных результатов, или же жалуются на недостаточную гибкость или надежность AI-систем. ## Значимость "Vibe coding" имеет потенциал для оптимизации процессов UX-дизайна, особенно в сферах сложных интерактивных систем, где требуется большое количество интерактивных элементов. Однако, в некоторых сит

Annotation:

Generative AI is reshaping UX design practices through "vibe coding," where UX professionals express intent in natural language and AI translates it into functional prototypes and code. Despite rapid adoption, little research has examined how vibe coding reconfigures UX workflows and collaboration. Drawing on interviews with 20 UX professionals across enterprises, startups, and academia, we show how vibe coding follows a four-stage workflow of ideation, AI generation, debugging, and review. This...

ID: 2509.10652v1 cs.HC, cs.AI, cs.CY, cs.ET

arXiv PDF

📄 Dark Patterns Meet GUI Agents: LLM Agent Susceptibility to Manipulative Interfaces and the Role of Human Oversight

2025-09-17

Авторы:

Jingyu Tang, Chaoran Chen, Jiawen Li, Zhiping Zhang, Bingcan Guo, Ibrahim Khalilov, Simret Araya Gebreegziabher, Bingsheng Yao, Dakuo Wang, Yanfang Ye, Tianshi Li, Ziang Xiao, Yaxing Yao, Toby Jia-Jun Li

## Контекст Графические пользовательские интерфейсы (GUI) становятся все более интеллектуальными благодаря технологиям глубокого обучения и генерируемым с помощью лингвистических моделей (LLM). Эти технологии позволяют автоматизировать сложные задачи и увеличивают эффективность пользовательского опыта. Однако с другой стороны, GUI-agents могут стать жертвами "dark patterns" (девиаторных дизайнерских методов), которые способны манипулировать пользователями и вызвать негативные последствия для их решений и самодержавия. Несмотря на то, что существует значительное количество исследований по влиянию "dark patterns" на людей, мало что известно о том, как эти методы влияют на GUI-agents. Это создает необходимость в понимании того, как агенты машинного обучения отреагируют на эти методы, чтобы обеспечить безопасность, автономность и эффективность контроля за ними. ## Метод Для изучения этого вопроса была проведена двухфазная эмпирическая исследовательская работа. В первой фазе проведены эксперименты, в которых LLM-powered GUI-agents взаимодействовали с различными "dark patterns", а на второй – с участием человеческого участника. В качестве агентов использовались GUI-agents, которые автоматизировали различные задачи. Набор данных включал 16 различных типов "dark patterns", среди которых были различные типы ошибок в различных условиях и сценариях. Наблюдения включали в себя оценку производительности агентов, а также выявление ситуаций, когда они проваливались или успешно избегали манипуляций. ## Результаты Результаты экспериментов показали, что GUI-agents часто не в состоянии идентифицировать "dark patterns", даже когда они имеют возможность взаимодействовать с ними. В то же время, когда они распознали такие методы, они часто отдавали предпочтение выполнению задач, а не защите от мошенничества. Были выявлены различные формы провала: у людей – нарушение логики и ловушка привычного поведения, а у агентов – процедурные слепые пятна, когда они не могут учесть неожиданные манипуляции. Однако когда люди участвовали в командах с AI-agents, их помощь достигала усовершенствования результатов, хотя это приводило к стоимости в виде увеличения концентрации внимания и усилий на управление. ## Значимость Результаты этих исследований могут быть применены в различных областях, например, в сфере электронной коммерции, социальных медиа и других системах, где GUI-agents используются в качестве помощников. Выявленные риски открывают пути к разработке более транспарентных интерфейсов, а также развитию адаптивного контроля, позволяющего пользователю самостоятельно решать, какие задачи будут выполняться аг

Annotation:

The dark patterns, deceptive interface designs manipulating user behaviors, have been extensively studied for their effects on human decision-making and autonomy. Yet, with the rising prominence of LLM-powered GUI agents that automate tasks from high-level intents, understanding how dark patterns affect agents is increasingly important. We present a two-phase empirical study examining how agents, human participants, and human-AI teams respond to 16 types of dark patterns across diverse scenarios...

ID: 2509.10723v1 cs.HC, cs.AI

arXiv PDF

📄 Bridging Cultural Distance Between Models Default and Local Classroom Demands: How Global Teachers Adopt GenAI to Support Everyday Teaching Practices

2025-09-17

Авторы:

Ruiwei Xiao, Qing Xiao, Xinying Hou, Hanqi Jane Li, Phenyo Phemelo Moletsane, Hong Shen, John Stamper

## Контекст Generative AI (GenAI) значительно меняет среда обучения в школах, позволяя учителям развивать новые подходы к обучению. Однако генеративные модели часто обучаются на данных, отражающих "штатную культуру", которая может значительно отличаться от местных образовательных ситуаций. Это свойство может привести к проблемам в использовании GenAI в разных культурных контекстах. Этот мотивирующий факт стал основой для исследования проблемы "культурного расстояния" — разницы между генеративными моделями и локальными образовательными требованиями. Для изучения этой проблемы был проведен подробный анализ с 30 учителями средней школы из трех стран: Южной Африки, Тайваня и США. Эти учителя использовали GenAI в своих практиках обучения. Исследование определило новый подход к тому, как GenAI может быть применен для решения проблем, связанных с культурным расстоянием. ## Метод Исследование основывается на 30 подробных интервью с учителями, которые демонстрируют различные уровни культурного расстояния в их практиках. Участники были выбраны из разных регионов с разными культурными особенностями, чтобы обеспечить разнообразие в локальных культурных практиках. Интервью были проведены с использованием вопросов, нацеленных на раскрытие стратегий, используемых учителями для адаптации GenAI к их культурным требованиям. Далее был разработан трехуровневый фреймворк, описывающий разные уровни культурного расстояния и примеры его возникновения. Это позволило выявить характеристики культурного расстояния и предложить рекомендации по его устранению. ## Результаты Из интервью выяснилось, что учителя испытывают разные уровни культурного расстояния в зависимости от своих культурных фонов и требований к урокам. Уровни культурного расстояния разделяются на три группы: низкий, средний и высокий. Низкий уровень означает минимальное расстояние, где GenAI легко адаптируется к локальным требованиям. Средний уровень отражает учителям необходимость применять дополнительные усилия, чтобы удаленность модели от локальных требований не была слишком влиятельной. Высокий уровень характеризуется большим расстоянием, где GenAI иногда может даже быть непригодна к использованию. Общие стратегии, которые учителя использовали для решения проблем с культурным расстоянием, включали в себя как индивидуальные, так и коллективные подходы. ## Значимость Результаты этого исследования имеют высокую значимость для разных областей. Во-первых, они могут помочь дизайнерам GenAI и разработчикам предлагать более культурно отзывчивые инструмен

Annotation:

Generative AI (GenAI) is rapidly entering K-12 classrooms, offering teachers new ways for teaching practices. Yet GenAI models are often trained on culturally uneven datasets, embedding a "default culture" that often misaligns with local classrooms. To understand how teachers navigate this gap, we defined the new concept Cultural Distance (the gap between GenAI's default cultural repertoire and the situated demands of teaching practice) and conducted in-depth interviews with 30 K-12 teachers, 10...

ID: 2509.10780v1 cs.HC, cs.AI

arXiv PDF

📄 Evalet: Evaluating Large Language Models by Fragmenting Outputs into Functions

2025-09-17

Авторы:

Tae Soo Kim, Heechan Lee, Yoonjoo Lee, Joseph Seering, Juho Kim

## Контекст Огромный рост интереса к генерирующимся с помощью искусственного интеллекта выводам привел к популяризации использования ЛСМ (Ло Lаrge Language Mоdels) в качестве средств оценки генерируемого контента. Однако, личные оценки, производящиеся всеми существующими методами, приводят к проблемам в доступности результатов для людей, не имеющих опыта в области моделей языков. Более того, получаемые целостные оценки не дают понять, какие конкретные элементы влияют на полученный результат. Данная проблема может привести к ошибкам в выводах и снижению доверия к ЛСМ. ## Метод Для решения данных проблем была предложена новая методология, основанная на разбиении вывода ЛСМ на функциональные фрагменты, которые значительно упрощает обработку результатов. Функциональные фрагменты вывода определяются с помощью ретрикторских функций, которые используются в качестве критериев оценки. Эта новая подходность позволяет моделировать и отображать результаты в таком виде, чтобы пользователь мог провести глубокий анализ элементов и понять, как они влияют на общую оценку. Метод был реализован в системе Evalet, которая использует интерактивные визуализации для поддержки инспекции, оценки и сравнения выводов. ## Результаты В ходе экспериментов был проведен исследовательский эксперимент, в котором участвовали 10 участников. Они использовали Evalet в тестировании генерируемых выводов ЛСМ. Результаты показали, что техника функционального разделения позволила увеличить число обнаруженных проблем в выводах на 48% в сравнении с традиционными методами. Это позволило улучшить надежность и возможность отслеживать точные проблемы в модели. Таким образом, Evalet делает процесс оценки более транспарентным и эффективным. ## Значимость Результаты Evalet показали, что система оказалась особенно полезна в профессиональных задачах, где необходимо понять не только оценку, но и ее конкретные аспекты. Интерактивные возможности Evalet делают ее инструментом для быстрого и точного анализа моделей языков. Данный подход может быть применен в различных областях, включая технологии поддержки решений, системы мониторинга качества и контент-аналитику. ## Выводы Выводы исследования подтвердили, что Evalet значительно улучшает процесс оценки выводов ЛСМ, помогая пользователям обнаруживать больше проблем и делать более тщательный анализ результатов. Более того, обнаружено, что Evalet может стать залогом будущих исследований в области оценки генерируемых выводов и моделей языков. В будущем можно рассмотреть возможность расширения Evalet для поддержки других способов о

Annotation:

Practitioners increasingly rely on Large Language Models (LLMs) to evaluate generative AI outputs through "LLM-as-a-Judge" approaches. However, these methods produce holistic scores that obscure which specific elements influenced the assessments. We propose functional fragmentation, a method that dissects each output into key fragments and interprets the rhetoric functions that each fragment serves relative to evaluation criteria -- surfacing the elements of interest and revealing how they fulfi...

ID: 2509.11206v2 cs.HC, cs.AI, cs.CL

arXiv PDF

📄 CareerPooler: AI-Powered Metaphorical Pool Simulation Improves Experience and Outcomes in Career Exploration

2025-09-17

Авторы:

Ziyi Wang, Ziwen Zeng, Yuan Li, Zijian Ding

## Контекст Career exploration является неопределенным и сложным процессом, требующим принятия решений с ограниченной информацией и непредсказуемыми результатами. Хотя генеративная AI может облегчить эти процессы, существующие системы часто ограничиваются линейными чат-интерфейсами, которые предлагают глубокие, но идеализированные советы. Эти системы не учитывают нелинейную и усилийный характер реального мира. Мы представляем CareerPooler, систему, основанную на генеративной AI, которая использует метафору бильярдного стола для симуляции профессионального роста. Этот подход превращает профессиональный рост в нелинейный, адаптивный процесс, включающий в себя спонтанные события и решения. ## Метод CareerPooler строится на метафоре бильярда, где пользователи используют мячи, представляющие милионы, навыки и случайные события. Игра заключается в том, что пользователь "подбрасывает" мячи, а их соударения, коллизии и отражения отображаются на экране. Этот аналогичный подход помогает пользователям понять, как принимать решения в условиях неопределенности. В наших экспериментах мы работали с 24 участниками, которые сравнивали CareerPooler с традиционным чат-ботом. Мы измеряли показатели, такие как увлеченность, получение информации, удовлетворенность и понимание своего пути. ## Результаты Исследование показало, что CareerPooler значительно увеличивает увлеченность, повышает получение информации, улучшает удовлетворенность и развивает четкость в профессиональном направлении. Также участники отметили, что с помощью бильярдного подхода они могут лучше понять, как принимать решения в условиях неопределенности. Квалитативные данные показали, что спортивная метафора помогает пользователям находить надежные решения в трудных ситуациях, укрепляет уверенность и снижает психологический давление. ## Значимость CareerPooler может быть применен в различных сферах, включая образование, предпринимательство и личностное развитие. Он предоставляет удобный, интерактивный и интуитивно понятный способ обучения через аналогии. Этот подход не только улучшает понимание, но и мотивирует пользователей, делая процесс работы с AI более увлекательным и эффективным. ## Выводы CareerPooler показывает, что использование визуальных метафор в генеративных AI-системах может значительно улучшить пользовательский опыт. Будущие исследования будут рассматривать расширение этого подхода для других сфер, таких как образовательные программы, тренинги и вовлечение в рабочих процессах.

Annotation:

Career exploration is uncertain, requiring decisions with limited information and unpredictable outcomes. While generative AI offers new opportunities for career guidance, most systems rely on linear chat interfaces that produce overly comprehensive and idealized suggestions, overlooking the non-linear and effortful nature of real-world trajectories. We present CareerPooler, a generative AI-powered system that employs a pool-table metaphor to simulate career development as a spatial and narrativ...

ID: 2509.11461v1 cs.HC, cs.AI, H.5

arXiv PDF

📄 Designing and Evaluating a Conversational Agent for Early Detection of Alzheimer's Disease and Related Dementias

2025-09-17

Авторы:

Andrew G. Breithaupt, Nayoung Choi, James D. Finch, Jeanne M. Powell, Arin L. Nelson, Oz A. Alon, Howard J. Rosen, Jinho D. Choi

## Контекст Диагностика заболеваний Альцгеймера и схожих дизентрий (ADRD) в ранних стадиях критическая для эффективного лечения и поддержания качества жизни пациентов. Однако многие диагнозы в данной области производятся только в тяжелых стадиях, когда опции лечения ограничены. Одной из основных проблем является недостаточность систематически сбора и анализа подробных пациентских историй, которые являются ключевым инструментом для точного диагноза. Несмотря на то, что раннее исследование посвящено использованию звукового ввода для классификации статуса пациентов, менее уделялось внимания разработке систем, помогающих в подготовке и анализе пациентских историй. Целью нашего исследования является разработка и оценка голосового интерактивного агента, который мотивирует пациентов и их информантов рассказывать подробные истории с целью определения симптомов ADRD. ## Метод Мы разработали голосовой интерактивный агент, основанный на технологии бо LLM, который способен стимулировать подробную беседу, вызывая участников к рассказу о жизненных опытах, связанных с ADRD. Алгоритм агента структурирует вопросы таким образом, чтобы собирать подробные фактические данные, аналогичные тем, что предоставляются в классической пациентской истории. Мы провели эксперименты с 30 участниками, у которых были подозрения на ADRD. Данные были собраны с помощью анализа бесед, опросов пользователей (19 участников) и клинической валидации в сравнении с независимыми интервью специалистов (24 участника). ## Результаты Агент показал сильную аналитическую связь с клиническими оценками. Он успешно выявил и оценил симптомы ADRD, соответствующие теми, которые были выявлены специалистами. Пользователи оценили агента как интересного и полезного, отмечая его способность поддерживать беседу и пробуждать интерес к рассказу. Особенно высокими оценками пользователи отметили терпение и структурированность вопросов, которые способствуют тому, чтобы люди поделились сложными и чувственными опытами. ## Значимость Результаты показывают, что голосовой интерактивный агент может служить как эффективный инструмент для сбора данных в процессе оценки ADRD. Он может помочь в раннем выявлении значимых симптомов и облегчить процесс диагностики для специалистов. Более того, эта технология может стать важной частью будущих систем, помогающих обнаружить ADRD на ранних стадиях, что позволит увеличить возможности для профилактики и лечения. ## Выводы Наши исследования показали, что голосовой интерактивный агент, ос

Annotation:

Early detection of Alzheimer's disease and related dementias (ADRD) is critical for timely intervention, yet most diagnoses are delayed until advanced stages. While comprehensive patient narratives are essential for accurate diagnosis, prior work has largely focused on screening studies that classify cognitive status from interactions rather than supporting the diagnostic process. We designed voice-interactive conversational agents, leveraging large language models (LLMs), to elicit narratives r...

ID: 2509.11478v1 cs.HC, cs.AI

arXiv PDF

📄 Interaction-Driven Browsing: A Human-in-the-Loop Conceptual Framework Informed by Human Web Browsing for Browser-Using Agents

2025-09-17

Авторы:

Hyeonggeun Yun, Jinkyu Jang

## Контекст Интернет-браузеры широко используются для выполнения различных задач, однако большинство браузерных агентов (BUA) выполняют только одну конкретную инструкцию и не могут поддерживать сложные, нелинейные браузерные поиски с неоднозначными целями, итеративными решениями и изменяющимся контекстом. Это приводит к ограниченности их применения. Нам также известно, что принципы взаимодействия, на которых основываются текущие BUA, не всегда соответствуют естественным паттернам человеческого поведения во время браузерного поиска. Мы предлагаем новую концепцию, в которой BUA активно предлагают последующие действия, а пользователь управляет процессом с помощью обратной связи, позволяя подстраиваться под конкретные задачи и неоднозначности. Этот подход предназначен для уменьшения физического и когнитивного усилий, сохранив традиционные представления о браузерном поиске и поддерживая пользователя в достижении целей. ## Метод Наша концепция основывается на теориях человеческого поведения во время браузерного поиска. Мы предлагаем итеративный цикл, в котором BUA строит предложения действий, а пользователь может принимать решения, указывая желаемую глубину и ширину проведения сканирования. Мы также разделяем действия на два вида: обогащение и оптимизация. Обогащение позволяет пользователю расширить область поиска, в то время как оптимизация помогает подстраиваться под выполнение конкретных целей. Мы предлагаем архитектуру, в которой BUA анализирует пользовательские действия и адаптируется к ним, создавая более точные предложения в каждом цикле. Эта модель позволяет BUA лучше подстроиться под специфику поведения пользователя. ## Результаты Мы проводим эксперименты, используя реальные данные браузерного поиска, чтобы протестировать нашу модель. Мы сравниваем результаты с традиционными BUA и показываем, что интерактивный подход снижает количество пользовательских усилий и улучшает качество результатов. Мы также наблюдаем, что новый подход позволяет пользователю более эффективно управлять глубиной и шириной браузерного поиска, выполняя более сложные задачи. Эксперименты показывают, что наша модель улучшает эффективность и удобство использования, сравниваясь с традиционными BUA. ## Значимость Предлагаемая концепция может быть применена в сферах, где требуется сложный браузерный поиск с неоднозначными целями, таких как интеллектуальный анализ данных, электронная коммерция и интеллектуальные системы поддержки решений. Наш подход позволяет BUA быть более удобными и эффективными для пользователей, давая им большую свободу в

Annotation:

Although browser-using agents (BUAs) show promise for web tasks and automation, most BUAs terminate after executing a single instruction, failing to support users' complex, nonlinear browsing with ambiguous goals, iterative decision-making, and changing contexts. We present a human-in-the-loop (HITL) conceptual framework informed by theories of human web browsing behavior. The framework centers on an iterative loop in which the BUA proactively proposes next actions and the user steers the browsi...

ID: 2509.12049v1 cs.HC, cs.AI, cs.MA

arXiv PDF

📄 Can LLMs Address Mental Health Questions? A Comparison with Human Therapists

2025-09-17

Авторы:

Synthia Wang, Yuwei Cheng, Austin Song, Sarah Keedy, Marc Berman, Nick Feamster

## Контекст Ограниченный доступ к медицинской помощи в области психологического здравоохранения стал причиной развития цифровых инструментов и разговорных агентов, основанных на больших языковых моделях (LLM). Хотя эти технологии имеют потенциал для улучшения доступа к медицинской поддержке, их качество и приемлемость остаются неясными. Это исследование сравнивает ответы, написанные специалистами-психотерапевтами, с ответами, сгенерированными ChatGPT, Gemini и Llama, на реальные вопросы от пациентов. Оно подчеркивает необходимость развития систем, которые могут обеспечивать качественную помощь, сочетая сильные стороны LLMs с беспокойством о доверии, конфиденциальности и ответственности. ## Метод Для сравнения ответов использовались тексты, сгенерированные LLM-системами и ответов психотерапевтов на реальные вопросы пациентов. Эксперименты включали текстовый анализ, оценку читабельности, лексического разнообразия и тональности. Оценка ответов проводилась в результате опроса, в котором участвовали 150 пользователей и 23 лицензированных психотерапевтов. Методы включали классический текстовый анализ, оценку эмоционального цвета и речевых характеристик, а также сравнение стилей написания ответов. ## Результаты LLM-системы сгенерировали ответы, характеризующиеся большим объемом текста, выше уровнем читабельности, богатством лексики и более позитивным тоном. Ответы психотерапевтов чаще были написаны в первого лица, что может свидетельствовать о более личном подходе. В опросе, посвященном оценке качества ответов, участники отметили, что ответы LLM были яснее, более уважительными и поддерживающими, но при этом выражали большую предпочтение к ответам психотерапевтов. ## Значимость Результаты имеют большое значение в области цифровых решений для поддержки психологического здоровья. LLMs демонстрируют потенциал в создании читабельных и поддерживающих ответов, но требуют дополнительного развития для повышения доверия пользователей и обеспечения конфиденциальности. Они могут использоваться как дополнение к традиционным методам лечения, но необходимо учитывать возможные ограничения в доверии к технологиям и риск замены человеческого специалиста. ## Выводы LLMs могут оказаться полезными в области ментального здоровья, но их применение должно сочетаться с учетом потребностей пользователей и требований этичности. Будущие исследования должны сфокусироваться на улучшении методов, которые обеспечивают более высокую надежность, наделенность и понимание человеческих эмоций, чтобы добиться более эф

Annotation:

Limited access to mental health care has motivated the use of digital tools and conversational agents powered by large language models (LLMs), yet their quality and reception remain unclear. We present a study comparing therapist-written responses to those generated by ChatGPT, Gemini, and Llama for real patient questions. Text analysis showed that LLMs produced longer, more readable, and lexically richer responses with a more positive tone, while therapist responses were more often written in t...

ID: 2509.12102v1 cs.HC, cs.AI

arXiv PDF

1
2
13
14
15
16
17
23
24

Показано 141 - 150 из 239 записей