📚 Саммари научных статей из arXiv

Найдено 239 результатов по запросу 'cs.HC, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 AutiHero: Leveraging Generative AI in Social Narratives to Engage Parents in Story-Driven Behavioral Guidance for Autistic Children

2025-09-24

Авторы:

Jungeun Lee, Kyungah Lee, Inseok Hwang, SoHyun Park, Young-Ho Kim

#### Контекст Область исследования заключается в использовании искусственного интеллекта (ИИ) для улучшения социального поведения детей, страдающих аутизмом. Аутистические дети часто сталкиваются с трудностями в понимании и реагировании на социальные ситуации. Одним из подходов к решению этой проблемы является использование социальных нарративов — искусственные истории, которые помогают детям понять социальные контексты и реагировать на них. Тем не менее, создание и настройка этих нарративов требует значительных усилий от радиусов, что может стать препятствием для их широкого применения. Мотивация заключается в разработке инструмента, который бы снизил этот фактор нагрузки, повысил эффективность и сделал процесс более доступным родителям. #### Метод "AutiHero" — это система, основанная на генерируемом ИИ, которая помогает родителям создавать персонализированные социальные нарративы для своих детей. Система применяет методы генерируемого текста и графических иллюстраций, чтобы создавать индивидуальные изображения, отражающие интересы, поведенческие характеристики и повседневные ситуации детей. Уникальность системы в том, что она автоматически генерирует текст и изображения, учтя входные данные, предоставленные родителями. Основная архитектура включает в себя: 1) модуль генерирования текста, который создает текст на основе входных данных; 2) модуль генерирования изображений, который создает визуальные иллюстрации; 3) модуль создания интерактивного окружения, который позволяет родителям читать и подбирать истории вместе с детьми. #### Результаты В ходе эксперимента, проведенного в течение двух недель с 16 диадками родителей и детей, было получено значительное количество данных. Родители создали 218 нарративов, читая их в среднем 4.25 раз в день. Это свидетельствует о высокой увлеченности родителей и детей. Исследование показало, что система AutiHero не только оказывает эффективное воздействие на социальное поведение детей, но и упрощает процесс проведения родителями, снижая их нагрузку за счет генерируемых материалов. Это делает систему более доступной и эффективной для широкого круга родителей, даже тех, кто имеет ограниченные навыки в создании социальных нарративов. #### Значимость Потенциальное применение системы AutiHero не ограничивается только детьми с аутизмом. Она может быть применена в различных областях, включая работу со студентами, требующими поддержки в социальном общении, или даже в организациях для социального обучения. Известны преимущества генерируемого ИИ в создании своеобразия и личност

Annotation:

Social narratives are known to help autistic children understand and navigate social situations through stories. To ensure effectiveness, however, the materials need to be customized to reflect each child's unique behavioral context, requiring considerable time and effort for parents to practice at home. We present AutiHero, a generative AI-based social narrative system for behavioral guidance, which supports parents to create personalized stories for their autistic children and read them togeth...

ID: 2509.17608v1 cs.HC, cs.AI, cs.CL, H.5.2; I.2.7

arXiv PDF

📄 Through the Lens of Human-Human Collaboration: A Configurable Research Platform for Exploring Human-Agent Collaboration

2025-09-24

Авторы:

Bingsheng Yao, Jiaju Chen, Chaoran Chen, April Wang, Toby Jia-jun Li, Dakuo Wang

Добрый день! Я написала резюме научной статьи, но хочу убедиться, что оно максимально подробно и соответствует вашим ожиданиям. Вы можете проверить его и дать мне обратную связь? ## Контекст Современные интеллектуальные системы, как правило, разрабатываются как инструменты, а не как коллега-коллабораторы. Они часто не обладают важными характеристиками, необходимыми для успешной командной работы. Недавние прогрессы в области бо LLM (больших языковых моделей) позволяют открыть новые возможности для сотрудничества между людьми и системами, обеспечивая натуральное общение и развитие социально-когнитивных поведений. Однако неясно, как сохраняются, изменяются или же нарушаются принципы компьютерного преследования поддержания взаимоотношений, установленные в HCI (интерфейсно-компьютерных интеракций) и CSCW (коллективно-компьютерных работах), когда люди работают с LLM-агентами. Чтобы систематически изучить эти вопросы, разработана открытая и гибкая платформа для исследований в области HCI, которая обеспечивает модульность и гибкость в адаптации к видам классического труда в области CSCW, а также манипуляции с экспериментами на основе теории. ## Метод Платформа представляет собой модульную систему, позволяющую применять классические методы из сферы CSCW и тестировать новые подходы к взаимодействию. Она включает поддержку теории-основанных управлений взаимодействия, что дает возможность экспериментально изучить социально-когнитивные поведения. В качестве примера, был проведен реализация Shape Factory, в котором 16 участников принимали участие в эксперименте, в котором люди сотрудничали с LLM-агентом. Также был проведён транспарентный процесс переработки интерфейсов и порядка работы с помощью корректировок, на основе отзывов от пяти экспертов в области HCI. ## Результаты Эксперименты показали, что LLM-агенты могут быть эффективными в установлении сотрудничества, но требуют уточнения взаимодействия, когда они вступают в командные задачи. На основе результатов первого эксперимента выявлены некоторые проблемы в обеспечении естественного общения, а во втором эксперименте были приняты предложения по улучшению пользовательского интерфейса и оптимизации рабочего процесса для участников. ## Значимость Платформа может использоваться в различных областях, включая исследования в области HCI, повышение эффективности сотрудничества человека с агентами, а также в обучение искусственного интеллекта. Она предоставляет широкие возможности для экспериментов, позволяя изучить новые стратегии взаимодействия и у

Annotation:

Intelligent systems have traditionally been designed as tools rather than collaborators, often lacking critical characteristics that collaboration partnerships require. Recent advances in large language model (LLM) agents open new opportunities for human-LLM-agent collaboration by enabling natural communication and various social and cognitive behaviors. Yet it remains unclear whether principles of computer-mediated collaboration established in HCI and CSCW persist, change, or fail when humans c...

ID: 2509.18008v1 cs.HC, cs.AI, cs.CL

arXiv PDF

📄 Where Do I 'Add the Egg'?: Exploring Agency and Ownership in AI Creative Co-Writing Systems

2025-09-23

Авторы:

Dashiel Carrera, Jeb Thomas-Mitchell, Daniel Wigdor

## Контекст AI-системы совместной работы с человеком в области творчества, такие как копирайтинг, творческое письмо или журналистика, становятся все более популярными. Однако эти системы вызывают вопросы относительно агентства (agency) и владения (ownership) в творческом процессе. Традиционно, авторский контроль и агентство в творчестве считались неотъемлемыми чертами человеческого творчества. AI-системы, в свою очередь, предлагают альтернативу, в которой часть творческого усилия принадлежит машине. Это приводит к предчувствию утраты управления и, как следствие, к снижению доверия к таким системам. Мы исследуем, как различные интерфейсные метафоры влияют на восприятие агентства и владения автором в ходе совместной работы с AI. Наша цель — развитие значительного понимания того, как интерфейсные метафоры могут повлиять на творческий процесс и как они могут быть использованы для улучшения пользовательского опыта. ## Метод Мы разработали три версии одной и той же AI-системы совместной работы с человеком, изменяя только интерфейсные метафоры: агентскую (agentic), инструментальную (tool-like) и магическую (magical). В каждой версии пользователь мог создавать текст с помощью AI, но интерфейс каждой версии предлагал свой собственный способ взаимодействия с AI. Мы провели интервью с 18 участниками, включая профессиональных и нетворческих писателей, чтобы исследовать, как различные интерфейсные метафоры влияют на чувство контроля и владения авторами. Мы также использовали анализ данных для выявления типов восприятия агентства и владения, связанных с каждой метафорой. ## Результаты Мы обнаружили, что интерфейсные метафоры оказывают существенное влияние на чувство контроля и владения. Интерфейс с агентской метафорой (agentic) позволял пользователям чувствовать, что они контролируют творческий процесс, поскольку AI работает как помощник, отвечающий на их инициативу. Интерфейс с инструментальной метафорой (tool-like) снижал чувство контроля, так как пользователи ощущали, что AI действует более автономно и «принимает решения» за них. Интерфейс с магической метафорой (magical) вызвал более художественное восприятие, где пользователи чувствовали, что AI является неким "артистом", но это приводило к снижению чувства контроля. Наши результаты также позволяют выделить понятийную картину различных аспектов агентства и владения, которые пользователи чувствуют при работе с AI. ## Значимость Наши результаты имеют значительное значение для разработки будущих AI-систем совместной работы. Мы показали, что интерфейсные

Annotation:

AI co-writing systems challenge long held ideals about agency and ownership in the creative process, thereby hindering widespread adoption. In order to address this, we investigate conceptions of agency and ownership in AI creative co-writing. Drawing on insights from a review of commercial systems, we developed three co-writing systems with identical functionality but distinct interface metaphors: agentic, tool-like, and magical. Through interviews with professional and non-professional writers...

ID: 2509.15440v1 cs.HC, cs.AI

arXiv PDF

📄 Explainable AI for Maritime Autonomous Surface Ships (MASS): Adaptive Interfaces and Trustworthy Human-AI Collaboration

2025-09-23

Авторы:

Zhuoyue Zhang, Haitong Xu

## Контекст Мартимые автономные суда (MASS) представляют собой новый формат в мировом морехозяйственном секторе, который получает всё большую популярность благодаря развитию искусственного интеллекта, сенсорных технологий и технологий подключения. Однако существуют значительные препятствия на пути к безопасному и эффективному применению МАСС. Одной из основных проблем является непрозрачность решений, которая может привести к непредсказуемому поведению судна и снижению доверия к автоматизированным системам. Также неэффективная интеграция человека с автоматизированной системой может привести к небезопасному управлению судном. Эти проблемы приводят к необходимости разработки методов, которые не только улучшат безопасность, но и повысят доверие к автоматизированным системам на борту МАСС. ## Метод Для решения этих проблем разработана методология, основанная на синтезе и анализе современных исследований в области МАСС. Она включает в себя (i) определение главных проблем, таких как непрозрачность решений и небезопасное управление, (ii) анализ различных стратегий транспарентности, которые могут помочь улучшить понимание человеком работы системы, (iii) разработка адаптивных интерфейсов, которые могут адаптироваться к состоянию оператора и уменьшить нагрузку на его работу. Архитектура системы включает в себя слои для сбора и обработки данных сенсоров, интерфейса пользователя (в т.ч. графических и текстовых элементов) и процессов управления. Технические решения включают в себя развитие методов, позволяющих определить небезопасные действия операторов (Human-UCAs), а также разработку новых систем доверия и понимания для МАСС. ## Результаты Исследования показали, что транспарентность в автоматизации морского транспорта может быть достигнута через разработку решений, которые включают различные типы информации, такие как причины решений, альтернативы, уверенность и соответствие правилам. Эти элементы помогают улучшить понимание и доверие к системам. Результаты экспериментов показали, что интерфейсы, использующие графические и текстовые признаки, повышают удобство и безопасность управления суднами. Также были разработаны методы для определения небезопасных действий операторов, которые могут быть использованы для обнаружения и предотвращения опасных ситуаций. ## Значимость Разработанная транспарентная система может быть применена в различных сферах, включая морское транспортное обслуживание, рыболовство и другие спе

Annotation:

Autonomous navigation in maritime domains is accelerating alongside advances in artificial intelligence, sensing, and connectivity. Opaque decision-making and poorly calibrated human-automation interaction remain key barriers to safe adoption. This article synthesizes 100 studies on automation transparency for Maritime Autonomous Surface Ships (MASS) spanning situation awareness (SA), human factors, interface design, and regulation. We (i) map the Guidance-Navigation-Control stack to shore-based...

ID: 2509.15959v1 cs.HC, cs.AI, cs.CY

arXiv PDF

📄 Collective Voice: Recovered-Peer Support Mediated by An LLM-Based Chatbot for Eating Disorder Recovery

2025-09-22

Авторы:

Ryuhaerang Choi, Taehan Kim, Subin Park, Seohyeon Yoo, Jennifer G. Kim, Sung-Ju Lee

## Контекст Несмотря на прогресс в лечении естественными и химическими методами, являются жизненно важным источником поддержки личные рассказы о выздоровлении, которые могут подчеркнуть то, что исцеление от естественного здоровья не только возможно, но и необходимо. Однако, наличие таких поддерживающих мероприятий не достаточно, так как редко могут поддерживать надежду и постоянное выздоровление в контексте болезней естественного здоровья, в том числе в условиях этнического менталитета. Более того, эффективность таких мероприятий может влиять на выздоровление конкретных людей. Этот опыт может быть повлиянным на риск перебоев в лечении. Из-за этого участники лечения чувствуют себя недовольными. Разработанный проект RecoveryTeller является чат-ботом с характером выздоровевшего участника, который существует для поддержки людей в процессе их выздоровления от естественного здоровья. Мы проводили исследование, чтобы определить, возможно ли улучшить эффективность воздействия на процесс выздоровления с помощью такого чат-бота, и сравнили его с чат-ботом, который не содержит в себе опыт выздоровления. ## Метод Мы провели исследование с 26 человек, постоянно участвующих в программах выздоровления от естественного здоровья, и разделили их на две группы. Каждый из участников использовал первый чат-бот RecoveryTeller, имеющий характер выздоровевшего человека, на 10 дней, а затем перешел на второй чат-бот, не имеющий такого характера. Мы измеряли уровень их эмоционального воздействия в процессе использования каждого чат-бота, а также их ощущение доверия к ним. ## Результаты Мы обнаружили, что стимуляция чувств через RecoveryTeller дала более выраженные эмоциональные результаты, чем чат-бот без восприятия выздоровления. Однако участники чувствовали себя безопаснее при получении вопросов и совета от чат-бота без выздоровления. Это привело к тому, что участники просматривали оба чат-бота как дополняющие друг друга, а не взаимозаменяемые. ## Значимость Эти результаты могут быть использованы для развития более эффективных методик в поддержке выздоровления от естественного здоровья. Мы видим потенциал в создании чат-ботов, которые могут предоставлять обеих типов поддержки: как эмоциональную, так и объективную, в рамках лечения естественного здоровья. Эти результаты могут быть применены в области лечения порядочных здоровью, чтобы улучшить качество поддерживающих мероприятий. ## Выводы Наше исследование показало, что чат-боты, содержащие в себе опыт выздоровления, могут усилить эмоциональную

Annotation:

Peer recovery narratives provide unique benefits beyond professional or lay mentoring by fostering hope and sustained recovery in eating disorder (ED) contexts. Yet, such support is limited by the scarcity of peer-involved programs and potential drawbacks on recovered peers, including relapse risk. To address this, we designed RecoveryTeller, a chatbot adopting a recovered-peer persona that portrays itself as someone recovered from an ED. We examined whether such a persona can reproduce the supp...

ID: 2509.15289v1 cs.HC, cs.AI

arXiv PDF

📄 ClearFairy: Capturing Creative Workflows through Decision Structuring, In-Situ Questioning, and Rationale Inference

2025-09-20

Авторы:

Kihoon Son, DaEun Choi, Tae Soo Kim, Young-Ho Kim, Sangdoo Yun, Juho Kim

## Контекст Современные технологии оказывают влияние на большинство областей жизнедеятельности, в том числе на профессии, требующие творческого подхода. Одним из ключевых аспектов таких профессий является творческий процесс, который часто подразумевает сложности в отслеживании интересующих свойств и решений. Одна из проблем в этой сфере заключается в неполной или неясной информации о решениях, принимаемых в процессе творчества. Это усложняет возможность воспроизведения работы, а также приводит к недостаточной конкретизации решений для коллег или во время самостоятельного продумывания. Требуется алгоритм, который бы автоматически генерировал информацию о логике решений, которая могла бы помочь улучшить процесс творчества и упростить рабочий процесс. ## Метод CLEAR — это рамка, которая делит творческий процесс на отдельные, ясно определенные шаги. Эти шаги включают в себя объект, действие и обоснование. Алгоритм работает следующим образом: он анализирует действия пользователя и подсказывает ему, какие свойства объекта он может прояснить, чтобы сделать решение понятнее. Таким образом, пользователь получает возможность развития своего решения без трудностей. ClearFairy — это реализация этой идеи в виде AI-помощника, который не только помогает структурировать решения, но и задает вопросы, если разъяснения неоднозначны, и вносит недостающие обоснования. Этот подход позволяет улучшить качество самого процесса творчества. ## Результаты В ходе экспериментов, проведенных с 12 участниками, было получено многочисленные результаты. Алгоритм CLEAR смог структурировать решения, что привело к улучшению возможности понимания логики работы. 85% от информации, принятой участниками, была одобрена в качестве корректных обоснований, что было неожиданно высоким результатом. Была получена возможность повысить количество существенных обоснований, которое было достигнуто до 83%, не прибегая к дополнительной нагрузке на сознание. Также был проведен тест на использование расширенного подхода в Figma, где ClearFairy помогала разработчикам воздействовать на неограниченные возможности генерируемых AI-сервисов. ## Значимость Полученная рамка и AI-помощник ClearFairy могут быть применены в широком круге творческих профессий, таких как дизайн, программирование, архитектура и др., в которых необходима логическая структура решений. Основные преимущества этого подхода заключаются в увеличении прозрачности работ, улучшении совместной работы и повышении качества творчества. В качестве результата будет достигнуто увеличение качества и эффективности творческого процесса, а

Annotation:

Capturing professionals' decision-making in creative workflows is essential for reflection, collaboration, and knowledge sharing, yet existing methods often leave rationales incomplete and implicit decisions hidden. To address this, we present CLEAR framework that structures reasoning into cognitive decision steps-linked units of actions, artifacts, and self-explanations that make decisions traceable. Building on this framework, we introduce ClearFairy, a think-aloud AI assistant for UI design t...

ID: 2509.14537v1 cs.HC, cs.AI

arXiv PDF

📄 VisMoDAl: Visual Analytics for Evaluating and Improving Corruption Robustness of Vision-Language Models

2025-09-20

Авторы:

Huanchen Wang, Wencheng Zhang, Zhiqiang Wang, Zhicong Lu, Yuxin Ma

## Контекст Vision-language (VL) модели получили широкое применение в различных критически важных областях, благодаря их способности обрабатывать многоканальные данные. Однако их производительность часто снижается при распространении перехода, что делает необходимым оценивать и улучшать их жесткость в реальных условиях. Даже с учетом прогресса в VL-бенчмарках и данных для аугментации, существуют сложности, такие как неполное понимание поведения моделей и необходимость в руководстве экспертов для изучения закономерностей в данных. Visualization, как метод объяснения моделей и изучения больших данных, хорошо подходит для оценки влияния различных видов коррупции на VL-модели. Мы предлагаем VisMoDAl, революционный визуально-аналитический фреймворк, который оценивает жесткость VL-моделей к различным типам коррупции и выявляет проблемные образцы для оптимизации стратегий данных augmentations. ## Метод VisMoDAl основывается на тщательном анализе литературы и экспертных советов. Он предоставляет многоуровневую аналитику, включая оценку работы моделей под специфическими искажениями, инспекцию поведения моделей в задачах и расследование связанных сэмплов. Мы включили интерактивные визуализации и простые интерфейсы для пользователей, чтобы упростить рассуждения о модели и разработку эффективных стратегий. Благодаря этому, VisMoDAl обеспечивает понимание моделей и помогает формировать стратегии улучшения жесткости. Мы демонстрируем его результаты с помощью случаев использования и метрических оценок, сфокусированных на задаче изображений. ## Результаты Мы проводили эксперименты с использованием VisMoDAl для оценки жесткости VL-моделей с использованием различных коррупций и сэмплов. Наши результаты показали, что VisMoDAl действительно помогает выявить недостатки в моделях и провести расширенный анализ поведения моделей. Мы также показали, что наши стратегии данных augmentation, основанные на VisMoDAl, позволили улучшить жесткость моделей в задачах, таких как изображение-описание. ## Значимость VisMoDAl может применяться во многих практических областях, где VL-модели используются, включая обработку естественного языка и обработку изображений. Он предоставляет пользователям новые возможности для понимания и оптимизации моделей, улучшая их устойчивость и точность. Этот подход может привести к значительным улучшениям в различных приложениях, включая системы распознавания речи, анализ изображений и многие другие. ## Выводы VisMoDAl представляет собой первое полностью визуально-аналитическое решение для оценки и улучшения жесткости VL-моделей. Наши результаты показали, что он позволяет расследовать поведение моделей и привести к эффективным с

Annotation:

Vision-language (VL) models have shown transformative potential across various critical domains due to their capability to comprehend multi-modal information. However, their performance frequently degrades under distribution shifts, making it crucial to assess and improve robustness against real-world data corruption encountered in practical applications. While advancements in VL benchmark datasets and data augmentation (DA) have contributed to robustness evaluation and improvement, there remain...

ID: 2509.14571v1 cs.HC, cs.AI, cs.LG

arXiv PDF

📄 Can I Trust This Chatbot? Assessing User Privacy in AI-Healthcare Chatbot Applications

2025-09-20

Авторы:

Ramazan Yener, Guan-Hung Chen, Ece Gumusel, Masooda Bashir

## Контекст В последние годы во всем мире становится всё более распространённым использование искусственного интеллекта (ИИ) в сфере здравоохранения. Особенно активно применяются AI-powered chatbot mobile applications, которые предлагают доступ к здравоохранению в любое время суток и предоставляют консультации по многим медицинским вопросам. Несмотря на их полезность, эти системы собирают и обрабатывают чувствительные данные о здоровье, что вызывает серьёзные затруднения относительно защиты конфиденциальности. Хотя ранее проводились исследования на тему безопасности и защиты данных в области ИИ, актуальные проблемы, связанные с конфиденциальностью в AI-powered chatbot mobile applications, остаются большей частью нераскрытыми. Наше исследование рассматривает 12 самых популярных AI-powered chatbot mobile applications, доступных на App Store и Google Play в США, и проводит трёхэтапный анализ: (1) настройки конфиденциальности при регистрации, (2) встроенные в приложение управляющие конфиденциальностью функции и (3) содержимое политик конфиденциальности. Таким образом, наше исследование направлено на выявление исходных проблем и предложение рекомендаций для улучшения защиты конфиденциальности в этой области. ## Метод Мы использовали трёхэтапный анализ для оценки AI-powered chatbot mobile applications. В первой стадии, мы проанализировали настройки конфиденциальности при регистрации. На второй стадии, мы провёдомули изучили встроенные в приложение функции, контролирующие конфиденциальность, например, варианты отключения данных. На третьей стадии, мы проанализировали содержимое политики конфиденциальности в каждом приложении. Эта структурированная методология позволила нам изучить различные аспекты защиты данных в этих приложениях, включая начальные настройки, внутренние управляющие элементы и политику конфиденциальности. Эта методология дала нам возможность получить полное представление об уровне защиты конфиденциальности в AI-powered chatbot mobile applications, чтобы ответить на вопрос, «смогу ли я доверять этой системе?». ## Результаты Наш анализ показал, что у 6 из 12 AI-powered chatbot mobile applications не было никаких настроек конфиденциальности при регистрации. Только два приложения предоставили возможность отключить данные во время регистрации. Более того, мы обнаружили, что многие приложения не указывали в политике конфиденциальности меры, которые они принимают для защиты данных. Например, некоторые приложения не упоминали о соответствии законодательству в области защиты данных. Кроме того, многие приложения предоставляли минимальное количество управляющих параметров, что давало пользователям мало или никакого контроля над своими данными. Эти результаты указывают на существен

Annotation:

As Conversational Artificial Intelligence (AI) becomes more integrated into everyday life, AI-powered chatbot mobile applications are increasingly adopted across industries, particularly in the healthcare domain. These chatbots offer accessible and 24/7 support, yet their collection and processing of sensitive health data present critical privacy concerns. While prior research has examined chatbot security, privacy issues specific to AI healthcare chatbots have received limited attention. Our st...

ID: 2509.14581v1 cs.HC, cs.AI, cs.CY, cs.ET

arXiv PDF

📄 Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech

2025-09-20

Авторы:

Taesoo Kim, Yongsik Jo, Hyunmin Song, Taehwan Kim

#### Контекст В современной КИБЕРНЕТИКЕ (Computational Intelligence and Big Data Engineering) и ИИ (Искусственный Интеллект) наблюдается значительный интерес к развитию говорящих агентов, которые могут общаться с людьми на естественном языке. Однако существуют технические и когнитивные задачи, связанные с генерацией натурального и динамичного говорения, которое было бы похоже на человеческого репликанта. Эти технологии могут быть применены в различных областях, включая ИнТЕРНЕТ-сервисы (Internet Services) и системы компьютерной графики. Несмотря на развитие технологий традиционного текстового понимания и генерации, меньше внимания уделяется созданию систем, которые бы понимали и генерировали естественный говорящий язык со всеми его паралингвистическими особенностями, такими как тон и эмоциональный цвет. #### Метод Мы предлагаем методологию, основанную на мультимодальных LLM (Многомодальные Многослойные Линейные Модели), для решения задачи генерации говорящих агентов. Модель использует данные, наблюдаемые в разговорах, включая текст, звук и визуальные сигналы. Мы создали новый многомерный концептуальный датасет MultiSensory Conversation Dataset, ориентированный на говорящий агент. Модель состоит из нескольких модулей: текстовой генерации, звуковой генерации и генерации графических сигналов. Мы разработали алгоритм, который может анализировать данные из разных модалей, определять настроение и стиль ответа, и генерировать естественный говорящий текст и голос с паралингвистическими характеристиками. #### Результаты Мы провели эксперименты с использованием нашего MultiSensory Conversation Dataset. Мы сравнили нашу модель с другими существующими методами генерации говорящих агентов. Результаты показали, что наша модель лучше подходит для генерации натурального говорящего голоса, который учитывает звуковые и визуальные модали. Эксперименты показали, что включение визуальных данных, таких как лицевые выражения и жестов, повышает точность генерации и делает ответы более привлекательными. #### Значимость Мы предлагаем новую архитектуру для говорящих агентов, которая может генерировать естественный и привлекательный голос на основе текста, звука и визуальных сигналов. Эта технология может быть применена в различных областях, таких как ИнТЕРНЕТ-сервисы, графические системы и системы развлечений. Наши достижения могут повысить качество коммуникации между людьми и роботами, сделав её более естественной и динамичной. #### Выводы Мы достигли значительных улучшений в области выработки естественного говорящего голоса. Наши ре

Annotation:

Human conversation involves language, speech, and visual cues, with each medium providing complementary information. For instance, speech conveys a vibe or tone not fully captured by text alone. While multimodal LLMs focus on generating text responses from diverse inputs, less attention has been paid to generating natural and engaging speech. We propose a human-like agent that generates speech responses based on conversation mood and responsive style information. To achieve this, we build a nove...

ID: 2509.14627v1 cs.HC, cs.AI, cs.CL

arXiv PDF

📄 Synthetic Data Generation for Screen Time and App Usage

2025-09-19

Авторы:

Gustavo Kruger, Nikhil Sachdeva, Michael Sobolev

## Контекст Современное исследование смартфонов и их воздействия на поведение и взаимодействие с технологиями требует больших объемов данных. Однако собирать такие данные трудно из-за высоких затрат, угроз приватности, несбалансированных семплов пользователей и биасах, такими как нереагирование, которые могут исказить результаты. Эти проблемы сподвигли исследователей искать альтернативные подходы, такие как генерация синтетических данных, которые могут предоставить важные аналитические сведения без необходимости сбора реальных данных. Новый подход в этой области открыли большие языковые модели (LLMs), такие как ChatGPT от OpenAI, которые способны генерировать структурированные и поведенчески адекватные данные. ## Метод Исследование основывается на использовании ChatGPT для генерации синтетических данных по использованию смартфона. Четыре стратегии построения запросов (prompts) были изучены: два фактора были рассмотрены — уровень детализации запроса (описание юзера или ожидаемых результатов) и включение семплов реальных данных (при их наличии или отсутствии). Эти стратегии были сравнены для определения того, как они влияют на качество генерируемых данных. Эксперименты основывались на метриках качества, таких как точность и разнообразие генерируемых данных. ## Результаты Изученные стратегии построения запросов показали различия в качестве генерируемых данных. Запросы с более подробным описанием юзера и ожидаемых результатов, а также те, которые включали семплы реальных данных, привели к более высокому качеству синтетических данных. Эти данные оказались более точными и продолжительными в сравнении с другими подходами. Однако имели место проблемы с достаточной разнообразием генерируемых данных, которые могли не у reflecting всю широту поведенческих моделей пользователей. ## Значимость Генерация синтетических данных по использованию смартфонов может иметь широкие применения в области исследований поведения пользователей, разработки интерфейсов и мониторинга технологического воздействия. Этот подход предлагает преимущества, такие как устранение проблем с приватностью и высокими затратами на сбор данных, но при этом имеются ограничения в полноту отражения реальных моделей поведения. Несмотря на это, результаты указывают на потенциал LLMs для создания данных, которые могут использоваться в сценариях, где реальные данные недоступны или представляют собой большую проблему. ## Выводы Исследование показало, что генерация синтетических данных по использованию смартфонов с помощью LLMs является возможным решением для некоторых задач. Однако для улучшения качества генери

Annotation:

Smartphone usage data can provide valuable insights for understanding interaction with technology and human behavior. However, collecting large-scale, in-the-wild smartphone usage logs is challenging due to high costs, privacy concerns, under representative user samples and biases like non-response that can skew results. These challenges call for exploring alternative approaches to obtain smartphone usage datasets. In this context, large language models (LLMs) such as Open AI's ChatGPT present a...

ID: 2509.13892v1 cs.HC, cs.AI, I.2; J.4

arXiv PDF

1
2
12
13
14
15
16
23
24

Показано 131 - 140 из 239 записей