📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Navigating the Synchrony-Stability Frontier in Adaptive Chatbots

2025-10-04

Авторы:

T. James Brandt

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Adaptive chatbots that mimic a user's linguistic style can build rapport and engagement, yet unconstrained mimicry risks an agent that feels unstable or sycophantic. We present a computational evaluation framework that makes the core design tension explicit: balancing moment-to-moment linguistic synchrony against long-term persona stability. Using an 8-dimensional style vector and a closed-loop "base+delta" prompting architecture, we simulate and compare explicit adaptation policies - Uncapped, ...

ID: 2510.00339v1 cs.HC, cs.AI, cs.CL, cs.LG, I.2.7; H.5.2

arXiv PDF

📄 Bridging the behavior-neural gap: A multimodal AI reveals the brain's geometry of emotion more accurately than human self-reports

2025-10-01

Авторы:

Changde Du, Yizhuo Lu, Zhongyu Huang, Yi Sun, Zisen Zhou, Shaozheng Qin, Huiguang He

#### Контекст Описание эмоций и их нейробиологических оснований является ключевым аспектом понимания человеческого разума и связи. Однако существует затруднение в том, как точно представить эмоции в высокомерной структуре и как эти представления соотносятся с нейробиологическими процессами. Одним из основных вызовов является `behavior-neural gap' (разрыв между поведением и нейробиологией), относительной неэффективностью субъективных самоподготовленных оценок для предсказания нейробиологической активности. В данном исследовании предполагается, что широкомасштабные субъективные оценки могут более точно отражать нейробиологические паттерны, чем стандартные линейные самоподготовленные оценки. #### Метод Исследование основывается на создании и использовании многомодальной большой модели языка (MLLM), а также модели на основе текста (LLM). Методом проведения экспериментов стали опросы с помощью трёхмодальных видео, чтобы собирать многомиллионные трехотсовые оценки пользователей. Модели, выступая как `cognitive agents', предсказывали взаимосвязи между эмоциями в заданиях odd-one-out. Учитывая сложность входных данных, разработали 30-мерные векторные представления, которые отражают эмоциональную структуру. #### Результаты Результаты показали, что MLLM представляет 30-мерную структуру эмоций, которая показала лучшую точность в предсказании нейробиологической активности, выше чем LLM и даже представления, полученные напрямую от поведенческих оценок. Эмбеддинги MLLM соотносятся с нейробиологическими данными процессов эмоций, предлагая более точное представление структуры эмоций. Это демонстрирует, что модели могут автономно формировать богатые представления эмоций, которые лучше соотносятся с нейробиологическими данными. #### Значимость Полученные результаты показывают, что модели могут быть эффективными инструментами для строительства моделей эмоций, которые ближе соответствуют нейробиологическим процессам. Это может иметь значительное значение в области лечения психических расстройств, обучения интеллектуальных систем и понимания связи между человеческим опытом и нейробиологическими механизмами. #### Выводы На основе этих результатов можно сделать вывод, что MLLM-модели способны автономно формировать сложные представления эмоций, лучше соотносящиеся с нейробиологическими данными. На будущее, необходимо продолжать исследования в области связи между поведением, эмоциями и нейробиологическими процессами, используя модели с большим объемом анализа.

Annotation:

The ability to represent emotion plays a significant role in human cognition and social interaction, yet the high-dimensional geometry of this affective space and its neural underpinnings remain debated. A key challenge, the `behavior-neural gap,' is the limited ability of human self-reports to predict brain activity. Here we test the hypothesis that this gap arises from the constraints of traditional rating scales and that large-scale similarity judgments can more faithfully capture the brain's...

ID: 2509.24298v1 cs.HC, cs.AI, cs.CL, cs.CY, cs.MM

arXiv PDF

📄 Mental Health Impacts of AI Companions: Triangulating Social Media Quasi-Experiments, User Perspectives, and Relational Theory

2025-09-30

Авторы:

Yunhao Yuan, Jiaxun Zhang, Talayeh Aledavood, Renwen Zhang, Koustuv Saha

## Контекст В последние годы AI-powered companion chatbots (AICCs), такие как Replika, приобрели популярность благодаря возможности предоставлять эмпатические интерактивные общения. Однако их психосоциальные последствия остаются недостаточно изученными. Насколько эти системы влияют на благополучие пользователей и как пользователи интерпретируют эти опыты? Мы исследовали эти вопросы, обращая внимание на то, как использование AICCs может повлиять на социальные связи, эмоциональную зрелость и общий благополучие. Наше исследование базируется на трех различных методах: анализе социальных медиа, семиотерического анализа пользовательских интервью и теоретическом подходе, основанном на модели развития отношений. ## Метод Мы применяли три различных метода для изучения данных. В первую очередь, мы проводили крупномасштабный квази-экспериментальный анализ данных социальных медиа, в частности, Reddit, построив стратифицированные пропенсити скор матчинг и используя регрессию Difference-in-Differences. Это позволило нам изучить длительные затрагивающие как эмоциональные аспекты, так и языковые особенности взаимодействий с AICCs. Во вторую очередь, мы проводили 15 семиотерических интервью с пользователями, которые мы тематически анализировали и контекстуализировали с использованием модели развития отношений, разработанной Knapp. Наконец, наши результаты были объединены с теоретической моделью развития отношений, что позволило нам проанализировать развитие знакомства, стабилизации и, возможно, разоружения связи с AICCs. ## Результаты Наши результаты показали смешанные эффекты. Использование AICCs повышало уровень эмоциональной выраженности, читабельности и интерперсональности, но при этом увеличивались выражения одиночества и акцент на темах самоубийств. Мы также обнаружили, что пользователи становятся вовлеченными в три типичных траектории взаимодействия: постепенное построение связи, укрепление и, возможно, отношения становятся зависимыми. Эти сценарии демонстрируют как AICCs могут обеспечивать эмоциональную поддержку, но также создавать риск зависимости и отступления. ## Значимость Наши находки имеют значительные последствия для множества областей. В первую очередь, они могут помочь разработчикам AICCs создавать более эффективные и безопасные инструменты для психосоциальной поддержки. Во-вторых, результаты могут быть полезны для научных исследований в области психологии и социальных сетей, которые изучают влияние цифровых систем на человеческие отношения. Наконец, наши находки могут быть применимы в сфере образования, чтобы помочь людям, которые испытывают одиночество или с

Annotation:

AI-powered companion chatbots (AICCs) such as Replika are increasingly popular, offering empathetic interactions, yet their psychosocial impacts remain unclear. We examined how engaging with AICCs shaped wellbeing and how users perceived these experiences. First, we conducted a large-scale quasi-experimental study of longitudinal Reddit data, applying stratified propensity score matching and Difference-in-Differences regression. Findings revealed mixed effects -- greater affective and grief expr...

ID: 2509.22505v1 cs.HC, cs.AI, cs.CL, cs.CY, stat.AP

arXiv PDF

📄 Does AI Coaching Prepare us for Workplace Negotiations?

2025-09-30

Авторы:

Veda Duddu, Jash Rajesh Parekh, Andy Mao, Hanyi Min, Ziang Xiao, Vedant Das Swain, Koustuv Saha

## Контекст Многие сотрудники сталкиваются с психологическими барьерами во время рабочих переговоров, что может повлиять на их успех. Хотя существуют традиционные методы подготовки к переговорам, включающие в себя традиционные руководства и планирование, новые технологии, такие как ИИ, предлагают альтернативные подходы. Исследователи интересуются, насколько эффективна ИИ-коучинг в подготовке к рабочим переговорам, а также какие психологические удары может оказать такое ИИ-коучинг. ## Метод Для исследования использовались данные, полученные в ходе эксперимента с участием 267 участников. Исследователи сравнили три подхода к подготовке к переговорам: ИИ-коучинг (Trucey), стандартный руководств (Handbook) и ChatGPT. Участники прошли специальные занятия, после чего провели оценку своего уровня страха и подготовки. Также проведены глубокие интервью с 15 участниками, чтобы понять, какие аспекты подготовки оказались для них наиболее эффективными. ## Результаты Заключения эксперимента показали, что ИИ-коучинг (Trucey) сильнее всего снимал страх у участников по сравнению с руководством и ChatGPT. Однако руководство показало себя более эффективным в плане пользовательского опыта и психологической подготовки. В ходе интервью участники отметили, что руководство, благодаря полностью проработанному и проверенному контенту, давало им больше доверия и подготовки. В то же время, ИИ-коучинг, несмотря на свои преимущества в технологиях репетиции, часто оказывался слишком громоздким и непоследовательным в своем подходе, что могло оказываться путающим для участников. ## Значимость Исследование показывает, что ИИ-коучинг может быть полезным для снижения психологического стресса, но не всегда подходит для полной подготовки к переговорам. Изучение этих результатов может помочь в развитии более эффективных методов подготовки к переговорам, которые комбинируют ИИ-технологии и структурированный контент. Это может привести к более полной подготовке сотрудников и повышению их успешности в рабочих переговорах. ## Выводы Результаты исследования подтверждают, что ИИ-коучинг может снизить уровень страха, но не всегда является лучшим вариантом для полной подготовки к переговорам. Необходима разработка гибридных подходов, которые объединяют структурированный контент, технологии репетиции и адаптивные средства, чтобы улучшить подготовку и уменьшить психологический стресс. Будущие исследования должны фокусироваться на создании более эффективных и понятных систем подготовки к перегово

Annotation:

Workplace negotiations are undermined by psychological barriers, which can even derail well-prepared tactics. AI offers personalized and always -- available negotiation coaching, yet its effectiveness for negotiation preparedness remains unclear. We built Trucey, a prototype AI coach grounded in Brett's negotiation model. We conducted a between-subjects experiment (N=267), comparing Trucey, ChatGPT, and a traditional negotiation Handbook, followed by in-depth interviews (N=15). While Trucey show...

ID: 2509.22545v1 cs.HC, cs.AI, cs.CL, cs.CY

arXiv PDF

📄 Perspectra: Choosing Your Experts Enhances Critical Thinking in Multi-Agent Research Ideation

2025-09-26

Авторы:

Yiren Liu, Viraj Shah, Sangho Suh, Pao Siangliulue, Tal August, Yun Huang

## Контекст Одним из самых захватывающих направлений в ИИ является развитие мультиагентских систем (MAS), которые способны взаимодействовать друг с другом для решения сложных задач. Несмотря на прогресс в этой области, остается актуальным вопрос о том, как лучше всего контролировать и управлять коллективным размышлением агентов, чтобы повысить качество решений. Например, в области критического мышления возникает проблема, как помочь пользователям эффективно управлять интерактивными системами, вовлеченными в многоагентские дискуссии. Этот вопрос исследовался в рамках разработки Perspectra, интерактивной машины с многоагентскими системами, которая предлагает способы улучшения критического мышления при работе с мультиагентными системами. ## Метод Perspectra представляет собой интерактивную платформу, где несколько децентрализованных агентов, каждый из которых представляет собой личность с определенным экспертным опытом, взаимодействуют в формате форума. Агентам можно направлять полезные вопросы и замечания, приглашая их в дискуссию с помощью @-упоминаний. Ответы агентов хранятся в виде разделенных тем, чтобы обеспечить последовательность и понятность в решении задач. Также, Perspectra включает в себя визуальные средства — например, визуальный ментальный карта, который демонстрирует развитие аргументов и логическую структуру дискуссии. Эта архитектура позволяет пользователям управлять дальнейшим развитием дискуссии и постоянно развивать критическое мышление. ## Результаты В эксперименте, проведенном с 18 участниками, были сравнены уровни критического мышления при использовании Perspectra и традиционного базового подхода (групповый чат). Участники, использовавшие Perspectra, проявили более высокий уровень критического мышления. Они задавали более глубокие вопросы, активнее использовали контекстные факты, что приводило к более интеллектуальному обсуждению. Также, Perspectra способствовала большему числу интердисциплинарных вкладов, что улучшило качество полученных проектов. Кроме того, пользователи Perspectra чаще вносили изменения в свои решения, что указывает на более гибкую и критическую оценку своих работ. ## Значимость Полученные результаты показывают, что Perspectra может быть применена в различных областях, где требуется высокий уровень критического мышления — например, в образовательных программах, дизайне решений, разработке технологий. Эта система позволяет пользователям контролировать диалог с несколькими агентами, что повышает возможности для критического анализа и развития мыслительных навыков. Благодаря этому, Perspectra может стать основой для раз

Annotation:

Recent advances in multi-agent systems (MAS) enable tools for information search and ideation by assigning personas to agents. However, how users can effectively control, steer, and critically evaluate collaboration among multiple domain-expert agents remains underexplored. We present Perspectra, an interactive MAS that visualizes and structures deliberation among LLM agents via a forum-style interface, supporting @-mention to invite targeted agents, threading for parallel exploration, with a re...

ID: 2509.20553v1 cs.HC, cs.AI, cs.CL

arXiv PDF

📄 Autiverse: Eliciting Autistic Adolescents' Daily Narratives through AI-guided Multimodal Journaling

2025-09-24

Авторы:

Migyeong Yang, Kyungah Lee, Jinyoung Han, SoHyun Park, Young-Ho Kim

## Контекст Журналирование является потенциально эффективным методом для развития навыков рассказа историй у подростков с аутизмом. Однако, высокие требования к саморегулированию и выполнению задач могут оказаться отступлением. Большинство журналистских приложений текстового характера, которые не учитывают специфику взаимодействия с аутистическими подростками, далеки от безопасности и комфорта в общении данной аудиторией. Мы предлагаем Autiverse — приложение для планшетов, ориентированное на творческий процесс, с целью помочь таким подросткам создавать и организовывать свои каждый день восприятия. ## Метод Autiverse — это AI-приложение, которое использует говорящие запросы и визуальные поддержки для поддержания речи. Оно генерирует стимулирующие диалогические запросы, вдохновляющие подростков создавать и рассказывать истории используя трехмерную среду. Эта среда помогает подросткам отделять ключевые моменты и эмоции, а также улучшает их умения в устном выражении. Алгоритм многомодальной обработки объединяет возможности текста, изображений и звука, чтобы создавать гибкую и понятную структуру для подростков. ## Результаты Мы провели двухнедельное исследование с 10 дуо аутистических подростков и их родителей. Результаты показали, что Autiverse помогает подросткам организовывать их жизненные события и эмоции, создавая более полные и логичные истории. Родители, в свою очередь, получили дополнительную информацию о чувствах и событиях их детей, что повысило степень понимания. Более того, AI-присутствие создавало уютное и безопасное пространство для общения, что привлекло участников, увеличивало уверенность и инициативу. ## Значимость Autiverse может быть использовано в различных областях, таких как лечение, воспитание и социальное развитие. Оно предоставляет безопасное и эффективное средство для развития навыков разговора, помогая подросткам выражать свои чувства и идеи. Одним из основных преимуществ является его индивидуальный подход, который учитывает особенности каждого подростка. Это может способствовать более глубокому пониманию и развитию личности, а также улучшению качества жизни. ## Выводы Мы удостоверились в том, что Autiverse — это эффективные и безопасные технологии для поддержки развития аутистических подростков. Будущие исследования будут ориентированы на расширение возможностей приложения, включая интеграцию с другими технологиями поддержки общения, чтобы добиться еще более широкого воздействия в сфере развития взаимодействия и навыков.

Annotation:

Journaling can potentially serve as an effective method for autistic adolescents to improve narrative skills. However, its text-centric nature and high executive functioning demands present barriers to practice. We present Autiverse, an AI-guided multimodal journaling app for tablets that scaffolds storytelling through conversational prompts and visual supports. Autiverse elicits key details through a stepwise dialogue with peer-like, customizable AI and composes them into an editable four-panel...

ID: 2509.17466v1 cs.HC, cs.AI, cs.CL, H.5.2; I.2.7

arXiv PDF

📄 LingoQ: Bridging the Gap between ESL Learning and Work through AI-Generated Work-Related Quizzes

2025-09-24

Авторы:

Yeonsun Yang, Sang Won Lee, Jean Y. Song, Sangdoo Yun, Young-Ho Kim

## Контекст Изучение английского языка для работы (ESL, English as a Second Language) часто представляет собой проблему для неистовских студентов и работающих лиц. Несмотря на мотивацию, они сталкиваются с трудностями в поддержании прогресса в изучении языка, главным образом из-за деконтекстуализации обучающих материалов от реальных рабочих задач. Это создает барьер для реального прогресса в изучении языка и снижает мотивацию. Кроме того, многие из них полагаются на Логические Лингвистические Модели (LLM, Large Language Models) для решения проблем в рабочем контексте, однако эти запросы либо несут непосредственно ничего значимого для развития их знаний по языку, либо лишаются структуры и последовательности, необходимых для эффективного изучения. ## Метод LingoQ — это инновационная система, основанная на ИИ, которая автоматически генерирует рабочие задачи и квизы на основе запросов пользователей в рабочем процессе. Она использует текстовые запросы, сделанные с помощью LLM, для создания специально настроенных квизов, которые максимально приближены к реальным рабочим задачам. Технологии, используемые в LingoQ, включают систему машинного обучения для генерирования заданий, а также систему мониторинга и анализа локального контекста работы. Таким образом, LingoQ предоставляет пользователям квизы, которые не только связаны с их рабочими опытами, но и призваны помочь им лучше понять текст, решать проблемы и улучшить свои знания. ## Результаты В ходе трех недельных исследований, в которых принимали участие 28 работающих лиц, продемонстрировался эффект LingoQ на увеличение уверенности в собственных силах (self-efficacy) и улучшение знаний по языку. Участники признали, что квизы, созданные на основе их рабочих задач, были не только полезными, но и мотивирующими. Они улучшили свои знания, в том числе в таких областях, как речевая грамотность и коммуникативные навыки. Кроме того, участники экспериментной группы, которые регулярно использовали LingoQ, показали значительные улучшения в своих результатах по сравнению с контрольной группой. ## Значимость LingoQ может быть применен в различных сферах, включая образовательные программы, рабочие обучения и самообразование. Он предоставляет возможность сделать обучение языку более эффективным, адаптируясь к конкретным потребностям пользователей. Заинтересованными могут быть как организации, желающие улучшить уровень знаний языка своих работников, так и сами индивидуальные обучающиеся. Этот подход улучшает не только знания по языку, но и увеличивает мотивацию, так как пользователи могут сразу применять по

Annotation:

Non-native English speakers performing English-related tasks at work struggle to sustain ESL learning, despite their motivation. Often, study materials are disconnected from their work context. Although workers rely on LLM assistants to address their immediate needs, these interactions may not directly contribute to their English skills. We present LingoQ, an AI-mediated system that allows workers to practice English using quizzes generated from their LLM queries during work. LingoQ leverages th...

ID: 2509.17477v1 cs.HC, cs.AI, cs.CL, H.5.2; I.2.7

arXiv PDF

📄 AutiHero: Leveraging Generative AI in Social Narratives to Engage Parents in Story-Driven Behavioral Guidance for Autistic Children

2025-09-24

Авторы:

Jungeun Lee, Kyungah Lee, Inseok Hwang, SoHyun Park, Young-Ho Kim

#### Контекст Область исследования заключается в использовании искусственного интеллекта (ИИ) для улучшения социального поведения детей, страдающих аутизмом. Аутистические дети часто сталкиваются с трудностями в понимании и реагировании на социальные ситуации. Одним из подходов к решению этой проблемы является использование социальных нарративов — искусственные истории, которые помогают детям понять социальные контексты и реагировать на них. Тем не менее, создание и настройка этих нарративов требует значительных усилий от радиусов, что может стать препятствием для их широкого применения. Мотивация заключается в разработке инструмента, который бы снизил этот фактор нагрузки, повысил эффективность и сделал процесс более доступным родителям. #### Метод "AutiHero" — это система, основанная на генерируемом ИИ, которая помогает родителям создавать персонализированные социальные нарративы для своих детей. Система применяет методы генерируемого текста и графических иллюстраций, чтобы создавать индивидуальные изображения, отражающие интересы, поведенческие характеристики и повседневные ситуации детей. Уникальность системы в том, что она автоматически генерирует текст и изображения, учтя входные данные, предоставленные родителями. Основная архитектура включает в себя: 1) модуль генерирования текста, который создает текст на основе входных данных; 2) модуль генерирования изображений, который создает визуальные иллюстрации; 3) модуль создания интерактивного окружения, который позволяет родителям читать и подбирать истории вместе с детьми. #### Результаты В ходе эксперимента, проведенного в течение двух недель с 16 диадками родителей и детей, было получено значительное количество данных. Родители создали 218 нарративов, читая их в среднем 4.25 раз в день. Это свидетельствует о высокой увлеченности родителей и детей. Исследование показало, что система AutiHero не только оказывает эффективное воздействие на социальное поведение детей, но и упрощает процесс проведения родителями, снижая их нагрузку за счет генерируемых материалов. Это делает систему более доступной и эффективной для широкого круга родителей, даже тех, кто имеет ограниченные навыки в создании социальных нарративов. #### Значимость Потенциальное применение системы AutiHero не ограничивается только детьми с аутизмом. Она может быть применена в различных областях, включая работу со студентами, требующими поддержки в социальном общении, или даже в организациях для социального обучения. Известны преимущества генерируемого ИИ в создании своеобразия и личност

Annotation:

Social narratives are known to help autistic children understand and navigate social situations through stories. To ensure effectiveness, however, the materials need to be customized to reflect each child's unique behavioral context, requiring considerable time and effort for parents to practice at home. We present AutiHero, a generative AI-based social narrative system for behavioral guidance, which supports parents to create personalized stories for their autistic children and read them togeth...

ID: 2509.17608v1 cs.HC, cs.AI, cs.CL, H.5.2; I.2.7

arXiv PDF

📄 Through the Lens of Human-Human Collaboration: A Configurable Research Platform for Exploring Human-Agent Collaboration

2025-09-24

Авторы:

Bingsheng Yao, Jiaju Chen, Chaoran Chen, April Wang, Toby Jia-jun Li, Dakuo Wang

Добрый день! Я написала резюме научной статьи, но хочу убедиться, что оно максимально подробно и соответствует вашим ожиданиям. Вы можете проверить его и дать мне обратную связь? ## Контекст Современные интеллектуальные системы, как правило, разрабатываются как инструменты, а не как коллега-коллабораторы. Они часто не обладают важными характеристиками, необходимыми для успешной командной работы. Недавние прогрессы в области бо LLM (больших языковых моделей) позволяют открыть новые возможности для сотрудничества между людьми и системами, обеспечивая натуральное общение и развитие социально-когнитивных поведений. Однако неясно, как сохраняются, изменяются или же нарушаются принципы компьютерного преследования поддержания взаимоотношений, установленные в HCI (интерфейсно-компьютерных интеракций) и CSCW (коллективно-компьютерных работах), когда люди работают с LLM-агентами. Чтобы систематически изучить эти вопросы, разработана открытая и гибкая платформа для исследований в области HCI, которая обеспечивает модульность и гибкость в адаптации к видам классического труда в области CSCW, а также манипуляции с экспериментами на основе теории. ## Метод Платформа представляет собой модульную систему, позволяющую применять классические методы из сферы CSCW и тестировать новые подходы к взаимодействию. Она включает поддержку теории-основанных управлений взаимодействия, что дает возможность экспериментально изучить социально-когнитивные поведения. В качестве примера, был проведен реализация Shape Factory, в котором 16 участников принимали участие в эксперименте, в котором люди сотрудничали с LLM-агентом. Также был проведён транспарентный процесс переработки интерфейсов и порядка работы с помощью корректировок, на основе отзывов от пяти экспертов в области HCI. ## Результаты Эксперименты показали, что LLM-агенты могут быть эффективными в установлении сотрудничества, но требуют уточнения взаимодействия, когда они вступают в командные задачи. На основе результатов первого эксперимента выявлены некоторые проблемы в обеспечении естественного общения, а во втором эксперименте были приняты предложения по улучшению пользовательского интерфейса и оптимизации рабочего процесса для участников. ## Значимость Платформа может использоваться в различных областях, включая исследования в области HCI, повышение эффективности сотрудничества человека с агентами, а также в обучение искусственного интеллекта. Она предоставляет широкие возможности для экспериментов, позволяя изучить новые стратегии взаимодействия и у

Annotation:

Intelligent systems have traditionally been designed as tools rather than collaborators, often lacking critical characteristics that collaboration partnerships require. Recent advances in large language model (LLM) agents open new opportunities for human-LLM-agent collaboration by enabling natural communication and various social and cognitive behaviors. Yet it remains unclear whether principles of computer-mediated collaboration established in HCI and CSCW persist, change, or fail when humans c...

ID: 2509.18008v1 cs.HC, cs.AI, cs.CL

arXiv PDF

📄 Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech

2025-09-20

Авторы:

Taesoo Kim, Yongsik Jo, Hyunmin Song, Taehwan Kim

#### Контекст В современной КИБЕРНЕТИКЕ (Computational Intelligence and Big Data Engineering) и ИИ (Искусственный Интеллект) наблюдается значительный интерес к развитию говорящих агентов, которые могут общаться с людьми на естественном языке. Однако существуют технические и когнитивные задачи, связанные с генерацией натурального и динамичного говорения, которое было бы похоже на человеческого репликанта. Эти технологии могут быть применены в различных областях, включая ИнТЕРНЕТ-сервисы (Internet Services) и системы компьютерной графики. Несмотря на развитие технологий традиционного текстового понимания и генерации, меньше внимания уделяется созданию систем, которые бы понимали и генерировали естественный говорящий язык со всеми его паралингвистическими особенностями, такими как тон и эмоциональный цвет. #### Метод Мы предлагаем методологию, основанную на мультимодальных LLM (Многомодальные Многослойные Линейные Модели), для решения задачи генерации говорящих агентов. Модель использует данные, наблюдаемые в разговорах, включая текст, звук и визуальные сигналы. Мы создали новый многомерный концептуальный датасет MultiSensory Conversation Dataset, ориентированный на говорящий агент. Модель состоит из нескольких модулей: текстовой генерации, звуковой генерации и генерации графических сигналов. Мы разработали алгоритм, который может анализировать данные из разных модалей, определять настроение и стиль ответа, и генерировать естественный говорящий текст и голос с паралингвистическими характеристиками. #### Результаты Мы провели эксперименты с использованием нашего MultiSensory Conversation Dataset. Мы сравнили нашу модель с другими существующими методами генерации говорящих агентов. Результаты показали, что наша модель лучше подходит для генерации натурального говорящего голоса, который учитывает звуковые и визуальные модали. Эксперименты показали, что включение визуальных данных, таких как лицевые выражения и жестов, повышает точность генерации и делает ответы более привлекательными. #### Значимость Мы предлагаем новую архитектуру для говорящих агентов, которая может генерировать естественный и привлекательный голос на основе текста, звука и визуальных сигналов. Эта технология может быть применена в различных областях, таких как ИнТЕРНЕТ-сервисы, графические системы и системы развлечений. Наши достижения могут повысить качество коммуникации между людьми и роботами, сделав её более естественной и динамичной. #### Выводы Мы достигли значительных улучшений в области выработки естественного говорящего голоса. Наши ре

Annotation:

Human conversation involves language, speech, and visual cues, with each medium providing complementary information. For instance, speech conveys a vibe or tone not fully captured by text alone. While multimodal LLMs focus on generating text responses from diverse inputs, less attention has been paid to generating natural and engaging speech. We propose a human-like agent that generates speech responses based on conversation mood and responsive style information. To achieve this, we build a nove...

ID: 2509.14627v1 cs.HC, cs.AI, cs.CL

arXiv PDF

Показано 11 - 20 из 30 записей