📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 User Perceptions of Privacy and Helpfulness in LLM Responses to Privacy-Sensitive Scenarios

2025-10-25

Авторы:

Xiaoyuan Wu, Roshni Kaushik, Wenkai Li, Lujo Bauer, Koichi Onoue

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models (LLMs) have seen rapid adoption for tasks such as drafting emails, summarizing meetings, and answering health questions. In such uses, users may need to share private information (e.g., health records, contact details). To evaluate LLMs' ability to identify and redact such private information, prior work developed benchmarks (e.g., ConfAIde, PrivacyLens) with real-life scenarios. Using these benchmarks, researchers have found that LLMs sometimes fail to keep secrets private...

ID: 2510.20721v1 cs.CL, cs.AI, cs.HC

arXiv PDF

📄 Ensembling Large Language Models to Characterize Affective Dynamics in Student-AI Tutor Dialogues

2025-10-18

Авторы:

Chenyu Zhang, Sharifa Alghowinem, Cynthia Breazeal

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

While recent studies have examined the leaning impact of large language model (LLM) in educational contexts, the affective dynamics of LLM-mediated tutoring remain insufficiently understood. This work introduces the first ensemble-LLM framework for large-scale affect sensing in tutoring dialogues, advancing the conversation on responsible pathways for integrating generative AI into education by attending to learners' evolving affective states. To achieve this, we analyzed two semesters' worth of...

ID: 2510.13862v1 cs.CL, cs.AI, cs.HC

arXiv PDF

📄 Everything is Plausible: Investigating the Impact of LLM Rationales on Human Notions of Plausibility

2025-10-11

Авторы:

Shramay Palta, Peter Rankel, Sarah Wiegreffe, Rachel Rudinger

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We investigate the degree to which human plausibility judgments of multiple-choice commonsense benchmark answers are subject to influence by (im)plausibility arguments for or against an answer, in particular, using rationales generated by LLMs. We collect 3,000 plausibility judgments from humans and another 13,600 judgments from LLMs. Overall, we observe increases and decreases in mean human plausibility ratings in the presence of LLM-generated PRO and CON rationales, respectively, suggesting th...

ID: 2510.08091v1 cs.CL, cs.AI, cs.HC

arXiv PDF

📄 FURINA: A Fully Customizable Role-Playing Benchmark via Scalable Multi-Agent Collaboration Pipeline

2025-10-10

Авторы:

Haotian Wu, Shufan Jiang, Chios Chen, Yiyang Feng, Hehai Lin, Heqing Zou, Yao Shu, Yanran Li, Chengwei Qin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

As large language models (LLMs) advance in role-playing (RP) tasks, existing benchmarks quickly become obsolete due to their narrow scope, outdated interaction paradigms, and limited adaptability across diverse application scenarios. To address this gap, we introduce FURINA-Builder, a novel multi-agent collaboration pipeline that automatically constructs fully customizable RP benchmarks at any scale. It enables evaluation of arbitrary characters across diverse scenarios and prompt formats, as th...

ID: 2510.06800v1 cs.CL, cs.AI, cs.HC, cs.MA

arXiv PDF

📄 Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

2025-09-30

Авторы:

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan, Tuhin Chakrabarty

#### Контекст Современные языковые модели (LLM) обладают возможностью генерировать тексты, которые, как полагается, должны быть более творческими, чем те, которые предлагаются в исходной модели. Одна из метрик, наиболее часто используемой для оценки творчества текста, — n-gram novelty. Она определяет то, насколько уникален текст по сравнению с текстами, известными модели. Однако теоретические работы по творчеству подчеркивают, что n-gram novelty недостаточно, так как не учитывает две ключевые составляющие творчества: **новизну** (originality) и **прагматичность** (appropriateness). Это делает n-gram novelty неполной метрикой для оценки творчества. Мы исследуем эту проблему, используя огромное количество экспертных аннотаций (7542), которые оценивают не только новизну, но и значение текста владельцам языка — прагматичность и сочетательность. #### Метод Мы разработали специальный корпус данных, включающий тексты, генерируемые как людьми, так и ЛЛМ. Эти тексты были аннотированы экспертами-писателями, которые оценивали каждый текст по трем критериям: **новизна** (новизна выражения), **прагматичность** (то, насколько выражение соответствует логике и контексту) и **сочетательность** (то, насколько текст естественно звучит). Эти аннотации позволяют нам изучить, насколько хорошо n-gram novelty соответствует экспертным оценкам. В этом исследовании мы также проверяем, насколько хорошо модели себя чувствуют, определяя творческие или непрагматичные выражения. #### Результаты Мы обнаружили, что n-gram novelty была положительно связана с высокими оценками экспертов по творчеству, но существуют существенные ограничения. В частности, примерно 91% текстов, наиболее высоко оцененных по n-gram novelty, не были расценены как творческие. Это указывает на то, что n-gram novelty не может быть использовано в качестве однозначной метрики для творчества. Мы также обнаружили, что более высокая n-gram novelty в LLMs приводит к низкой прагматичности. Таким образом, ЛЛМ могут генерировать оригинальные тексты, но их выражения часто не соответствуют контексту. Наши эксперименты показали, что frontier LLMs способны выделять такие выражения, но их результаты остаются недостаточно точными. #### Значимость Этот результат имеет значение для области текстовой генерации и творчества. Наше исследование показывает, что творчество не может быть оценено только через n-gram novelty, и что для того, чтобы модели LLM становились более творческими, необходимо улучшить их возможности различить непрагматичные выражения. Мы также показываем, что модели LLM могут быть использованы для оценки творчества, но их моделируемое поведение пока не достигает у

Annotation:

N-gram novelty is widely used to evaluate language models' ability to generate text outside of their training data. More recently, it has also been adopted as a metric for measuring textual creativity. However, theoretical work on creativity suggests that this approach may be inadequate, as it does not account for creativity's dual nature: novelty (how original the text is) and appropriateness (how sensical and pragmatic it is). We investigate the relationship between this notion of creativity a...

ID: 2509.22641v1 cs.CL, cs.AI, cs.HC

arXiv PDF

📄 Overhearing LLM Agents: A Survey, Taxonomy, and Roadmap

2025-09-24

Авторы:

Andrew Zhu, Chris Callison-Burch

## Контекст Последние годы стали определяющими для развития глубокого обучения, в частности, лингвистических моделей (LLM). Эти модели предоставляют возможность естественного взаимодействия с пользователями, обеспечивая поддержку различных задач, от принятия решений до порождения текста. Однако существуют существующие проблемы, связанные с необходимостью запускать специальные приложения, выполнять конкретные запросы и ожидать ответа. Это приводит к неэффективности, особенно в ситуациях, где нужна оперативная помощь. Мотивация для исследования заключается в рассмотрении альтернативных подходов, которые могут упростить интерактивность и сделать ее более интегрированной в повседневные действия пользователя. ## Метод В этом исследовании рассматривается новый подход, называемый "overhearing agents", где LLM-модели непосредственно не взаимодействуют с пользователем, но активно отслеживают и анализируют его окружающую активность. Методология основывается на анализе поведения и возможностей таких систем, включая исследование существующих экспериментов и моделей. Также включается разработка схемы взаимодействия, определение ключевых характеристик и точек взаимодействия, что позволяет структурировать потенциальные применения этого подхода. ## Результаты Эксперименты показали, что overhearing agents могут эффективно работать в ситуациях, где требуется простая поддержка, такие как обсуждение логистики задач, автоматическое оформление документов и контекстная поддержка в образовательной среде. Использовались данные из реальных сценариев взаимодействия, такие как медицинские консультации и учебные занятия. Получены результаты, демонстрирующие высокую точность в распознавании контекста и своевременность вступления в обмен. ## Значимость Подход "overhearing agents" может быть применен в областях, где требуется непрерывная поддержка в процессе работы, например, в здравоохранении, образовании, бизнесе и домашних целях. Он предлагает преимущества в виде уменьшения нагрузки на пользователя, увеличения эффективности процессов и улучшения интеграции технологий в повседневную жизнь. Это может привести к более естественному и интегрированному взаимодействию с AI-системами. ## Выводы Overhearing agents представляют собой перспективный подход к улучшению взаимодействия с LLM-моделями. Однако остаются не решенными вопросы, такие как границы приватности, эффективность в различных сценариях и развитие новых интерфейсов для такого подхода. Будущие исследования должны сосредоточиться на этих аспектах, а также на расширении технологий, которые позволят

Annotation:

Imagine AI assistants that enhance conversations without interrupting them: quietly providing relevant information during a medical consultation, seamlessly preparing materials as teachers discuss lesson plans, or unobtrusively scheduling meetings as colleagues debate calendars. While modern conversational LLM agents directly assist human users with tasks through a chat interface, we study this alternative paradigm for interacting with LLM agents, which we call "overhearing agents." Rather than ...

ID: 2509.16325v1 cs.CL, cs.AI, cs.HC

arXiv PDF

📄 Evaluating Behavioral Alignment in Conflict Dialogue: A Multi-Dimensional Comparison of LLM Agents and Humans

2025-09-24

Авторы:

Deuksin Kwon, Kaleen Shrestha, Bin Han, Elena Hayoung Lee, Gale Lucas

## Контекст Современные Large Language Models (LLMs) востребованы в различных сценариях взаимодействия, включая социально-интерактивные задачи, требующие стратегического мышления и эмоциональной уравновешенности. Однако их возможности в этих областях остаются недостаточно исследованы. Это связано с тем, что LLMs часто не успешно моделируют человеческое поведение в социально-стратегических ситуациях, таких как конфликтные диалоги. Недостаток безупречного подражания человеческим образцам в этих областях снижает доверие к их применению в реальной жизни. Ранее проведенные исследования показали, что LLMs могут некорректно реагировать на эмоциональные воздействия или отождествляться с некритичными стратегическими подходами. Данное исследование фокусируется на оценке уровня биBEHAVIORAL ALIGNMENT IN CONFLICT DIALOGUEBEHAVIORAL ALIGNMENT IN CONFLICT DIALOGUEЬничности LLMs в таких диалогах. ## Метод Для эмуляции конфликтных диалогов был применен подход с использованием специально настроенных LLM-агентов. Для каждого агента была выбрана стратегия, основанная на пятифакторной модели личности, чтобы эмулировать характеристики персонажа. Эта подходка позволила ограничить исследовательский вопрос, давая наглядный контроль над взаимодействием. Затем, во время диалогов, LLMs предсказывали свои выводы, используя систему мотивации, схожую с человеческими мотивами. Использовались три основные критерия для оценки: лингвистический стиль, эмоциональное выражение (например, динамика ярости) и стратегическое поведение. Для экспериментов взяли две модели LLM: GPT-4.1 и Claude-3.7-Sonnet. ## Результаты В ходе эксперимента GPT-4.1 показала наибольшую схожесть с поведением человека в лингвистическом стиле и эмоциональном выражении. Claude-3.7-Sonnet, в свою очередь, демонстрировала более высокий уровень стратегического совпадения. Однако, несмотря на достижения, были выявлены значительные различия в поведении LLMs по сравнению с поведением человека, особенно в сфере стратегического взаимодействия. В целом, GPT-4.1 демонстрировала более высокий уровень соответствия человеческому поведению, но не всегда удавалось обеспечить согласованность во взаимодействии. ## Значимость Выявленные результаты могут быть применены в различных областях, включая обучение системам коммуникации, создание улучшенных моделей взаимодействия, и научно-исследовательские исследования в области гуманитарных технологий. Лидерство GPT-4.1 в лингвистическом стиле и эмоциональном выражении открывает путь к её использованию в разработке более реалистичных моделей взаимодействия. Это также по

Annotation:

Large Language Models (LLMs) are increasingly deployed in socially complex, interaction-driven tasks, yet their ability to mirror human behavior in emotionally and strategically complex contexts remains underexplored. This study assesses the behavioral alignment of personality-prompted LLMs in adversarial dispute resolution by simulating multi-turn conflict dialogues that incorporate negotiation. Each LLM is guided by a matched Five-Factor personality profile to control for individual variation ...

ID: 2509.16394v1 cs.CL, cs.AI, cs.HC

arXiv PDF

📄 HICode: Hierarchical Inductive Coding with LLMs

2025-09-24

Авторы:

Mian Zhong, Pristina Wang, Anjalie Field

## Контекст В современных исследованиях, особенно в области естественной языковой обработки, анализ больших текстовых корпусов является ключевым заданием. Однако существующие подходы, такие как методы тематического моделирования, часто либо недостаточно точны, либо требуют ручного вмешательства, что не эффективно при работе с крупными данными. Ручной метод методического кодирования, широко распространенный в качестве альтернативы, тоже имеет свои ограничения: он немасштабируемый, непоследователен и может влечь за собой субъективность аналитика. Для преодоления этих трудностей, авторы предлагают подход, использующий глубокое обучение, чтобы улучшить точность и масштабируемость кодирования для получения более глубоких и тщательных анализов. ## Метод HICode — это двухэтапная модель, призванная эффективно автоматизировать процесс кодирования в некоторых фазе исследования. Она состоит из двух частей: **индуктивного кодирования** и **иерархического кластеризации**. В первой фазе, генерация тегов происходит непосредственно из анализируемого текста, используя технологию глубокого обучения. Эта технология настраивается на задачу поиска подходящих меток для данных. Во второй фазе, полученные метки вложены в иерархию, чтобы обнаружить темы, которые могут быть неочевидными в исходных данных. Эта модель предлагается как независимая от языка и применимая к различным типам данных, включая тексты, аудио и видео. ## Результаты HICode была протестирована на трех различных корпусах данных, включая рецензии к фильмам, сообщения в социальных сетях и отзывы о продуктах. Модель показала высокую точность в соответствии с людскими темами, проанализированными вручную. Запуски экспериментов демонстрируют, что полученные результаты соответствуют профессиональному методическому кодированию в качестве стандарта. Также были проведены испытания на реальных данных, включая документы, связанные с кризисом наркотиков в США. Эти испытания показали, что HICode может обнаруживать затененные темы, такие как провокационные маркетинговые стратегии. ## Значимость Результаты HICode показывают большой потенциал модели в различных областях, включая юридический анализ, маркетинг, социальные исследования и литературные исследования. Основное преимущество этого подхода в том, что он увеличивает масштабируемость и точность анализа, обнаруживая темы, которые могут быть недоступны для ручного анализа. Благодаря этому, модель может существенно сэкономить время исследователей и улучшить качество анализа текстового контента.

Annotation:

Despite numerous applications for fine-grained corpus analysis, researchers continue to rely on manual labeling, which does not scale, or statistical tools like topic modeling, which are difficult to control. We propose that LLMs have the potential to scale the nuanced analyses that researchers typically conduct manually to large text corpora. To this effect, inspired by qualitative research methods, we develop HICode, a two-part pipeline that first inductively generates labels directly from ana...

ID: 2509.17946v1 cs.CL, cs.AI, cs.HC

arXiv PDF

📄 AgentCTG: Harnessing Multi-Agent Collaboration for Fine-Grained Precise Control in Text Generation

2025-09-19

Авторы:

Xinxu Zhou, Jiaqi Bai, Zhenqi Sun, Fanxiang Zeng, Yue Liu

#### Контекст В области естественного языкового процессинга (NLP), значительные успехи были достигнуты в задачах, таких как семантическое понимание текста, перевод и синтез речи. Однако задача Контролируемого Текстового Генерирования (Controlled Text Generation, CTG) все еще сталкивается с рядом проблем, в том числе с трудностью достичь точного управления в тексте. Эта сложность усиливается при применении в реальных сценариях, где необходимо учитывать затраты, масштабируемость, осуществление обучения на основе доменных знаний и достижение более точного контроля. Такие ограничения становятся ключевыми мотивациями для развития новых подходов, которые позволят значительно улучшить точность управления в тексте. #### Метод Предлагаемая модель AgentCTG основывается на подходе, использующем многоагентную коллаборацию, с полностью симулируемыми механизмами управления и регулирования. Она включает в себя два основных компонента: агента-генератора и агента-редактора. Агент-генератор стремится произвести оригинальный текст, который соответствует входным условиям, в то время как агент-редактор вносит дополнительные изменения, чтобы добиться точного соответствия текстовому контролю. Для более эффективного управления агентами вводится модуль автоматической подсказки (auto-prompt). Эта концепция позволяет направлять генерацию в нужном направлении, улучшая точность и контекстуальную адекватность. Архитектура AgentCTG базируется на структуре с несколькими слоями взаимодействия, чтобы обеспечить более эффективное взаимодействие между агентами. #### Результаты AgentCTG протестирована на нескольких популярных данных в области CTG, включая предложения с подробными условиями управления. Результаты показали, что модель демонстрирует значительное улучшение в точности контроля, выполняя лучше, чем предшествующие модели. Особое внимание уделено новой Character-Driven Rewriting задаче, где AgentCTG должна преобразовывать текст, соответствующий определенным характеристикам персонажа, при этом сохраняя доменные знания. Модель демонстрирует высокую точность в создании текста, который был успешно проверен как на целевых данных, так и в задачах, требующих дополнительного контекстуального понимания. #### Значимость Продемонстрированная модель AgentCTG имеет широкое применение в многочисленных областях, включая синтез речи, создание текста для навигационных систем, а также создание текста в онлайн-играх. Одним из основных преимуществ AgentCTG является ее масштабируемость и гибкость при многоагентной коллаборации, что позволяет ей удовлетворять разные потребности в контроле. Благодаря улу

Annotation:

Although significant progress has been made in many tasks within the field of Natural Language Processing (NLP), Controlled Text Generation (CTG) continues to face numerous challenges, particularly in achieving fine-grained conditional control over generation. Additionally, in real scenario and online applications, cost considerations, scalability, domain knowledge learning and more precise control are required, presenting more challenge for CTG. This paper introduces a novel and scalable framew...

ID: 2509.13677v1 cs.CL, cs.AI, cs.HC

arXiv PDF

📄 Towards Automated Error Discovery: A Study in Conversational AI

2025-09-17

Авторы:

Dominic Petrak, Thy Thy Tran, Iryna Gurevych

------------------------------------------------ ## Контекст ------------------------------------------------ Современные широковещательные системы на основе широковещательных моделей языка (LLM), такие как консультанты по здоровью, привносят в сферу здравоохранения новейший подход к предоставлению услуг здравоохранения. Однако эти системы часто сталкиваются с проблемами, такими как неточности, несоответствия контексту и непредсказуемость результатов. Эти проблемы могут привести к негативному опыту пользователей и снижению доверия к системе. Одним из ключевых аспектов, стоящих перед развитием этих систем, является разработка эффективных методов автоматического обнаружения и оценки ошибок в тексте. Эти методы помогают обнаруживать и моделировать негативные поведенческие характеристики, такие как неточности и несоответствия контексту, которые могут возникать в результатах системы. Целью данного исследования является разработка и проверка фреймворка для автоматического обнаружения ошибок в тексте, который может быть применен для улучшения качества результатов в здравоохранении и других областях. ## Метод ------------------------------------------------ Для реализации предложенного фреймворка разработана методология, основанная на сочетании методов машинного обучения и естественного языкового процессинга. Метод SEEED (Soft Clustering Extended Encoder-Based Error Detection) использует софт-кластеринг и расширенную модель encoder-based для обнаружения и оценки ошибок в тексте. Основными инструментами являются: 1. **Soft Nearest Neighbor Loss (SNNL)**: Этот подход усиливает веса для отрицательных примеров, что позволяет модели лучше отличать ошибки от правильных ответов. 2. **Label-Based Sample Ranking (LBSR)**: Эта техника используется для выбора самых отличительных примеров для обучения модели, что улучшает способность модели к обнаружению неправильных ответов. Кроме того, были разработаны специальные методы для подготовки данных, включая методы для автоматического создания тестовых наборов и методы для оценки точности модели. ## Результаты ------------------------------------------------ Для оценки эффективности SEEED был проведен эксперимент на нескольких диалоговых датасетах, аннотированных ошибками. Результаты показали, что SEEED превосходит существующие подходы, включая GPT-4o и Phi-4, на несколько процентов в точности обнаружения непредсказуемых ошибок. Было получено, что SEEED обнаруживает непредсказуемые ошибки с точностью до 8% выше, чем существующие модели. Это улучшение связано с использованием расширенных методов кластеризации и оценки примеров, что позволяет модели лучше определять и отделять ошибки от правильных ответов. ## Значимость ------------------------------------------------ Результаты данного исследования имеют важное значение для развития систем здравоохранения, в частности для расширения возможностей консультан

Annotation:

Although LLM-based conversational agents demonstrate strong fluency and coherence, they still produce undesirable behaviors (errors) that are challenging to prevent from reaching users during deployment. Recent research leverages large language models (LLMs) to detect errors and guide response-generation models toward improvement. However, current LLMs struggle to identify errors not explicitly specified in their instructions, such as those arising from updates to the response-generation model o...

ID: 2509.10833v1 cs.CL, cs.AI, cs.HC, cs.LG

arXiv PDF

Показано 11 - 20 из 31 записей