📚 Саммари научных статей из arXiv

Найдено 73 результатов по запросу 'cs.CL, cs.HC' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants

2025-09-12

Авторы:

Benjamin Sturgeon, Daniel Samuelson, Jacob Haimes, Jacy Reese Anthis

#### Контекст В последние годы мощности и универсальность широкого спектра ИИ-систем наглядно продемонстрировали способность автоматизировать и упростить человеческие задачи. Однако эта мощь сопрягается с риском потери контроля над своими личными и общественными будущими. Уже сейчас простые алгоритмы управляют человеческими решениями: системы рекомендаций социальных сетей формируют поведение пользователей, приводя их к ненамеренному вредоносному времяпрепровождению. Этот тенденционный сдвиг в пользу ИИ требует новых подходов к оценке и оптимизации поддержки человеческой агентности в ИИ-системах. Основной целью данного исследования является разработка формализованного подхода к оценке поддержки человеческого агентства в ИИ-системах, а также разработка нового бенчмарка для эффективного тестирования и валидации этих подходов в условиях реальности. #### Метод Разработка HumanAgencyBench (HAB) основывается на интеграции философских и научных теорий человеческой агентности с техническими методами оценки. HAB строится на шести характеристиках человеческой агентности: 1. **Ask Clarifying Questions** – готовность выяснять неясности в пользовательских запросах. 2. **Avoid Value Manipulation** – избегание влияния на ценностные представления пользователя. 3. **Correct Misinformation** – корректировка неверных или неточных ответов. 4. **Defer Important Decisions** – отказ от решения в случаях нехватки достаточных данных. 5. **Encourage Learning** – поощрение саморазвития и поиска информации. 6. **Maintain Social Boundaries** – соблюдение конфиденциальности и пределов взаимоотношений. HAB применяет технологии больших лингвистических моделей (LLM) для симуляции пользовательских запросов и оценки ответов ИИ-систем. Метод использует технические методы моделирования, включая множественно-документный фреймворк и адаптивные тесты, чтобы эффективно проверить поддержку человеческой агентности в различных условиях. #### Результаты Экспериментальная оценка HAB проводилась на широком наборе данных, включающих различные сценарии и задачи, стандартных для применения ИИ. Наибольшую поддержку человеческой агентности показали модели Anthropic LLM, но даже они имели следствия в контексте Avoid Value Manipulation. Более стабильные и склонные к значительным различиям в результатах показали целенаправленность и потенциальную необходимость улучшения архитектур. Основные выводы: низко-модераторная поддержка агентности в современных ИИ-системах, выявленные несогласованности в поддержке отдельных аспектов. #### Значимость Результаты HAB открывают путь к развитию систем, более эффективно поддерживающи

Annotation:

As humans delegate more tasks and decisions to artificial intelligence (AI), we risk losing control of our individual and collective futures. Relatively simple algorithmic systems already steer human decision-making, such as social media feed algorithms that lead people to unintentionally and absent-mindedly scroll through engagement-optimized content. In this paper, we develop the idea of human agency by integrating philosophical and scientific theories of agency with AI-assisted evaluation met...

ID: 2509.08494v1 cs.CY, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 Measuring and mitigating overreliance is necessary for building human-compatible AI

2025-09-11

Авторы:

Lujain Ibrahim, Katherine M. Collins, Sunnie S. Y. Kim, Anka Reuel, Max Lamparth, Kevin Feng, Lama Ahmad, Prajna Soni, Alia El Kattan, Merlin Stein, Siddharth Swaroop, Ilia Sucholutsky, Andrew Strait, Q. Vera Liao, Umang Bhatt

## Контекст Большие языковые модели (LLM) представляют собой инновационные технологии, работающие как "человеческие мыслительные партнеры", которые могут более естественно взаимодействовать с пользователями в человеческом языке. Их возможности становятся все более широко применяемыми в различных сферах, от здравоохранения до персонального консультирования. Однако с ростом их воздействия возрастает риск многообразных последствий, включая надёржание (overreliance), — когда люди доверяют моделям далеко вплоть до невозможности их реального выполнения заданий. Такое надёржание может привести к ошибкам в критически важных сферах, дисквалификации и вызову новых государственных регулирований. Работа рассматривает важность изучения и контроля надёржания в качестве ключевого аспекта развития и применения LLM. ## Метод Методология статьи основывается на подробном анализе характеристик LLM, технических решений, пользовательских ошибок и теоретических моделей. Авторы рассмотрели ряд экспериментов и исследований, которые выявляли системные слабые места, связанные с надёржанием. Широкий анализ был проведен с использованием различных типов данных, включая обучающие модели, проводящие эксперименты с пользователями и работающие с клиническими данными. Результаты этих экспериментов были связаны с рядом теоретических подходов, включая теорию поведения пользователей, а также технические аспекты, такие как влияние дизайна системы на поведение. ## Результаты Изученная работа проанализировала существующие данные по ошибкам, совершаемым при использовании LLM, включая не только искусственные события, но и реальные случаи, в которых операторы доверились моделям слишком сильно. На основе этих данных были выделены три главные типа рисков: высокорисковые ошибки, проблемы в государственном регулировании и индивидуальные проблемы. Авторы также сравнили три типа исторических подходов к измерению надёржания, указав на три основных проблемы в них, и предложили три новых подхода, которые могут помочь улучшить измерение надёржания. ## Значимость Результаты работы имеют большое значение для нескольких областей. В первую очередь, они могут быть применены в здравоохранении, психологии, юридических системах и других сферах, где действия LLMs могут оказать критическое воздействие. Благодаря предложенным рекомендациям, модели могут быть действительно более эффективно включены в процессы принятия решений, в то же время уменьшая риски, связанные с надёржанием. Эта работа так

Annotation:

Large language models (LLMs) distinguish themselves from previous technologies by functioning as collaborative "thought partners," capable of engaging more fluidly in natural language. As LLMs increasingly influence consequential decisions across diverse domains from healthcare to personal advice, the risk of overreliance - relying on LLMs beyond their capabilities - grows. This position paper argues that measuring and mitigating overreliance must become central to LLM research and deployment. F...

ID: 2509.08010v1 cs.CY, cs.AI, cs.CL, cs.HC

arXiv PDF

📄 Rule-Based Moral Principles for Explaining Uncertainty in Natural Language Generation

2025-09-11

Авторы:

Zahra Atf, Peter R Lewis

## Контекст Современные технологии применяются во многих областях, где необходимо обеспечивать доверие и прозрачность. В частности, большие естественным языком настроенные модели (LLMs) пользуются спросом в высокорисковых сферах, таких как медицина и правосудие. Однако объяснение невербальной степени неопределенности в тексте, сгенерированном такими моделями, остается трудной задачей. Наличествующие проблемы связаны с тем, что большинство методов оперируют прогностическими моделями, которые зачастую недостаточно ясны и не соответствуют ожиданиям пользователей в отношении открытости. Данное исследование ориентировано на разработку нового подхода, основывающегося на правилах морального разума, для обработки неопределенности в генерируемых текстах. ## Метод Методология построена на использовании правил, основанных на моральном разуме, и их интеграции в процесс генерирования текста. В качестве основы выбрана модель виртуозного этического мышления, которая включает в себя такие принципы, как предосторожность, ответственность и делегирование. Эти принципы были кодированы в виде упрощенной системы решений на Prolog, которая способна определять уровень неопределенности и выдавать рациональные обоснования в человеческой речи. Архитектура исследуемой системы основывается на сочетании легковесной модели взаимодействия с прогностическим рассуждением, чтобы обеспечить корректность и понятность результатов. ## Результаты В ходе экспериментов проводились сценарии симуляций, включающие различные уровни неопределенности в тексте. Были созданы данные сценарии, которые позволили оценить эффективность фреймворка в сферах здравоохранения и правосудия. Результаты показали хорошую степень калибровки доверия пользователей, а также повышение ясности интерпретации результатов. Визуализация результатов демонстрирует, что применение правил морального разума оказалось более эффективным в сравнении с простой моделью на основе вероятностного подхода, особенно в сложных сценариях. ## Значимость Основное применение данного подхода — в сферах, где необходима высокая интерпретируемость результатов. К примерам можно отнести клинические решения и юридические процессы. Данный подход предоставляет значительные преимущества перед существующими моделями. В частности, он обеспечивает лучшую ясность, понимание и взаимодействие с пользователями. Будущие исследования будут ориентированы на уточнение правил морального разума и их применение в дополнительных областях, таких как образование и социальные сети. ## Выводы Результаты исследований показали, что моральные прин

Annotation:

Large language models (LLMs) are increasingly used in high-stakes settings, where explaining uncertainty is both technical and ethical. Probabilistic methods are often opaque and misaligned with expectations of transparency. We propose a framework based on rule-based moral principles for handling uncertainty in LLM-generated text. Using insights from moral psychology and virtue ethics, we define rules such as precaution, deference, and responsibility to guide responses under epistemic or aleator...

ID: 2509.07190v1 cs.CL, cs.HC

arXiv PDF

📄 Are Humans as Brittle as Large Language Models?

2025-09-11

Авторы:

Jiahui Li, Sean Papay, Roman Klinger

## Контекст Большие языковые модели (LLM) широко используются в различных приложениях, но их вывод часто является непоследовательным из-за недетерминированности процесса декодирования и характера запросов (prompts). Это неустойчивость может воспроизводить разногласия в поведении человеческих аннотаторов из-за потенциальных изменений в условиях задания. Несмотря на распространенное предположение о том, что отклонения в поведении LLMs отражаются в поведении людей, это не было до конца исследовано. Естественный вопрос: насколько чувствителен человек к изменениям в инструкциях, подобным тем, что встречаются в LLMs? Если ответ на этот вопрос положительный, то необходимо определить, является ли эта чувствительность проблемой или, наоборот, отражением общих человеческих признаков. Данная работа стремится заполнить этот промежуток в знаниях, сравнив чувствительность человеческих аннотаторов к модификациям инструкций с чувствительностью LLMs к модификациям запросов. ## Метод Для сравнения чувствительности человеческих аннотаторов и LLM к модификациям запросов было проведено систематическое исследование. В качестве тестовой задачи был использован текстовый классификатор, а как обучающие данные — набор текстов с привязанными к ним меток. Модификации запросов включали замену меток на альтернативные, изменение формата меток, добавление шума в форматировании и прочие типы модификаций. Для каждой модификации были проведены эксперименты с группами людей и с LLM, а результаты были измерены и сравнены с помощью метрик точности и разброса. ## Результаты Исследования показали, что и человеческие аннотаторы, и LLM оказались чувствительными к модификациям запросов, но различия в их поведении были заметны. Обе группы показали большую чувствительность к заменам меток и изменениям формата меток. Однако человеческие аннотаторы были менее чувствительны к типографским ошибкам и изменениям порядка меток в сравнении с LLM. Эти результаты указывают на то, что человеческие аннотаторы также чувствительны к изменениям в инструкциях, хотя именно в части типографских ошибок их чувствительность ниже, чем у LLM. ## Значимость Результаты этих исследований имеют значительное значение для понимания интерфейсов между человеческими аннотаторами и LLM. Они подтверждают, что чувствительность к изменениям в инструкциях является общим явлением в человеческом и искусственном анализе. Это указывает на возможность использования LLM для моделирования человеческого поведения при анализе текстов. Будущие исследования должны ориентироваться на развитие более у

Annotation:

The output of large language models (LLM) is unstable, due to both non-determinism of the decoding process as well as to prompt brittleness. While the intrinsic non-determinism of LLM generation may mimic existing uncertainty in human annotations through distributional shifts in outputs, it is largely assumed, yet unexplored, that the prompt brittleness effect is unique to LLMs. This raises the question: do human annotators show similar sensitivity to instruction changes? If so, should prompt br...

ID: 2509.07869v1 cs.CL, cs.HC

arXiv PDF

📄 Beamforming-LLM: What, Where and When Did I Miss?

2025-09-10

Авторы:

Vishal Choudhari

## Контекст Многоречивые окружения представляют свои собственные вызовы для понимания и восприятия говорения. Особенно это актуально при отсутствии внимания к некоторым частям диалога. Существующие системы позволяют воспроизводить содержимое звуковых потоков, но не учитывают контекст или семантический контент. Участники таких систем часто приходятся прибегать к рутинному повторению звуков, чтобы разобраться в пропущенном контенте. Это приводит к увеличению времени, потребляемого на понимание диалога, и к ухудшению качества взаимодействия. Необходимо разработать систему, которая не только воспроизводила бы пропущенные фрагменты, но и обеспечивала бы понятное понимание и контекст с помощью наиболее актуального текстового описания. ## Метод Система Beamforming-LLM использует микрофонный массив для съемки спектральных данных, которые позволяют выделить звуковые источники в многоречивых средах. Эти звуковые потоки используются для сегментации и распознавания речи с помощью Whisper. Он транскрибирует звуковые фрагменты и вставляет их в векторную базу данных с помощью sentence encoders. Пользователь может задавать семантические запросы, например: "Что я пропустил, когда думал об другой теме?". Затем система выполняет поиск семантически похожих фрагментов и определяет, какие фрагменты были пропущены в то время, когда пользователь отвлекался. Эти фрагменты становятся доступными для повтора с помощью GPT-4o-mini, которая создает упрощенные сводки. Благодаря этому, пользователь может получить ответы в удобном текстовом формате с возможностью запускать аудио на запрос. ## Результаты В экспериментах система Beamforming-LLM была применена в сценариях многоречивых диалогов, когда пользователь отвлекается от некоторых частей диалога. Были проведены тесты на различных диалогах, и система показала высокую точность в поиске и воспроизведении пропущенных фрагментов. Опробывались различные типы звуковых баз, включая диалог между тремя людьми и сложные ситуации с многочисленными источниками звука. Результаты показали, что Beamforming-LLM не только выделяет пропущенные фрагменты, но и предоставляет понятные и контекстуально подходящие разъяснения, что улучшает понимание пользователем. ## Значимость Было проанализировано множество областей применения Beamforming-LLM. Это может быть полезно для помощи людям с нарушениями слуха или в целях облегчения труда в нормальных диалогах. Также есть возможность применять ее в корпоративных средах для помощи в суммировании митингов, а также в сфере мобильных приложений, где пользователи могут использовать систему для получения ответа на с

Annotation:

We present Beamforming-LLM, a system that enables users to semantically recall conversations they may have missed in multi-speaker environments. The system combines spatial audio capture using a microphone array with retrieval-augmented generation (RAG) to support natural language queries such as, "What did I miss when I was following the conversation on dogs?" Directional audio streams are separated using beamforming, transcribed with Whisper, and embedded into a vector database using sentence ...

ID: 2509.06221v1 eess.AS, cs.AI, cs.CL, cs.HC

arXiv PDF

📄 Towards Stable and Personalised Profiles for Lexical Alignment in Spoken Human-Agent Dialogue

2025-09-06

Авторы:

Keara Schaaij, Roel Boumans, Tibor Bosse, Iris Hendrickx

#### Контекст Лексическая аллюзия (lexical alignment) — процесс, в ходе которого участники диалога начинают использовать похожие лексические единицы, что повышает эффективность общения. Хотя этот прием широко известен и используется в интерполяции между людьми, технологии, основанные на нем, для роботов и агентов еще находятся в ранней стадии исследований. Особенно трудно реализовать эту функцию с учетом последних достижений в области больших языковых моделей (LLMs). В этом исследовании предлагается новый подход к созданию лингвистических профилей, которые могут поддерживать lexical alignment в диалоге между людьми и агентами. Такие профили значительно повышают удобство использования роботов и приводят к более естественным изменениям в общении. #### Метод Для создания лингвистических профилей использовались методы персонализации голосовых агентов. Ключевым аспектом является структура профилей, которая определяет, какие лексические аспекты будут использоваться в беседе. Лексические профили были созданы на основе разных объемов транскриптов речи (10 минут, 20 минут и 30 минут), а также различным количеством лексических единиц в каждой части речи (POS, part-of-speech): 5 элементов для прилагательных, 5 для союзов, 10 для местоимений и существительных, 15 для наречий и глаголов. На основе этих параметров проводились эксперименты, измеряясь по таким критериям, как покрытие (coverage), восстановление (recall) и косинусная схожесть (cosine similarity). #### Результаты Эксперименты показали, что оптимальный баланс между производительностью и эффективностью данных достигается, когда используется 10 минут транскрипта, содержащих 5 элементов прилагательных, 5 союзов, 10 наречий, 10 местоимений, 10 существительных и 10 глаголов. Эти профили достаточно компактны, чтобы оптимизировать использование ресурсов, и при этом поддерживают высокую эффективность в обеспечении lexical alignment. Таким образом, лексические профили могут быть эффективно использованы в говорящих агентах, улучшая имитацию естественного общения. #### Значимость Этот подход может быть применен в различных сферах, например в системах общения с компьютерами, виртуальных помощниках и сервисах клиентской поддержки. Основное преимущество заключается в том, что лингвистические профили позволяют создавать более естественные и персонализированные беседы, улучшая связь между людьми и роботами. Будущие исследования могут сосредоточиться на расширении этих профилей для более сложных диалогов и разных типов мобильных приложений. #### Выводы В данном исследовании были

Annotation:

Lexical alignment, where speakers start to use similar words across conversation, is known to contribute to successful communication. However, its implementation in conversational agents remains underexplored, particularly considering the recent advancements in large language models (LLMs). As a first step towards enabling lexical alignment in human-agent dialogue, this study draws on strategies for personalising conversational agents and investigates the construction of stable, personalised lex...

ID: 2509.04104v1 cs.CL, cs.HC

arXiv PDF

📄 No Thoughts Just AI: Biased LLM Recommendations Limit Human Agency in Resume Screening

2025-09-06

Авторы:

Kyra Wilson, Mattea Sim, Anna-Maria Gueorguieva, Aylin Caliskan

#### Контекст Многие сегодняшние организации используют системы совместного принятия решений с участием людей и искусственного интеллекта (Human-in-the-Loop, HITL) на ранних этапах трудоустройства. Однако неявные предрассудки в системах ИИ могут повлиять на выбор потенциальных кандидатов для работы, ограничивая человеческую агентность и продвигая чрезмерное стереотипирование. Например, ранее установленное стеротипное мнение о том, что белокожие кандидаты имеют более высокий статус на рынке труда, может влиять на решения, даже если эти предрассудки неявны. Более того, неявные предрассудки могут проникать в системы ИИ, когда они принимаются вместе с человеческими экспертами для принятия решений. Таким образом, необходимо изучить, как совместное принятие решений с использованием ИИ влияет на человеческую агентность и субъективные предрассудки в процессе трудоустройства. #### Метод Для изучения этой проблемы проводился эксперимент, в котором 528 участников сотрудничали с симулированными ИИ-системами, отображающими расовые предпочтения. Эти системы были программированы для проявления биаса в пользу кандидатов определенного раса, который мог быть либо "фактическим" (основанным на реальных данных о расовых предпочтениях в работе), либо "контрфактическим" (отражающим направленность на будущие биасы). Участники просматривали резюме кандидатов для 16 различных должностей, от высокого до низкого статуса, с именами, которые могли отражать аффилиацию с разными расовыми группами. На основе этих оценок, проводились имплицитные ассоциации тесты (IAT) для измерения неявных стереотипов участников. Выбор кандидатов также проверялся в зависимости от того, насколько кандидаты соответствовали гендерным и расовым стереотипам. #### Результаты Эксперимент показал, что люди, сотрудничающие с ИИ, который проявляет биазы в пользу определенных расовых групп, склонны выбирать кандидатов из этих групп до 90% всех случаев, даже если расовое стереотипирование не соответствует реальным кандидатам. Однако в случае неразделенного принятия решений (без участия ИИ или при участии ИИ, не проявляющего биазы), люди выбирают кандидатов равномерно. Также, участники, которые прошли IAT до эксперимента, выбрали больше кандидатов, не соответствующих расовым стереотипам, чем те, кто не прошел такой тест. Даже когда участники считали рекомендации ИИ низкокачественными, их решения все равно оказывались затронутыми биазом, если рекомендации были представлены как "важные". #### Значимость Результаты этих исследований им

Annotation:

In this study, we conduct a resume-screening experiment (N=528) where people collaborate with simulated AI models exhibiting race-based preferences (bias) to evaluate candidates for 16 high and low status occupations. Simulated AI bias approximates factual and counterfactual estimates of racial bias in real-world AI systems. We investigate people's preferences for White, Black, Hispanic, and Asian candidates (represented through names and affinity groups on quality-controlled resumes) across 1,5...

ID: 2509.04404v1 cs.CY, cs.AI, cs.CL, cs.HC, K.4.2

arXiv PDF

📄 Question-to-Knowledge: Multi-Agent Generation of Inspectable Facts for Product Mapping

2025-09-05

Авторы:

Wonduk Seo, Taesub Shin, Hyunjin An, Dokyun Kim, Seunghyun Lee

#### Контекст В современной электронной коммерции возникает сложность с идентификацией товаров, когда недостаточно или отсутствуют уникальные идентификаторы, такие как SKU. Два товара могут иметь различные названия, названия производителей и спецификации, что делает необходимым наличие комплексного подхода для их сопоставления. Кроме того, существуют проблемы с ошибками, возникающими из-за подхода с использованием правил и ключевых слов, которые не всегда учитывают тонкие различия в товарах. Это привело к развитию новых подходов, основанных на искусственном интеллекте, для более точного сопоставления товаров и уменьшения человекозатрат в этой области. #### Метод Q2K (Question-to-Knowledge) — это многоагентная система, которая использует крупные языковые модели (LLM) для построения проверяемых интерактивных фактов. Фреймворк состоит из трех основных компонентов: 1) Разумащего агента, который формирует целевые вопросы для разъяснения неоднозначностей; 2) Агента знаний, который выполняет поиск информации в Интернете для разрешения вопросов; 3) Дедупликационного агента, который использует результаты проверок для уменьшения количества повторных поисков. Более того, человеко-в-цикле механизм добавляет дополнительное разрешение для неоднозначных случаев. Такой подход обеспечивает не только большую точность, но и эффективность, поскольку он повторно использует обработанные ранее данные, уменьшая затраты на поиск. #### Результаты В работе проведены эксперименты на реальных данных различных потребительских товаров. Наборы данных включали в себя товары с разными уровнями сложности, включая товары с большим количеством вариантов бандлов и сложной структурой брендов. Результаты показали, что Q2K превосходит существующие базовые модели, достигая высокой точности при различных типах задач, таких как определение бандлов и разрешение товаров с одинаковыми брендами. Этот подход также показал свою эффективность в сокращении времени поиска и уменьшении человекозатрат при работе с большими наборами данных. #### Значимость Q2K может применяться в различных сферах, включая электронную коммерцию, системы управления товарами и системы закупок. Он обеспечивает точность в сопоставлении товаров, что позволяет экономить время и ресурсы. Благодаря использованию LLMs, Q2K обеспечивает прозрачность в процессе принятия решений, что важно для бизнеса. Будущие исследования будут направлены на улучшение модели для работы с более сложными случаями и интеграции ее в системы прогнозирования и анализа. #### Выводы Q2K представляет собой продвинутый подход к разрешению проблем сопоставления товаров

Annotation:

Identifying whether two product listings refer to the same Stock Keeping Unit (SKU) is a persistent challenge in ecommerce, especially when explicit identifiers are missing and product names vary widely across platforms. Rule based heuristics and keyword similarity often misclassify products by overlooking subtle distinctions in brand, specification, or bundle configuration. To overcome these limitations, we propose Question to Knowledge (Q2K), a multi agent framework that leverages Large Langua...

ID: 2509.01182v1 cs.AI, cs.CL, cs.HC, cs.IR, cs.MA

arXiv PDF

📄 Personality Matters: User Traits Predict LLM Preferences in Multi-Turn Collaborative Tasks

2025-09-02

Авторы:

Sarfaroz Yunusov, Kaige Chen, Kazi Nishat Anwar, Ali Emami

## Контекст В последние годы Л L L М (Л L L М) стали важной частью повседневных рабочих процессов, где пользователи формируют результаты с помощью многоповторных взаимодействий. Несмотря на прогресс в обучении моделей, остается открытым вопрос о том, насколько личностные черты пользователей влияют на свои предпочтения по отношению к LL М. Этот вопрос имеет решающее значение для повышения пользовательского опыта и эффективности работы с моделями. Были выявлены проблемы, связанные с личностью и поведенческими чертами пользователей, которые могут повлиять на их предпочтения к разным моделям ИИ. Эти проблемы ограничивают целей исследования, включая повышение пользовательского опыта, продуктивность в работе, индивидуализацию интерфейсов и создание более эффективных систем взаимодействия. ## Метод Для изучения этого вопроса был проведен эксперимент с участием 32 участников, разделенных по 4 типам личности в соответствии с классификацией Кайрси (Рационалы, Идеалисты, Наглые и Организаторы). Участники проводили задачи на 4 разных типах взаимодействий: анализ данных, творческое письмо, поиск информации и помощь в написании. Модели, с которыми проводились эксперименты — GPT-4 и Claude 3.5. Данные для исследования были собраны с помощью личных сессий, где участники выполняли задачи, и элементов самопровозглашения личности. Данные были анализированы с помощью статистических методов и систем анализа сентимента для оценки личностных предпочтений и эффективности работы с моделями. ## Результаты Результаты исследования показали, что личностные черты оказывают значительное влияние на предпочтения пользователей к LL М. Рационалы предпочитали GPT-4, особенно при выполнении целевых задач, таких как анализ данных и поиск информации. Идеалисты, в свою очередь, предпочитали Claude 3.5, особенно при выполнении творческих и аналитических задач. Другие типы личности показали задаче-зависимые предпочтения. Анализ отзывов участников подтвердил эти тенденции, показав различия в отношении к LL М в зависимости от личностных черт. Несмотря на то, что общие оценки полезности моделей GPT-4 и Claude 3.5 были схожи, персонализация позволила выявить технические и поведенческие отличия, которые могут быть незаметны в традиционных оценках. ## Значимость Результаты имеют важное значение для разработки более индивидуальных и эффективных систем взаимодействия. Использование личностных предпочтений пользователей может помочь улучшить опыт использования, увеличить производительность и сделать интерфейсы более доступными. Эти резуль

Annotation:

As Large Language Models (LLMs) increasingly integrate into everyday workflows, where users shape outcomes through multi-turn collaboration, a critical question emerges: do users with different personality traits systematically prefer certain LLMs over others? We conducted a study with 32 participants evenly distributed across four Keirsey personality types, evaluating their interactions with GPT-4 and Claude 3.5 across four collaborative tasks: data analysis, creative writing, information retri...

ID: 2508.21628v1 cs.CL, cs.HC

arXiv PDF

📄 ChainReaction! Structured Approach with Causal Chains as Intermediate Representations for Improved and Explainable Causal Video Question Answering

2025-08-29

Авторы:

Paritosh Parmar, Eric Peh, Basura Fernando

#### Контекст Видео-вопросание (VideoQA) является ключевым заданием в области обработки видео, которое призвано извлечь обоснованные ответы на вопросы, основанные на видеоконтенте. Несмотря на существующие модели, они часто сталкиваются с проблемами в высоком рассуждении и логическом обосновании ответов. Это возникает из-за скрытого характера моделей, которые используют опасные, монолитные трубы, соединяющие интерпретацию видео, казуальное выводение и генерацию ответов. Такие подходы отличаются неэффективностью и непрозрачностью, что вносит существенные ограничения на интерпретируемость и надежность моделей. Мы предлагаем новый модульный подход, который разделяет работу на казуальные цепочки в качестве интерпретируемых посредников. Этот подход вдохновлен моделями человеческого рассудка и позволяет создавать логически корректные и понятные ответы. #### Метод Предлагаемая модель, ChainReaction!, состоит из двух стадий: **Causal Chain Extractor (CCE)** и **Causal Chain-Driven Answerer (CCDA)**. CCE является модулем, который извлекает упрощенные и логически точные цепочки причин-следствий из пар видео и вопроса. Эти цепочки используются в качестве посредников для обоснованного вывода. CCDA, в свою очередь, генерирует ответы, ориентируясь на цепочки. Мы также предлагаем новую методику генерации качественных причинно-следственных цепочек с использованием бо LLM. Это позволяет улучшить качество данных для обучения моделей, которым недостаточно естественно-языковых причинных цепочек в существующих коллекциях. Мы также предлагаем новый показатель CauCo для оценки качества ответов на видеозадачу в свете причинных отношений. #### Результаты Мы провели эксперименты на трех крупных бенчмарках в области VideoQA, включая ShARC, SocialVideoQA и VQA-HIC. Наш подход показал значительные улучшения по сравнению с состоянием искусства в трех областях: точность ответов, вывод и интерпретируемость. Модель ChainReaction! обеспечила дополнительные выигрыши в понимании и логическом обосновании ответов. Также, модель демонстрирует повышенный уровень повторного использования в разных сценариях, таких как урокные видео, социальные ролики и трансляции спортивных событий. Эта гибкость указывает на перспективу CCE в качестве модуля для причинного вывода в разных областях. #### Значимость Наш подход имеет относительную значимость в нескольких областях. Во-первых, он предлагает передовые результаты в VideoQA, особенно в задачах, требующих высокого уровня анализа и обоснования. Во-вторых, он позволяет создавать ответы, имеющие теоретический языковой формат, что увеличивает надежность и

Annotation:

Existing Causal-Why Video Question Answering (VideoQA) models often struggle with higher-order reasoning, relying on opaque, monolithic pipelines that entangle video understanding, causal inference, and answer generation. These black-box approaches offer limited interpretability and tend to depend on shallow heuristics. We propose a novel, modular framework that explicitly decouples causal reasoning from answer generation, introducing natural language causal chains as interpretable intermediate ...

ID: 2508.21010v1 cs.CV, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

1
2
4
5
6
7
8

Показано 51 - 60 из 73 записей