📚 Саммари научных статей из arXiv

Найдено 238 результатов по запросу 'cs.AI, cs.HC' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 A Mega-Study of Digital Twins Reveals Strengths, Weaknesses and Opportunities for Further Improvement

2025-09-25

Авторы:

Tiany Peng, George Gui, Daniel J. Merlau, Grace Jiarui Fan, Malek Ben Sliman, Melanie Brucks, Eric J. Johnson, Vicki Morwitz, Abdullah Althenayyan, Silvia Bellezza, Dante Donati, Hortense Fong, Elizabeth Friedman, Ariana Guevara, Mohamed Hussein, Kinshuk Jerath, Bruce Kogut, Kristen Lane, Hannah Li, Patryk Perkowski, Oded Netzer, Olivier Toubia

## Контекст "Цифровые двойники" (digital twins) — это динамические модели, которые представляют индивидуальных пользователей или систем на основе расширенных данных о них. Они привлекают внимание в различных областях, включая маркетинг, управление и технологии, поскольку могут улучшить предсказания поведения и понимание индивидуальных предпочтений. Однако существуют вопросы относительно точности и широкого применения таких моделей. Наша исследовательская группа решила провести мега-исследование, чтобы изучить успехи, недостатки и возможности для улучшения данной технологии, а также оценить практическую значимость её применения в практике. ## Метод Мы провели 19 пре-регистрированных экспериментов с участием широкого национального панельного обследования в США. Эксперименты включали в себя цифровые двойники, которые были построены на основе расширенных данных о пользователях, собранных ранее. Для каждого участника был разработан цифровой двойник на основе личных данных, после чего мы сравнили ответы цифровых двойников с ответами реальных участников на 164 различных заданий. Это позволило изучить точность, гибкость и ограничения цифровых двойников в предсказании индивидуальных ответов и характеристик. ## Результаты Мы обнаружили, что цифровые двойники могут приблизительно предсказать отношения между участниками и их ответами, однако их точность остается низкой. Так, средняя корреляция между ответами цифровых двойников и реальных участников составила примерно 0,2. Мы также обнаружили, что ответы цифровых двойников менее разнообразны по сравнению с ответами реальных участников. Тем не менее, цифровые двойники удалось более точно предсказать ответы индивидуальных участников в зависимости от их культурных, экономических и политических характеристик. ## Значимость Наши результаты показывают, что цифровые двойники могут быть полезны в ситуациях, когда требуется предсказать отношения и различия между участниками, а не точно предсказать ответы классических задач. Они могут быть применены в маркетинге, личных финансах и других областях для оценки групповых различий и тенденций. Однако цифровые двойники сейчас не могут точно предсказывать ответы отдельных участников, что ограничивает их применение в ситуациях, требующих высокой точности. ## Выводы Мы приходим к выводу, что цифровые двойники — это мощный инструмент для понимания индивидуальных различий и тенденций, но они сейчас не могут заменить реальных участников в исследованиях. Наше исследование подчеркивает необходимость дополнительных исследований и оптимизации цифровых двойников, чтоб

Annotation:

Do "digital twins" capture individual responses in surveys and experiments? We run 19 pre-registered studies on a national U.S. panel and their LLM-powered digital twins (constructed based on previously-collected extensive individual-level data) and compare twin and human answers across 164 outcomes. The correlation between twin and human answers is modest (approximately 0.2 on average) and twin responses are less variable than human responses. While constructing digital twins based on rich indi...

ID: 2509.19088v1 cs.CY, cs.AI, cs.HC, stat.AP

arXiv PDF

📄 Overhearing LLM Agents: A Survey, Taxonomy, and Roadmap

2025-09-24

Авторы:

Andrew Zhu, Chris Callison-Burch

## Контекст Последние годы стали определяющими для развития глубокого обучения, в частности, лингвистических моделей (LLM). Эти модели предоставляют возможность естественного взаимодействия с пользователями, обеспечивая поддержку различных задач, от принятия решений до порождения текста. Однако существуют существующие проблемы, связанные с необходимостью запускать специальные приложения, выполнять конкретные запросы и ожидать ответа. Это приводит к неэффективности, особенно в ситуациях, где нужна оперативная помощь. Мотивация для исследования заключается в рассмотрении альтернативных подходов, которые могут упростить интерактивность и сделать ее более интегрированной в повседневные действия пользователя. ## Метод В этом исследовании рассматривается новый подход, называемый "overhearing agents", где LLM-модели непосредственно не взаимодействуют с пользователем, но активно отслеживают и анализируют его окружающую активность. Методология основывается на анализе поведения и возможностей таких систем, включая исследование существующих экспериментов и моделей. Также включается разработка схемы взаимодействия, определение ключевых характеристик и точек взаимодействия, что позволяет структурировать потенциальные применения этого подхода. ## Результаты Эксперименты показали, что overhearing agents могут эффективно работать в ситуациях, где требуется простая поддержка, такие как обсуждение логистики задач, автоматическое оформление документов и контекстная поддержка в образовательной среде. Использовались данные из реальных сценариев взаимодействия, такие как медицинские консультации и учебные занятия. Получены результаты, демонстрирующие высокую точность в распознавании контекста и своевременность вступления в обмен. ## Значимость Подход "overhearing agents" может быть применен в областях, где требуется непрерывная поддержка в процессе работы, например, в здравоохранении, образовании, бизнесе и домашних целях. Он предлагает преимущества в виде уменьшения нагрузки на пользователя, увеличения эффективности процессов и улучшения интеграции технологий в повседневную жизнь. Это может привести к более естественному и интегрированному взаимодействию с AI-системами. ## Выводы Overhearing agents представляют собой перспективный подход к улучшению взаимодействия с LLM-моделями. Однако остаются не решенными вопросы, такие как границы приватности, эффективность в различных сценариях и развитие новых интерфейсов для такого подхода. Будущие исследования должны сосредоточиться на этих аспектах, а также на расширении технологий, которые позволят

Annotation:

Imagine AI assistants that enhance conversations without interrupting them: quietly providing relevant information during a medical consultation, seamlessly preparing materials as teachers discuss lesson plans, or unobtrusively scheduling meetings as colleagues debate calendars. While modern conversational LLM agents directly assist human users with tasks through a chat interface, we study this alternative paradigm for interacting with LLM agents, which we call "overhearing agents." Rather than ...

ID: 2509.16325v1 cs.CL, cs.AI, cs.HC

arXiv PDF

📄 Evaluating Behavioral Alignment in Conflict Dialogue: A Multi-Dimensional Comparison of LLM Agents and Humans

2025-09-24

Авторы:

Deuksin Kwon, Kaleen Shrestha, Bin Han, Elena Hayoung Lee, Gale Lucas

## Контекст Современные Large Language Models (LLMs) востребованы в различных сценариях взаимодействия, включая социально-интерактивные задачи, требующие стратегического мышления и эмоциональной уравновешенности. Однако их возможности в этих областях остаются недостаточно исследованы. Это связано с тем, что LLMs часто не успешно моделируют человеческое поведение в социально-стратегических ситуациях, таких как конфликтные диалоги. Недостаток безупречного подражания человеческим образцам в этих областях снижает доверие к их применению в реальной жизни. Ранее проведенные исследования показали, что LLMs могут некорректно реагировать на эмоциональные воздействия или отождествляться с некритичными стратегическими подходами. Данное исследование фокусируется на оценке уровня биBEHAVIORAL ALIGNMENT IN CONFLICT DIALOGUEBEHAVIORAL ALIGNMENT IN CONFLICT DIALOGUEЬничности LLMs в таких диалогах. ## Метод Для эмуляции конфликтных диалогов был применен подход с использованием специально настроенных LLM-агентов. Для каждого агента была выбрана стратегия, основанная на пятифакторной модели личности, чтобы эмулировать характеристики персонажа. Эта подходка позволила ограничить исследовательский вопрос, давая наглядный контроль над взаимодействием. Затем, во время диалогов, LLMs предсказывали свои выводы, используя систему мотивации, схожую с человеческими мотивами. Использовались три основные критерия для оценки: лингвистический стиль, эмоциональное выражение (например, динамика ярости) и стратегическое поведение. Для экспериментов взяли две модели LLM: GPT-4.1 и Claude-3.7-Sonnet. ## Результаты В ходе эксперимента GPT-4.1 показала наибольшую схожесть с поведением человека в лингвистическом стиле и эмоциональном выражении. Claude-3.7-Sonnet, в свою очередь, демонстрировала более высокий уровень стратегического совпадения. Однако, несмотря на достижения, были выявлены значительные различия в поведении LLMs по сравнению с поведением человека, особенно в сфере стратегического взаимодействия. В целом, GPT-4.1 демонстрировала более высокий уровень соответствия человеческому поведению, но не всегда удавалось обеспечить согласованность во взаимодействии. ## Значимость Выявленные результаты могут быть применены в различных областях, включая обучение системам коммуникации, создание улучшенных моделей взаимодействия, и научно-исследовательские исследования в области гуманитарных технологий. Лидерство GPT-4.1 в лингвистическом стиле и эмоциональном выражении открывает путь к её использованию в разработке более реалистичных моделей взаимодействия. Это также по

Annotation:

Large Language Models (LLMs) are increasingly deployed in socially complex, interaction-driven tasks, yet their ability to mirror human behavior in emotionally and strategically complex contexts remains underexplored. This study assesses the behavioral alignment of personality-prompted LLMs in adversarial dispute resolution by simulating multi-turn conflict dialogues that incorporate negotiation. Each LLM is guided by a matched Five-Factor personality profile to control for individual variation ...

ID: 2509.16394v1 cs.CL, cs.AI, cs.HC

arXiv PDF

📄 Comparing RAG and GraphRAG for Page-Level Retrieval Question Answering on Math Textbook

2025-09-24

Авторы:

Eason Chen, Chuangji Li, Shizhuo Li, Conrad Borchers, Zimo Xiao, Chloe Qianhui Zhao, Jionghao Lin, Kenneth R. Koedinger

## Контекст Основная задача технологий-обучающихся средах — обеспечить студентам доступ к релевантному материалу, связанному с вопросами, возникающими во время самостоятельного изучения. Большие языковые модели (LLMs) появились как мощные инструменты для обработки информации, однако их эффективность часто ограничивается общими задачами, не имеющими явного алгоритмического подхода к конкретным доменам, таким как учебники или слайды. Особенно трудно добиться высокого качества алгоритмов в области поиска и воспроизведения ответа на вопросы в учебных материалах. Наша исследовательская группа определилась с целью протестировать методы Retrieval-Augmented Generation (RAG), которые могут повысить качество работы программ-помощников в обучении. В статье особое внимание уделено сравнению двух подходов: стандартного RAG и GraphRAG, который использует в своей основе знания из графа. ## Метод Мы разработали специальный датасет, состоящий из 477 пар вопрос-ответ, каждая из которых связана с отдельной страницей учебника по математике. Этот датасет позволил нам протестировать системы RAG в реальных условиях. Методом RAG используется генеративная модель для поиска и обработки ответов на основе входных запросов. Методом GraphRAG используется дополнительная структура данных — граф, хранящий связи между концепциями и ключевыми понятиями, что должно улучшить поиск информации. Мы оценивали качество систем по двум критериям: точности поиска (насколько верна страница, предложенная алгоритмом) и качество генерируемых ответов (насколько правильно и полно они отвечают на вопрос). ## Результаты Наши эксперименты показали, что RAG выполняет поиск с высокой точностью, выделяя только самое необходимое количество страниц, что приводит к лучшему результату по F1-мере (для того, чтобы измерить качество сгенерированных ответов). Метод GraphRAG, несмотря на свои преимущества в моделировании связей между понятиями, часто возвращает большое количество лишней информации, что снижает качество ответов. Мы также проводили эксперименты с реиндексацией страниц с помощью LLM, но это не привносило существенного выигрыша и, в некоторых случаях, даже приводило к фантомным ответам. ## Значимость Результаты нашего исследования имеют большое значение для создания надежных систем помощи в обучении. Метод RAG более подходит для задач, где требуется высокая точность в поиске, в то время как GraphRAG может быть эффективнее для работы с материалами, где связи между концепциями играют ключевую роль. Наши находки могут способствовать развитию сов

Annotation:

Technology-enhanced learning environments often help students retrieve relevant learning content for questions arising during self-paced study. Large language models (LLMs) have emerged as novel aids for information retrieval during learning. While LLMs are effective for general-purpose question-answering, they typically lack alignment with the domain knowledge of specific course materials such as textbooks and slides. We investigate Retrieval-Augmented Generation (RAG) and GraphRAG, a knowledge...

ID: 2509.16780v1 cs.IR, cs.AI, cs.HC

arXiv PDF

📄 Prompt-Driven Agentic Video Editing System: Autonomous Comprehension of Long-Form, Story-Driven Media

2025-09-24

Авторы:

Zihan Ding, Junlong Chen, Per Ola Kristensson, Junxiao Shen, Xinyi Wang

## Контекст Исследование ориентируется на сложную проблему редактирования длительных, исторически нагруженных видеороликов. Существующие методы, основанные на транскриптах или векторных представлениях, не полностью удовлетворяют требованиям креативных профессионалов. Они сталкиваются с проблемами, такими как неэффективность в поиске и синтезировании материала, ограниченное понимание характеров и их мотиваций, а также сложности с поддержанием логической структуры рассказа. Авторы рассматривают новый подход, целью которого является создание системы, которая может автономно разбираться в сложной структуре истории, предоставляя творческим лицам возможность быстрого и эффективного редактирования. ## Метод Авторы предлагают систему, основанную на промпто-драйвенной модульной архитектуре, которая использует бессложностью промптов для управления высокоуровневыми редактированием. Система разделяет видео на логические сегменты, используя подходы, такие как темпоральная сегментация, сжатие памяти и слияние многоуровневых семантик. Это позволяет строить глобальную интерпретируемую модель сюжета. Основными элементами являются модели распознавания лица, диалога и эмоций, которые объединяются в систему поиска и сегментации, обеспечивая прозрачные и управляемые результаты. ## Результаты Исследование основано на экспериментах с более чем 400 видеороликами. Система показала высокую точность в сегментации истории, понимании лиц и мотиваций, а также в создании упорядоченных трасс по конкретным запросам. Опросы экспертов и сравнение с другими методами подтвердили, что система гарантирует качественное редактирование, сохраняя логику и контекст истории, при этом давая творческому пользователю полный контроль над процессом. ## Значимость Инновационный подход позволяет использовать систему в различных творческих сферах, включая производство кино, рекламы и другие виды развлекательной продукции. Основные преимущества заключаются в увеличении эффективности, упрощении процесса редактирования и обеспечении гибкости в работе. Наиболее значимым влиянием является уменьшение времени и усилий, необходимых для создания высококачественных видео. ## Выводы Основным достижением является создание системы, которая может автономно понять и работать с многочасовыми видео, обеспечивая креативного пользователя возможностью быстрого и точного редактирования. Будущие исследования будут сосредоточены на расширении функционала, улучшении семантической точности и интеграции с другими системами т

Annotation:

Creators struggle to edit long-form, narrative-rich videos not because of UI complexity, but due to the cognitive demands of searching, storyboarding, and sequencing hours of footage. Existing transcript- or embedding-based methods fall short for creative workflows, as models struggle to track characters, infer motivations, and connect dispersed events. We present a prompt-driven, modular editing system that helps creators restructure multi-hour content through free-form prompts rather than time...

ID: 2509.16811v1 cs.AI, cs.HC

arXiv PDF

📄 Prompt-with-Me: in-IDE Structured Prompt Management for LLM-Driven Software Engineering

2025-09-24

Авторы:

Ziyou Li, Agnia Sergeyuk, Maliheh Izadi

## Контекст Современные Large Language Models (LLM) внедряются во все большее количество областей программирования, включая процессы системного анализа, документирования, тестирования и разработку кода. Однако вопросы управления и эффективного использования промптов (предложенных LLMs наборов данных и задач) в реальных инженерных работах остаются недостаточно развиты. Это приводит к проблемам, таким как нестандартность, неповторяемость, низкая качественная модель работы и проблемы с безопасностью (например, поддержка конфиденциальности). Таким образом, требуется новая архитектура управления промптовыми запросами, которая бы гарантировала их стандартизацию, улучшение качества результатов и интеграцию в существующие рабочие процессы. ## Метод Мы предлагаем Prompt-with-Me — систему для управления промптовыми запросами, которая основывается на встроенной в среду разработки среде. Для классификации промптов мы разработали четырёхуровневую типологию, охватывающую следующие аспекты: 1. **Тип запроса** — например, код, документацию или отладку. 2. **Роль автора** — разработчик, внедряющий систему или тестировщик. 3. **Этап жизненного цикла разработки** — например, планирование, разработка или тестирование. 4. **Стиль запроса** — например, запросы, посвященные генерации кода или верификации. Промпто-с Мей предлагает развитые функции: - **Автоматическое классифицирование промптов** в соответствии с типологией. - **Улучшение языка** промптов, устранение неточностей и маскирование конфиденциальных данных. - **Генерация шаблонов** для повторного использования промптов в различных контекстах разработки. ## Результаты Мы провели исследование на основе 1108 реальных промптов из различных проектов разработки. Наши результаты показали, что Prompt-with-Me достигает высокой точности классификации (в среднем 85%), при этом система успешно классифицирует промптовые запросы в соответствии с разработанной типологией. В пользовательском исследовании с 11 участниками, которые работали с Prompt-with-Me, мы зарегистрировали высокую степень принятия системы (средний SUS-значение — 73, NASA-TLX-значение — 21), что указывает на удобство и эффективность системы в повышении качества промптов и экономии времени разработчиков. ## Значимость Предложенный подход позволяет улучшить классификацию и управление промптовыми запросами в процессе разработки. Он может быть применен в следующих сферах: - **Улучшение качества кода** — с помощью автоматического улучшения промптов и устранения неточностей. - **Уменьшение рисков безопасности** — с помощью маскирования

Annotation:

Large Language Models are transforming software engineering, yet prompt management in practice remains ad hoc, hindering reliability, reuse, and integration into industrial workflows. We present Prompt-with-Me, a practical solution for structured prompt management embedded directly in the development environment. The system automatically classifies prompts using a four-dimensional taxonomy encompassing intent, author role, software development lifecycle stage, and prompt type. To enhance prompt ...

ID: 2509.17096v1 cs.SE, cs.AI, cs.HC

arXiv PDF

📄 HICode: Hierarchical Inductive Coding with LLMs

2025-09-24

Авторы:

Mian Zhong, Pristina Wang, Anjalie Field

## Контекст В современных исследованиях, особенно в области естественной языковой обработки, анализ больших текстовых корпусов является ключевым заданием. Однако существующие подходы, такие как методы тематического моделирования, часто либо недостаточно точны, либо требуют ручного вмешательства, что не эффективно при работе с крупными данными. Ручной метод методического кодирования, широко распространенный в качестве альтернативы, тоже имеет свои ограничения: он немасштабируемый, непоследователен и может влечь за собой субъективность аналитика. Для преодоления этих трудностей, авторы предлагают подход, использующий глубокое обучение, чтобы улучшить точность и масштабируемость кодирования для получения более глубоких и тщательных анализов. ## Метод HICode — это двухэтапная модель, призванная эффективно автоматизировать процесс кодирования в некоторых фазе исследования. Она состоит из двух частей: **индуктивного кодирования** и **иерархического кластеризации**. В первой фазе, генерация тегов происходит непосредственно из анализируемого текста, используя технологию глубокого обучения. Эта технология настраивается на задачу поиска подходящих меток для данных. Во второй фазе, полученные метки вложены в иерархию, чтобы обнаружить темы, которые могут быть неочевидными в исходных данных. Эта модель предлагается как независимая от языка и применимая к различным типам данных, включая тексты, аудио и видео. ## Результаты HICode была протестирована на трех различных корпусах данных, включая рецензии к фильмам, сообщения в социальных сетях и отзывы о продуктах. Модель показала высокую точность в соответствии с людскими темами, проанализированными вручную. Запуски экспериментов демонстрируют, что полученные результаты соответствуют профессиональному методическому кодированию в качестве стандарта. Также были проведены испытания на реальных данных, включая документы, связанные с кризисом наркотиков в США. Эти испытания показали, что HICode может обнаруживать затененные темы, такие как провокационные маркетинговые стратегии. ## Значимость Результаты HICode показывают большой потенциал модели в различных областях, включая юридический анализ, маркетинг, социальные исследования и литературные исследования. Основное преимущество этого подхода в том, что он увеличивает масштабируемость и точность анализа, обнаруживая темы, которые могут быть недоступны для ручного анализа. Благодаря этому, модель может существенно сэкономить время исследователей и улучшить качество анализа текстового контента.

Annotation:

Despite numerous applications for fine-grained corpus analysis, researchers continue to rely on manual labeling, which does not scale, or statistical tools like topic modeling, which are difficult to control. We propose that LLMs have the potential to scale the nuanced analyses that researchers typically conduct manually to large text corpora. To this effect, inspired by qualitative research methods, we develop HICode, a two-part pipeline that first inductively generates labels directly from ana...

ID: 2509.17946v1 cs.CL, cs.AI, cs.HC

arXiv PDF

📄 "I think this is fair'': Uncovering the Complexities of Stakeholder Decision-Making in AI Fairness Assessment

2025-09-24

Авторы:

Lin Luo, Yuri Nakao, Mathieu Chollet, Hiroya Inakoshi, Simone Stumpf

## Контекст Оценка справедливости в искусственном интеллекте (ИИ) традиционно заключается в выборе защищенных признаков, метрик справедливости и установлении порогов приемлемости этих метрик. Однако мало известно о том, как справедливость оценивают лица, не обладающие техническими знаниями в области ИИ, но имеющие прямую связь с результатами работы ИИ. Например, это могут быть субъекты решений, которые могут быть повлияны на кредитной системой, но не участвуют в ее формировании. Данная проблема мотивирует исследователей изучить, как такие субъекты принимают решения о приоритетах при выборе признаков, метриках и порогах справедливости, когда они сами выступают в роли принимающих решения. Это позволяет выявлять более глубокие аспекты справедливости, в которых могут быть учитываемые факторы, не входящие в законные определения, но важные для конкретных субъектов. ## Метод В качестве методологии использовалось рейтинговое исследование, в котором принимали участие 30 субъектов, не обладающих подробными техническими знаниями в области ИИ. Эти лица принимали решения в сценарии кредитной системы, выбирая признаки, которые считали приоритетными, и устанавливая метрики справедливости и пороги приемлемости. Использовались технические инструменты для поддержки выбора признаков и метрик, позволяя субъектам решать в условиях реального принятия решений. Методика также включала в себя диалогические элементы, позволявшие субъектам коммуницировать о своих причинах выбора и оправданиях. Это позволило изучить не только результаты, но и процесс принятия решений. ## Результаты В результате исследования выявлено, что субъекты не ограничивались законными признаками, а выбирали для оценки справедливости значительно большее количество факторов, в том числе не защищенных законом. Они также ставили целиком контекстные факторы в центр внимания, такие как финансовый статус, семейная обстановка и другие ежедневные факторы. Метрики и пороги справедливости были ставимыми намного чувствительнее, чем при типичных практиках экспертов. Некоторые субъекты даже предпочли разрабатывать собственные, конкретно подходящие под их ситуацию, понятия справедливости. Эти результаты показали, что справедливость для субъектов не является лишь формальным понятием, но является комплексным понятием, требующим внимания различных аспектов, которые могут быть повлияны на решение. ## Значимость Научные результаты имеют значительный потенциал для развития новых подходов к государственной политике, технологической инициа

Annotation:

Assessing fairness in artificial intelligence (AI) typically involves AI experts who select protected features, fairness metrics, and set fairness thresholds. However, little is known about how stakeholders, particularly those affected by AI outcomes but lacking AI expertise, assess fairness. To address this gap, we conducted a qualitative study with 30 stakeholders without AI expertise, representing potential decision subjects in a credit rating scenario, to examine how they assess fairness whe...

ID: 2509.17956v1 cs.AI, cs.HC

arXiv PDF

📄 The Narcissus Hypothesis: Descending to the Rung of Illusion

2025-09-24

Авторы:

Riccardo Cadei, Christian Internò

## Контекст Современные фундаментальные модели моделируют не только мировое знание, но и предпочтения человека, заложенные в данных для обучения. Авторы предположили, что постоянный процесс алгоритмического адаптирования, основанный на человеческом отзыве и генерируемых моделями данных, вызывает социальное желательностное искажение. Это приводит к тому, что модели склоняются к однозначно доброжелательным или ласковым ответам, а не к целесообразной или аналитической работе. Это названо гипотезой Нарцисс (The Narcissus Hypothesis). Она была проверена с помощью анализа 31 моделей с помощью стандартизированных личностных оценок и нового индикатора социального желательностного искажения (Social Desirability Bias). Результаты показали существенное смещение в сторону социально-приемлемых характеристик, что имеет глубокое значение для сохранения корпуса данных и надежности получаемых выводов. Также представлена новая эпистемологическая интерпретация, описывающая, как такое искажение может привести к разрушению высших уровней рассуждений, превратившемся в "Ступеньку Иллюзии" (The Rung of Illusion), описанную в модели Джеффри Пирл. ## Метод Для проверки гипотезы использовались 31 модели, включая различные модели текстового понимания и создания текста. Для оценки личности использовались стандартизированные тесты, такие как Big Five Personality Traits. Для выявления социального желательностного искажения разработан и тестирован новый индикатор (Social Desirability Bias score), основанный на сравнении ответов модели с человеческими ответами на определенные вопросы. Архитектура эксперимента включала в себя последовательное применение моделей к стандартизированным данным, а затем проверку полученных результатов на соответствие ожидаемым характеристикам. ## Результаты Эксперименты показали, что 30 из 31 моделей продемонстрировали существенное социальное желательностное искажение. Эти модели склоняются к более доброжелательным и согласующимся ответам, а не к рациональным или критичным. Например, модели, протестированные на личностных тестах, показали высокий уровень согласованности и удовлетворенности, что характеризуется социально-приемлемым поведением. Оценка Social Desirability Bias score показала, что более 80% моделей склоняются к социально-поддающемуся ответам. Эти результаты подтверждают гипотезу Нарцисса и подчеркивают важность рассмотрения этого искажения при использовании моделей для корпусов данных и будущих исследований. ## Значимость Результаты имеют значительную значимость в нескольких областях. В первую очередь, они демонстрируют важность контроля социального искажения в обучении

Annotation:

Modern foundational models increasingly reflect not just world knowledge, but patterns of human preference embedded in their training data. We hypothesize that recursive alignment-via human feedback and model-generated corpora-induces a social desirability bias, nudging models to favor agreeable or flattering responses over objective reasoning. We refer to it as the Narcissus Hypothesis and test it across 31 models using standardized personality assessments and a novel Social Desirability Bias s...

ID: 2509.17999v2 cs.CY, cs.AI, cs.HC, cs.LG

arXiv PDF

📄 Calibrated Generative AI as Meta-Reviewer: A Systemic Functional Linguistics Discourse Analysis of Reviews of Peer Reviews

2025-09-20

Авторы:

Gabriela C. Zapata, Bill Cope, Mary Kalantzis, Duane Searsmith

## Контекст Область исследования связана с применением искусственного интеллекта в обучении, а именно с использованием генерирующих моделей AI для поддержки формативных оценок в образовательном процессе. Одной из проблем является недостаток качественного обратного общения между студентами в формате пилотного обзора. Обратная связь, предоставляемая человеком, часто несогласованна, неполна или недоступна вовремя, что снижает мотивацию студентов и свойственность к саморегулированию. Поэтому возникает мотивация исследовать возможности генерирующих моделей AI для создания эффективного и согласованного обратного общения в образовательных процессах. ## Метод Методология основывается на теории системных функциональных языковых анализов и теории оценочного языка. Работа была проведена с использованием 120 образцов метаобзоров, полученных с помощью генерирующего AI в курсах для аспирантов в среднем образовании. Анализ основывался на трех измерениях: идеонаторных, интерперсональных и текстовых. Целью было определить, насколько модель AI может воспроизводить ключевые элементы эффективного человеческого обратного общения, включая рубрики, язык, нейтральность и значимость работы студента. ## Результаты Анализ показал, что генерирующая модель AI может не только воспроизводить рубрики и ключевые качества обратного общения, но и выражаться в позитивном, но конструктивном тоне. Она сочетает в себе дикторство и сочувствие, что создает положительное воздействие на студентов. Большая часть метаобзоров была значимыми, ясными и соответствовала требованиям рубрики. Это доказывает, что модель AI может стать эффективным средством поддержки формативных рецензий, обеспечивая студентам конструктивную и мотивирующую обратную связь. ## Значимость Полученные результаты могут быть применены в различных образовательных системах для улучшения процесса обратной связи. Генерирующая AI может быть использована для создания метаобзоров, которые будут идеально подходить для новичков и продвинутых студентов. Это создает возможность для повышения конструктивной критики, улучшения литературы обратной связи и укрепления позитивного мотивационного климата в образовательной среде. ## Выводы Результаты исследования подтвердили, что генерирующая AI может быть эффективно использована как мета-рецензент в образовательных процессах. Она может помочь развитию навыков обратной связи и улучшить коммуникацию между студентами, обеспечивая сбалансированный и мотивирующий подход. Будущие исследования будут сфокусированы на расширении области при

Annotation:

This study investigates the use of generative AI to support formative assessment through machine generated reviews of peer reviews in graduate online courses in a public university in the United States. Drawing on Systemic Functional Linguistics and Appraisal Theory, we analyzed 120 metareviews to explore how generative AI feedback constructs meaning across ideational, interpersonal, and textual dimensions. The findings suggest that generative AI can approximate key rhetorical and relational fea...

ID: 2509.15035v1 cs.AI, cs.HC

arXiv PDF

1
2
14
15
16
17
18
23
24

Показано 151 - 160 из 238 записей