📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Causal Autoencoder-like Generation of Feedback Fuzzy Cognitive Maps with an LLM Agent

2025-10-02

Авторы:

Akash Kumar Panda, Olaoluwa Adigun, Bart Kosko

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

A large language model (LLM) can map a feedback causal fuzzy cognitive map (FCM) into text and then reconstruct the FCM from the text. This explainable AI system approximates an identity map from the FCM to itself and resembles the operation of an autoencoder (AE). Both the encoder and the decoder explain their decisions in contrast to black-box AEs. Humans can read and interpret the encoded text in contrast to the hidden variables and synaptic webs in AEs. The LLM agent approximates the identit...

ID: 2509.25593v1 cs.AI, cs.CL, cs.HC, cs.IR

arXiv PDF

📄 The AI Productivity Index (APEX)

2025-10-02

Авторы:

Bertie Vidgen, Abby Fennelly, Evan Pinnix, Chirag Mahapatra, Zach Richards, Austin Bridges, Calix Huang, Ben Hunsberger, Fez Zafar, Brendan Foody, Dominic Barton, Cass R. Sunstein, Eric Topol, Osvald Nitski

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce the first version of the AI Productivity Index (APEX), a benchmark for assessing whether frontier AI models can perform knowledge work with high economic value. APEX addresses one of the largest inefficiencies in AI research: outside of coding, benchmarks often fail to test economically relevant capabilities. APEX-v1.0 contains 200 test cases and covers four domains: investment banking, management consulting, law, and primary medical care. It was built in three steps. First, we sour...

ID: 2509.25721v1 econ.GN, cs.AI, cs.CL, cs.HC, q-fin.EC

arXiv PDF

📄 UISim: An Interactive Image-Based UI Simulator for Dynamic Mobile Environments

2025-09-30

Авторы:

Jiannan Xiang, Yun Zhu, Lei Shu, Maria Wang, Lijun Yu, Gabriel Barcik, James Lyon, Srinivas Sunkara, Jindong Chen

#### Контекст Разработка и тестирование пользовательских интерфейсов (UI), а также обучение интеллектуальных агентов для взаимодействия с ними, представляют собой значительные вызовы в условиях динамичных и разнообразных реальных мобильных сред. Существующие подходы часто ограничены использованием физических устройств или анализом статических скриншотов, что приводит к ограниченности возможностей для масштабного тестирования и создания интеллектуальных интерфейсов. Мы предлагаем UISim — инновационную систему, реализующую имитацию UI с использованием изображений и обеспечивающую динамическое интерактивное моделирование процессов в мобильных средах. #### Метод UISim основывается на двух этапах: предсказании абстрактной структуры следующего UI-состояния и генерации нового визуально согласованного изображения на его основе. Исходным изображением является экран мобильного устройства, а действием — пользовательский ввод. Алгоритм UISim использует сочетание методов машинного обучения и графической синтезирования для точного представления сложных динамических сценариев в реальных условиях. Эта методология обеспечивает реалистичное моделирование переходов между UI-состояниями, что упрощает тестирование, прототипирование и синтез данных. #### Результаты Мы провели эксперименты сравнительного анализа UISim с другими подходами в области генерации UI. Результаты показали, что UISim превосходит в показателях реализм и консистентности полученных изображений. Были использованы реальные скриншоты для тестирования, и мы продемонстрировали, как UISim эффективно моделирует UI-транзи션ы, даже при высокой степени динамических изменений. Эти результаты подтверждают ряд преимуществ системы: высокую точность, масштабируемость и практическую значимость. #### Значимость UISim может применяться в разработке UI, генерации синтетических данных и обучении интеллектуальных агентов. Он позволяет упростить процессы тестирования, сократить время разработки и повысить качество интеллектуальных интерфейсов. В то же время, динамическая природа UISim открывает новые возможности для выполнения задач, таких как планирование маршрутов взаимодействия для AI-агентов. Это может привести к расширению возможностей в области интеллектуальных систем. #### Выводы Мы представили UISim — систему, которая предлагает новый подход к имитации UI в мобильных средах. Наши результаты показали высокую эффективность и практическую значимость этого подхода. Мы считаем, что UISim может стать ключевым инструментом для упрощения процессов разработки и обучения AI-систем. Н

Annotation:

Developing and testing user interfaces (UIs) and training AI agents to interact with them are challenging due to the dynamic and diverse nature of real-world mobile environments. Existing methods often rely on cumbersome physical devices or limited static analysis of screenshots, which hinders scalable testing and the development of intelligent UI agents. We introduce UISim, a novel image-based UI simulator that offers a dynamic and interactive platform for exploring mobile phone environments pu...

ID: 2509.21733v1 cs.CV, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 EHR-MCP: Real-world Evaluation of Clinical Information Retrieval by Large Language Models via Model Context Protocol

2025-09-23

Авторы:

Kanato Masayoshi, Masahiro Hashimoto, Ryoichi Yokoyama, Naoki Toda, Yoshifumi Uwamino, Shogo Fukuda, Ho Namkoong, Masahiro Jinzaki

#### Контекст Большой интерес к использованию технологий генерирующего искусственного интеллекта (ГИ) в медицине вызван потенциалом этих систем в повышении качества помощи пациентам и улучшению работы медицинских учреждений. Однако, внедрение ГИ в системы медицинских учреждений сталкивается с рядом проблем, в том числе ограниченным доступом к электронным медицинским рекордам (ЭМР). Модель контекста протокола (MCP) предлагает решение этой проблемы, обеспечивая интеграцию между ГИ и внешними системами для безопасного и эффективного доступа к данным. Точность и надёжность ГИ при использовании ЭМР в реальных условиях медицинской практики являются ключевыми вопросами, которые необходимо раскрыть. #### Метод Разработанное фреймворком EHR-MCP, используя сервис GPT-4.1 через LangGraph ReAct, позволяет обеспечить интеграцию с ЭМР. Шесть задач, отражающих практические ситуации команды инфекционного контроля (ICT), были разработаны для эксперимента. Для этих задач были использованы данные 8 пациентов, обсуждавшихся на совещаниях ICT. Для оценки точности и надёжности работы системы были сравниты результаты с клиническими золотыми стандартами, полученными врачами. #### Результаты EHR-MCP продемонстрировала высокую точность при выполнении простых задач, достигнув близкого к идеальному результату. Однако, в случае сложных задач, требующих подсчётов зависящих от времени, точность системы была ниже. Ошибки в основном происходили из-за неправильных аргументов и неправильного интерпретирования результатов. Длинные ответы, рискующие выйти за пределы контекстного окна, также могут стать проблемой. Несмотря на это, результаты EHR-MCP показали надежность и эффективность ГИ при использовании ЭМР в реальных условиях. #### Значимость Протокол EHR-MCP может быть применён в различных сферах клинической практики, включая диагностику, наблюдение, информирование и решение клинических вопросов. Он обеспечивает безопасный доступ к данным и обеспечивает надёжные ответы на клинические запросы. Этот подход может стать основой для развития ГИ в медицинских учреждениях, улучшая качество услуг и эффективность работы. #### Выводы Исследование подтверждает, что ГИ могут эффективно использоваться для доступа к клиническим данным в ЭМР, особенно при выполнении простых задач. Однако, для обеспечения полного интеграции ГИ в медицинскую практику необходимо развить её в сторону более сложных задач, включая рассуждения и генерацию клинических отчётов. Будущие исследования должны ориентироваться на э

Annotation:

Background: Large language models (LLMs) show promise in medicine, but their deployment in hospitals is limited by restricted access to electronic health record (EHR) systems. The Model Context Protocol (MCP) enables integration between LLMs and external tools. Objective: To evaluate whether an LLM connected to an EHR database via MCP can autonomously retrieve clinically relevant information in a real hospital setting. Methods: We developed EHR-MCP, a framework of custom MCP tools integrated...

ID: 2509.15957v1 cs.AI, cs.CL, cs.HC, cs.IR

arXiv PDF

📄 EmoHeal: An End-to-End System for Personalized Therapeutic Music Retrieval from Fine-grained Emotions

2025-09-23

Авторы:

Xinchen Wan, Jinhua Liang, Huan Zhang

## Контекст Эмоциональное благополучие является ключевым аспектом качества жизни, но многие цифровые инструменты для улучшения ментального здоровья остаются статичными и не учитывают тонкие оттенки эмоциональных состояний. Например, предпредплясное тревожиться, которое страдает более чем 1,5 миллиарда человек по всему миру, часто обрабатывается однотипными, "одноразмерными" подходами, не учитывающими индивидуальные особенности. EmoHeal, представленный в этой работе, представляет собой комплексную систему для персонализированного восстановления терапевтической музыки, которая учитывает тонкие различия эмоциональных состояний и предлагает индивидуальный подход к терапевтическому восстановлению. ## Метод Systsem EmoHeal представляет собой инновационный подход к терапевтической музыке с помощью трех этапов: детектирование, сопоставление и воспроизведение. Для детектирования эмоций используется модель XLM-RoBERTa, которая обучена распознавать 27 тонких эмоциональных состояний. Эти эмоции сопоставляются с музыкальными параметрами через знание о музыке-терапии (GEMS, iso-principle), предоставленным в виде знания. Для обнаружения содержимого видео и аудио используется CLAMP3-модель, которая делает предложения подходящего материала на основе текущего эмоционального состояния пользователя. ## Результаты EmoHeal протестирован на 40 участниках в рамках внутри-субъектного эксперимента. Участники сообщили значительное улучшение настроения (M=4.12, p<0.001) и высокую точность распознавания эмоций (M=4.05, p<0.001). Также была выявлена сильная корреляция между уровнем распознавания эмоций и терапевтическим эффектом (r=0.72, p<0.001), что подтверждает эффективность тонкой градации эмоциональных состояний. Эти результаты демонстрируют, что теория-ориентированный, эмоционально-сознательный подход может обеспечить эффективную цифровую поддержку для цифровых инструментов ментального здоровья. ## Значимость EmoHeal может применяться в различных сферах, в том числе в социальных и здравоохранных системах, для поддержки эмоционального здоровья. Его преимущество в том, что он использует терпимый подход для индивидуального улучшения эмоционального состояния на основе тонких эмоциональных состояний. Это делает EmoHeal выгодным для широкого круга пользователей, которые испытывают стресс и тревогу. Potentially, EmoHeal может влиять на отрасль цифровых инструментов для улучшения ментального здоровья, обеспечивая надежный и эффективный подход к терапии через музыку. ## Выводы Результаты эмпирически

Annotation:

Existing digital mental wellness tools often overlook the nuanced emotional states underlying everyday challenges. For example, pre-sleep anxiety affects more than 1.5 billion people worldwide, yet current approaches remain largely static and "one-size-fits-all", failing to adapt to individual needs. In this work, we present EmoHeal, an end-to-end system that delivers personalized, three-stage supportive narratives. EmoHeal detects 27 fine-grained emotions from user text with a fine-tuned XLM-Ro...

ID: 2509.15986v1 cs.LG, cs.AI, cs.CL, cs.HC, cs.SD, eess.AS

arXiv PDF

📄 See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

2025-09-19

Авторы:

Zongru Wu, Rui Mao, Zhiyuan Tian, Pengzhou Cheng, Tianjie Ju, Zheng Wu, Lingzhong Dong, Haiyue Sheng, Zhuosheng Zhang, Gongshen Liu

#### Контекст Графические пользовательские интерфейсы (GUI) широко используются в самых разных областях, от мобильных приложений до рабочих станций и устройств смарт-технологий. Многие задачи в этих системах требуют управления тогглами (переключателями) в GUI, чтобы выполнять конкретные действия. Однако взаимодействие с такими элементами часто представляет собой сложность для роботов и многомодальных агентов. Существующие подходы часто страдают от непоследовательности и неточности при выполнении команд, связанных с переключением состояний. Это ставит перед исследователями задачу развития более надежных методов для улучшения взаимодействия с GUI в рамках унифицированных решений. #### Метод В ходе работы была разработана методология State-aware Reasoning (StaR), которая добавляет уровень наблюдения и оценки состояний в обучение многомодальных агентов. Эта методика разделяет процесс на три этапа: **Образец (See)**, **Анализ (Think)** и **Действие (Act)**. Используя современные методы машинного обучения и глубоких нейронных сетей, StaR оценивает текущее состояние элемента GUI, анализирует инструкцию и выполняет точный переключение по мере необходимости. Архитектура отличается своей модульностью и интеграцией разных моделей, что позволяет улучшить общую надежность и точность выполнения команд. #### Результаты Для проверки эффективности StaR был разработан набор данных состояний GUI, включающий тогглы. Эксперименты проводились на трех разных многомодальных агентах. Результаты показали улучшение точности выполнения команд повторения переключения тоггла над текущим состоянием на более чем 30%. На трех отдельных бенчмарках также были продемонстрированы улучшения в общем производительности задач. Дополнительные эксперименты в динамической среде подтвердили возможность StaR для решения задач в реальном времени. #### Значимость Разработанная методика StaR может быть применена в различных сферах, включая автоматизацию, учетные системы и управление устройствами. Она предлагает высокую надежность и точность при выполнении команд, что позволяет существенно упростить взаимодействие с GUI. Помимо этого, StaR может сделать системы более удобными для пользователей, уменьшив количество ошибок в управлении. #### Выводы Разработка StaR показала высокую эффективность в задачах управления тогглами в GUI. Она позволяет улучшить надежность и точность многомодальных агентов в различных сценариях. В будущих исследованиях будет продолжаться работа над расширением моделей и их применением в более сложных реальных системах.

Annotation:

The advent of multimodal agents facilitates effective interaction within graphical user interface (GUI), especially in ubiquitous GUI control. However, their inability to reliably execute toggle control instructions remains a key bottleneck. To investigate this, we construct a state control benchmark with binary toggle instructions from public datasets. Evaluations of existing agents demonstrate their unreliability, particularly when the current toggle state already matches the desired state. To...

ID: 2509.13615v1 cs.AI, cs.CL, cs.HC

arXiv PDF

📄 HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants

2025-09-12

Авторы:

Benjamin Sturgeon, Daniel Samuelson, Jacob Haimes, Jacy Reese Anthis

#### Контекст В последние годы мощности и универсальность широкого спектра ИИ-систем наглядно продемонстрировали способность автоматизировать и упростить человеческие задачи. Однако эта мощь сопрягается с риском потери контроля над своими личными и общественными будущими. Уже сейчас простые алгоритмы управляют человеческими решениями: системы рекомендаций социальных сетей формируют поведение пользователей, приводя их к ненамеренному вредоносному времяпрепровождению. Этот тенденционный сдвиг в пользу ИИ требует новых подходов к оценке и оптимизации поддержки человеческой агентности в ИИ-системах. Основной целью данного исследования является разработка формализованного подхода к оценке поддержки человеческого агентства в ИИ-системах, а также разработка нового бенчмарка для эффективного тестирования и валидации этих подходов в условиях реальности. #### Метод Разработка HumanAgencyBench (HAB) основывается на интеграции философских и научных теорий человеческой агентности с техническими методами оценки. HAB строится на шести характеристиках человеческой агентности: 1. **Ask Clarifying Questions** – готовность выяснять неясности в пользовательских запросах. 2. **Avoid Value Manipulation** – избегание влияния на ценностные представления пользователя. 3. **Correct Misinformation** – корректировка неверных или неточных ответов. 4. **Defer Important Decisions** – отказ от решения в случаях нехватки достаточных данных. 5. **Encourage Learning** – поощрение саморазвития и поиска информации. 6. **Maintain Social Boundaries** – соблюдение конфиденциальности и пределов взаимоотношений. HAB применяет технологии больших лингвистических моделей (LLM) для симуляции пользовательских запросов и оценки ответов ИИ-систем. Метод использует технические методы моделирования, включая множественно-документный фреймворк и адаптивные тесты, чтобы эффективно проверить поддержку человеческой агентности в различных условиях. #### Результаты Экспериментальная оценка HAB проводилась на широком наборе данных, включающих различные сценарии и задачи, стандартных для применения ИИ. Наибольшую поддержку человеческой агентности показали модели Anthropic LLM, но даже они имели следствия в контексте Avoid Value Manipulation. Более стабильные и склонные к значительным различиям в результатах показали целенаправленность и потенциальную необходимость улучшения архитектур. Основные выводы: низко-модераторная поддержка агентности в современных ИИ-системах, выявленные несогласованности в поддержке отдельных аспектов. #### Значимость Результаты HAB открывают путь к развитию систем, более эффективно поддерживающи

Annotation:

As humans delegate more tasks and decisions to artificial intelligence (AI), we risk losing control of our individual and collective futures. Relatively simple algorithmic systems already steer human decision-making, such as social media feed algorithms that lead people to unintentionally and absent-mindedly scroll through engagement-optimized content. In this paper, we develop the idea of human agency by integrating philosophical and scientific theories of agency with AI-assisted evaluation met...

ID: 2509.08494v1 cs.CY, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 Measuring and mitigating overreliance is necessary for building human-compatible AI

2025-09-11

Авторы:

Lujain Ibrahim, Katherine M. Collins, Sunnie S. Y. Kim, Anka Reuel, Max Lamparth, Kevin Feng, Lama Ahmad, Prajna Soni, Alia El Kattan, Merlin Stein, Siddharth Swaroop, Ilia Sucholutsky, Andrew Strait, Q. Vera Liao, Umang Bhatt

## Контекст Большие языковые модели (LLM) представляют собой инновационные технологии, работающие как "человеческие мыслительные партнеры", которые могут более естественно взаимодействовать с пользователями в человеческом языке. Их возможности становятся все более широко применяемыми в различных сферах, от здравоохранения до персонального консультирования. Однако с ростом их воздействия возрастает риск многообразных последствий, включая надёржание (overreliance), — когда люди доверяют моделям далеко вплоть до невозможности их реального выполнения заданий. Такое надёржание может привести к ошибкам в критически важных сферах, дисквалификации и вызову новых государственных регулирований. Работа рассматривает важность изучения и контроля надёржания в качестве ключевого аспекта развития и применения LLM. ## Метод Методология статьи основывается на подробном анализе характеристик LLM, технических решений, пользовательских ошибок и теоретических моделей. Авторы рассмотрели ряд экспериментов и исследований, которые выявляли системные слабые места, связанные с надёржанием. Широкий анализ был проведен с использованием различных типов данных, включая обучающие модели, проводящие эксперименты с пользователями и работающие с клиническими данными. Результаты этих экспериментов были связаны с рядом теоретических подходов, включая теорию поведения пользователей, а также технические аспекты, такие как влияние дизайна системы на поведение. ## Результаты Изученная работа проанализировала существующие данные по ошибкам, совершаемым при использовании LLM, включая не только искусственные события, но и реальные случаи, в которых операторы доверились моделям слишком сильно. На основе этих данных были выделены три главные типа рисков: высокорисковые ошибки, проблемы в государственном регулировании и индивидуальные проблемы. Авторы также сравнили три типа исторических подходов к измерению надёржания, указав на три основных проблемы в них, и предложили три новых подхода, которые могут помочь улучшить измерение надёржания. ## Значимость Результаты работы имеют большое значение для нескольких областей. В первую очередь, они могут быть применены в здравоохранении, психологии, юридических системах и других сферах, где действия LLMs могут оказать критическое воздействие. Благодаря предложенным рекомендациям, модели могут быть действительно более эффективно включены в процессы принятия решений, в то же время уменьшая риски, связанные с надёржанием. Эта работа так

Annotation:

Large language models (LLMs) distinguish themselves from previous technologies by functioning as collaborative "thought partners," capable of engaging more fluidly in natural language. As LLMs increasingly influence consequential decisions across diverse domains from healthcare to personal advice, the risk of overreliance - relying on LLMs beyond their capabilities - grows. This position paper argues that measuring and mitigating overreliance must become central to LLM research and deployment. F...

ID: 2509.08010v1 cs.CY, cs.AI, cs.CL, cs.HC

arXiv PDF

📄 Beamforming-LLM: What, Where and When Did I Miss?

2025-09-10

Авторы:

Vishal Choudhari

## Контекст Многоречивые окружения представляют свои собственные вызовы для понимания и восприятия говорения. Особенно это актуально при отсутствии внимания к некоторым частям диалога. Существующие системы позволяют воспроизводить содержимое звуковых потоков, но не учитывают контекст или семантический контент. Участники таких систем часто приходятся прибегать к рутинному повторению звуков, чтобы разобраться в пропущенном контенте. Это приводит к увеличению времени, потребляемого на понимание диалога, и к ухудшению качества взаимодействия. Необходимо разработать систему, которая не только воспроизводила бы пропущенные фрагменты, но и обеспечивала бы понятное понимание и контекст с помощью наиболее актуального текстового описания. ## Метод Система Beamforming-LLM использует микрофонный массив для съемки спектральных данных, которые позволяют выделить звуковые источники в многоречивых средах. Эти звуковые потоки используются для сегментации и распознавания речи с помощью Whisper. Он транскрибирует звуковые фрагменты и вставляет их в векторную базу данных с помощью sentence encoders. Пользователь может задавать семантические запросы, например: "Что я пропустил, когда думал об другой теме?". Затем система выполняет поиск семантически похожих фрагментов и определяет, какие фрагменты были пропущены в то время, когда пользователь отвлекался. Эти фрагменты становятся доступными для повтора с помощью GPT-4o-mini, которая создает упрощенные сводки. Благодаря этому, пользователь может получить ответы в удобном текстовом формате с возможностью запускать аудио на запрос. ## Результаты В экспериментах система Beamforming-LLM была применена в сценариях многоречивых диалогов, когда пользователь отвлекается от некоторых частей диалога. Были проведены тесты на различных диалогах, и система показала высокую точность в поиске и воспроизведении пропущенных фрагментов. Опробывались различные типы звуковых баз, включая диалог между тремя людьми и сложные ситуации с многочисленными источниками звука. Результаты показали, что Beamforming-LLM не только выделяет пропущенные фрагменты, но и предоставляет понятные и контекстуально подходящие разъяснения, что улучшает понимание пользователем. ## Значимость Было проанализировано множество областей применения Beamforming-LLM. Это может быть полезно для помощи людям с нарушениями слуха или в целях облегчения труда в нормальных диалогах. Также есть возможность применять ее в корпоративных средах для помощи в суммировании митингов, а также в сфере мобильных приложений, где пользователи могут использовать систему для получения ответа на с

Annotation:

We present Beamforming-LLM, a system that enables users to semantically recall conversations they may have missed in multi-speaker environments. The system combines spatial audio capture using a microphone array with retrieval-augmented generation (RAG) to support natural language queries such as, "What did I miss when I was following the conversation on dogs?" Directional audio streams are separated using beamforming, transcribed with Whisper, and embedded into a vector database using sentence ...

ID: 2509.06221v1 eess.AS, cs.AI, cs.CL, cs.HC

arXiv PDF

📄 No Thoughts Just AI: Biased LLM Recommendations Limit Human Agency in Resume Screening

2025-09-06

Авторы:

Kyra Wilson, Mattea Sim, Anna-Maria Gueorguieva, Aylin Caliskan

#### Контекст Многие сегодняшние организации используют системы совместного принятия решений с участием людей и искусственного интеллекта (Human-in-the-Loop, HITL) на ранних этапах трудоустройства. Однако неявные предрассудки в системах ИИ могут повлиять на выбор потенциальных кандидатов для работы, ограничивая человеческую агентность и продвигая чрезмерное стереотипирование. Например, ранее установленное стеротипное мнение о том, что белокожие кандидаты имеют более высокий статус на рынке труда, может влиять на решения, даже если эти предрассудки неявны. Более того, неявные предрассудки могут проникать в системы ИИ, когда они принимаются вместе с человеческими экспертами для принятия решений. Таким образом, необходимо изучить, как совместное принятие решений с использованием ИИ влияет на человеческую агентность и субъективные предрассудки в процессе трудоустройства. #### Метод Для изучения этой проблемы проводился эксперимент, в котором 528 участников сотрудничали с симулированными ИИ-системами, отображающими расовые предпочтения. Эти системы были программированы для проявления биаса в пользу кандидатов определенного раса, который мог быть либо "фактическим" (основанным на реальных данных о расовых предпочтениях в работе), либо "контрфактическим" (отражающим направленность на будущие биасы). Участники просматривали резюме кандидатов для 16 различных должностей, от высокого до низкого статуса, с именами, которые могли отражать аффилиацию с разными расовыми группами. На основе этих оценок, проводились имплицитные ассоциации тесты (IAT) для измерения неявных стереотипов участников. Выбор кандидатов также проверялся в зависимости от того, насколько кандидаты соответствовали гендерным и расовым стереотипам. #### Результаты Эксперимент показал, что люди, сотрудничающие с ИИ, который проявляет биазы в пользу определенных расовых групп, склонны выбирать кандидатов из этих групп до 90% всех случаев, даже если расовое стереотипирование не соответствует реальным кандидатам. Однако в случае неразделенного принятия решений (без участия ИИ или при участии ИИ, не проявляющего биазы), люди выбирают кандидатов равномерно. Также, участники, которые прошли IAT до эксперимента, выбрали больше кандидатов, не соответствующих расовым стереотипам, чем те, кто не прошел такой тест. Даже когда участники считали рекомендации ИИ низкокачественными, их решения все равно оказывались затронутыми биазом, если рекомендации были представлены как "важные". #### Значимость Результаты этих исследований им

Annotation:

In this study, we conduct a resume-screening experiment (N=528) where people collaborate with simulated AI models exhibiting race-based preferences (bias) to evaluate candidates for 16 high and low status occupations. Simulated AI bias approximates factual and counterfactual estimates of racial bias in real-world AI systems. We investigate people's preferences for White, Black, Hispanic, and Asian candidates (represented through names and affinity groups on quality-controlled resumes) across 1,5...

ID: 2509.04404v1 cs.CY, cs.AI, cs.CL, cs.HC, K.4.2

arXiv PDF

Показано 21 - 30 из 37 записей