📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 InvisibleBench: A Deployment Gate for Caregiving Relationship AI

2025-11-27

Авторы:

Ali Madad

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

InvisibleBench is a deployment gate for caregiving-relationship AI, evaluating 3-20+ turn interactions across five dimensions: Safety, Compliance, Trauma-Informed Design, Belonging/Cultural Fitness, and Memory. The benchmark includes autofail conditions for missed crises, medical advice (WOPR Act), harmful information, and attachment engineering. We evaluate four frontier models across 17 scenarios (N=68) spanning three complexity tiers. All models show significant safety gaps (11.8-44.8 percent...

ID: 2511.20733v1 cs.CY, cs.AI, cs.CL, cs.HC

arXiv PDF

📄 Asking For It: Question-Answering for Predicting Rule Infractions in Online Content Moderation

2025-10-10

Авторы:

Mattia Samory, Diana Pamfile, Andrew To, Shruti Phadke

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Online communities rely on a mix of platform policies and community-authored rules to define acceptable behavior and maintain order. However, these rules vary widely across communities, evolve over time, and are enforced inconsistently, posing challenges for transparency, governance, and automation. In this paper, we model the relationship between rules and their enforcement at scale, introducing ModQ, a novel question-answering framework for rule-sensitive content moderation. Unlike prior class...

ID: 2510.06350v1 cs.CY, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 Toxicity in Online Platforms and AI Systems: A Survey of Needs, Challenges, Mitigations, and Future Directions

2025-10-02

Авторы:

Smita Khapre, Melkamu Abay Mersha, Hassan Shakil, Jonali Baruah, Jugal Kalita

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The evolution of digital communication systems and the designs of online platforms have inadvertently facilitated the subconscious propagation of toxic behavior. Giving rise to reactive responses to toxic behavior. Toxicity in online content and Artificial Intelligence Systems has become a serious challenge to individual and collective well-being around the world. It is more detrimental to society than we realize. Toxicity, expressed in language, image, and video, can be interpreted in various w...

ID: 2509.25539v1 cs.CY, cs.AI, cs.CL, cs.HC, cs.SI

arXiv PDF

📄 HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants

2025-09-12

Авторы:

Benjamin Sturgeon, Daniel Samuelson, Jacob Haimes, Jacy Reese Anthis

#### Контекст В последние годы мощности и универсальность широкого спектра ИИ-систем наглядно продемонстрировали способность автоматизировать и упростить человеческие задачи. Однако эта мощь сопрягается с риском потери контроля над своими личными и общественными будущими. Уже сейчас простые алгоритмы управляют человеческими решениями: системы рекомендаций социальных сетей формируют поведение пользователей, приводя их к ненамеренному вредоносному времяпрепровождению. Этот тенденционный сдвиг в пользу ИИ требует новых подходов к оценке и оптимизации поддержки человеческой агентности в ИИ-системах. Основной целью данного исследования является разработка формализованного подхода к оценке поддержки человеческого агентства в ИИ-системах, а также разработка нового бенчмарка для эффективного тестирования и валидации этих подходов в условиях реальности. #### Метод Разработка HumanAgencyBench (HAB) основывается на интеграции философских и научных теорий человеческой агентности с техническими методами оценки. HAB строится на шести характеристиках человеческой агентности: 1. **Ask Clarifying Questions** – готовность выяснять неясности в пользовательских запросах. 2. **Avoid Value Manipulation** – избегание влияния на ценностные представления пользователя. 3. **Correct Misinformation** – корректировка неверных или неточных ответов. 4. **Defer Important Decisions** – отказ от решения в случаях нехватки достаточных данных. 5. **Encourage Learning** – поощрение саморазвития и поиска информации. 6. **Maintain Social Boundaries** – соблюдение конфиденциальности и пределов взаимоотношений. HAB применяет технологии больших лингвистических моделей (LLM) для симуляции пользовательских запросов и оценки ответов ИИ-систем. Метод использует технические методы моделирования, включая множественно-документный фреймворк и адаптивные тесты, чтобы эффективно проверить поддержку человеческой агентности в различных условиях. #### Результаты Экспериментальная оценка HAB проводилась на широком наборе данных, включающих различные сценарии и задачи, стандартных для применения ИИ. Наибольшую поддержку человеческой агентности показали модели Anthropic LLM, но даже они имели следствия в контексте Avoid Value Manipulation. Более стабильные и склонные к значительным различиям в результатах показали целенаправленность и потенциальную необходимость улучшения архитектур. Основные выводы: низко-модераторная поддержка агентности в современных ИИ-системах, выявленные несогласованности в поддержке отдельных аспектов. #### Значимость Результаты HAB открывают путь к развитию систем, более эффективно поддерживающи

Annotation:

As humans delegate more tasks and decisions to artificial intelligence (AI), we risk losing control of our individual and collective futures. Relatively simple algorithmic systems already steer human decision-making, such as social media feed algorithms that lead people to unintentionally and absent-mindedly scroll through engagement-optimized content. In this paper, we develop the idea of human agency by integrating philosophical and scientific theories of agency with AI-assisted evaluation met...

ID: 2509.08494v1 cs.CY, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 Measuring and mitigating overreliance is necessary for building human-compatible AI

2025-09-11

Авторы:

Lujain Ibrahim, Katherine M. Collins, Sunnie S. Y. Kim, Anka Reuel, Max Lamparth, Kevin Feng, Lama Ahmad, Prajna Soni, Alia El Kattan, Merlin Stein, Siddharth Swaroop, Ilia Sucholutsky, Andrew Strait, Q. Vera Liao, Umang Bhatt

## Контекст Большие языковые модели (LLM) представляют собой инновационные технологии, работающие как "человеческие мыслительные партнеры", которые могут более естественно взаимодействовать с пользователями в человеческом языке. Их возможности становятся все более широко применяемыми в различных сферах, от здравоохранения до персонального консультирования. Однако с ростом их воздействия возрастает риск многообразных последствий, включая надёржание (overreliance), — когда люди доверяют моделям далеко вплоть до невозможности их реального выполнения заданий. Такое надёржание может привести к ошибкам в критически важных сферах, дисквалификации и вызову новых государственных регулирований. Работа рассматривает важность изучения и контроля надёржания в качестве ключевого аспекта развития и применения LLM. ## Метод Методология статьи основывается на подробном анализе характеристик LLM, технических решений, пользовательских ошибок и теоретических моделей. Авторы рассмотрели ряд экспериментов и исследований, которые выявляли системные слабые места, связанные с надёржанием. Широкий анализ был проведен с использованием различных типов данных, включая обучающие модели, проводящие эксперименты с пользователями и работающие с клиническими данными. Результаты этих экспериментов были связаны с рядом теоретических подходов, включая теорию поведения пользователей, а также технические аспекты, такие как влияние дизайна системы на поведение. ## Результаты Изученная работа проанализировала существующие данные по ошибкам, совершаемым при использовании LLM, включая не только искусственные события, но и реальные случаи, в которых операторы доверились моделям слишком сильно. На основе этих данных были выделены три главные типа рисков: высокорисковые ошибки, проблемы в государственном регулировании и индивидуальные проблемы. Авторы также сравнили три типа исторических подходов к измерению надёржания, указав на три основных проблемы в них, и предложили три новых подхода, которые могут помочь улучшить измерение надёржания. ## Значимость Результаты работы имеют большое значение для нескольких областей. В первую очередь, они могут быть применены в здравоохранении, психологии, юридических системах и других сферах, где действия LLMs могут оказать критическое воздействие. Благодаря предложенным рекомендациям, модели могут быть действительно более эффективно включены в процессы принятия решений, в то же время уменьшая риски, связанные с надёржанием. Эта работа так

Annotation:

Large language models (LLMs) distinguish themselves from previous technologies by functioning as collaborative "thought partners," capable of engaging more fluidly in natural language. As LLMs increasingly influence consequential decisions across diverse domains from healthcare to personal advice, the risk of overreliance - relying on LLMs beyond their capabilities - grows. This position paper argues that measuring and mitigating overreliance must become central to LLM research and deployment. F...

ID: 2509.08010v1 cs.CY, cs.AI, cs.CL, cs.HC

arXiv PDF

📄 No Thoughts Just AI: Biased LLM Recommendations Limit Human Agency in Resume Screening

2025-09-06

Авторы:

Kyra Wilson, Mattea Sim, Anna-Maria Gueorguieva, Aylin Caliskan

#### Контекст Многие сегодняшние организации используют системы совместного принятия решений с участием людей и искусственного интеллекта (Human-in-the-Loop, HITL) на ранних этапах трудоустройства. Однако неявные предрассудки в системах ИИ могут повлиять на выбор потенциальных кандидатов для работы, ограничивая человеческую агентность и продвигая чрезмерное стереотипирование. Например, ранее установленное стеротипное мнение о том, что белокожие кандидаты имеют более высокий статус на рынке труда, может влиять на решения, даже если эти предрассудки неявны. Более того, неявные предрассудки могут проникать в системы ИИ, когда они принимаются вместе с человеческими экспертами для принятия решений. Таким образом, необходимо изучить, как совместное принятие решений с использованием ИИ влияет на человеческую агентность и субъективные предрассудки в процессе трудоустройства. #### Метод Для изучения этой проблемы проводился эксперимент, в котором 528 участников сотрудничали с симулированными ИИ-системами, отображающими расовые предпочтения. Эти системы были программированы для проявления биаса в пользу кандидатов определенного раса, который мог быть либо "фактическим" (основанным на реальных данных о расовых предпочтениях в работе), либо "контрфактическим" (отражающим направленность на будущие биасы). Участники просматривали резюме кандидатов для 16 различных должностей, от высокого до низкого статуса, с именами, которые могли отражать аффилиацию с разными расовыми группами. На основе этих оценок, проводились имплицитные ассоциации тесты (IAT) для измерения неявных стереотипов участников. Выбор кандидатов также проверялся в зависимости от того, насколько кандидаты соответствовали гендерным и расовым стереотипам. #### Результаты Эксперимент показал, что люди, сотрудничающие с ИИ, который проявляет биазы в пользу определенных расовых групп, склонны выбирать кандидатов из этих групп до 90% всех случаев, даже если расовое стереотипирование не соответствует реальным кандидатам. Однако в случае неразделенного принятия решений (без участия ИИ или при участии ИИ, не проявляющего биазы), люди выбирают кандидатов равномерно. Также, участники, которые прошли IAT до эксперимента, выбрали больше кандидатов, не соответствующих расовым стереотипам, чем те, кто не прошел такой тест. Даже когда участники считали рекомендации ИИ низкокачественными, их решения все равно оказывались затронутыми биазом, если рекомендации были представлены как "важные". #### Значимость Результаты этих исследований им

Annotation:

In this study, we conduct a resume-screening experiment (N=528) where people collaborate with simulated AI models exhibiting race-based preferences (bias) to evaluate candidates for 16 high and low status occupations. Simulated AI bias approximates factual and counterfactual estimates of racial bias in real-world AI systems. We investigate people's preferences for White, Black, Hispanic, and Asian candidates (represented through names and affinity groups on quality-controlled resumes) across 1,5...

ID: 2509.04404v1 cs.CY, cs.AI, cs.CL, cs.HC, K.4.2

arXiv PDF