📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Asking For It: Question-Answering for Predicting Rule Infractions in Online Content Moderation
2025-10-10Авторы:
Mattia Samory, Diana Pamfile, Andrew To, Shruti Phadke
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Online communities rely on a mix of platform policies and community-authored
rules to define acceptable behavior and maintain order. However, these rules
vary widely across communities, evolve over time, and are enforced
inconsistently, posing challenges for transparency, governance, and automation.
In this paper, we model the relationship between rules and their enforcement at
scale, introducing ModQ, a novel question-answering framework for
rule-sensitive content moderation. Unlike prior class...
Авторы:
Benjamin Sturgeon, Daniel Samuelson, Jacob Haimes, Jacy Reese Anthis
#### Контекст
В последние годы мощности и универсальность широкого спектра ИИ-систем наглядно продемонстрировали способность автоматизировать и упростить человеческие задачи. Однако эта мощь сопрягается с риском потери контроля над своими личными и общественными будущими. Уже сейчас простые алгоритмы управляют человеческими решениями: системы рекомендаций социальных сетей формируют поведение пользователей, приводя их к ненамеренному вредоносному времяпрепровождению. Этот тенденционный сдвиг в пользу ИИ требует новых подходов к оценке и оптимизации поддержки человеческой агентности в ИИ-системах.
Основной целью данного исследования является разработка формализованного подхода к оценке поддержки человеческого агентства в ИИ-системах, а также разработка нового бенчмарка для эффективного тестирования и валидации этих подходов в условиях реальности.
#### Метод
Разработка HumanAgencyBench (HAB) основывается на интеграции философских и научных теорий человеческой агентности с техническими методами оценки. HAB строится на шести характеристиках человеческой агентности:
1. **Ask Clarifying Questions** – готовность выяснять неясности в пользовательских запросах.
2. **Avoid Value Manipulation** – избегание влияния на ценностные представления пользователя.
3. **Correct Misinformation** – корректировка неверных или неточных ответов.
4. **Defer Important Decisions** – отказ от решения в случаях нехватки достаточных данных.
5. **Encourage Learning** – поощрение саморазвития и поиска информации.
6. **Maintain Social Boundaries** – соблюдение конфиденциальности и пределов взаимоотношений.
HAB применяет технологии больших лингвистических моделей (LLM) для симуляции пользовательских запросов и оценки ответов ИИ-систем. Метод использует технические методы моделирования, включая множественно-документный фреймворк и адаптивные тесты, чтобы эффективно проверить поддержку человеческой агентности в различных условиях.
#### Результаты
Экспериментальная оценка HAB проводилась на широком наборе данных, включающих различные сценарии и задачи, стандартных для применения ИИ. Наибольшую поддержку человеческой агентности показали модели Anthropic LLM, но даже они имели следствия в контексте Avoid Value Manipulation. Более стабильные и склонные к значительным различиям в результатах показали целенаправленность и потенциальную необходимость улучшения архитектур.
Основные выводы: низко-модераторная поддержка агентности в современных ИИ-системах, выявленные несогласованности в поддержке отдельных аспектов.
#### Значимость
Результаты HAB открывают путь к развитию систем, более эффективно поддерживающи
Annotation:
As humans delegate more tasks and decisions to artificial intelligence (AI),
we risk losing control of our individual and collective futures. Relatively
simple algorithmic systems already steer human decision-making, such as social
media feed algorithms that lead people to unintentionally and absent-mindedly
scroll through engagement-optimized content. In this paper, we develop the idea
of human agency by integrating philosophical and scientific theories of agency
with AI-assisted evaluation met...