Understanding the Process of Human-AI Value Alignment

2509.13854v1 cs.CY, cs.AI 2025-09-19

Авторы:

Jack McKinlay, Marina De Vos, Janina A. Hoffmann, Andreas Theodorou

Резюме на русском

#### Контекст **Value alignment** — это ключевый аспект в исследованиях машинного обучения и искусственного интеллекта, означающий процесс привязки алгоритмов и систем к ценностям и приоритетам человеческого общества. Однако в научной литературе словосочетание "value alignment" используется в разном контексте, часто без четкой характеристики. Это может привести к неточностям в понимании и реализации этого понятия. Целью данной работы является определение более точного определения "value alignment" и изучение его тематического контекста в современной научной литературе. #### Метод Для анализа была проведена систематическая литературная рецензия, включающая 172 статей, посвященных теме value alignment. Методология основывается на тематическом анализе, позволяющем выявить ключевые темы и характеристики в литературе. Авторы использовали библиографические источники, фильтрацию по темам и синтезирование выводов для построения более точной схемы знаний в области. #### Результаты Результатом работы была выявлена шесть тематик, связанных с value alignment: 1. **Драйверы и подходы к value alignment** — факторы, влияющие на процесс привязки ценностей. 2. **Проблемы в value alignment** — трудности в процессе балансировки ценностей. 3. **Ценности в value alignment** — различные виды ценностей, влияющих на решения в AI. 4. **Когнитивные процессы у людей и AI** — способность людей и систем обрабатывать ценности. 5. **Human-agent teaming** — взаимодействие людей и агентов AI в командных системах. 6. **Designing and developing value-aligned systems** — технические и этические аспекты создания ценностно-аллигенированных систем. #### Значимость Выявленные темы имеют широкое применение в различных областях, включая промышленность, здравоохранение, робототехнику и другие. Основное преимущество данного исследования в том, что оно предлагает четкую терминологию и понимание ценностного выравнивания, что помогает облегчить развитие технологий, соответствующих человеческим ценностям. Потенциальное влияние заключается в улучшении значимости и эффективности разработки AI-систем. #### Выводы Авторы определили value alignment как динамический процесс, в котором люди и AI-системы сотрудничают для выражения и реализации ценностей в разных контекстах. Они также выделили основные трудности и возможности для будущих исследований, включая необходимость развития методов для управления когнитивными ограничениями, балансировки этических точек зрения и улучшения технологий human-agent teaming. Будущие исследования должны ориентироваться на улучшение направленности систем AI на ценности человечества.

Abstract

Background: Value alignment in computer science research is often used to refer to the process of aligning artificial intelligence with humans, but the way the phrase is used often lacks precision. Objectives: In this paper, we conduct a systematic literature review to advance the understanding of value alignment in artificial intelligence by characterising the topic in the context of its research literature. We use this to suggest a more precise definition of the term. Methods: We analyse 172 value alignment research articles that have been published in recent years and synthesise their content using thematic analyses. Results: Our analysis leads to six themes: value alignment drivers & approaches; challenges in value alignment; values in value alignment; cognitive processes in humans and AI; human-agent teaming; and designing and developing value-aligned systems. Conclusions: By analysing these themes in the context of the literature we define value alignment as an ongoing process between humans and autonomous agents that aims to express and implement abstract values in diverse contexts, while managing the cognitive limits of both humans and AI agents and also balancing the conflicting ethical and political demands generated by the values in different groups. Our analysis gives rise to a set of research challenges and opportunities in the field of value alignment for future work.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Understanding the Process of Human-AI Value Alignment

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Humanity in the Age of AI: Reassessing 2025's Existential-Risk Narratives

When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Fro...

Artificial Intelligence / Human Intelligence: Who Controls Whom?

First, do NOHARM: towards clinically safe large language models

AI-Driven Document Redaction in UK Public Authorities: Implementation Gaps, Regu...

Навигация