Ethics2vec: aligning automatic agents and human preferences

2508.07673v1 cs.AI, cs.LG 2025-08-13

Авторы:

Gianluca Bontempi

Резюме на русском

## Контекст Современные интеллектуальные агенты, предназначенные для улучшения человеческого опыта и оптимизации процессов, часто сталкиваются с проблемой выравнивания своих ценностей с теми, которые характерны для людей. Этот вопрос, известный как проблема выравнивания (alignment), является одной из самых сложных задач в развитии искусственного интеллекта. Она решается необходимостью создания систем, которые будут соответствовать человеческим ценностям, целям и предпочтениям. Дополнительная сложность заключается в том, что многие человеческие этические ценности являются "немеряными" (incommensurable), то есть нельзя измерить или сравнить напрямую. Например, будучи медицинским агентом, как можно взвесить значение человеческой жизни и стоимость лечения? Этот мотив привел к созданию Ethics2Vec, который предлагает метод представления этических ценностей в виде векторных пространств, позволяющих выравнивать агентские решения с человеческими приоритетами. ## Метод Ethics2Vec расширяет подход Anything2vec, успешно применяемый в таких областях, как естественно-языковые процессы и рекомендационные системы. Он предлагает преобразовать агентскую стратегию принятия решений в многомерный вектор. Этот вектор можно использовать для сравнения и оценки выравнивания с человеческими ценностями. В первую очередь, метод был применен к агентам, принимающим бинарные решения. Далее, была рассмотрена векторизация автоматического контрольного закона, например, в системах автономного вождения. Это позволяет расширить Ethics2Vec на более сложные ситуации, где решения зависят от многих переменных. ## Результаты Для проверки концепции были проведены эксперименты с бинарными решениями, в которых Ethics2Vec позволил выявить мотивы и приоритеты, проявляемые агентом. Для комплексных решений, таких как автоматический контроль, было продемонстрировано, как векторное представление может отражать ценности, которые следует учитывать при принятии решений в условиях неопределенности и ситуативных зависимостей. Научные результаты показали, что Ethics2Vec может выступать как инструмент для сравнения различных систем этических решений, а также для оценки того, насколько хорошо агент выравнивает свои решения с человеческими предпочтениями. ## Значимость Ethics2Vec может быть применен в различных областях, в том числе в медицине, в сфере автоматизированных систем и даже в системах рекомендаций. Его основное преимущество заключается в том, что он предоставляет метрику для оценки ценностных приоритетов, которая может быть использована для выявления проблем в выравнивании и для улучшения решений. Потенциально, это может привести к более мотивированно

Abstract

Though intelligent agents are supposed to improve human experience (or make it more efficient), it is hard from a human perspective to grasp the ethical values which are explicitly or implicitly embedded in an agent behaviour. This is the well-known problem of alignment, which refers to the challenge of designing AI systems that align with human values, goals and preferences. This problem is particularly challenging since most human ethical considerations refer to \emph{incommensurable} (i.e. non-measurable and/or incomparable) values and criteria. Consider, for instance, a medical agent prescribing a treatment to a cancerous patient. How could it take into account (and/or weigh) incommensurable aspects like the value of a human life and the cost of the treatment? Now, the alignment between human and artificial values is possible only if we define a common space where a metric can be defined and used. This paper proposes to extend to ethics the conventional Anything2vec approach, which has been successful in plenty of similar and hard-to-quantify domains (ranging from natural language processing to recommendation systems and graph analysis). This paper proposes a way to map an automatic agent decision-making (or control law) strategy to a multivariate vector representation, which can be used to compare and assess the alignment with human values. The Ethics2Vec method is first introduced in the case of an automatic agent performing binary decision-making. Then, a vectorisation of an automatic control law (like in the case of a self-driving car) is discussed to show how the approach can be extended to automatic control settings.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Ethics2vec: aligning automatic agents and human preferences

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Mathematical Framing for Different Agent Strategies

Sequential Enumeration in Large Language Models

Educational Cone Model in Embedding Vector Spaces

A Benchmark of Causal vs Correlation AI for Predictive Maintenance

fMRI2GES: Co-speech Gesture Reconstruction from fMRI Signal with Dual Brain Deco...

Навигация