EigenBench: A Comparative Behavioral Measure of Value Alignment

2509.01938v2 cs.AI, cs.CL, cs.CY, cs.LG 2025-09-05
Авторы:

Jonathn Chang, Leonhard Piff, Suvadip Sana, Jasmine X. Li, Lionel Levine

Резюме на русском

## Контекст Актуальность исследования заключается в усилиях по улучшению взаимосвязи между ИИ и человеческими ценностями. Существует широко признанная проблема отсутствия квантитативных методов для оценки соответствия моделей ИИ ценностным системам. Это связано с тем, что значения часто подчиняются субъективным и индивидуальным оценкам, что делает сложным поиск объективных метрик. Эти факторы вдохновили разработку EigenBench, метода, позволяющего сравнительно оценивать значения моделей ИИ на основе введенных пользователем конституций и различных сценариев. ## Метод EigenBench предлагает оригинальный подход к оценке значений моделей ИИ. Метод является black-box и не требует доступа к внутренним механизмам моделей. Он основывается на создании сценариев, в которых модели дают ответы на заданные задачи, а затем сравнивают свои ответы с ответами других моделей. Оценка совпадения значений выполняется с помощью EigenTrust, алгоритма, способного производить статистические выводы на основе мнений множества субьектов. Эти выводы комбинируются в вектор, где каждая модель получает отдельный скор по каждой конституции. Этот подход позволяет учитывать не только ответы модели, но и свойства заданного контекста. ## Результаты Эксперименты проводились на наборах данных, содержащих условия сценариев и значения, которые должны выражать модели. Оценки создавались с помощью EigenBench, а результаты были сравнивались с другими методами оценки значений. Например, модели были запущены на целевых вопросах с разными конституциями, и наблюдались различия в поведении. Особенно значимым оказалось то, что скоры отдельных моделей в определенных контекстах были зависимы от конкретных сценариев, что подтверждает гибкость метода. ## Значимость EigenBench добавляет значительное значение в область значений в ИИ, предоставляя меру значений, которая может применяться в различных сферах, включая искусственный интеллект в общественных областях. Метод хорошо работает для моделей, которые не имеют истинных значений, но требуют квалиметрической оценки. Он позволяет выявлять не только технические ошибки, но и пробелы в значениях, которые могут быть оптимизированы в будущем. ## Выводы Результаты исследований показывают, что EigenBench является эффективным инструментом для сравнительной оценки значений моделей ИИ. Это открывает пути для дальнейших исследований в области моделирования значений и их соответствия человеческим ценностям. Будущие работы могут сфокусироваться на расширении списка конституций и сценариев, а также на улучшении методов агрегации инфор

Abstract

Aligning AI with human values is a pressing unsolved problem. To address the lack of quantitative metrics for value alignment, we propose EigenBench: a black-box method for comparatively benchmarking language models' values. Given an ensemble of models, a constitution describing a value system, and a dataset of scenarios, our method returns a vector of scores quantifying each model's alignment to the given constitution. To produce these scores, each model judges the outputs of other models across many scenarios, and these judgments are aggregated with EigenTrust (Kamvar et al, 2003), yielding scores that reflect a weighted-average judgment of the whole ensemble. EigenBench uses no ground truth labels, as it is designed to quantify traits for which reasonable judges may disagree on the correct label. Using prompted personas, we test whether EigenBench scores are more sensitive to the model or the prompt: we find that most of the variance is explained by the prompt, but a small residual quantifies the disposition of the model itself.

Ссылки и действия

Связанные статьи

Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Fu...

#### Контекст Дипломатия — сложная и информационно-объемная игра, требующая стратегического мышления, взаимодействия и ...

2025-08-13