EigenBench: A Comparative Behavioral Measure of Value Alignment
2509.01938v2
cs.AI, cs.CL, cs.CY, cs.LG
2025-09-05
Авторы:
Jonathn Chang, Leonhard Piff, Suvadip Sana, Jasmine X. Li, Lionel Levine
Резюме на русском
## Контекст
Актуальность исследования заключается в усилиях по улучшению взаимосвязи между ИИ и человеческими ценностями. Существует широко признанная проблема отсутствия квантитативных методов для оценки соответствия моделей ИИ ценностным системам. Это связано с тем, что значения часто подчиняются субъективным и индивидуальным оценкам, что делает сложным поиск объективных метрик. Эти факторы вдохновили разработку EigenBench, метода, позволяющего сравнительно оценивать значения моделей ИИ на основе введенных пользователем конституций и различных сценариев.
## Метод
EigenBench предлагает оригинальный подход к оценке значений моделей ИИ. Метод является black-box и не требует доступа к внутренним механизмам моделей. Он основывается на создании сценариев, в которых модели дают ответы на заданные задачи, а затем сравнивают свои ответы с ответами других моделей. Оценка совпадения значений выполняется с помощью EigenTrust, алгоритма, способного производить статистические выводы на основе мнений множества субьектов. Эти выводы комбинируются в вектор, где каждая модель получает отдельный скор по каждой конституции. Этот подход позволяет учитывать не только ответы модели, но и свойства заданного контекста.
## Результаты
Эксперименты проводились на наборах данных, содержащих условия сценариев и значения, которые должны выражать модели. Оценки создавались с помощью EigenBench, а результаты были сравнивались с другими методами оценки значений. Например, модели были запущены на целевых вопросах с разными конституциями, и наблюдались различия в поведении. Особенно значимым оказалось то, что скоры отдельных моделей в определенных контекстах были зависимы от конкретных сценариев, что подтверждает гибкость метода.
## Значимость
EigenBench добавляет значительное значение в область значений в ИИ, предоставляя меру значений, которая может применяться в различных сферах, включая искусственный интеллект в общественных областях. Метод хорошо работает для моделей, которые не имеют истинных значений, но требуют квалиметрической оценки. Он позволяет выявлять не только технические ошибки, но и пробелы в значениях, которые могут быть оптимизированы в будущем.
## Выводы
Результаты исследований показывают, что EigenBench является эффективным инструментом для сравнительной оценки значений моделей ИИ. Это открывает пути для дальнейших исследований в области моделирования значений и их соответствия человеческим ценностям. Будущие работы могут сфокусироваться на расширении списка конституций и сценариев, а также на улучшении методов агрегации инфор
Abstract
Aligning AI with human values is a pressing unsolved problem. To address the
lack of quantitative metrics for value alignment, we propose EigenBench: a
black-box method for comparatively benchmarking language models' values. Given
an ensemble of models, a constitution describing a value system, and a dataset
of scenarios, our method returns a vector of scores quantifying each model's
alignment to the given constitution. To produce these scores, each model judges
the outputs of other models across many scenarios, and these judgments are
aggregated with EigenTrust (Kamvar et al, 2003), yielding scores that reflect a
weighted-average judgment of the whole ensemble. EigenBench uses no ground
truth labels, as it is designed to quantify traits for which reasonable judges
may disagree on the correct label. Using prompted personas, we test whether
EigenBench scores are more sensitive to the model or the prompt: we find that
most of the variance is explained by the prompt, but a small residual
quantifies the disposition of the model itself.