Steerable Pluralism: Pluralistic Alignment via Few-Shot Comparative Regression
2508.08509v1
cs.CL, cs.AI
2025-08-14
Авторы:
Jadie Adams, Brian Hu, Emily Veenhuis, David Joy, Bharadwaj Ravichandran, Aaron Bray, Anthony Hoogs, Arslan Basharat
Резюме на русском
## Контекст
В последние годы технологии машинного обучения, особенно большие языковые модели (LLMs), нашли широкое применение в различных областях. Однако возникла проблема: существующие методы выравнивания моделей, такие как reinforcement learning from human feedback (RLHF), ориентированы на работу с одной целью — повышению помощности и минимизацией вреда. Эти методы не учитывают разнообразие пользовательских предпочтений, которое может быть важно в различных контекстах. Для решения этой проблемы вводится понятие "pluralistic alignment", которое стремится создать модели, способные логично и интерпретируемо выбирать ответы на основании разного рода пользовательских предпочтений.
## Метод
Мы предлагаем подход, основанный на few-shot comparative regression, чтобы позволить модели адаптироваться к конкретным пользовательским предпочтениям. Модель сравнивает несколько вариантов ответов в контексте нескольких характеристик или признаков, используя in-context learning и вспомогательные признаки. Это позволяет модели избегать простых, неточных решений и делать выбор, основанный на более глубоком понимании пользовательских ценностей. Мы также развиваем две новые бенчмарки, которые позволяют протестировать модель на значимых и интерпретируемых данных.
## Результаты
Наши эксперименты показали, что модель выдает более точные результаты по сравнению с другими методами, в том числе RLHF. Мы проверили модель на двух новых тестовых наборах данных, Moral Integrity Corpus (MIC) и HelpSteer2, которые определяются значимыми и разнообразными пользовательскими ценностями. Благодаря этому, наш алгоритм продемонстрировал высокую точность и интерпретируемость, давая возможность пользователям контролировать выбор ответов.
## Значимость
Многообразие пользовательских предпочтений может быть использовано в различных областях, включая моделирование ценностей, языковое моделирование и принятие решений. Метод, предложенный в нашей работе, позволяет модели сохранять эти предпочтения, делая выводы личными и точными. Это может иметь положительное влияние на области, такие как социально-этическое AI, работа с личными данными и более эффективное взаимодействие с пользователями.
## Выводы
Мы успешно разработали метод, который позволяет модели адаптироваться к различным пользовательским предпочтениям, используя few-shot comparative regression. Наш подход демонстрирует высокую точность и интерпретируемость, превзойдя существующие алгоритмы. Мы считаем, что наша работа открывает новые возможности в области интеллектуальных технологий, способствуя более представительному и честному использованию моделей языка. В дальнейшем мы планируем расширить наши исследования, включая более широ
Abstract
Large language models (LLMs) are currently aligned using techniques such as
reinforcement learning from human feedback (RLHF). However, these methods use
scalar rewards that can only reflect user preferences on average. Pluralistic
alignment instead seeks to capture diverse user preferences across a set of
attributes, moving beyond just helpfulness and harmlessness. Toward this end,
we propose a steerable pluralistic model based on few-shot comparative
regression that can adapt to individual user preferences. Our approach
leverages in-context learning and reasoning, grounded in a set of fine-grained
attributes, to compare response options and make aligned choices. To evaluate
our algorithm, we also propose two new steerable pluralistic benchmarks by
adapting the Moral Integrity Corpus (MIC) and the HelpSteer2 datasets,
demonstrating the applicability of our approach to value-aligned
decision-making and reward modeling, respectively. Our few-shot comparative
regression approach is interpretable and compatible with different attributes
and LLMs, while outperforming multiple baseline and state-of-the-art methods.
Our work provides new insights and research directions in pluralistic
alignment, enabling a more fair and representative use of LLMs and advancing
the state-of-the-art in ethical AI.
Ссылки и действия
Дополнительные ресурсы: