Steerable Pluralism: Pluralistic Alignment via Few-Shot Comparative Regression

2508.08509v1 cs.CL, cs.AI 2025-08-14
Авторы:

Jadie Adams, Brian Hu, Emily Veenhuis, David Joy, Bharadwaj Ravichandran, Aaron Bray, Anthony Hoogs, Arslan Basharat

Резюме на русском

## Контекст В последние годы технологии машинного обучения, особенно большие языковые модели (LLMs), нашли широкое применение в различных областях. Однако возникла проблема: существующие методы выравнивания моделей, такие как reinforcement learning from human feedback (RLHF), ориентированы на работу с одной целью — повышению помощности и минимизацией вреда. Эти методы не учитывают разнообразие пользовательских предпочтений, которое может быть важно в различных контекстах. Для решения этой проблемы вводится понятие "pluralistic alignment", которое стремится создать модели, способные логично и интерпретируемо выбирать ответы на основании разного рода пользовательских предпочтений. ## Метод Мы предлагаем подход, основанный на few-shot comparative regression, чтобы позволить модели адаптироваться к конкретным пользовательским предпочтениям. Модель сравнивает несколько вариантов ответов в контексте нескольких характеристик или признаков, используя in-context learning и вспомогательные признаки. Это позволяет модели избегать простых, неточных решений и делать выбор, основанный на более глубоком понимании пользовательских ценностей. Мы также развиваем две новые бенчмарки, которые позволяют протестировать модель на значимых и интерпретируемых данных. ## Результаты Наши эксперименты показали, что модель выдает более точные результаты по сравнению с другими методами, в том числе RLHF. Мы проверили модель на двух новых тестовых наборах данных, Moral Integrity Corpus (MIC) и HelpSteer2, которые определяются значимыми и разнообразными пользовательскими ценностями. Благодаря этому, наш алгоритм продемонстрировал высокую точность и интерпретируемость, давая возможность пользователям контролировать выбор ответов. ## Значимость Многообразие пользовательских предпочтений может быть использовано в различных областях, включая моделирование ценностей, языковое моделирование и принятие решений. Метод, предложенный в нашей работе, позволяет модели сохранять эти предпочтения, делая выводы личными и точными. Это может иметь положительное влияние на области, такие как социально-этическое AI, работа с личными данными и более эффективное взаимодействие с пользователями. ## Выводы Мы успешно разработали метод, который позволяет модели адаптироваться к различным пользовательским предпочтениям, используя few-shot comparative regression. Наш подход демонстрирует высокую точность и интерпретируемость, превзойдя существующие алгоритмы. Мы считаем, что наша работа открывает новые возможности в области интеллектуальных технологий, способствуя более представительному и честному использованию моделей языка. В дальнейшем мы планируем расширить наши исследования, включая более широ

Abstract

Large language models (LLMs) are currently aligned using techniques such as reinforcement learning from human feedback (RLHF). However, these methods use scalar rewards that can only reflect user preferences on average. Pluralistic alignment instead seeks to capture diverse user preferences across a set of attributes, moving beyond just helpfulness and harmlessness. Toward this end, we propose a steerable pluralistic model based on few-shot comparative regression that can adapt to individual user preferences. Our approach leverages in-context learning and reasoning, grounded in a set of fine-grained attributes, to compare response options and make aligned choices. To evaluate our algorithm, we also propose two new steerable pluralistic benchmarks by adapting the Moral Integrity Corpus (MIC) and the HelpSteer2 datasets, demonstrating the applicability of our approach to value-aligned decision-making and reward modeling, respectively. Our few-shot comparative regression approach is interpretable and compatible with different attributes and LLMs, while outperforming multiple baseline and state-of-the-art methods. Our work provides new insights and research directions in pluralistic alignment, enabling a more fair and representative use of LLMs and advancing the state-of-the-art in ethical AI.

Ссылки и действия