Pareto Multi-Objective Alignment for Language Models
2508.07768v1
cs.LG, cs.AI, cs.CL
2025-08-13
Авторы:
Qiang He, Setareh Maghsudi
Резюме на русском
#### Контекст
Large language models (LLMs) в настоящее время широко применяются в реальных сценариях, требующих оптимального баланса между несколькими часто противоречащимися целями, такими как информативность и краткость или полезность и творчество. Однако существующие методы выравнивания LLMs, основанные на reinforcement learning from human feedback (RLHF), оптимизируют модели только по отношению к одной функции награды. Это приводит к довольно жесткому поведению модели, которое не может учесть сложность и разнообразие человеческих предпочтений. Это ограничение снижает гибкость и адаптивность LLMs в реальной жизни, делая необходимым развитие методов многоцелевого выравнивания (MOA). Мы предлагаем Pareto Multi-Objective Alignment (PAMA) — новую, эффективную методологию, которая преобразует задачу многоцелевого оптимизационного RLHF в задачу системы концентрических точек. Это позволяет получать более универсальное и гибкое взаимодействие модели с пользователем.
#### Метод
PAMA является алгоритмом, основанным на системе концентрических точек, которая достигается за счет преобразования задачи многоцелевого RLHF в задачу аддитивной награды. Она использует технику спроецированного градиентного спуска, которая позволяет достичь высокой скорости расчета. Метод PAMA гарантирует совпадение с решениями многоцелевой оптимизации (MOO), но с меньшим количеством вычислительных ресурсов. Теоретически, PAMA будет работать, пока не будет достигнута точка парето, где ни одну функцию нельзя улучшить без ухудшения другой. Это гарантирует баланс между целями модели. Мы проверяли PAMA по размерам моделей от 125M до 7B параметров, и он показывал высокую эффективность и гибкость в решении MOA проблемы.
#### Результаты
Мы провели эксперименты с PAMA на моделях с различными размерами параметров, включая 125M, 350M, 1.3B и 7B. Результаты показали, что PAMA эффективно решает задачу многоцелевого выравнивания, создавая балансированные модели, которые соответствуют различным целям пользователей. Наши эксперименты подтвердили, что PAMA не только значительно эффективнее существующих MOO-методов, но и способен быстро решать задачи на больших моделях. В результате, PAMA демонстрирует свою эффективность в живых сценариях, где необходимо быстрое решение MOA-задач.
#### Значимость
PAMA предлагает новый подход к решению проблемы многоцелевого выравнивания в LLMs, который может быть применен во многих реальных сценариях, где необходимы совместимые решения для нескольких целей. Решение PAMA позволяет использовать модели более гибко, увеличивая их применение в сферах, таких ка
Abstract
Large language models (LLMs) are increasingly deployed in real-world
applications that require careful balancing of multiple, often conflicting,
objectives, such as informativeness versus conciseness, or helpfulness versus
creativity. However, current alignment methods, primarily based on RLHF,
optimize LLMs toward a single reward function, resulting in rigid behavior that
fails to capture the complexity and diversity of human preferences. This
limitation hinders the adaptability of LLMs to practical scenarios, making
multi-objective alignment (MOA) a critical yet underexplored area. To bridge
this gap, we propose Pareto Multi-Objective Alignment (PAMA), a principled and
computationally efficient algorithm designed explicitly for MOA in LLMs. In
contrast to computationally prohibitive multi-objective optimization (MOO)
methods, PAMA transforms multi-objective RLHF into a convex optimization with a
closed-form solution, significantly enhancing scalability. Traditional MOO
approaches suffer from prohibitive O(n^2*d) complexity, where d represents the
number of model parameters, typically in the billions for LLMs, rendering
direct optimization infeasible. PAMA reduces this complexity to O(n) where n is
the number of objectives, enabling optimization to be completed within
milliseconds. We provide theoretical guarantees that PAMA converges to a Pareto
stationary point, where no objective can be improved without degrading at least
one other. Extensive experiments across language models ranging from 125M to 7B
parameters demonstrate PAMA's robust and effective MOA capabilities, aligning
with its theoretical advantages. PAMA provides a highly efficient solution to
the MOA problem that was previously considered intractable, offering a
practical and theoretically grounded approach to aligning LLMs with diverse
human values, paving the way for versatile and adaptable real-world AI
deployments.
Ссылки и действия
Дополнительные ресурсы: