PROPS: Progressively Private Self-alignment of Large Language Models
2508.06783v1
cs.LG, cs.AI, cs.CR, cs.IT, math.IT
2025-08-13
Авторы:
Noel Teku, Fengwei Tian, Payel Bhattacharjee, Souradip Chakraborty, Amrit Singh Bedi, Ravi Tandon
Резюме на русском
## Контекст
В последние годы искусственные нейронные сети, особенно большие языковые модели (LLMs), получили широкое распространение в различных областях, от применений в бизнесе до образовательных систем. Однако развитие этих моделей часто зависит от корректного выравнивания поведения модели в соответствии с человеческими ценностями и общественными нормами. Это процесс, называемый "alignment", требует использования человеческого вклинения в форме отзывов и фидбека, чтобы обучить модель подходить к решениям в соответствии с этими нормами. Однако, существующие методы, такие как Differentially Private SGD (DP-SGD), стремятся защитить чувствительные данные индивидуальных лейблеров, но это может привести к значительному снижению моделируемой модели. Исследователи сталкиваются с мотивацией для более балансированных подходов, которые не только защищают чувствительные данные, но и сохраняют высокую модельную эффективность.
## Метод
Мы предлагаем PROPS (PROgressively Private Self-alignment), многоступенчатый фреймворк, который обеспечивает высокую личностную конфиденциальность через применение прогрессивного алгоритма самоориентированного выравнивания. Этот метод использует модели, которые были выравнены в предыдущих этапах, в качестве новых данных для тренировки в последующих этапах. Это позволяет уменьшить необходимость в человеческом вклинении на последних этапах алгоритма. Мы также применяем техники, такие как градиентный шум и защищенные методы обучения, для обеспечения конфиденциальности на уровне предпочтений. Архитектура PROPS включает в себя несколько моделей, которые обучаются в закрытом режиме и обмениваются данными для улучшения качества и конфиденциальности в целом.
## Результаты
Мы провели эксперименты с несколькими моделями, такими как Pythia и GPT, и использовали данные из баз данных, таких как AlpacaEval, Anthropic HH-RLHF, и truthy-dpo-v0.1. Наши результаты показали, что PROPS может достигать до 3 раза большей производительности в сравнении с DP-SGD и 2.5 раз большей производительности в сравнении с Randomized Response (RR) на одном и том же уровне конфиденциальности. Эти результаты подтверждают, что PROPS обеспечивает высокую конфиденциальность при улучшении моделируемой эффективности в сравнении с существующими методами. Мы также проверили, что PROPS сохраняет высокую точность в поддержке человеческих ценностей в диапазоне разных сценариев и задач.
## Значимость
Предлагаемый подход PROPS имеет широкие области применения в области юмора, защиты частных данных и социальных сетей, где необходимо соблюдать чувствительную конфиденциальность. Он предлагает преимущества в повышении качества результатов модели, у
Abstract
Alignment is a key step in developing Large Language Models (LLMs) using
human feedback to ensure adherence to human values and societal norms.
Dependence on human feedback raises privacy concerns about how much a labeler's
preferences may reveal about their personal values, beliefs, and personality
traits. Existing approaches, such as Differentially Private SGD (DP-SGD),
provide rigorous privacy guarantees by privatizing gradients during fine-tuning
and alignment but can provide more privacy than necessary as human preferences
are tied only to labels of (prompt, response) pairs and can degrade model
utility. This work focuses on LLM alignment with preference-level privacy,
which preserves the privacy of preference labels provided by humans. We propose
PROPS (PROgressively Private Self-alignment), a multi-stage privacy preserving
alignment framework where privately aligned models in previous stages can serve
as labelers for supplementing training data in the subsequent stages of
alignment. We present theoretical guarantees for PROPS as well as comprehensive
validation using multiple models (Pythia and GPT) and datasets (AlpacaEval,
Anthropic HH-RLHF, truthy-dpo-v0.1) to demonstrate the utility of PROPS over
existing methods while still providing high privacy. For the same privacy
budget, alignment via PROPS can achieve up to 3x higher win-rates compared to
DP-SGD, and 2.5x higher win-rates compared to Randomized Response (RR) based
alignment.