## Контекст
В последние годы искусственные нейронные сети, особенно большие языковые модели (LLMs), получили широкое распространение в различных областях, от применений в бизнесе до образовательных систем. Однако развитие этих моделей часто зависит от корректного выравнивания поведения модели в соответствии с человеческими ценностями и общественными нормами. Это процесс, называемый "alignment", требует использования человеческого вклинения в форме отзывов и фидбека, чтобы обучить модель подходить к решениям в соответствии с этими нормами. Однако, существующие методы, такие как Differentially Private SGD (DP-SGD), стремятся защитить чувствительные данные индивидуальных лейблеров, но это может привести к значительному снижению моделируемой модели. Исследователи сталкиваются с мотивацией для более балансированных подходов, которые не только защищают чувствительные данные, но и сохраняют высокую модельную эффективность.
## Метод
Мы предлагаем PROPS (PROgressively Private Self-alignment), многоступенчатый фреймворк, который обеспечивает высокую личностную конфиденциальность через применение прогрессивного алгоритма самоориентированного выравнивания. Этот метод использует модели, которые были выравнены в предыдущих этапах, в качестве новых данных для тренировки в последующих этапах. Это позволяет уменьшить необходимость в человеческом вклинении на последних этапах алгоритма. Мы также применяем техники, такие как градиентный шум и защищенные методы обучения, для обеспечения конфиденциальности на уровне предпочтений. Архитектура PROPS включает в себя несколько моделей, которые обучаются в закрытом режиме и обмениваются данными для улучшения качества и конфиденциальности в целом.
## Результаты
Мы провели эксперименты с несколькими моделями, такими как Pythia и GPT, и использовали данные из баз данных, таких как AlpacaEval, Anthropic HH-RLHF, и truthy-dpo-v0.1. Наши результаты показали, что PROPS может достигать до 3 раза большей производительности в сравнении с DP-SGD и 2.5 раз большей производительности в сравнении с Randomized Response (RR) на одном и том же уровне конфиденциальности. Эти результаты подтверждают, что PROPS обеспечивает высокую конфиденциальность при улучшении моделируемой эффективности в сравнении с существующими методами. Мы также проверили, что PROPS сохраняет высокую точность в поддержке человеческих ценностей в диапазоне разных сценариев и задач.
## Значимость
Предлагаемый подход PROPS имеет широкие области применения в области юмора, защиты частных данных и социальных сетей, где необходимо соблюдать чувствительную конфиденциальность. Он предлагает преимущества в повышении качества результатов модели, у