LifeAlign: Lifelong Alignment for Large Language Models with Memory-Augmented Focalized Preference Optimization
2509.17183v1
cs.CL, cs.AI, cs.LG
2025-09-24
Авторы:
Junsong Li, Jie Zhou, Bihao Zhan, Yutao Yang, Qianjun Pan, Shilian Chen, Tianyu Huai, Xin Li, Qin Chen, Liang He
Резюме на русском
## Контекст
Одна из ключевых проблем в области развития бо LLM (больших языковых моделей) является сохранение приоритетов пользователя при адаптации к новым задачам или доменам. Большинство предыдущих подходов страдают от проблемы "забывания" (catastrophic forgetting), когда модель теряет уже выученные сведения при усвоении новых. Это порождает проблему сохранения высокого качества предпочтений пользователя. Наша модель LifeAlign представляет собой новый подход к "живой" адаптации (lifelong alignment), которая позволяет модели управлять и сохранять предпочтения пользователя в процессе последовательного обучения. Наша модель может быть применена в различных сценариях, где необходимо постоянное соблюдение пользовательских предпочтений во время обучения модели.
## Метод
Метод LifeAlign основывается на двух основных компонентах. Первый - это **фокализованная оптимизация приоритетов (focalized preference optimization)**, которая позволяет модели изучать новые приоритеты без удаления старых. Второй - **консолидация короткосрочной памяти в долгосрочную** (short-to-long memory consolidation), которая использует техники сжатия с помощью уменьшения размерности. Эта техника позволяет модели хранить и эффективно использовать память, необходимую для сохранения предпочтений. Мы также оптимизировали процесс, который позволяет модели научиться новым приоритетам без ущерба для уже приобретенных. Эта архитектура достигает баланса между узкой направленностью и широкой гибкостью.
## Результаты
Мы проводили многочисленные эксперименты для оценки LifeAlign в сценариях, где необходимо учитывать последовательность изменений предпочтений. Мы использовали различные данные, включая тексты, задачи различных сфер, таких как медицина, технологии и финансы. Наши эксперименты показали, что LifeAlign превосходит другие методы в хранении предыдущих предпочтений, при этом поддерживая качество выдачи для новых задач. Мы также провели сравнительный анализ с другими подходами, показав, что LifeAlign показывает лучший результат в сохранении знаний и обеспечении качественного выполнения задач.
## Значимость
Мы видим применение LifeAlign в различных областях, где необходимо сохранение приоритетов в процессе работы с пользователями. Например, в сфере медицины модель может запоминать предпочтения врачей и пациентов для персонализированного лечения. В финансовой сфере модель может учитывать предпочтения инвесторов для оптимального распределения активов. Этот подход также может быть применен в области образования и интеллектуальных помощников, где модель будет персонализированно реагировать на пользователя. Это дает новые шансы для гибкого и эффективного использования моделей в реальных ситуациях.
## Выводы
LifeAlign представляет собой перс
Abstract
Alignment plays a crucial role in Large Language Models (LLMs) in aligning
with human preferences on a specific task/domain. Traditional alignment methods
suffer from catastrophic forgetting, where models lose previously acquired
knowledge when adapting to new preferences or domains. We introduce LifeAlign,
a novel framework for lifelong alignment that enables LLMs to maintain
consistent human preference alignment across sequential learning tasks without
forgetting previously learned knowledge. Our approach consists of two key
innovations. First, we propose a focalized preference optimization strategy
that aligns LLMs with new preferences while preventing the erosion of knowledge
acquired from previous tasks. Second, we develop a short-to-long memory
consolidation mechanism that merges denoised short-term preference
representations into stable long-term memory using intrinsic dimensionality
reduction, enabling efficient storage and retrieval of alignment patterns
across diverse domains. We evaluate LifeAlign across multiple sequential
alignment tasks spanning different domains and preference types. Experimental
results demonstrate that our method achieves superior performance in
maintaining both preference alignment quality and knowledge retention compared
to existing lifelong learning approaches. The codes and datasets will be
released on GitHub.
Ссылки и действия
Дополнительные ресурсы: