Text Slider: Efficient and Plug-and-Play Continuous Concept Control for Image/Video Synthesis via LoRA Adapters
2509.18831v1
cs.GR, cs.AI, cs.CV, cs.LG, cs.MM
2025-09-25
Авторы:
Pin-Yen Chiu, I-Sheng Fang, Jun-Cheng Chen
Резюме на русском
#### Контекст
Синтез изображений и видео посредством развитых моделей размытия (diffusion models) продемонстрировал заметный прогресс в области графического дизайна и генерации контента. Однако, несмотря на достижения в области синтеза изображений, остается вызов создания эффективных и гибких методов для контроля над текстовыми признаками. Одним из ключевых задач развития является достижение точного и прозрачного управления (fine-grained control) зависимостей между текстовыми признаками и результирующими изображениями. Существующие подходы, такие как Concept Slider и Attribute Control, требуют значительных ресурсов для обучения, ограничивая их производительность и повторное использование. Необходимость в этих преимуществах привела к разработке Text Slider — нового подхода, который устраняет ограничения существующих методов.
#### Метод
Text Slider представляет собой новую архитектуру, основанную на LoRA (Low-Rank Adaptation), которая позволяет модифицировать текстовые признаки в предварительно обученной модели текстового энкодера без необходимости долговременного обучения. Эта архитектура строится на том, чтобы идентифицировать низкоранговые направления в представлении текста, которые соответствуют конкретным визуальным признакам. Текстовый энкодер взаимодействует с моделью размытия с помощью этих адаптированных слайдеров, позволяя гибким и мгновенным изменению текстовых признаков в реальном времени. Данная методология позволяет сохранить прозрачность и поддерживать структуру входных данных, не требуя дорогостоящей переучетки модели.
#### Результаты
Результаты экспериментов показали, что Text Slider превосходит существующие подходы в эффективности. Он обеспечивает 5-кратное ускорение обучения по сравнению с Concept Slider и 47-кратное ускорение по сравнению с Attribute Control. Также, Text Slider требует гораздо меньшего количества памяти GPU, что позволяет его легко адаптировать к различным моделям размытия без дополнительных изменений. Эксперименты подтвердили, что Text Slider обеспечивает управление несколькими признаками с высоким качеством и насыщенностью, позволяя визуально очищать изображения и видео, сохраняя их структуру.
#### Значимость
Проект Text Slider может быть применен в различных областях, включая графический дизайн, видеомонтаж, приложения в реальном времени и образовательный контент. Его основные преимущества заключаются в том, что он предлагает более высокую производительность, гибкость и экономичность по сравнению с предыдущими подходами. В целом, это предлагает новые возможности для пользователей, позволяя легко управлять визуальными свойствами в реальном времени, в том числе для глубокой настройки
Abstract
Recent advances in diffusion models have significantly improved image and
video synthesis. In addition, several concept control methods have been
proposed to enable fine-grained, continuous, and flexible control over
free-form text prompts. However, these methods not only require intensive
training time and GPU memory usage to learn the sliders or embeddings but also
need to be retrained for different diffusion backbones, limiting their
scalability and adaptability. To address these limitations, we introduce Text
Slider, a lightweight, efficient and plug-and-play framework that identifies
low-rank directions within a pre-trained text encoder, enabling continuous
control of visual concepts while significantly reducing training time, GPU
memory consumption, and the number of trainable parameters. Furthermore, Text
Slider supports multi-concept composition and continuous control, enabling
fine-grained and flexible manipulation in both image and video synthesis. We
show that Text Slider enables smooth and continuous modulation of specific
attributes while preserving the original spatial layout and structure of the
input. Text Slider achieves significantly better efficiency: 5$\times$ faster
training than Concept Slider and 47$\times$ faster than Attribute Control,
while reducing GPU memory usage by nearly 2$\times$ and 4$\times$,
respectively.