📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Pin-Yen Chiu, I-Sheng Fang, Jun-Cheng Chen
#### Контекст
Синтез изображений и видео посредством развитых моделей размытия (diffusion models) продемонстрировал заметный прогресс в области графического дизайна и генерации контента. Однако, несмотря на достижения в области синтеза изображений, остается вызов создания эффективных и гибких методов для контроля над текстовыми признаками. Одним из ключевых задач развития является достижение точного и прозрачного управления (fine-grained control) зависимостей между текстовыми признаками и результирующими изображениями. Существующие подходы, такие как Concept Slider и Attribute Control, требуют значительных ресурсов для обучения, ограничивая их производительность и повторное использование. Необходимость в этих преимуществах привела к разработке Text Slider — нового подхода, который устраняет ограничения существующих методов.
#### Метод
Text Slider представляет собой новую архитектуру, основанную на LoRA (Low-Rank Adaptation), которая позволяет модифицировать текстовые признаки в предварительно обученной модели текстового энкодера без необходимости долговременного обучения. Эта архитектура строится на том, чтобы идентифицировать низкоранговые направления в представлении текста, которые соответствуют конкретным визуальным признакам. Текстовый энкодер взаимодействует с моделью размытия с помощью этих адаптированных слайдеров, позволяя гибким и мгновенным изменению текстовых признаков в реальном времени. Данная методология позволяет сохранить прозрачность и поддерживать структуру входных данных, не требуя дорогостоящей переучетки модели.
#### Результаты
Результаты экспериментов показали, что Text Slider превосходит существующие подходы в эффективности. Он обеспечивает 5-кратное ускорение обучения по сравнению с Concept Slider и 47-кратное ускорение по сравнению с Attribute Control. Также, Text Slider требует гораздо меньшего количества памяти GPU, что позволяет его легко адаптировать к различным моделям размытия без дополнительных изменений. Эксперименты подтвердили, что Text Slider обеспечивает управление несколькими признаками с высоким качеством и насыщенностью, позволяя визуально очищать изображения и видео, сохраняя их структуру.
#### Значимость
Проект Text Slider может быть применен в различных областях, включая графический дизайн, видеомонтаж, приложения в реальном времени и образовательный контент. Его основные преимущества заключаются в том, что он предлагает более высокую производительность, гибкость и экономичность по сравнению с предыдущими подходами. В целом, это предлагает новые возможности для пользователей, позволяя легко управлять визуальными свойствами в реальном времени, в том числе для глубокой настройки
Annotation:
Recent advances in diffusion models have significantly improved image and
video synthesis. In addition, several concept control methods have been
proposed to enable fine-grained, continuous, and flexible control over
free-form text prompts. However, these methods not only require intensive
training time and GPU memory usage to learn the sliders or embeddings but also
need to be retrained for different diffusion backbones, limiting their
scalability and adaptability. To address these limitations,...
Авторы:
Hrishav Bakul Barua, Kalin Stefanov, Ganesh Krishnasamy, KokSheik Wong, Abhinav Dhall
#### Контекст
Область исследования включает в себя задачу перевода Low Dynamic Range (LDR) в High Dynamic Range (HDR), которая является фундаментальной для многих приложений в области вычислительной графики и компьютерного зрения. Существующие методы, основанные на глубоких нейронных сетях, сталкиваются с ограничениями, так как не полностью учитывают взаимодействие световых характеристик, материалов и геометрии сцены. Эти факторы существенно влияют на точность и качество полученных HDR-изображений. В статье предлагается исследовать новый подход, который призван улучшить точность HDR-реконструкции, учитывая эти составляющие.
#### Метод
В ходе работы предложен метод под названием **PhysHDR**, основанный на технологии латентной диффузии. Он использует сверточные модели для денойсинга LDR-изображений с учетом информации о свете, глубине и материалах. Модель включает оригинальный генеративный процесс, который учитывает не только яркость и цвет, но и отражение и рассеяние света на различных материалах. Архитектура модели включает слои для учитывания материальных свойств и интеграции информации о глубине и отражении света. Это позволяет создавать более точные и физически достоверные HDR-изображения.
#### Результаты
В экспериментах использовались широкие данные LDR-HDR с различными материалами и световыми условиями. Метод PhysHDR был сравнен с несколькими современными методами, включая GAN-оптимизированные модели и синтетические методы. Результаты показали, что PhysHDR превосходит другие методы по метрикам качества и точности HDR-реконструкции. Особое внимание было уделено измерению визуального качества интерполированных HDR-изображений, где PhysHDR показал существенное преимущество.
#### Значимость
Предложенный подход может быть применен в различных областях, таких как виртуальная реальность, игровая индустрия, а также в приложениях для смартфонов и дронов. Одним из ключевых преимуществ является увеличение точности HDR-реконструкции за счет учета материальных свойств. Это может привести к более реалистичным изображениям в приложениях, где HDR-технологии играют ключевую роль. В будущем можно предположить расширение применения этой модели в автоматизированные системы, включающие в себя технологии распознавания и визуализации.
#### Выводы
PhysHDR доказал свою эффективность в HDR-реконструкции, обеспечивая более точные и физически достоверные результаты по сравнению с современными методами. Он подчеркнул важность учета материальных свойств и световых характеристик при реконструкции HDR-изображений. Будущими направлениями иссле
Annotation:
Low Dynamic Range (LDR) to High Dynamic Range (HDR) image translation is a
fundamental task in many computational vision problems. Numerous data-driven
methods have been proposed to address this problem; however, they lack explicit
modeling of illumination, lighting, and scene geometry in images. This limits
the quality of the reconstructed HDR images. Since lighting and shadows
interact differently with different materials, (e.g., specular surfaces such as
glass and metal, and lambertian or dif...