📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Diverse Text-to-Image Generation via Contrastive Noise Optimization

2025-10-08

Авторы:

Byungjun Kim, Soobin Um, Jong Chul Ye

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Text-to-image (T2I) diffusion models have demonstrated impressive performance in generating high-fidelity images, largely enabled by text-guided inference. However, this advantage often comes with a critical drawback: limited diversity, as outputs tend to collapse into similar modes under strong text guidance. Existing approaches typically optimize intermediate latents or text conditions during inference, but these methods deliver only modest gains or remain sensitive to hyperparameter tuning. I...

ID: 2510.03813v1 cs.GR, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Text Slider: Efficient and Plug-and-Play Continuous Concept Control for Image/Video Synthesis via LoRA Adapters

2025-09-25

Авторы:

Pin-Yen Chiu, I-Sheng Fang, Jun-Cheng Chen

#### Контекст Синтез изображений и видео посредством развитых моделей размытия (diffusion models) продемонстрировал заметный прогресс в области графического дизайна и генерации контента. Однако, несмотря на достижения в области синтеза изображений, остается вызов создания эффективных и гибких методов для контроля над текстовыми признаками. Одним из ключевых задач развития является достижение точного и прозрачного управления (fine-grained control) зависимостей между текстовыми признаками и результирующими изображениями. Существующие подходы, такие как Concept Slider и Attribute Control, требуют значительных ресурсов для обучения, ограничивая их производительность и повторное использование. Необходимость в этих преимуществах привела к разработке Text Slider — нового подхода, который устраняет ограничения существующих методов. #### Метод Text Slider представляет собой новую архитектуру, основанную на LoRA (Low-Rank Adaptation), которая позволяет модифицировать текстовые признаки в предварительно обученной модели текстового энкодера без необходимости долговременного обучения. Эта архитектура строится на том, чтобы идентифицировать низкоранговые направления в представлении текста, которые соответствуют конкретным визуальным признакам. Текстовый энкодер взаимодействует с моделью размытия с помощью этих адаптированных слайдеров, позволяя гибким и мгновенным изменению текстовых признаков в реальном времени. Данная методология позволяет сохранить прозрачность и поддерживать структуру входных данных, не требуя дорогостоящей переучетки модели. #### Результаты Результаты экспериментов показали, что Text Slider превосходит существующие подходы в эффективности. Он обеспечивает 5-кратное ускорение обучения по сравнению с Concept Slider и 47-кратное ускорение по сравнению с Attribute Control. Также, Text Slider требует гораздо меньшего количества памяти GPU, что позволяет его легко адаптировать к различным моделям размытия без дополнительных изменений. Эксперименты подтвердили, что Text Slider обеспечивает управление несколькими признаками с высоким качеством и насыщенностью, позволяя визуально очищать изображения и видео, сохраняя их структуру. #### Значимость Проект Text Slider может быть применен в различных областях, включая графический дизайн, видеомонтаж, приложения в реальном времени и образовательный контент. Его основные преимущества заключаются в том, что он предлагает более высокую производительность, гибкость и экономичность по сравнению с предыдущими подходами. В целом, это предлагает новые возможности для пользователей, позволяя легко управлять визуальными свойствами в реальном времени, в том числе для глубокой настройки

Annotation:

Recent advances in diffusion models have significantly improved image and video synthesis. In addition, several concept control methods have been proposed to enable fine-grained, continuous, and flexible control over free-form text prompts. However, these methods not only require intensive training time and GPU memory usage to learn the sliders or embeddings but also need to be retrained for different diffusion backbones, limiting their scalability and adaptability. To address these limitations,...

ID: 2509.18831v1 cs.GR, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 PhysHDR: When Lighting Meets Materials and Scene Geometry in HDR Reconstruction

2025-09-24

Авторы:

Hrishav Bakul Barua, Kalin Stefanov, Ganesh Krishnasamy, KokSheik Wong, Abhinav Dhall

#### Контекст Область исследования включает в себя задачу перевода Low Dynamic Range (LDR) в High Dynamic Range (HDR), которая является фундаментальной для многих приложений в области вычислительной графики и компьютерного зрения. Существующие методы, основанные на глубоких нейронных сетях, сталкиваются с ограничениями, так как не полностью учитывают взаимодействие световых характеристик, материалов и геометрии сцены. Эти факторы существенно влияют на точность и качество полученных HDR-изображений. В статье предлагается исследовать новый подход, который призван улучшить точность HDR-реконструкции, учитывая эти составляющие. #### Метод В ходе работы предложен метод под названием **PhysHDR**, основанный на технологии латентной диффузии. Он использует сверточные модели для денойсинга LDR-изображений с учетом информации о свете, глубине и материалах. Модель включает оригинальный генеративный процесс, который учитывает не только яркость и цвет, но и отражение и рассеяние света на различных материалах. Архитектура модели включает слои для учитывания материальных свойств и интеграции информации о глубине и отражении света. Это позволяет создавать более точные и физически достоверные HDR-изображения. #### Результаты В экспериментах использовались широкие данные LDR-HDR с различными материалами и световыми условиями. Метод PhysHDR был сравнен с несколькими современными методами, включая GAN-оптимизированные модели и синтетические методы. Результаты показали, что PhysHDR превосходит другие методы по метрикам качества и точности HDR-реконструкции. Особое внимание было уделено измерению визуального качества интерполированных HDR-изображений, где PhysHDR показал существенное преимущество. #### Значимость Предложенный подход может быть применен в различных областях, таких как виртуальная реальность, игровая индустрия, а также в приложениях для смартфонов и дронов. Одним из ключевых преимуществ является увеличение точности HDR-реконструкции за счет учета материальных свойств. Это может привести к более реалистичным изображениям в приложениях, где HDR-технологии играют ключевую роль. В будущем можно предположить расширение применения этой модели в автоматизированные системы, включающие в себя технологии распознавания и визуализации. #### Выводы PhysHDR доказал свою эффективность в HDR-реконструкции, обеспечивая более точные и физически достоверные результаты по сравнению с современными методами. Он подчеркнул важность учета материальных свойств и световых характеристик при реконструкции HDR-изображений. Будущими направлениями иссле

Annotation:

Low Dynamic Range (LDR) to High Dynamic Range (HDR) image translation is a fundamental task in many computational vision problems. Numerous data-driven methods have been proposed to address this problem; however, they lack explicit modeling of illumination, lighting, and scene geometry in images. This limits the quality of the reconstructed HDR images. Since lighting and shadows interact differently with different materials, (e.g., specular surfaces such as glass and metal, and lambertian or dif...

ID: 2509.16869v1 cs.GR, cs.AI, cs.CV, cs.LG, cs.MM, eess.IV, Artificial intelligence, Computer vision, Machine learning, Deep learning, I.3.3; I.4.5

arXiv PDF

📄 MeshSplat: Generalizable Sparse-View Surface Reconstruction via Gaussian Splatting

2025-08-27

Авторы:

Hanzhi Chang, Ruijie Zhu, Wenjie Chang, Mulin Yu, Yanzhe Liang, Jiahao Lu, Zhuoyuan Li, Tianzhu Zhang

## Контекст Одна из основных задач в области компьютерного зрения и графики — восстановление поверхностей. Несмотря на прогресс в этой области, существующие методы сталкиваются с трудностями при восстановлении точной геометрии сцены при очень существенном сокращении количества входных просмотров (sparse-view input). Это ограничивает применение этих методов в реальных сценариях, где данные могут быть неполными или недостаточно четкими. Мы предлагаем MeshSplat, новый подход к решению этой проблемы, основанный на идее использования 2D Gaussian Splatting (2DGS) как связующего звена между неучитываемым нового вида (novel view synthesis) и учтенной геометрической информацией. ## Метод MeshSplat использует 2DGS для предсказания изображений с новым видом и извлечения геометрических признаков. Шаг первый — обучение глубокой нейронной сети для предсказания 2DGS на основе входных просмотров. Второй шаг — использование прогнозируемых 2DGS для визуализации изображений с новым видом. Для точности предсказания входят в расчет Weighted Chamfer Distance Loss, который устраняет ложные минимумы в пространстве глубины, и Normal Prediction Network, которая регулирует ориентацию 2DGS в соответствии с нормальными векторами, вычисленными монокулярным сеткой. Эти компоненты обеспечивают точное восстановление геометрии сцены даже при очень существенном урезании количества входных просмотров. ## Результаты Мы проводили значительные эксперименты для проверки MeshSplat. Для этого использовались разнообразные данные, включая сцены с большим количеством просмотров и сцены, созданные с очень небольшим числом просмотров. Наши результаты показывают, что MeshSplat превосходит существующие методы по метрикам качества восстановления (например, Chamfer Distance и F-Score). Особое внимание уделено сценариям с малой доступной информацией, где метод MeshSplat показывает самые хорошие результаты. ## Значимость MeshSplat может применяться в различных областях, включая виртуальную реальность, анимацию, архитектурные модели и другие приложения, требующие точного восстановления геометрических форм на основе неполных входных данных. Основное преимущество MeshSplat заключается в его общивости и устойчивости к данным с малой доступностью, что делает его выгодным для реальных сценариев, когда входные данные не полны. Мы также выделяем потенциал MeshSplat в улучшении существующих технологий по визуализации и моделированию. ## Выводы MeshSplat представляет собой прорыв в области общивой реконструкции геометрии сцены при очень существенном сокращении количества просмотров. Мы продемонстировали его эффективность на различных сценах и данных. Наша работа

Annotation:

Surface reconstruction has been widely studied in computer vision and graphics. However, existing surface reconstruction works struggle to recover accurate scene geometry when the input views are extremely sparse. To address this issue, we propose MeshSplat, a generalizable sparse-view surface reconstruction framework via Gaussian Splatting. Our key idea is to leverage 2DGS as a bridge, which connects novel view synthesis to learned geometric priors and then transfers these priors to achieve sur...

ID: 2508.17811v1 cs.GR, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

2025-08-09

Авторы:

Seungyong Lee, Jeong-gi Kwak

## КОНТЕКСТ И ПРОБЛЕМАТИКА Виртуальный трай-он (virtual try-on) представляет собой технологию, позволяющую синтезировать реалистичное изображение человека в выбранной одежде, которая адаптируется к его фигуре и позе. Однако до сих пор одной из ключевых проблем в этой области остается точная моделирование соответствия между телом и одеждой, особенно при изменениях положения тела и внешнего вида. Традиционные подходы часто требуют специализированных сетей, дополнительных целей оптимизации или дополнительных меток, что увеличивает сложность и затраты вычислений. Мотивацией для исследования является необходимость разработки более универсального и эффективного решения, которое могло бы обеспечить высококачественный результат для обеих задач – виртуального трай-она и трай-оффа (удаления одежды) – в рамках единого фреймворка. Такой подход мог бы упростить процесс обучения и расширить возможности применения, обеспечивая лучшее понимание взаимодействия между одеждой и телом без необходимости дополнительных ресурсов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе авторы предлагают **Voost** – унифицированный и масштабируемый фреймворк, основанный на диффузионном трансформере, который совместно обучается на задачах виртуального трай-она и трай-оффа. Основная идея заключается в том, чтобы использовать обучение взаимно-двойному направлению (try-on и try-off) для улучшения моделирования взаимосвязи между телом и одеждой. Архитектура Voost основана на диффузионном трансформере, который позволяет эффективно обрабатывать контекстные зависимости и генерировать высококачественные изображения. Фреймворк поддерживает гибкую кондиционированию (conditioning) по направлению генерации (трай-он или трай-офф) и категории одежды. Это позволяет модели улучшить понимание взаимодействия между одеждой и телом без необходимости в специализированных сетей или дополнительных метках. Кроме того, авторы вводят два инновационных технических решения для улучшения качества генерации во время вывода (inference): 1. **Attention Temperature Scaling** – это техника, которая позволяет улучшить устойчивость модели к изменениям разрешения или масок, которые могут возникать в реальных условиях. 2. **Self-Corrective Sampling** – это метод, который использует двунаправленную консистентность между задачами трай-она и трай-оффа для самокоррекции выходных изображений, что повышает их точность и качество. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят обширные эксперименты, чтобы оценить эффективность Voost на различных датасетах и сравнить его с современными базовыми моделями. Используемые данные включают различные бенчмарки для задач трай-она и трай-оффа, которые позволяют оценить точность выравнивания, визуальную правдоподобность и общую обобщающую способность модели. Результаты показывают, что Voost достигает лучших результатов по сравнению с современными базовыми моделями. Он показывает значительное улучшение в точности выравнивания одежды относительно тела, а также визуальной фиделити (качество изображения) и общей обобщающей способности на различных датасетах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк Voost имеет широкое применение в области моды, ритейла и виртуального фитинга. Его способность выполнять оба направления – трай-он и трай-офф – в рамках одной модели делает его высоко эффективным и гибким инструментом для разработчиков и пользователей. Преимущества Voost включают в себя: - Улучшенное понимание взаимодействия между телом и одеждой. - Упрощенная модель без необходимости дополнительных сетей или меток. - Высокое качество генерации изображений с повышенной точностью и визуальной правдоподобностью. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен фреймворк **Voost**, который успешно решает проблему моделирования взаимодействия между телом и одеждой в задачах виртуального трай-она и трай-оффа. Данный подход не только достигает лучших результатов по сравнению с современными базовыми моделями, но также открывает новые возможности для будущих исследований в области виртуального фитинга. Будущие исследования могут фокусироваться на дальнейшем улучшении качества генерации, в том числе на расширении диапазона категорий одежды и поддержке более сложных поз и форм тела. Также могут быть исследованы новые методы оптимизации для дальнейшего повышения эффективности и качества вывода.

Annotation:

Virtual try-on aims to synthesize a realistic image of a person wearing a target garment, but accurately modeling garment-body correspondence remains a persistent challenge, especially under pose and appearance variation. In this paper, we propose Voost - a unified and scalable framework that jointly learns virtual try-on and try-off with a single diffusion transformer. By modeling both tasks jointly, Voost enables each garment-person pair to supervise both directions and supports flexible condi...

ID: 2508.04825v1 cs.GR, cs.AI, cs.CV, cs.LG

arXiv PDF