📚 Саммари научных статей из arXiv

Найдено 31 результатов по запросу 'cs.GR, cs.AI, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SVGauge: Towards Human-Aligned Evaluation for SVG Generation

2025-09-11

Авторы:

Leonardo Zini, Elia Frigieri, Sebastiano Aloscari, Marcello Generali, Lorenzo Dodi, Robert Dosen, Lorenzo Baraldi

## Контекст В последнее время текстово-ориентированные системы генерации изображений (Text-to-Image) получили большое внимание в области искусственного интеллекта. Однако появление новых типов изображений, таких как графика в векторном виде (SVG), предложило новые вызовы для эффективной и точной оценки. Реалистичные SVG-изображения, генерируемые с помощью текстовых запросов, требуют метрик, которые учитывают их символические и векторно-графические особенности. Отсутствие подходящих метрик привело к существующей проблеме: традиционные метрики, такие как FID и CLIPScore, не могут точно оценивать качество SVG-изображений. Это привело к необходимости в разработке специализированных методов, которые могут точно оценивать качество SVG-графики, созданной с помощью текстовых запросов. ## Метод Система SVGauge предлагает два ключевых компонента для оценки текстово-ориентированных SVG-изображений. В первую очередь, для измерения **визуальной точности** используется SigLIP-метрика, которая извлекает эмбеддинги из изображений и использует PCA и метод whitening для дополнительной нормализации. Во вторую очередь, для измерения **семантической согласованности** используется совместное пространство SBERT и TF-IDF, где сравниваются описания SVG-изображений, сгенерированные с помощью BLIP-2, с исходными запросами текста. Эти два компонента объединены в единую метрику, которая может эффективно оценивать как визуальное качество, так и семантическую согласованность SVG-изображений. ## Результаты Исследование было проведено на базе подробного SHE-бенчмарка, содержащего 8000 SVG-изображений, созданных 8 различными текстово-ориентированными LLM-генераторами. SVGauge была сравнена с традиционными метриками, такими как FID, LPIPS и CLIPScore. Результаты показывают, что SVGauge достигает наивысшей корреляции с результатами человеческого оценивания и лучше всего воспроизводит системно-уровневые рейтинги по сравнению с другими метриками. Это подтверждает не только эффективность SVGauge в оценке качества SVG-изображений, но также то, что она учитывает уникальные свойства этого типа графики. ## Значимость SVGauge представляет собой первую метрику, которая адаптирована для векторного изображения, и может быть применена в различных задачах, таких как оценка качества генераторов SVG, анализ систем текстово-ориентированной генерации изображений и развитие новых алгоритмов. SVGauge не только улучшает точность оценки, но и обеспечивает практические возможности для улучшения моделей генерации изображений. В будущем, SVGauge может стать ключевым инструментом для оценки качества генераторов

Annotation:

Generated Scalable Vector Graphics (SVG) images demand evaluation criteria tuned to their symbolic and vectorial nature: criteria that existing metrics such as FID, LPIPS, or CLIPScore fail to satisfy. In this paper, we introduce SVGauge, the first human-aligned, reference based metric for text-to-SVG generation. SVGauge jointly measures (i) visual fidelity, obtained by extracting SigLIP image embeddings and refining them with PCA and whitening for domain alignment, and (ii) semantic consistency...

ID: 2509.07127v1 cs.GR, cs.AI, cs.CV

arXiv PDF

📄 HodgeFormer: Transformers for Learnable Operators on Triangular Meshes through Data-Driven Hodge Matrices

2025-09-05

Авторы:

Akis Nousias, Stavros Nousias

########################## ## Контекст ########################## Область данных исследований относится к методам машинного обучения для анализа трехмерных моделей, таких как мешы. Несмотря на прогрессы в этой области, существуют проблемы, связанные с вычислительной сложностью и неэффективностью используемых моделей. Традиционные Transformer-архитектуры для анализа трехмерных моделей опираются на спектральные признаки, полученные через эйнштейновское декомпозиция, что требует вычислительных ресурсов и длительного времени. Для улучшения эффективности использования ресурсов, а также для того, чтобы создать модель, которая могла бы более эффективно интепретировать меш-структуры, было предложено использовать более природные подходы, призванные упростить вычисления и уменьшить необходимость в спектральных методах. ########################## ## Метод ########################## В ходе работы разработана новая архитектура, использующая Hodge Laplacian operator, который является произведением дискретных Hodge операторов и внешних дифференциалов. Эта модель основывается на понятиях Discrete Exterior Calculus (DEC) и предлагает новую методологию для кодирования меша. Архитектура Transformer настроена таким образом, чтобы модель могла учитывать Hodge матрицы $\star_0$, $\star_1$ и $\star_2$, которые являются составляющими частями уравнений Hodge. Таким образом, алгоритм может вычислять дискретные операторы $L$ без необходимости в операциях типа эйнштейновского декомпозиции. Это решение позволяет сократить вычислительные затраты и обеспечивает более эффективное обучение. ########################## ## Результаты ########################## Результаты экспериментов показывают, что новая модель, HodgeFormer, демонстрирует похожую эффективность в задачах классификации и сегментации мешей, в сравнении с традиционными моделями. Однако, в отличие от них, HodgeFormer не требует дорогостоящих операций спектрального декомпозиции, что делает ее более эффективной в плане ресурсов. Эксперименты проводились на наборе данных с различными трехмерными моделями, и результаты показали, что модель HodgeFormer не только экономит ресурсы, но и демонстрирует высокую точность в задачах анализа трехмерных моделей. ########################## ## Значимость ########################## Предлагаемая модель HodgeFormer может быть применена в различных областях, где требуется анализ трехмерных моделей, таких как визуальные системы, медицинская имиджметрия, геоинформатика и другие. Наиболее заметными преимуществами являются сокращение вычислительных затрат, улучшение производительности и упрощение процесса обучения. Эта модель также открывает пути для будущих исследований в области дискретных методов анализа трехмерных моделей, в том числе в рамках других машинного обучения. ##########################

Annotation:

Currently, prominent Transformer architectures applied on graphs and meshes for shape analysis tasks employ traditional attention layers that heavily utilize spectral features requiring costly eigenvalue decomposition-based methods. To encode the mesh structure, these methods derive positional embeddings, that heavily rely on eigenvalue decomposition based operations, e.g. on the Laplacian matrix, or on heat-kernel signatures, which are then concatenated to the input features. This paper propose...

ID: 2509.01839v2 cs.GR, cs.AI, cs.CV

arXiv PDF

📄 LuxDiT: Lighting Estimation with Video Diffusion Transformer

2025-09-05

Авторы:

Ruofan Liang, Kai He, Zan Gojcic, Igor Gilitschenski, Sanja Fidler, Nandita Vijaykumar, Zian Wang

## Контекст Оценка сценической подсветки (lighting estimation) из отдельных изображений или видео является важной задачей в области компьютерного зрения и графики. Эта задача находит применение в различных прикладных областях, включая виртуальную реальность, игровой дизайн и видеоредактирование. Однако она сталкивается с значительными вызовами. Одним из основных ограничений является недостаток качественных данных с прямыми измерениями HDR-окружающей подсветки, которые сложно получить и имеют ограниченную разнообразие. Кроме того, существующие методы часто сталкиваются с проблемами, такими как нехватка локальных и глобальных контекстов, необходимость восстановить высокодинамические выходные данные и ограниченная точность. Наша мотивация заключается в развитии более точного и общегруппового подхода к этой задаче, который может обрабатывать изображения и видео, а также эффективно использовать генерируемые модели для повышения точности. ## Метод Мы предлагаем LuxDiT (Lighting Estimation with Video Diffusion Transformer), полностью данно-зависимый подход для оценки подсветки. Наша модель основывается на инновационной архитектуре Video Diffusion Transformer, которая развивает текущие достижения в области размытия для потоков видео. В рамках этого подхода мы учитываем формирование глобального контекста и интерпретацию нелокальных признаков. Для того, чтобы сделать модель более адаптивной к реальным сценам, мы тренируем ее на большом синтетическом наборе данных, содержащем различные окружения и светящиеся источники. Для повышения точности семантического выравнивания мы вводим технику низкоранговой адаптации на основе HDR-панорам, чтобы улучшить соответствие между входным изображением и сгенерированной HDR-картой окружения. Эта стратегия позволяет улучшить не только точность, но и реалистичность выходных данных. ## Результаты Мы проводили подробные эксперименты для оценки эффективности нашего подхода. Используя стандартные точные метрики для HDR-карт окружения, такие как PSNR, SSIM и LPIPS, мы сравнили LuxDiT с текущими лидерами в этой области. Результаты показали, что в наших экспериментах на реальных сценах наш метод превосходит существующие варианты как в качестве оценки, так и в зрительном восприятии. Мы также провели исследования по сравнению с генерируемыми моделями и продемонстрировали, что LuxDiT эффективно интерпретирует контекстный компонент и поддерживает высокую точность в локальных и глобальных задачах. Данные результаты подтверждают мощность и гибкость нашего подхода. ## Значимость Предложенный подход имеет широкое применение в различных прикладных областях. Он может быть использован в виртуальной реальности для повышения реали

Annotation:

Estimating scene lighting from a single image or video remains a longstanding challenge in computer vision and graphics. Learning-based approaches are constrained by the scarcity of ground-truth HDR environment maps, which are expensive to capture and limited in diversity. While recent generative models offer strong priors for image synthesis, lighting estimation remains difficult due to its reliance on indirect visual cues, the need to infer global (non-local) context, and the recovery of high-...

ID: 2509.03680v1 cs.GR, cs.AI, cs.CV

arXiv PDF

📄 Mixture of Contexts for Long Video Generation

2025-08-30

Авторы:

Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein

#### Контекст Генерация длительных видео — это задача, требующая умения сохранять и восстанавливать важные события на протяжении долгого временного интервала. Существующие подходы, основанные на диффузионных трансформерах, сталкиваются с тем, что квадратичная стоимость самообращения приводит к проблемам с памятью и вычислительным временем при работе с длинными последовательностями. Это ограничивает эффективность и возможность применения таких моделей в реальных сценариях. Наша модель Mixture of Contexts (MoC) предлагает рефреймеринг проблемы длинного контекста в роли задачи внутреннего восстановления информации, что позволяет устранить ограничения, связанные с самообращением. #### Метод Модель MoC использует простую, но эффективную механику динамического спарсинга, которая позволяет модели выбирать только самые актуальные чанки информации из большого контекста. Механизм отбора активных чанков называется "causal routing" и предотвращает зацикливание. Такой подход эффективен в терминах вычислительных ресурсов, так как уменьшает необходимую память и увеличивает мощность модели в задаче длинного контекста. Модель обучается на больших данных и постепенно спарсивается для оптимального баланса между памятью и вычислительной сложностью. #### Результаты Мы проводили эксперименты на различных датасетах, включающих видео различной длительности. Модель показала эффективность в сохранении консистентности идентичностей, действий и сцен на протяжении минут работы. Мы сравнили результаты с другими моделями, показав значительное улучшение в качестве генерации, особенно при увеличении длительности видео. Также мы провели исследования по внедрению модели в реальные сценарии, где потребность в длинных видео-потоках критична. #### Значимость Модель MoC может применяться в различных областях, включая создание длинных роликов для социальных сетей, автоматическую синтезированную трансляцию мероприятий, и даже видео-редактирование. Одним из основных преимуществ является наиболее эффективный по сравнению с другими моделями использование ресурсов, что позволяет генерировать длинные видео в реальном времени. Это открывает новые горизонты для применения AI в широких сферах, от домашнего видео-редактирования до коммерческих применений. #### Выводы Мы доказали, что модель MoC эффективно решает проблему длинного контекста в генерации видео, обеспечивая высокую эффективность и качество. Намерение нашей команды — продолжать работу над улучшением модели, в том числе увеличивая ее масштаб и улучшая качество генерируемых видео. Мы также планируем рассмотреть модель в различных ко

Annotation:

Long video generation is fundamentally a long context memory problem: models must retain and retrieve salient events across a long range without collapsing or drifting. However, scaling diffusion transformers to generate long-context videos is fundamentally limited by the quadratic cost of self-attention, which makes memory and computation intractable and difficult to optimize for long sequences. We recast long-context video generation as an internal information retrieval task and propose a simp...

ID: 2508.21058v1 cs.GR, cs.AI, cs.CV

arXiv PDF

📄 MeshSplat: Generalizable Sparse-View Surface Reconstruction via Gaussian Splatting

2025-08-27

Авторы:

Hanzhi Chang, Ruijie Zhu, Wenjie Chang, Mulin Yu, Yanzhe Liang, Jiahao Lu, Zhuoyuan Li, Tianzhu Zhang

## Контекст Одна из основных задач в области компьютерного зрения и графики — восстановление поверхностей. Несмотря на прогресс в этой области, существующие методы сталкиваются с трудностями при восстановлении точной геометрии сцены при очень существенном сокращении количества входных просмотров (sparse-view input). Это ограничивает применение этих методов в реальных сценариях, где данные могут быть неполными или недостаточно четкими. Мы предлагаем MeshSplat, новый подход к решению этой проблемы, основанный на идее использования 2D Gaussian Splatting (2DGS) как связующего звена между неучитываемым нового вида (novel view synthesis) и учтенной геометрической информацией. ## Метод MeshSplat использует 2DGS для предсказания изображений с новым видом и извлечения геометрических признаков. Шаг первый — обучение глубокой нейронной сети для предсказания 2DGS на основе входных просмотров. Второй шаг — использование прогнозируемых 2DGS для визуализации изображений с новым видом. Для точности предсказания входят в расчет Weighted Chamfer Distance Loss, который устраняет ложные минимумы в пространстве глубины, и Normal Prediction Network, которая регулирует ориентацию 2DGS в соответствии с нормальными векторами, вычисленными монокулярным сеткой. Эти компоненты обеспечивают точное восстановление геометрии сцены даже при очень существенном урезании количества входных просмотров. ## Результаты Мы проводили значительные эксперименты для проверки MeshSplat. Для этого использовались разнообразные данные, включая сцены с большим количеством просмотров и сцены, созданные с очень небольшим числом просмотров. Наши результаты показывают, что MeshSplat превосходит существующие методы по метрикам качества восстановления (например, Chamfer Distance и F-Score). Особое внимание уделено сценариям с малой доступной информацией, где метод MeshSplat показывает самые хорошие результаты. ## Значимость MeshSplat может применяться в различных областях, включая виртуальную реальность, анимацию, архитектурные модели и другие приложения, требующие точного восстановления геометрических форм на основе неполных входных данных. Основное преимущество MeshSplat заключается в его общивости и устойчивости к данным с малой доступностью, что делает его выгодным для реальных сценариев, когда входные данные не полны. Мы также выделяем потенциал MeshSplat в улучшении существующих технологий по визуализации и моделированию. ## Выводы MeshSplat представляет собой прорыв в области общивой реконструкции геометрии сцены при очень существенном сокращении количества просмотров. Мы продемонстировали его эффективность на различных сценах и данных. Наша работа

Annotation:

Surface reconstruction has been widely studied in computer vision and graphics. However, existing surface reconstruction works struggle to recover accurate scene geometry when the input views are extremely sparse. To address this issue, we propose MeshSplat, a generalizable sparse-view surface reconstruction framework via Gaussian Splatting. Our key idea is to leverage 2DGS as a bridge, which connects novel view synthesis to learned geometric priors and then transfers these priors to achieve sur...

ID: 2508.17811v1 cs.GR, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 PreSem-Surf: RGB-D Surface Reconstruction with Progressive Semantic Modeling and SG-MLP Pre-Rendering Mechanism

2025-08-21

Авторы:

Yuyan Ye, Hang Xu, Yanghang Huang, Jiali Huang, Qian Weng

## Контекст Современные технологии в области распознавания объектов и строительства трехмерных моделей с сенсорных данных RGB-D становятся все более востребованными в приложениях, таких как видеореалистичные игры, виртуальная реальность и проектирование внутренних пространств. Однако существуют проблемы, связанные с неэффективностью, долгой обработкой и недостаточной точностью существующих методов. Эти приложения требуют методов, которые могут быстро и точно восстановить трехмерные сцены, учитывая как цветные изображения, так и глубинные данные, а также информацию о семантической принадлежности объектов. Таким образом, существует необходимость в развитии эффективных методов восстановления трехмерных сцен, которые могут быстро обрабатывать данные и поддерживать высокую точность. ## Метод Метод PreSem-Surf основывается на NeRF-фреймворке и предлагает расширенный подход к восстановлению трехмерных сцен. Он использует RGB-D потоки данных и интегрирует RGB-, depth- и semantic-данные для улучшения восстановления. Метод включает прогрессивную семантическую модель для точного извлечения семантической информации на разных уровнях. Основной инновацией является интеграция SG-MLP (Structured Gated Multi-Layer Perceptron) вместе с PR-MLP (Preconditioning Multilayer Perceptron) для эффективного предварительного ранжирования voxel-данных. Это позволяет модели быстрее отфильтровать шум и улучшить точность распознавания локальных деталей. SG-MLP и PR-MLP работают вместе для улучшения процесса предварительной обработки данных и повышения общей эффективности. ## Результаты Результаты экспериментов проводились на семи синтетических сценах с использованием шести разных метрик (C-L1, F-score, IoU, NC, Accuracy, Completeness). Результаты показали, что PreSem-Surf показал лучшие результаты в C-L1, F-score и IoU, показав высокую точность восстановления поверхностей. Он также показал конкурентные результаты в NC, Accuracy и Completeness, демонстрируя широкую применимость и эффективность в различных сценах. Эти результаты подтверждают то, что PreSem-Surf эффективен в быстром восстановлении трехмерных сцен из RGB-D потоков данных. ## Значимость Метод PreSem-Surf может быть применен в различных областях, таких как виртуальная реальность, видеоигры, проектирование интерьеров и архитектура. Он предоставляет высокую точность и быструю обработку данных, что делает его идеальным для использования в реальном времени. Благодаря использованию семантической информации, PreSem-Surf также обеспечивает лучшее понимание сцены, что может использоваться для улучшения дальнейшего визуального моделирования и анализа. Помимо этого, способность модели быстро отфиль

Annotation:

This paper proposes PreSem-Surf, an optimized method based on the Neural Radiance Field (NeRF) framework, capable of reconstructing high-quality scene surfaces from RGB-D sequences in a short time. The method integrates RGB, depth, and semantic information to improve reconstruction performance. Specifically, a novel SG-MLP sampling structure combined with PR-MLP (Preconditioning Multilayer Perceptron) is introduced for voxel pre-rendering, allowing the model to capture scene-related information ...

ID: 2508.13228v1 cs.GR, cs.AI, cs.CV, eess.IV

arXiv PDF

📄 StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image Translation

2025-08-19

Авторы:

Seungmi Lee, Kwan Yun, Junyong Noh

#### Контекст В последние годы становится все более актуальным создание реалистичных 3D моделей лиц, которые могут генерироваться и контролироваться с помощью текстовых описаний. Этот подход используется в различных областях, включая анимацию, виртуальную реальность и генерирование искусственных изображений. Однако существуют значительные проблемы, связанные с надежностью генерирования, сохранением лицевых атрибутов и стилизацией. Недостаточное сохранение идентичности, изменение выражений и морфологические сдвиги в 3D моделях ограничивают применение таких технологий. Целью настоящего исследования является построение модели, которая не только стилизует 3D модели лиц, но и сохраняет ключевые лицевые особенности, такие как идентичность и выражение. #### Метод Предложенный подход, StyleMM, основан на текстово-движущем переводе изображений с использованием диффузионной модели. Исходными данными являются реалистичные 3D модели лиц, построенные на основе текстов, которые используются для генерирования 3D моделей с текстурами и стилями. Для поддержания лицевых атрибутов во время стилизации, вводится метод, который использует меш-деформационную сеть и генератор текстур лиц. Эти модели предварительно обучены на больших данных реальных лиц, что позволяет их быстро адаптировать к новым стилям. Для обеспечения сохранения выражений и аналитической структуры во время трансформации вводятся специальные методы разметки и алгоритмы аргументации, которые уменьшают нежелательные изменения. #### Результаты Эксперименты проводились на трёх наборах данных, включая реальные лица и синтетически сгенерированные изображения. Метод StyleMM был сравнен с двумя современными подходами в области стилизации 3D моделей. Результаты показали, что StyleMM превосходит конкуренты в плане разнообразия идентичности и стилизации. Также было показано, что модель может сохранять лицевые атрибуты во время стилизации и эффективно контролировать глубину стилизации. Таким образом, StyleMM показал себя как метод, сочетающий высокую стилизационную гибкость и надежность в сохранении лицевых особенностей. #### Значимость Предложенный подход может быть применен в различных областях, включая виртуальную реальность, игровые индустрии, анимацию и генерирование искусственных лиц. Основное преимущество StyleMM заключается в его способности сохранять лицевые атрибуты во время стилизации, что отсутствует в других подходах. Это делает технологию привлекательной для сценариев, где важно сохранение идентичности и выражений. Кроме то

Annotation:

We introduce StyleMM, a novel framework that can construct a stylized 3D Morphable Model (3DMM) based on user-defined text descriptions specifying a target style. Building upon a pre-trained mesh deformation network and a texture generator for original 3DMM-based realistic human faces, our approach fine-tunes these models using stylized facial images generated via text-guided image-to-image (i2i) translation with a diffusion model, which serve as stylization targets for the rendered mesh. To pre...

ID: 2508.11203v1 cs.GR, cs.AI, cs.CV, cs.MM, 51-04, I.3.8; I.4.9

arXiv PDF

📄 Spatiotemporally Consistent Indoor Lighting Estimation with Diffusion Priors

2025-08-14

Авторы:

Mutian Tong, Rundi Wu, Changxi Zheng

#### Контекст Оценка внутреннего освещения из одного изображения или видео представляет собой сложную задачу, особенно когда условия освещения в сцене изменяются с параллелизмом и временем. Эта проблема важна для различных приложений, таких как виртуальная реальность, анимация, интерьерная дизайнерская практика. Несмотря на развитие нейросетевых подходов, оценка освещения внутренних пространств остается сложной из-за отсутствия достаточного количества представлений света для обучения. Мы предлагаем метод, который оценивает свет, пронизывающий конкретное время и место, в виде непрерывного поля света, которое может описывать пространственно-временные изменения. #### Метод Мы предлагаем способ оценки освещения внутренних пространств с помощью квази-константного света, разделенного на непрерывное поле по времени и пространству. Метод основывается на применении 2D-размытия для оптимизации света, представленного в виде сети нейронных сетей MLP. Для обеспечения нулевого обучения к сценам в жизненном окружении мы применяем подготовленный к большому объему данных модель размытия изображений, чтобы предсказать освещение в разных местах, используя несколько шаров в виде цельных центров света. Мы осуществляем оценку наших результатов в сценах внутренних пространств из изображений и видео, сравнивая с текущими способами, и получаем значительные улучшения, особенно в сфере непрерывности времени и пространства. #### Результаты Мы проводили эксперименты на различных видеосценах внутренних пространств, которые представляют собой сложные сеточные значения. Наш метод показал значительное превосходство по сравнению с другими подходами в том числе по измерениям качества и точности оценки света в пространстве и времени. Мы демонстрируем то, как наш метод предсказывает освещение в различных расположениях в реальных сценах внутренних пространств, которое представляет собой задачу в жизненных условиях. #### Значимость Метод может быть использован в сфере виртуальной реальности, видеоредактирования, а также в дизайне интерьера. Он демонстрирует способность к точной, специальной оценке освещения в реальных видео, что значительно расширяет потенциал в пользовательских приложениях. Мы также показываем, что наш подход может быть применен в качестве важного инструмента для будущих исследований в области интерьерного освещения. #### Выводы Мы предложили метод, который оценивает пространственно-временное освещение внутренних пространств с помощью непрерывного поля света, основанного на размытии. Мы демонстрируем улучшения в подходе к задаче об оценке освещения в реальных видео, что демонстрирует больш

Annotation:

Indoor lighting estimation from a single image or video remains a challenge due to its highly ill-posed nature, especially when the lighting condition of the scene varies spatially and temporally. We propose a method that estimates from an input video a continuous light field describing the spatiotemporally varying lighting of the scene. We leverage 2D diffusion priors for optimizing such light field represented as a MLP. To enable zero-shot generalization to in-the-wild scenes, we fine-tune a p...

ID: 2508.08384v1 cs.GR, cs.AI, cs.CV

arXiv PDF

📄 Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer

2025-08-14

Авторы:

Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Lei Zhang, Heung-Yeung Shum

#### Контекст Текст-управляемое редактирование цвета изображений и видео является ключевым, но еще не решенным проблемой в области компьютерного зрения. Оно предполагает тонкую манипуляцию цветных атрибутов, таких как призма, цвет источника света и освещение, при этом сохраняя физическую консистенцию в геометрии, материальных свойствах и взаимодействиях света с материалом. Существующие методы, особенно те, которые не требуют обучения, оказываются применимы в широком круге задач, однако часто страдают от недостаточной точности управления цветом и внешних несоответствиям в редактируемых и не редактируемых областях. Целью нашей работы является развитие метода, который обеспечивает точность и консистентность в цветовом редактировании без необходимости тренировочных данных, расширяя при этом возможности методов MM-DiT. #### Метод Мы предлагаем **ColorCtrl**, метод, основанный на трансформерах MM-DiT, который использует их возможности в области внимательного анализа. Наш подход разделяет цвет и структуру изображения с помощью настраиваемых attention maps и value tokens. Это позволяет точно контролировать цвета только в указанных областях, не влияя на остальные части изображения. Эта дискретность достигается за счет особых манипуляций с attention maps, которые делают редактирование точным и управляемым. Благодаря этим усовершенствованиям, ColorCtrl позволяет решать задачи, где требуется как тонкое управление цветом, так и гарантия консистентности в различных редактируемых областях. #### Результаты Мы провели эксперименты на двух стандартных датасетах, SD3 и FLUX.1-dev, чтобы оценить качество редактирования и консистентность. Наши результаты показывают, что ColorCtrl превосходит существующие методы без обучения в плане качества редактирования и консистентности. Мы также сравнили наш метод с коммерческими моделями, такими как FLUX.1 Kontext Max и GPT-4o Image Generation, и показали значительные преимущества в цветовой консистентности и точности. Также мы проверили нашу модель на видеомодели CogVideoX и получили наилучшие результаты в области временной консистентности и стабильности редактирования. Эти результаты подтверждают широкую применимость и высокую производительность ColorCtrl в различных сценариях. #### Значимость Метод ColorCtrl может быть применен в различных областях, таких как визуальные эффекты, редактирование видео, маркетинг и дизайн. Он обеспечивает новый уровень точности и консистентности в цветовом редактировании, что делает его выгодным для профессионального использования. Важное преимущество ColorCtrl заключается в его тренировочно-свободной природе, что упрощает его применение и

Annotation:

Text-guided color editing in images and videos is a fundamental yet unsolved problem, requiring fine-grained manipulation of color attributes, including albedo, light source color, and ambient lighting, while preserving physical consistency in geometry, material properties, and light-matter interactions. Existing training-free methods offer broad applicability across editing tasks but struggle with precise color control and often introduce visual inconsistency in both edited and non-edited regio...

ID: 2508.09131v2 cs.GR, cs.AI, cs.CV

arXiv PDF

📄 Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

2025-08-09

Авторы:

Seungyong Lee, Jeong-gi Kwak

## КОНТЕКСТ И ПРОБЛЕМАТИКА Виртуальный трай-он (virtual try-on) представляет собой технологию, позволяющую синтезировать реалистичное изображение человека в выбранной одежде, которая адаптируется к его фигуре и позе. Однако до сих пор одной из ключевых проблем в этой области остается точная моделирование соответствия между телом и одеждой, особенно при изменениях положения тела и внешнего вида. Традиционные подходы часто требуют специализированных сетей, дополнительных целей оптимизации или дополнительных меток, что увеличивает сложность и затраты вычислений. Мотивацией для исследования является необходимость разработки более универсального и эффективного решения, которое могло бы обеспечить высококачественный результат для обеих задач – виртуального трай-она и трай-оффа (удаления одежды) – в рамках единого фреймворка. Такой подход мог бы упростить процесс обучения и расширить возможности применения, обеспечивая лучшее понимание взаимодействия между одеждой и телом без необходимости дополнительных ресурсов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе авторы предлагают **Voost** – унифицированный и масштабируемый фреймворк, основанный на диффузионном трансформере, который совместно обучается на задачах виртуального трай-она и трай-оффа. Основная идея заключается в том, чтобы использовать обучение взаимно-двойному направлению (try-on и try-off) для улучшения моделирования взаимосвязи между телом и одеждой. Архитектура Voost основана на диффузионном трансформере, который позволяет эффективно обрабатывать контекстные зависимости и генерировать высококачественные изображения. Фреймворк поддерживает гибкую кондиционированию (conditioning) по направлению генерации (трай-он или трай-офф) и категории одежды. Это позволяет модели улучшить понимание взаимодействия между одеждой и телом без необходимости в специализированных сетей или дополнительных метках. Кроме того, авторы вводят два инновационных технических решения для улучшения качества генерации во время вывода (inference): 1. **Attention Temperature Scaling** – это техника, которая позволяет улучшить устойчивость модели к изменениям разрешения или масок, которые могут возникать в реальных условиях. 2. **Self-Corrective Sampling** – это метод, который использует двунаправленную консистентность между задачами трай-она и трай-оффа для самокоррекции выходных изображений, что повышает их точность и качество. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят обширные эксперименты, чтобы оценить эффективность Voost на различных датасетах и сравнить его с современными базовыми моделями. Используемые данные включают различные бенчмарки для задач трай-она и трай-оффа, которые позволяют оценить точность выравнивания, визуальную правдоподобность и общую обобщающую способность модели. Результаты показывают, что Voost достигает лучших результатов по сравнению с современными базовыми моделями. Он показывает значительное улучшение в точности выравнивания одежды относительно тела, а также визуальной фиделити (качество изображения) и общей обобщающей способности на различных датасетах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк Voost имеет широкое применение в области моды, ритейла и виртуального фитинга. Его способность выполнять оба направления – трай-он и трай-офф – в рамках одной модели делает его высоко эффективным и гибким инструментом для разработчиков и пользователей. Преимущества Voost включают в себя: - Улучшенное понимание взаимодействия между телом и одеждой. - Упрощенная модель без необходимости дополнительных сетей или меток. - Высокое качество генерации изображений с повышенной точностью и визуальной правдоподобностью. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен фреймворк **Voost**, который успешно решает проблему моделирования взаимодействия между телом и одеждой в задачах виртуального трай-она и трай-оффа. Данный подход не только достигает лучших результатов по сравнению с современными базовыми моделями, но также открывает новые возможности для будущих исследований в области виртуального фитинга. Будущие исследования могут фокусироваться на дальнейшем улучшении качества генерации, в том числе на расширении диапазона категорий одежды и поддержке более сложных поз и форм тела. Также могут быть исследованы новые методы оптимизации для дальнейшего повышения эффективности и качества вывода.

Annotation:

Virtual try-on aims to synthesize a realistic image of a person wearing a target garment, but accurately modeling garment-body correspondence remains a persistent challenge, especially under pose and appearance variation. In this paper, we propose Voost - a unified and scalable framework that jointly learns virtual try-on and try-off with a single diffusion transformer. By modeling both tasks jointly, Voost enables each garment-person pair to supervise both directions and supports flexible condi...

ID: 2508.04825v1 cs.GR, cs.AI, cs.CV, cs.LG

arXiv PDF

1
2
3
4

Показано 21 - 30 из 31 записей