📚 Саммари научных статей из arXiv

Найдено 115 результатов по запросу 'cs.GR, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Wavelet-Space Super-Resolution for Real-Time Rendering

2025-08-26

Авторы:

Prateek Poudel, Prashant Aryal, Kirtan Kunwar, Navin Nepal, Dinesh Bania Kshatri

#### Контекст Область исследования заключается в развитии методов нейронного увеличения разрешения (super-resolution) для реального времени в графических приложениях. Научная проблема заключается в том, что существующие подходы часто страдают от потери точности деталей или неестественности в результатах. Также существует необходимость в увеличении эффективности и качества реализации для оптимизации процесса отрисовки в реальном времени. Мотивируют данную работу требования к высокому качеству изображений в играх и виртуальных реальностях, где необходимо сочетание высокого разрешения с низким временем обработки. #### Метод Методология основывается на использовании представлений волнового пространства (wavelet-space) для улучшения супер-разрешения в графических пайплайнах. Авторы предлагают использовать **стационарную волновой трансформацию (SWT)** для разделения низкочастотных и высокочастотных компонент изображения. Это позволяет сети более эффективно сохранять детали и сохранить структурную согласованность. Архитектура модели включает в себя предсказание коэффициентов волновой трансформации, основанное на пространственных G-буферах и временно упрежденных исторических кадров. Затем эти коэффициенты комбинируются с помощью инверсной волновой синтеза. Модель протестирована на различных типах волновых преобразований и архитектурных вариантах. #### Результаты Экспериментальные исследования проводились на основе данных из игровых сцен. Метод **DFASR c SWT** показал улучшение **PSNR на 1.5 dB** и **реduction LPIPS на 17%** по сравнению с базовой моделью DFASR. Несмотря на дополнительные вычислительные затраты в размере **+24 мс**, сравнение с базовым решением остается приемлемым. Исследования показали, что использование SWT позволяет повысить качество результатов, сохранив реальному времени. Результаты были сравнены с другими подходами и подтвердили эффективность волнового подхода. #### Значимость Полученные результаты открывают путь к улучшению качества изображений в виртуальных реальностях и играх без существенного увеличения вычислительных затрат. Открываются новые возможности для использования волновых преобразований в нейросетевых моделях для реального времени. Это может привести к улучшению графических приложений, особенно в сценариях с высокими требованиями к качеству и низким задержкам. #### Выводы В статье доказано, что волновое пространство является ценной альтернативой RGB-пространству в супер-разрешении для графических приложений. Достижения включают **PSNR-улучшения**, **низкую задержку** и улучшенное качество деталей. В будущем планируется расширить

Annotation:

We investigate the use of wavelet-space feature decomposition in neural super-resolution for rendering pipelines. Building on the DFASR framework, we introduce a wavelet-domain representation that separates low- and high-frequency details before reconstruction, enabling the network to better preserve fine textures while maintaining structural consistency. Unlike RGB-space regression, our approach leverages the stationary wavelet transform (SWT) to avoid spatial down-sampling, ensuring alignment ...

ID: 2508.16024v1 cs.GR, cs.CV

arXiv PDF

📄 MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds

2025-08-25

Авторы:

Bingquan Dai, Li Ray Luo, Qihong Tang, Jie Wang, Xinyu Lian, Hao Xu, Minghan Qin, Xudong Xu, Bo Dai, Haoqian Wang, Zhaoyang Lyu, Jiangmiao Pang

## Контекст Реконструкция 3D-объектов в программный код является ключевым заданием для приложений, таких как обратный инженеринг и редактирование форм. Однако существующие методы часто ограничены доменом специфических языков (DSL) и небольшими масштабными данными, что ограничивает их возможность моделировать сложные геометрические структуры и структуры. Для решения этих проблем, мы предлагаем MeshCoder — новую систему, которая преобразует сложные 3D-объекты из точечных облаков в редактируемый Python-код Blender. Мы разработали расширенный набор экспрессивных Blender-API, который может синтезировать сложные геометрические структуры. Используя эти API, мы создали большую парную коллекцию данных объектов и кода, где каждый объект соответствует специально разбитому на части коду. Мы обучили многомодальный модель глубокого обучения (LLM), которая преобразует точечные облака в выполняемый код Blender. Наш подход не только показал высокую точность в задачах преобразования геометрии в код, но также обеспечил интуитивное редактирование геометрии и топологии через простые изменения кода. Кроме того, наш представительный код повышает мощность LLMs в задачах понимания 3D-форм. Эти достижения делают MeshCoder мощным и гибким инструментом для программной реконструкции и понимания 3D-форм. Домашняя страница проекта доступна по этой ссылке. ## Метод MeshCoder использует многомодальную модель глубокого обучения (LLM) для преобразования точечных облаков в код Blender Python. Мы разработали собственный набор Blender-API, который может синтезировать сложные геометрические структуры. Эти API используются для построения парной коллекции данных, где каждый объект разбит на части кода с определенным семантическим назначением. Мы обучаем LLM на этой коллекции, чтобы он мог преобразовывать точечные облака в код, выполняемый в Blender. Эта модель использует третьи сторонние библиотеки для обработки точечных облаков и кода, чтобы обеспечить преобразование. Это позволяет нашей модели извлекать информацию о геометрии и выражать ее в виде редактируемого Python-кода Blender. ## Результаты Мы проводили эксперименты, чтобы оценить точность и эффективность MeshCoder. Мы использовали большую парную коллекцию данных, состоящую из точечных облаков и соответствующего им кода. Мы сравнили результаты нашего подхода с другими методами, показав, что MeshCoder показывает высокую точность в преобразовании точечных облаков в код. Мы также проверяли возможности редактирования геометрии и топологии, проверяя, насколько просто можно внести изменения в код, чтобы изменить геометрию. Мы показали, что наш подход не только эффе

Annotation:

Reconstructing 3D objects into editable programs is pivotal for applications like reverse engineering and shape editing. However, existing methods often rely on limited domain-specific languages (DSLs) and small-scale datasets, restricting their ability to model complex geometries and structures. To address these challenges, we introduce MeshCoder, a novel framework that reconstructs complex 3D objects from point clouds into editable Blender Python scripts. We develop a comprehensive set of expr...

ID: 2508.14879v2 cs.GR, cs.CV

arXiv PDF

📄 A Real-world Display Inverse Rendering Dataset

2025-08-22

Авторы:

Seokjun Choi, Hoon-Gyu Chung, Yujin Jeon, Giljoo Nam, Seung-Hwan Baek

#### Контекст Обратная рендеринг (inverse rendering) — это процесс, при котором из изображений производятся вычисления о форме, цвете и физических характеристиках объектов. Один из вызовов в обратном рендеринге заключается в построении точных моделей для различных физических явлений, таких как отражение и рассеяние. Особый интерес представляет инверсный рендеринг в контексте использования дисплеев как источников света. Дисплеи, особенно те, что используются в LCD-экранах, могут функционировать как программируемые источники света, а полиаризованный свет, характерный для таких дисплеев, позволяет различать отраженный и рассеянный свет. Несмотря на эти преимущества, существует недостаток в реальных данных, полученных с использованием таких систем. Это проблема затрудняет развитие и оценивание методов обратного рендеринга, основанных на дисплеях. Мы предлагаем первый реального мира датасет, созданный с использованием дисплейно-камерной системы. #### Метод Для построения датасета мы разработали инженерную систему, состоящую из LCD-дисплея и двух стеропополяризационных камер. Для каждого объекта мы выполняли фотографирование под управлением специального шаблона освещения, называемого one-light-at-a-time (OLAT). В этом шаблоне, только один пиксель дисплея сразу действует как источник света, что позволяет получить точные данные для обратного рендеринга. Мы также подготовили ряд материалов с разными геометриями и отражательными характеристиками. Датасет также включает в себя качественные земные правдивые данные геометрии, позволяя проводить эксперименты и сравнивать методы обратного рендеринга. Мы также разработали метод для синтеза изображений с различными уровнями шума и любыми шаблонами освещения, что дает широкий круг возможностей для исследований. #### Результаты Мы провели эксперименты с использованием нашего датасета, оценивая работу существующих методов обратного рендеринга и фотометрического стероингининга. Наши результаты показывают, что методы, основанные на нашем датасете, превосходят те, что использовались ранее. Мы также показали, что наша модель дает более точные результаты в оценке физических характеристик объектов, таких как геометрия и отражение. Мы выпустили наш датасет и код нашего кода, доступные на нашем сайте, чтобы помочь другим исследователям в области обратного рендеринга. #### Значимость Наш датасет открывает новые возможности для исследований в области обратного рендеринга. Мы предоставляем реальные данные, полученные с использованием дисплеев, что является основ

Annotation:

Inverse rendering aims to reconstruct geometry and reflectance from captured images. Display-camera imaging systems offer unique advantages for this task: each pixel can easily function as a programmable point light source, and the polarized light emitted by LCD displays facilitates diffuse-specular separation. Despite these benefits, there is currently no public real-world dataset captured using display-camera systems, unlike other setups such as light stages. This absence hinders the developme...

ID: 2508.14411v1 cs.GR, cs.CV

arXiv PDF

📄 MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds

2025-08-22

Авторы:

Bingquan Dai, Li Ray Luo, Qihong Tang, Jie Wang, Xinyu Lian, Hao Xu, Minghan Qin, Xudong Xu, Bo Dai, Haoqian Wang, Zhaoyang Lyu, Jiangmiao Pang

## Контекст Реконструкция 3D-объектов в редактируемые программные модели является ключевым заданием для таких областей, как обратная инженерия, редактирование геометрии и синтез новых моделей. Однако существующие методы часто ограничиваются доменом специализированных языков (DSL) и небольшими наборами данных, что ограничивает их возможности моделировать сложные геометрические структуры. Это приводит к неэффективности в обработке разнообразных требований к реконструкции и значительно сужает потенциал приложений. MeshCoder — это инновационный подход, который решает эти проблемы. Он способен преобразовывать 3D-объекты, представленные в виде точечных массивов, в полностью редактируемые Blender Python-скрипты. Такой подход позволяет расширить возможности реконструкции до сложных и реалистичных геометрий, а также обеспечить гибкую интерактивную моделируемую геометрию. Это улучшает возможности для обратной инженерии, творческого ретуширования и даже синтеза новых моделей, основываясь на имеющихся данных. ## Метод MeshCoder строится на многомодальной структуре, используя высокоэффективные модели языкового моделирования (LLM) для преобразования точечных массивов в код. Главным инструментом является развитый набор Blender Python-API, который позволяет синтезировать геометрические модели с высочайшим уровнем детализации. Эти API используются для разложения кода на отдельные семантические части, чтобы обеспечить понятную структуру и легкость модификации. Мы создали большую выборку парных данных, состоящую из 3D-объектов и соответствующих Python-скриптов, где каждый объект декомпозируется на отдельные семантические части. Этот набор данных был использован для обучения LLM. Модель обладает высоким уровнем точности и способностью работать в реальном времени, что позволяет создавать и редактировать 3D-модели сложных форм с помощью простого изменения кода. ## Результаты Мы провели эксперименты, сравнивая MeshCoder с другими существующими подходами. Наши результаты показали, что MeshCoder достигает высокой точности в задаче преобразования точечных массивов в код. Он способен генерировать код для моделей с очень сложной геометрией, что демонстрирует его выигрыш в гибкости и верификации. Мы также проверили его на редактировании геометрии, и он стал лучшим в классе по скорости и точности модификаций. ## Значимость MeshCoder открывает новые перспективы в поле обратной инженерии, 3D-моделирования и творческого дизайна. Он позволяет быстро редактировать геометрию и создавать новые модели, используя простой язык программиро

Annotation:

Reconstructing 3D objects into editable programs is pivotal for applications like reverse engineering and shape editing. However, existing methods often rely on limited domain-specific languages (DSLs) and small-scale datasets, restricting their ability to model complex geometries and structures. To address these challenges, we introduce MeshCoder, a novel framework that reconstructs complex 3D objects from point clouds into editable Blender Python scripts. We develop a comprehensive set of expr...

ID: 2508.14879v1 cs.GR, cs.CV

arXiv PDF

📄 Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in Milliseconds

2025-08-22

Авторы:

Jia Lu, Taoran Yi, Jiemin Fang, Chen Yang, Chuiyun Wu, Wei Shen, Wenyu Liu, Qi Tian, Xinggang Wang

#### Контекст Построение 3D моделей человеческого тела из малого числа спарских видов представляется как интересный, но вызовительный вопрос в искусственном интеллекте. Такая модель является важной для различных приложений, таких как виртуальная реальность, игры, анимация и даже цифровые двойники. Однако существуют значительные сложности, в том числе нехватка информации в спарских входных данных, которые препятствуют точному построению трёхмерных моделей. Из-за этого задача затрагивает широкий круг пользователей и требует эффективных решений. #### Метод Мы предлагаем Snap-Snap — модель, которая строит 3D-модель тела человека из двух изображений: фронтального и заднего вида. Методология основывается на перенорелизированной реконструкции геометрии, адаптированной для работы с данными в спарском виде. Мы используем фондаментальные модели для предсказания точечных облаков, гарантирующих геометрическую консистентность даже при малом соотношении перекрытия входных изображений. Для восстановления цвета используется алгоритм, дополняющий отсутствующую информацию. Наконец, полученный трёхмерный гауссиан трансформируется в 3D-модель, которая обеспечивает лучшую качественную отрисовку. #### Результаты Наши эксперименты проводились на двух датасетах: THuman2.0 и датасете с кросс-доменными данными. Модель Snap-Snap способна восстанавливать целый человек за 190 мс на GPU NVIDIA RTX 4090, используя два изображения разрешения 1024x1024. Это демонстрирует состояние технологии в задаче реконструкции трёхмерных моделей тела. Метод показал свою эффективность даже при использовании данных, полученных с низкого качества, таких как фотографии с мобильных устройств. Это открывает новые возможности для создания цифровых двойников с минимальными требованиями к исходным данным. #### Значимость Наш подход открывает многообразные приложения в области цифровых двойников, виртуальных реалий и даже в медицинской анатомии. Он эффективен, быстрый и требует минимальных ресурсов. Такое решение может стать отличным инструментом для популяризации цифровой графики и дизайна. Будущие исследования будут сосредоточены на улучшении точности и обработке более сложных сцен, включая поведение и динамику. #### Выводы Мы представили Snap-Snap, модель, которая из двух изображений строит трёхмерную модель человеческого тела в миллисекунды. Наш подход подтвердил свою превосходность на опытных датасетах и даже на данных с низким качеством. Мы полагаем, что наша работа может стать основой для будущих исследовани

Annotation:

Reconstructing 3D human bodies from sparse views has been an appealing topic, which is crucial to broader the related applications. In this paper, we propose a quite challenging but valuable task to reconstruct the human body from only two images, i.e., the front and back view, which can largely lower the barrier for users to create their own 3D digital humans. The main challenges lie in the difficulty of building 3D consistency and recovering missing information from the highly sparse input. We...

ID: 2508.14892v1 cs.GR, cs.CV

arXiv PDF

📄 Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing

2025-08-21

Авторы:

Feng-Lin Liu, Shi-Yang Li, Yan-Pei Cao, Hongbo Fu, Lin Gao

## Контекст Видеоредактирование является важной областью исследований в современной компьютерной графике и визуальных эффектах. Несмотря на то, что существуют методы, позволяющие достигать привлекательных результатов в области стилизации и изменения внешнего вида, редактирование структурного содержания 3D-сцен в видео остается вызовом. Это особенно актуально при значительных преобразованиях матрицы, таких как вращения камеры или изменения масштаба. Основные трудности включают генерацию реалистичного содержимого новых видов, сохранение неизмененных областей и преобразование спарсевых 2D-входных данных в реалистичные 3D-видео. Изучение этих проблем имеет решающее значение для расширения возможностей видеоредактирования и повышения его точности и эффективности. ## Метод Мы предлагаем Sketch3DVE — метод редактирования 3D-сцен в видео, основанный на рисовании схемы (sketch-based). Данный подход обеспечивает точный контроль геометрии видео. Мы используем методы редактирования изображений для генерации результатов на первом кадре видео, которые затем распространяются на все остальные. Чтобы обеспечить редактирование в различных точках зрения, мы проводим подробный анализ 3D-информации в видео. Для этого мы применяем метод стерайо стерео для оценки точечной сети и параметров камеры входного видео. Для редактирования точечной сети мы предлагаем подход, основанный на глубинных картах, который эффективно выравнивает новые редактируемые компоненты с оригинальной 3D-сценой. Для слияния редактируемого контента с оригинальным видео мы предлагаем стратегию распространения 3D-масок и используем модель размывания видео для получения реалистичных результатов. ## Результаты Мы провести обширные эксперименты, чтобы продемонстрировать эффективность Sketch3DVE в редактировании видео. Наши тесты показали, что метод позволяет достигать высокого качества редактирования, даже при существенных преобразованиях матрицы. Мы использовали различные данные, включая видео с значительными изменениями матрицы, для оценки наших результатов. Наши результаты показали, что Sketch3DVE превосходит существующие методы в способности генерировать реалистичные 3D-видео и сохранять неизмененные области сцены. ## Значимость Метод Sketch3DVE открывает новые возможности в области видеоредактирования, особенно для сцен с значительными преобразованиями матрицы. Его применение может быть полезно в различных областях, таких как кино, реклама и виртуальная реальность. Ключевые преимущества включают точный контроль геометрии, эффективное использование сп

Annotation:

Recent video editing methods achieve attractive results in style transfer or appearance modification. However, editing the structural content of 3D scenes in videos remains challenging, particularly when dealing with significant viewpoint changes, such as large camera rotations or zooms. Key challenges include generating novel view content that remains consistent with the original video, preserving unedited regions, and translating sparse 2D inputs into realistic 3D video outputs. To address the...

ID: 2508.13797v1 cs.GR, cs.CV

arXiv PDF

📄 Is-NeRF: In-scattering Neural Radiance Field for Blurred Images

2025-08-21

Авторы:

Nan Luo, Chenglin Ye, Jiaxu Li, Gang Liu, Bo Wan, Di Wang, Lupeng Liu, Jun Xiao

#### Контекст Neural Radiance Fields (NeRF) являются перспективной методикой для решения задач 3D-представления и генерации реалистичных изображений. Они стали одним из самых затронутых исследований в области компьютерного зрения и графики. Несмотря на их успех, существующие NeRF-модели сталкиваются с проблемами при обработке сложных сцен, в том числе освещенных событиями в кадре, например, в случае выстрелов, движения камеры или движения объектов. Эти проблемы часто приводят к геометрическим неточностям и недостатку детализации в результативных изображениях. Мотивация для разработки новой методики лежит в желании сузить разрыв между теоретическим потенциалом NeRF и его практической применимостью в решении реальных задач, особенно для обработки размытых изображений. #### Метод Для решения этих проблем вводится метод Is-NeRF (In-scattering Neural Radiance Field), который вводит возможность моделировать внешние светящиеся факторы в реальных сценах. Метод основывается на вводе новой понятия in-scattering, представляющей собой формирование изображений с целью передачи контекста освещенности, цвета и дополнительных световых эффектов. Возможность включить эти факторы позволяет обрабатывать сложные сцены, такие как размытые изображения, с более высокой точностью. Для того, чтобы обеспечить более детальную оценку полученных результатов, Is-NeRF адаптирует свое обучение с использованием адаптивной стратегии, оптимизируя не только параметры точности полигонов, но и учитывая специфику размытия. Это позволяет Is-NeRF достигать более высокого диапазона детализации, чем стандартные NeRF-модели. #### Результаты Проведенные эксперименты сравнивали Is-NeRF с несколькими современными NeRF-моделями на ряде тестовых датасетов, включающих как стандартные, так и аналитически размытые изображения. Обучив модель Is-NeRF на данных, было статистически доказано, что она не только улучшает качество изображений, но и уменьшает размытость. Эксперименты показали, что Is-NeRF выдает результаты, которые значительно превышают показатели соревнователей в детализации и цветовой точности. Использовались метрики, такие как PSNR, SSIM и LPIPS, которые подтвердили превосходство Is-NeRF по многим показателям. Эти результаты подтверждают, что Is-NeRF может эффективно обрабатывать сложные сцены, в том числе движущиеся объекты и размытые кадры. #### Значимость Метод Is-NeRF открывает новые перспективы для 3D-графики и размытости, а также имеет практическое применение в различных областях, включая визуализацию, реалистическое рендеринг и даже в области разработки систем виртуальной реальности. Одни

Annotation:

Neural Radiance Fields (NeRF) has gained significant attention for its prominent implicit 3D representation and realistic novel view synthesis capabilities. Available works unexceptionally employ straight-line volume rendering, which struggles to handle sophisticated lightpath scenarios and introduces geometric ambiguities during training, particularly evident when processing motion-blurred images. To address these challenges, this work proposes a novel deblur neural radiance field, Is-NeRF, fea...

ID: 2508.13808v1 cs.GR, cs.CV

arXiv PDF

📄 Express4D: Expressive, Friendly, and Extensible 4D Facial Motion Generation Benchmark

2025-08-20

Авторы:

Yaron Aloni, Rotem Shalev-Arkushin, Yonatan Shafir, Guy Tevet, Ohad Fried, Amit Haim Bermano

#### Контекст Динамическая генерация выразительных лицевых эмоций на основе естественного языка является ключевым заданием в Computer Graphics, применяющимся в анимации, виртуальных аватарах и интерактивных системах человеко-компьютера. Однако существующие модели генерируют лицевые эмоции, основываясь на речи или ограниченных эмоциональных меток, не обладая способностью к выразительному контролю. Такие модели также требуют сложных и дорогих систем камер для получения данных для обучения. Наша цель — разработать данный, легкий в использовании и надежный для широкого применения в графике и виртуальных средах. #### Метод Мы сформировали свой доступный набор данных, Express4D, в формате ARKit blendshape. Это позволяет получить выразительные и гибкие лицевые модели. Данные были собраны с помощью набора коммерческих возможностей, включая легкодоступные системы мобильных устройств. Мы использовали генеративные модели естественного языка (LLM) для получения естественных инструкций. Эти инструкции были использованы для управления выразительными лицевыми позывами. Были обучены две модели для текст-to-expression, которые могут генерировать динамические лицевые модели на основе естественного языка. Эти модели позволяют контролировать лицевые модели на основе естественного языка и охватить много-многомерное преобразование между текстом и эмоциональными эффектами. #### Результаты Мы провели эксперименты с двумя моделями текст-to-expression, которые были обучены на нашем наборе данных Express4D. Эти модели показали выдающиеся результаты в генерации выразительных лицевых эмоций. Мы использовали набор данных для тестирования двух моделей генерации лицевых эмоций, которые смогли захватить тонкие оттенки эмоций и обеспечить гибкость в динамической генерации. Мы также проверили качество генерируемых моделей стандартными метриками и выполнили сравнения с другими подходами. #### Значимость Express4D может применяться в области анимации, виртуальных аватаров и интерактивных систем. Этот набор данных открывает возможность создания более выразительных и динамичных лицевых моделей. Он предлагает преимущества в том, что модели генерируются из естественного языка, позволяя значительно упростить процесс анимации. В будущем мы планируем расширить набор данных, улучшить модели генерации и применить нашу технологию к другим сценариям, таким как видеоредактирование и динамическое отображение эмоций в реальном времени. #### Выводы Мы представили новый набор данных Express4D, который добавляет новый уровень выразительности в генерацию лицевых эмоций. Мы доказали, что наша модель генерирует лицевые эмоции, которые

Annotation:

Dynamic facial expression generation from natural language is a crucial task in Computer Graphics, with applications in Animation, Virtual Avatars, and Human-Computer Interaction. However, current generative models suffer from datasets that are either speech-driven or limited to coarse emotion labels, lacking the nuanced, expressive descriptions needed for fine-grained control, and were captured using elaborate and expensive equipment. We hence present a new dataset of facial motion sequences fe...

ID: 2508.12438v1 cs.GR, cs.CV

arXiv PDF

📄 MixCache: Mixture-of-Cache for Video Diffusion Transformer Acceleration

2025-08-20

Авторы:

Yuanxin Wei, Lansong Diao, Bujiao Chen, Shenggan Cheng, Zhengping Qian, Wenyuan Yu, Nong Xiao, Wei Lin, Jiangsu Du

#### Контекст Видеогенерация — одна из самых сложных и ресурсоемких задач в области искусственного интеллекта. Новая трендовая технология, основанная на Transformer-архитектуре и процессе диффузии (DiT), доминирует в области высококачественной видеогенерации. Однако многошаговый процесс денойсинга в DiT-моделях требует высокой вычислительной нагрузки и влияет на высокую задержку при инференсе. Одним из популярных методов оптимизации является кэширование, которое использует нередкость в процессе диффузии для пропуска вычислений на разных уровнях (строк, блоках, шагах). Тем не менее, существующие методы ограничиваются одноуровневыми стратегиями кэширования, что не позволяет достичь баланса между качеством генерации и производительностью инференса. #### Метод В этой работе предлагается MixCache — новая, тренировка-не требующаяся стратегия кэширования для ускорения видео-DiT. Основной идеей является установление интерфейса между различными стратегиями кэширования и их интерфейсом. MixCache вводит контекстно-ориентированную стратегию активации кэша, чтобы определить, когда кэширование должно быть включено, и адаптивную стратегию гибридного кэширования для выбора наиболее оптимального уровня кэширования в зависимости от текущего контекста. Эта архитектура не требует дополнительных вычислений во время обучения, что делает ее эффективной и простую в использовании. #### Результаты Мы провести ряд экспериментов на различных моделях видеогенерации, включая Wan 14B и HunyuanVideo. Результаты показывают, что MixCache ускоряет обработку видео до 1.94$\times$ при работе с Wan 14B и 1.97$\times$ при работе с HunyuanVideo. В то же время, MixCache демонстрирует не только высокую производительность, но также значительное улучшение качества генерации видео по сравнению с базовыми методами. Это демонстрирует высокую эффективность и универсальность MixCache в разных контекстах. #### Значимость MixCache может быть применено в различных задачах видеогенерации, включая генерацию высококачественных видеороликов, редактирование видео и синтез видео. Он предоставляет значительные преимущества в скорости и эффективности, что делает его привлекательным для сценариев с реального времени, таких как стриминг, видеоредактирование и трансляции. Также MixCache открывает новые пути для будущих исследований в области оптимизации глубоких моделей с использованием кэширования в многоуровневой стратегии. #### Выводы Мы предлагаем MixCache — новую, тренировка-не требующуюся стратегию кэширования для ускорения видео-DiT. Она успешно решает проблему бала

Annotation:

Leveraging the Transformer architecture and the diffusion process, video DiT models have emerged as a dominant approach for high-quality video generation. However, their multi-step iterative denoising process incurs high computational cost and inference latency. Caching, a widely adopted optimization method in DiT models, leverages the redundancy in the diffusion process to skip computations in different granularities (e.g., step, cfg, block). Nevertheless, existing caching methods are limited t...

ID: 2508.12691v1 cs.GR, cs.CV, cs.LG

arXiv PDF

📄 SPG: Style-Prompting Guidance for Style-Specific Content Creation

2025-08-19

Авторы:

Qian Liang, Zichong Chen, Yang Zhou, Hui Huang

## Контекст Современные текстово-изображения (T2I) диффузионные модели достигли выдающихся результатов в создании изображений, соответствующих текстовым подсказкам. Однако контроль визуальной стилистики генерируемых изображений остается вызовом. Несмотря на то, что существуют методы для управления стилем, они часто требуют дополнительных данных, таких как стильные демонстрации или выборки, что усложняет их применение. В данной работе мы предлагаем **Style-Prompting Guidance (SPG)** — новую стратегию семплирования для стилевой настройки генерируемых изображений. SPG позволяет обеспечить лучшую стилистическую консистентность и точность семантического содержания. ## Метод SPG использует **стиль-ноуз** — специально построенный вектор, который отличается от неусловного шума диффузии только директивным стилем. Этот вектор используется для управления диффузионным процессом, приводя его к желаемому стилю. Затем мы интегрируем SPG с **Classifier-Free Guidance (CFG)**, чтобы добиться высокой степени управляемости и сохранить высокое качество изображений. SPG может быть легко интегрирована с различными управляемыми моделями, такими как **ControlNet** и **IPAdapter**, что делает ее гибкой и применимой в разных сценариях. ## Результаты Мы провели многочисленные эксперименты, протестировав SPG на различных стильных задачах. Использовались стилизированные демонстрации и синтетические изображения для оценки качества генерируемых изображений. Результаты показали, что SPG превосходит состояние техник по сравнению с другими стильно-настроенными методами. Мы также провели эксперименты с интеграцией SPG в ControlNet и IPAdapter, получив выдающиеся результаты в стилизации изображений. ## Значимость SPG может быть применена в различных сценариях, таких как творческое искусство, виртуальная реальность, игровая индустрия и т.д. Главное преимущество SPG заключается в своей простоте и эффективности, позволяя пользователям получать высококачественные стилизованные изображения без дополнительных данных. Мы видим потенциал SPG в широком распространении в реальных приложениях, где контроль визуального стиля критичен. ## Выводы SPG представляет собой простой, но эффективный метод для стилизованного текстово-изображения. Мы продемонстрировали его эффективность и генеральную пригодность в различных задачах. Наше исследование открывает новые пути для решения проблем стилистики в диффузионных моделях. Мы планируем продолжить работу над улучшением SPG, включая исследования в области улучшения качества изображений и расширения приложений.

Annotation:

Although recent text-to-image (T2I) diffusion models excel at aligning generated images with textual prompts, controlling the visual style of the output remains a challenging task. In this work, we propose Style-Prompting Guidance (SPG), a novel sampling strategy for style-specific image generation. SPG constructs a style noise vector and leverages its directional deviation from unconditional noise to guide the diffusion process toward the target style distribution. By integrating SPG with Class...

ID: 2508.11476v1 cs.GR, cs.CV

arXiv PDF

1
2
8
9
10
11
12

Показано 91 - 100 из 115 записей