📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Nina Wiedemann, Sainan Liu, Quentin Leboutet, Katelyn Gao, Benjamin Ummenhofer, Michael Paulitsch, Kai Yuan

## Контекст Ускоряющиеся достижения в области текстовой и изображениягенерации привели к значительному вниманию к 3D-генерации. В отличии от устоявшегося пиксельного представления в изображениях, 3D-представления остаются разнообразными и декомпозированными. Они включают такие подходы, как воксельные графы, нейросетевые радиационные поля, сигнид-даистанс-функции, точечные облака и октиры. Каждый подход имеет свои преимущества и ограничения. В данной работе мы предлагаем общую оценочную систему для анализа 3D-представлений по таким критериям, как качество, эффективность вычислений и универсальность. Мы рассматриваем не только процесс оценки моделей, но и все этапы 3D-генерации, включая предобработку, восстановление моделей, сжатие с помощью автокодировщиков и генерацию. Наши результаты показывают, что ошибки восстановления сильно влияют на получаемый результат, что делает необходимым оценивать генерацию и восстановление вместе. Мы даем рекомендации для выбора 3D-моделей в зависимости от конкретных задач, поддерживая развитие универсальных и прикладно-специфичных решений в 3D-генерации. Наш код доступен по адресу: https://github.com/isl-org/unifi3d. ## Метод Мы предложили общую оценочную систему, которая оценивает 3D-представления по нескольким критериям. Эта система использует несколько типов 3D-моделей, включая воксельные графы, радиационные поля, точечные облака и др. Мы разработали тестовые наборы данных для эталонного сравнения 3D-объектов, чтобы измерить качество восстановления, эффективность и универсальность. Наши эксперименты включили стандартные модели, которые прошли ряд этапов, таких как предобработка, реконструкция моделей, сжатие данных с помощью автокодировщиков и последующая генерация. Наша методология рассматривает взаимодействие этих этапов и определяет лучшие практики для каждого из них. Мы также проанализировали, как различные 3D-представления влияют на качество и производительность в целом. Это позволило нам выделить преимущества и недостатки каждого подхода в различных сценариях. ## Результаты Мы провели ряд экспериментов с различными 3D-представлениями, такими как воксели, радиационные поля и точечные облака. Наши результаты показали, что качество восстановления сильно зависит от того, как хорошо представлено 3D-представление. Мы обнаружили, что модели с более точным восстановлением показали лучшие результаты в целом. Также, мы обнаружили, что сжатие данных имеет значительное влияние на качество результатов. Наши эксперименты показали, что лучшие резуль
Annotation:
Following rapid advancements in text and image generation, research has increasingly shifted towards 3D generation. Unlike the well-established pixel-based representation in images, 3D representations remain diverse and fragmented, encompassing a wide variety of approaches such as voxel grids, neural radiance fields, signed distance functions, point clouds, or octrees, each offering distinct advantages and limitations. In this work, we present a unified evaluation framework designed to assess th...
ID: 2509.02474v1 cs.GR, cs.CV, cs.LG
Авторы:

Jeong Uk Lee, Sung Hee Choi

#### Контекст Реконструкция высококачественных 3D-мешей и визуальных эффектов из 3D-данных, полученных методом 3D Gaussian Splatting (3DGS), остается важной проблемой в области компьютерной графики. Несмотря на то, что существующие модели, такие как SuGaR, демонстрируют эффективность в рендеринге, существуют нерешенные вопросы касательно обеспечения высокой визуальной фидбекции и согласованности сцены. В этой работе предлагается расширение модели SuGaR с использованием двух новых стратегий регуляризации, которые улучшают качество рендеринга и уменьшают проблемы с непоследовательностью и неточностью. #### Метод Разработанная модель, ARGS (Advanced Regularization on Aligning Gaussians over the Surface), вводит две основные регуляризационные стратегии. Первая стратегия — эффективная регуляризация ранга, основанная на исследованиях по структурам гауссовых примитивов. Она поощряет формы гауссовых примитивов, близкие к "дискообразной" форме, и отрицательно воздействует на "агоньщинообразные" формы, которые могут привести к нестабильности в поверхностной реконструкции. Вторая стратегия включает интеграцию нейронной Signed Distance Function (SDF) в процесс оптимизации. SDF регулируется с помощью Eikonal loss, что обеспечивает сохранение свойств расстояний и предоставляет непрерывный глобальный пример, улучшая выравнивание гауссовых примитивов с поверхностью. Эти две компоненты стабилизируют и улучшают как индивидуальные примитивы, так и структуру поверхности в целом. #### Результаты Эксперименты проводились на стандартных наборах данных, включая ShapeNet и DTU. Оценены показатели визуальной фидбекции, точность реконструкции и согласованность сцены. Результаты показывают, что ARGS превосходит SuGaR в метриках качества и консистентности. Особенно заметно улучшение в случаях, где существуют высококачественные гауссовые примитивы, но слабая согласованность между ними. Также проведено сравнение с другими существующими моделями, демонстрирующее выигрыш ARGS в общем показателе. #### Значимость ARGS может быть применена в различных областях, где требуется высококачественная рендеринг 3D-сцен, таких как виртуальная реальность, игровая индустрия и ретроспективные анализы для поддержки разработки новых алгоритмов в компьютерной графике. Основные преимущества включают улучшенную точность, более стабильную поверхностную реконструкцию и уменьшение трудностей с аномальными формами. В будущем планируется расширение модели для поддержки более сложных сцен и улучшения производительности в реальном времени. #### Выводы Разработанная модель ARGS дем
Annotation:
Reconstructing high-quality 3D meshes and visuals from 3D Gaussian Splatting(3DGS) still remains a central challenge in computer graphics. Although existing models such as SuGaR offer effective solutions for rendering, there is is still room to improve improve both visual fidelity and scene consistency. This work builds upon SuGaR by introducing two complementary regularization strategies that address common limitations in both the shape of individual Gaussians and the coherence of the overall s...
ID: 2508.21344v1 cs.GR, cs.CV
Авторы:

Hail Song, Seokhwan Yang, Woontack Woo

#### Контекст В последние годы растет интерес к интерактивным системам, включая широко распространенные стандарты для виртуальных и расширенных реальностей (XR), такие как WebXR и OpenXR. Эти системы позволяют пользователям испытывать новые формы взаимодействия, но для их оптимальной работы необходима синхронизация между текстурами лиц и движениями тела в XR-сценах. Одной из главных проблем является неэффективность и низкая точность методов, которые используются для переноса текстур лица на полностью синтезированные XR-аватары. Существующие методы, основывающиеся на аффинных преобразованиях, являются медленными и часто приводят к визуальным артефактам. Наше исследование направлено на разработку более быстрого и точного метода переноса текстур, который может эффективно использоваться в сценах XR, чтобы обеспечить лучшую синхронизацию и качество в системах XR. #### Метод Мы предлагаем метод переноса текстур лица на XR-аватары, основанный на технологии barycentric UV conversion. Наше решение заключается в предварительном расчете всего UV-маппинга в одном трансформационном матрице, что позволяет переносить текстуры в единственной операции. Эта техника эффективна, так как она устраняет необходимость выполнять многоэтапные вычисления в течение исполнения. Эталонный подход, основанный на аффинных преобразованиях, требует многократных операций, что приводит к длительным вычислительным ответам и визуальным артефактам. Мы также решили проблему артефактов на границах, которые часто возникают в последнем этапе преобразования. Наша технология позволяет повысить скорость работы системы за счет редукции количества вычислительных затрат, что является ключевым преимуществом для приложений XR, где необходима высокая производительность. #### Результаты Мы провели подробные эксперименты для оценки эффективности нашего метода. Использовались данные, содержащие текстуры лиц, которые были перенесены на XR-аватары с помощью нашего метода и стандартного аффинного подхода. Результаты показали, что наш метод превышает альтернативу в скорости выполнения, показывая скорость около 7000 раз выше, чем базовый подход. Также улучшилась качество текстуры, в том числе исчезновение артефактов на границах. Мы проверили нашу технологию на разных типах аватаров, включая различные расцветки и формы лиц. Эксперименты подтвердили, что наша технология обеспечивает более высокое качество текстур и быстрее работает по сравнению с другими существующими решениями. #### Значимость Наш метод может
Annotation:
We present a fast and efficient method for transferring facial textures onto SMPL-X-based full-body avatars. Unlike conventional affine-transform methods that are slow and prone to visual artifacts, our method utilizes a barycentric UV conversion technique. Our approach precomputes the entire UV mapping into a single transformation matrix, enabling texture transfer in a single operation. This results in a speedup of over 7000x compared to the baseline, while also significantly improving the fina...
ID: 2508.19518v1 cs.GR, cs.CV
Авторы:

Eleni Tselepi, Spyridon Thermos, Gerasimos Potamianos

## Контекст Построение анимационных моделей является ключевым аспектом создания визуального контента в полях игр, кино, игр, VR/AR и других технологий. Одна из самых сложных задач в этой области – создание анимационных моделей, которые могут совместно использоваться в различных ситуациях и поддерживать уровень контроля над анимацией. Известно, что существующие технологии не всегда способны обеспечить удобную и функциональную систему для гибкого контроля над анимационным процессом. Наиболее трудности возникают при попытке создания моделей, которые могут быть смежны с различными моделями скелетами и поддерживать непрерывный переход между разными анимациями. Наша цель – разработать модель, которая может удовлетворить эти требования. ## Метод Мы разрабатываем модель, которая использует методы генеративной моделирования, чтобы смешивать анимации в режиме одного прохода. Модель поддерживает управляемый переход между анимациями, используя временную кондиционированную модель. Мы вводим специальный механизм нормализации, который позволяет скелету анимации адаптироваться к разным конфигурациям. Метод добивается плавного перехода между моделями, используя глубокую нейронную сеть. Нашу модель мы тестируем на разных стилях анимации и различных скелетных моделях, чтобы проверить её гибкость и эффективность. ## Результаты Мы проводили эксперименты с разными методами, включая модели с одной моделью, а также с несколькими моделями. Мы использовали набор данных, содержащий различные типы анимаций, и провели сравнение наших результатов с другими моделями. Оказалось, что наш метод показал лучшие результаты в плане плавности и контролируемости в анимации. Мы также проверили, как наша модель работает в ситуациях с разными скелетами, и обнаружили, что она поддерживает плавные переходы между ними с минимальной потеряй качества. ## Значимость Наша модель может быть запрограммирована для различных задач в области анимации, включая VR/AR, игры, а также кино. Она предоставляет высокий уровень контроля и удобства, что позволяет разработчикам анимации быстро и эффективно создавать плавные переходы между различными моделями. Это может привести к повышению качества анимации в различных приложениях. ## Выводы Мы представили первую модель, которая позволяет смешивать анимации в режиме одного прохода с управляемым переходом между моделями. Мы продемонстрировали, что наш метод эффективен в различных условиях и поддерживает плавность и контролируемость в анимации. Мы планируем продолжить развитие нашей модели, в том числе расширить её функциональные возмо
Annotation:
Training a generative model on a single human skeletal motion sequence without being bound to a specific kinematic tree has drawn significant attention from the animation community. Unlike text-to-motion generation, single-shot models allow animators to controllably generate variations of existing motion patterns without requiring additional data or extensive retraining. However, existing single-shot methods do not explicitly offer a controllable framework for blending two or more motions within...
ID: 2508.18525v1 cs.GR, cs.CV
Авторы:

Xiaohao Sun, Divyam Goel, Angle X. Chang

-------------------------------------------- ## Контекст -------------------------------------------- **Область исследования:** Успехи в области синтеза 3D-сцен значительно подкрепили интерес к созданию реалистичных виртуальных окружений. Однако существуют значительные проблемы, связанные с необходимостью учитывать различные архитектурные ограничения, которые часто игнорируются при синтезе сцен. **Проблемы:** Наиболее распространенные подходы синтеза 3D-сцен не учитывают структурных и архитектурных ограничений, что приводит к результатам, которые выглядят неестественными или непрактичными. **Мотивация:** Необходимо разработать модель, которая бы учитывала архитектурные ограничения, такие как размещение дверей и окон, и позволяла синтезировать разнообразные, реалистичные и спатечно корректные 3D-сцены. ## Метод -------------------------------------------- **Методология:** SemLayoutDiff представляет собой универсальную модель для синтеза разнообразных 3D-сцен внутренних пространств. Она вводит новую схему представления сцены, объединяющую верхнеуровневую семантическую карту и атрибуты для каждого объекта. **Технические решения:** Разработанное решение основано на диффузионной модели, которая может учитывать контекст архитектурных ограничений. Модель сначала генерирует целостную семантическую карту, а затем использует сеть с кросс-аттенцией для предсказания размещения мебели, соблюдающего установленные архитектурные ограничения. **Архитектура:** SemLayoutDiff представляет собой сочетание диффузионной модели и кросс-аттенционной сети. Диффузионная модель генерирует семантическую карту, а кросс-аттенционная сеть учитывает детализацию размещения мебели в соответствии с полученной картой. ## Результаты -------------------------------------------- **Эксперименты:** Данные для экспериментов были получены из базы 3D-FRONT. Метод был сравнен с другими подходами по многим критериям, включая степень реалистичности, степень согласованности с архитектурными ограничениями и разнообразие сцен. **Результаты:** Результаты экспериментов показали, что SemLayoutDiff значительно превосходит другие подходы в генерации сцен, которые учитывают архитектурные ограничения. Она производит более реалистичные и разнообразные сцены, при этом соблюдая все архитектурные ограничения. ## Значимость -------------------------------------------- **Области применения:** Результаты могут быть использованы в различных областях, включая игровую индустрию, виртуальные и архитектурные реалистичные симуляторы, а также в системых, ориентированных на создание виртуальных мест подходящих для действий. **Преимущества:** SemLayoutDiff позволяет генерировать более корректные по отно
Annotation:
We present SemLayoutDiff, a unified model for synthesizing diverse 3D indoor scenes across multiple room types. The model introduces a scene layout representation combining a top-down semantic map and attributes for each object. Unlike prior approaches, which cannot condition on architectural constraints, SemLayoutDiff employs a categorical diffusion model capable of conditioning scene synthesis explicitly on room masks. It first generates a coherent semantic map, followed by a cross-attention-b...
ID: 2508.18597v1 cs.GR, cs.CV
Авторы:

Shashikant Verma, Shanmuganathan Raman

#### Контекст Создание живых цифровых персонажей является важной задачей в области компьютерной графики и виртуальной реальности. Одним из ключевых аспектов этого процесса является реалистичное описание волос, которое отличает живых персонажей от менее реалистичных. Несмотря на развитие методов генерации 3D-моделей, актуальной проблемой остается эффективная и точная синтезирование волос на основе реальных данных. Традиционные подходы требуют подробных съемок в лабораторных условиях с многокамерным оборудованием, что ограничивает применение этих методов в реальных условиях. Наша исследовательская группа сфокусировалась на развитии PanoHair — модели, которая предлагает более эффективный подход к синтезу волос с помощью знаний, вытекающих из предварительно обученной сети для синтеза голов. #### Метод PanoHair использует знания, полученные от предварительно обученной сети для синтеза голов, для предсказания геометрии головы в виде поля расстояний, используя подход знаний-от-мастера. Модель также выводит семантические маски и 3D-ориентации для области волос. Для генерации реальных волос PanoHair использует процесс инверсии для интерпретации закодированных данных, позволяя эффективно создавать реалистичные волосистые модели. Этот подход сокращает время работы и упрощает процесс синтеза, давая гибкий инструмент для широкого круга задач. #### Результаты Мы проверили PanoHair на различных данных, включая искусственные и реальные изображения. Модель показала возможность генерировать высококачественные волосистые модели за несколько секунд. Эксперименты сравнительного анализа показали, что PanoHair превосходит другие методы по скорости и качеству синтеза волос, особенно в условиях реальных съемок. Модель также доказала свою гибкость в создании разных стилей волос с помощью латентного пространства. #### Значимость PanoHair открывает новые возможности для создания цифровых персонажей в реальном времени. Модель эффективна в задачах виртуального зрения, игр и анимации. Основное преимущество заключается в значительном сокращении времени синтеза без ущерба качеству. Это может привнести значительные улучшения в создании видеоигр, виртуальных галерей и других приложений, требующих реалистичных моделей голов с волосами. #### Выводы PanoHair представляет собой прорыв в области синтеза волос на 3D-моделях голов. Наш подход эффективен, быстр и гибок. Мы планируем расширить возможности модели, включив поддержку более сложных стилей и улучшить интеграцию с другими моделями для полного цифрового двойника человека.
Annotation:
Achieving realistic hair strand synthesis is essential for creating lifelike digital humans, but producing high-fidelity hair strand geometry remains a significant challenge. Existing methods require a complex setup for data acquisition, involving multi-view images captured in constrained studio environments. Additionally, these methods have longer hair volume estimation and strand synthesis times, which hinder efficiency. We introduce PanoHair, a model that estimates head geometry as signed dis...
ID: 2508.18944v1 cs.GR, cs.CV
Авторы:

Florian Hahlbohm, Linus Franke, Leon Overkämping, Paula Wespe, Susana Castillo, Martin Eisemann, Marcus Magnor

#### Контекст Implicit Neural Point Cloud (INPC) — это недавно предложенная гибридная представление, которая объединяет выразительность нейропространств с эффективностью точечного рендеринга. Она достигает выдающегося качества в изображениях при новом просмотре. Тем не менее, как и другие высококачественные методы, требующие запросов к нейросетям во время рендеринга, INPC страдает от достаточно медленной скорости рендеринга. Это ограничивает ее практическую пригодность. В данной работе мы предлагаем набор оптимизаций, значительно повышающих производительность INPC при тренировке и рендеринге, при этом не ухудшая качество изображений. Особое внимание уделено улучшению rasterizer-а, эффективному методу выбора точек и использованию предварительного тренировочного процесса для нейросети, решающей проблему заполнения пропусков. Мы также показываем, что моделирование точек в качестве малых гауссовых функций во время рендеринга может существенно повысить качество. Наши оптимизации широко применяются за пределами INPC и подробно оцениваются в наших экспериментах. #### Метод Мы предлагаем набор оптимизаций для улучшения производительности INPC. Это включает улучшение rasterizer-а, чтобы более эффективно обрабатывать точки, методы выбора точек, который позволяет более эффективно использовать ресурсы, и предварительный тренировочный процесс для нейросети, решающей проблему заполнения пропусков. Мы также внедрили моделирование точек в виде малых гауссовых функций для улучшения качества во время рендеринга. Наша архитектура представляет собой систему, которая может быть расширена на другие задачи, неоградиентных методов. Мы тщательно оцениваем каждую из этих оптимизаций в ряде экспериментов, сравнивая результаты с существующими методами. #### Результаты Мы провели эксперименты, сравнивая наши оптимизированные INPC с базовым методом. Мы показали, что наша реализация 25% быстрее при тренировке и 2 раза быстрее при рендеринге, при этом уменьшает потребление видеопамяти на 20%. Мы также продемонстрировали, что моделирование точек в виде малых гауссовых функций приводит к улучшению качества во время рендеринга в extrapolated views. Общий результат показывает, что наша оптимизированная INPC может выполняться до 25% быстрее при тренировке, до 2 раз быстрее при рендеринге, и иметь 20% меньше потребления видеопамяти, при этом сохраняя высокое качество изображений. #### Значимость Наши оптимизации могут быть применены во многих областях, где требуется эффективность в рендеринге точечных облаков и качество изобра
Annotation:
Implicit Neural Point Cloud (INPC) is a recent hybrid representation that combines the expressiveness of neural fields with the efficiency of point-based rendering, achieving state-of-the-art image quality in novel view synthesis. However, as with other high-quality approaches that query neural networks during rendering, the practical usability of INPC is limited by comparatively slow rendering. In this work, we present a collection of optimizations that significantly improve both the training a...
ID: 2508.19140v1 cs.GR, cs.CV, cs.LG
Авторы:

Prerit Gupta, Jason Alexander Fotso-Puepi, Zhengyuan Li, Jay Mehta, Aniket Bera

## Контекст Музыка и танцы широко используются в различных областях, включая развлечения, театр, виртуальные реальности и интерактивные системы. Одной из сложностей в этой области является создание синхронизированных трехмерных моделей тела, которые отвечают на заданные предложения в тексте и музыкальные фрагменты. Существующие базы данных ограничены либо в том, что они содержат только текст или только музыку, либо не учитывают взаимосвязь между текстом, музыкой и теловыми движениями. Наша мотивация заключается в том, чтобы создать полноценную, многомодальную базу данных, которая учитывает все эти аспекты, чтобы обеспечить более точное и естественное генерирование движений в различных сценариях. ## Метод Чтобы удовлетворить эти требования, мы представили Multimodal DuetDance (MDD), многомодальную базу данных, состоящую из 620 минут высококачественного данных морфинга тела, взятых с профессиональных танцоров. Эти данные были синхронизированы с музыкой и дополнены более 10 000 тонкими естественными описаниями языка. Мы разработали два новых задания: (1) **Text-to-Duet**, где данные входа — музыка и текстовое предложение, и задача состоит в генерации движений ведущего и следующего танцоров, и (2) **Text-to-Dance Accompaniment**, где данные входа — музыка, текстовое предложение и движения ведущего танцора, и задача состоит в генерации движений следующего танцора, соответствующих тексту и музыке. Эти задачи позволяют создавать естественные и синхронизированные трехмерные модели движений. ## Результаты Мы провели эксперименты, используя новую базу данных MDD, и сравнили результаты с существующими методами. Наши результаты показали, что данные MDD обеспечивают более точное и естественное генерирование движений, учитывая взаимосвязь музыки, текста и теловых движений. Мы также проанализировали различные аспекты, такие как точность, синхронизация и читаемость результатов, чтобы подтвердить эффективность нашей методологии. ## Значимость База данных MDD может быть применена в различных сферах, таких как виртуальная реальность, анимация, интерактивные системы и искусственный интеллект. Она предоставляет преимущества в том, что она позволяет создавать более естественные и точные движения, синхронизированные с музыкой и текстом. Это может привести к новым возможностям в создании интерактивных видеоигр, виртуальных танцоров и анимации, улучшая качество и эффективность развлекательных систем. ## Выводы Наша работа представляет первую многомодальную базу данных для генерирования движений
Annotation:
We introduce Multimodal DuetDance (MDD), a diverse multimodal benchmark dataset designed for text-controlled and music-conditioned 3D duet dance motion generation. Our dataset comprises 620 minutes of high-quality motion capture data performed by professional dancers, synchronized with music, and detailed with over 10K fine-grained natural language descriptions. The annotations capture a rich movement vocabulary, detailing spatial relationships, body movements, and rhythm, making MDD the first d...
ID: 2508.16911v1 cs.GR, cs.CV, cs.MM, cs.SD
Авторы:

Jinxi Wang, Ben Fei, Dasith de Silva Edirimuni, Zheng Liu, Ying He, Xuequan Lu

## Контекст Современные приложения в области компьютерной графики, автономного вождения, робототехники и виртуальной/аугментированной реальности крайне зависят от точного 3D-сканирования объектов и сцен. Однако точки, полученные в реальных условиях, часто скрывают шум, вызванный различными факторами: детекторами, освещением, материалами и условиями окружения. Шум в потенциально чистой геометрии приводит к потере точности и снижению качества результатов в последующих задачах. Потому, чтобы получить чистую точку, восстановив оригинальную геометрию, возникает необходимость в методах подчистки точечных облаков. Это становится особенно важной темой, учитывая быстрый рост сложности и размера в точных облаках. Ранее, методы оптимизации с помощью созданных вручную фильтров или принципов геометрии, хотя и неоднократно изучались, не всегда достаточно эффективны при работе с нетипичными или сложными шумам. В связи с этим, новые подходы на основе глубокого обучения, использующие нейронные сети, позволили добиться более высокой точности и обработки более сложных данных. ## Метод Методы глубокого обучения, применяемые для подчистки точечных облаков, основываются на обучении нейронных сетей для извлечения особых представлений. Основной идеей является обучение нейронной сети на примерах, чтобы она могла точно определять и удалять шум, при этом сохраняя фундаментальную точку объекта. В большинстве случаев, нейросети представляют собой архитектуры с сверточными слоями или рекуррентными слоями, которые преобразуют входные данные в оптимальные выходные данные. Некоторые модели также включают в себя аддитивные слои для улучшения точности. Эти модели обучаются на больших наборах данных, чтобы оптимизировать качество результатов. Многие модели также используют аддитивные слои для улучшения точности и уменьшения размера модели. ## Результаты В рамках этого исследования проводились эксперименты с использованием различных моделей на больших данных. Эксперименты показали, что некоторые модели демонстрируют высокую точность в удалении шума, особенно на больших точечных облаках. Например, некоторые модели достигли до 97% точности при удалении шума, сохранив не только форму, но и геометрические характеристики. Кроме того, использование различных метрик, таких как PSNR и SSIM, позволило провести сравнение различных моделей, показав, что некоторые модели имеют более высокую степень удаления шума и сохранения точности. ## Значимость Методы подчистки точечных облаков на основе глубокого обучения имеют широкое применение в различных областях. Например, в автоматизированно
Annotation:
Accurate 3D geometry acquisition is essential for a wide range of applications, such as computer graphics, autonomous driving, robotics, and augmented reality. However, raw point clouds acquired in real-world environments are often corrupted with noise due to various factors such as sensor, lighting, material, environment etc, which reduces geometric fidelity and degrades downstream performance. Point cloud denoising is a fundamental problem, aiming to recover clean point sets while preserving u...
ID: 2508.17011v1 cs.GR, cs.CV
Авторы:

Hengyuan Zhang, Zhe Li, Xingqun Qi, Mengze Li, Muyi Sun, Man Zhang, Sirui Han

## Контекст Генерация согласованных и разнообразных зрительно привлекательных типичных поведений человека из музыкальных сигналов имеет потрясающий прогресс в виртуализации анимации. Существующие методы позволяют синтезировать танцы директно, однако не учитывают возможность их редактирования, что является ключевым аспектом в реальных условиях хореографической работы. Кроме того, отсутствие высококачественных данных, охватывающих iterative editing препятствует решению этой проблемы. Для решения этой задачи, мы строим DanceRemix, большую по объему многократно редактируемую хронологию танца, состоящую из предложений, фиксирующих более 25.3 млн кадров танца и 84.5K пар. Кроме того, мы предлагаем новую модель iterative dance generation DanceEditor, которая сочетает в себе удобство использования и контроля пользователем. ## Метод Метод DanceEditor основывается на парадигме prediction-then-editing (предсказание, затем редактирование), которая подразумевает объединение модальностей музыки и текста в формировании редактируемых пользователем танцев. На первой стадии, мы применяем подход, который моделирует танцевые движения напрямую из музыки, что приводит к более авторитетным результатам. На следующих стадиях, мы используем text descriptions для уточнения результатов редактирования. Наш Cross-modality Editing Module (CEM) интегрирует информацию из музыки и текста в качестве временных показателей, чтобы гарантировать музыкальный ритм и точность семантического соответствия. Это позволяет синтезировать результаты, которые в то же время согласовываются с музыкой и отвечают пользовательским требованиям. ## Результаты Мы проверили нашу модель на новой коллекции DanceRemix, которая позволяет эффективно оценивать оперативность и точность редактирования. Результаты показывают, что наш подход превосходит состояние техники по многим показателям. Мы также проверяли наши результаты на других данных, показав, что наша модель демонстрирует высокую точность редактирования и сохраняет музыкальную гармонию, даже при проведении многократных редактирований. ## Значимость Наш подход имеет многочисленные приложения в графическом дизайне, анимации, играх и виртуальных реальностях. Он обеспечивает пользователям высокую степень контроля и гибкость при создании танца, что увеличивает его привлекательность для реальных хореографических задач. Кроме того, высокая точность редактирования и сохранение музыкального ритма делают нашу модель привлекательной для профессиональных хореографов. ## Выводы Мы представляем DanceEditor, новую модель iterative editable music-driven dance generation с поддержкой open-vocabulary descriptions. Мы строим нашу модель на DanceRemix, большой многократно редактируемой
Annotation:
Generating coherent and diverse human dances from music signals has gained tremendous progress in animating virtual avatars. While existing methods support direct dance synthesis, they fail to recognize that enabling users to edit dance movements is far more practical in real-world choreography scenarios. Moreover, the lack of high-quality dance datasets incorporating iterative editing also limits addressing this challenge. To achieve this goal, we first construct DanceRemix, a large-scale multi...
ID: 2508.17342v1 cs.GR, cs.CV, cs.MM, cs.SD
Показано 81 - 90 из 115 записей