📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 ArchGPT: Understanding the World's Architectures with Large Multimodal Models

2025-09-27

Авторы:

Yuze Wang, Luo Yang, Junyi Wang, Yue Qi

## Контекст Архитектура является не только функциональным элементом жизни людей, но и творческим и культурным явлением, отображающим ценности, историю и культурные особенности разных народов. Однако существующие виртуальные, повышенной или смешанной реальностях не всегда удается полностью отобразить все значимые аспекты архитектуры, такие как стиль, структура, исторические значения и эстетические характеристики. В этом контексте возникает потребность в развитии методов, позволяющих более глубоко и точно интерпретировать и визуализировать архитектурные объекты, чтобы улучшить понимание и доступность этого направления для различных аудиторий. ## Метод Чтобы решить эту проблему, предлагается ArchGPT — модель визуального вопроса-ответа, объединяющая несколько моделей различных моделей. Её модель основывается на ShareGPT4V-7B, которая была усовершенствована для работы с архитектурными данными. Методология включает несколько ключевых этапов: 1. **Сбор данных**: Используется специальная подборка архивированных сцен из Wikimedia Commons. Для получения качественных изображений проводится фильтрация неконтролируемых туристических фотографий. Это делается с помощью трёхмерного реконструкции и семантической сегментации, чтобы выбрать кристально чистые изображения строений без оккультации. 2. **Очистка и анализ текстовых метаданных**: Для того, чтобы избежать шума и неоднозначности в метаданных, применяется текстовая модель с высоким уровнем технологического прогресса. Она улучшает качество вопросов и ответов, связанных с архитектурой. 3. **Синтез дополнительных данных**: Для повышения семантического разнообразия вводятся дополнительные вопросы-ответы, основанные на глубоких анализах архитектурных элементов. ## Результаты Проведенные эксперименты показали, что ArchGPT может давать точные ответы на вопросы, связанные с архитектурой, и обладает возможностью анализировать различные аспекты, такие как стиль, форма, цвет и другие. Данные, полученные с помощью Arch-300K, позволили подтвердить эффективность модели в применении к различным архитектурным стилям и периодам. ## Значимость Результаты могут быть применены в различных областях: - **Образование**: Улучшение уровня понимания архитектурных творений у студентов и учащихся. - **Сохранение культурного наследия**: Повышение доступности информации для широкой аудитории. - **Профессиональное дизайновое творчество**: Предоставление новых возможностей для творческой работы в области архитектуры. ## Выводы ArchGPT д

Annotation:

Architecture embodies aesthetic, cultural, and historical values, standing as a tangible testament to human civilization. Researchers have long leveraged virtual reality (VR), mixed reality (MR), and augmented reality (AR) to enable immersive exploration and interpretation of architecture, enhancing accessibility, public understanding, and creative workflows around architecture in education, heritage preservation, and professional design practice. However, existing VR/MR/AR systems are often dev...

ID: 2509.20858v1 cs.GR, cs.CV, cs.MM

arXiv PDF

📄 MDD: A Dataset for Text-and-Music Conditioned Duet Dance Generation

2025-08-27

Авторы:

Prerit Gupta, Jason Alexander Fotso-Puepi, Zhengyuan Li, Jay Mehta, Aniket Bera

## Контекст Музыка и танцы широко используются в различных областях, включая развлечения, театр, виртуальные реальности и интерактивные системы. Одной из сложностей в этой области является создание синхронизированных трехмерных моделей тела, которые отвечают на заданные предложения в тексте и музыкальные фрагменты. Существующие базы данных ограничены либо в том, что они содержат только текст или только музыку, либо не учитывают взаимосвязь между текстом, музыкой и теловыми движениями. Наша мотивация заключается в том, чтобы создать полноценную, многомодальную базу данных, которая учитывает все эти аспекты, чтобы обеспечить более точное и естественное генерирование движений в различных сценариях. ## Метод Чтобы удовлетворить эти требования, мы представили Multimodal DuetDance (MDD), многомодальную базу данных, состоящую из 620 минут высококачественного данных морфинга тела, взятых с профессиональных танцоров. Эти данные были синхронизированы с музыкой и дополнены более 10 000 тонкими естественными описаниями языка. Мы разработали два новых задания: (1) **Text-to-Duet**, где данные входа — музыка и текстовое предложение, и задача состоит в генерации движений ведущего и следующего танцоров, и (2) **Text-to-Dance Accompaniment**, где данные входа — музыка, текстовое предложение и движения ведущего танцора, и задача состоит в генерации движений следующего танцора, соответствующих тексту и музыке. Эти задачи позволяют создавать естественные и синхронизированные трехмерные модели движений. ## Результаты Мы провели эксперименты, используя новую базу данных MDD, и сравнили результаты с существующими методами. Наши результаты показали, что данные MDD обеспечивают более точное и естественное генерирование движений, учитывая взаимосвязь музыки, текста и теловых движений. Мы также проанализировали различные аспекты, такие как точность, синхронизация и читаемость результатов, чтобы подтвердить эффективность нашей методологии. ## Значимость База данных MDD может быть применена в различных сферах, таких как виртуальная реальность, анимация, интерактивные системы и искусственный интеллект. Она предоставляет преимущества в том, что она позволяет создавать более естественные и точные движения, синхронизированные с музыкой и текстом. Это может привести к новым возможностям в создании интерактивных видеоигр, виртуальных танцоров и анимации, улучшая качество и эффективность развлекательных систем. ## Выводы Наша работа представляет первую многомодальную базу данных для генерирования движений

Annotation:

We introduce Multimodal DuetDance (MDD), a diverse multimodal benchmark dataset designed for text-controlled and music-conditioned 3D duet dance motion generation. Our dataset comprises 620 minutes of high-quality motion capture data performed by professional dancers, synchronized with music, and detailed with over 10K fine-grained natural language descriptions. The annotations capture a rich movement vocabulary, detailing spatial relationships, body movements, and rhythm, making MDD the first d...

ID: 2508.16911v1 cs.GR, cs.CV, cs.MM, cs.SD

arXiv PDF

📄 DanceEditor: Towards Iterative Editable Music-driven Dance Generation with Open-Vocabulary Descriptions

2025-08-27

Авторы:

Hengyuan Zhang, Zhe Li, Xingqun Qi, Mengze Li, Muyi Sun, Man Zhang, Sirui Han

## Контекст Генерация согласованных и разнообразных зрительно привлекательных типичных поведений человека из музыкальных сигналов имеет потрясающий прогресс в виртуализации анимации. Существующие методы позволяют синтезировать танцы директно, однако не учитывают возможность их редактирования, что является ключевым аспектом в реальных условиях хореографической работы. Кроме того, отсутствие высококачественных данных, охватывающих iterative editing препятствует решению этой проблемы. Для решения этой задачи, мы строим DanceRemix, большую по объему многократно редактируемую хронологию танца, состоящую из предложений, фиксирующих более 25.3 млн кадров танца и 84.5K пар. Кроме того, мы предлагаем новую модель iterative dance generation DanceEditor, которая сочетает в себе удобство использования и контроля пользователем. ## Метод Метод DanceEditor основывается на парадигме prediction-then-editing (предсказание, затем редактирование), которая подразумевает объединение модальностей музыки и текста в формировании редактируемых пользователем танцев. На первой стадии, мы применяем подход, который моделирует танцевые движения напрямую из музыки, что приводит к более авторитетным результатам. На следующих стадиях, мы используем text descriptions для уточнения результатов редактирования. Наш Cross-modality Editing Module (CEM) интегрирует информацию из музыки и текста в качестве временных показателей, чтобы гарантировать музыкальный ритм и точность семантического соответствия. Это позволяет синтезировать результаты, которые в то же время согласовываются с музыкой и отвечают пользовательским требованиям. ## Результаты Мы проверили нашу модель на новой коллекции DanceRemix, которая позволяет эффективно оценивать оперативность и точность редактирования. Результаты показывают, что наш подход превосходит состояние техники по многим показателям. Мы также проверяли наши результаты на других данных, показав, что наша модель демонстрирует высокую точность редактирования и сохраняет музыкальную гармонию, даже при проведении многократных редактирований. ## Значимость Наш подход имеет многочисленные приложения в графическом дизайне, анимации, играх и виртуальных реальностях. Он обеспечивает пользователям высокую степень контроля и гибкость при создании танца, что увеличивает его привлекательность для реальных хореографических задач. Кроме того, высокая точность редактирования и сохранение музыкального ритма делают нашу модель привлекательной для профессиональных хореографов. ## Выводы Мы представляем DanceEditor, новую модель iterative editable music-driven dance generation с поддержкой open-vocabulary descriptions. Мы строим нашу модель на DanceRemix, большой многократно редактируемой

Annotation:

Generating coherent and diverse human dances from music signals has gained tremendous progress in animating virtual avatars. While existing methods support direct dance synthesis, they fail to recognize that enabling users to edit dance movements is far more practical in real-world choreography scenarios. Moreover, the lack of high-quality dance datasets incorporating iterative editing also limits addressing this challenge. To achieve this goal, we first construct DanceRemix, a large-scale multi...

ID: 2508.17342v1 cs.GR, cs.CV, cs.MM, cs.SD

arXiv PDF

📄 Exploring Palette based Color Guidance in Diffusion Models

2025-08-14

Авторы:

Qianru Qiu, Jiafeng Mao, Xueting Wang

## Контекст Современные текстово-изображение (T2I) модели, основанные на архитектуре типа Diffusion, достигли высокого качества генерации изображений. Однако, несмотря на их интуитивность, эти модели испытывают определенные сложности в контролировании цветовых схем в изображениях. Использование текстовых подсказок (prompts) позволяет указывать цвета объектов, но часто недостаточно для комплексного управления цветовой схемой всего изображения, особенно для фоновых элементов и незначительных объектов, которые не явно определены в текстовой композиции. Это приводит к несоответствию между пользовательскими ожиданиями и реальным результатом. Наша мотивация заключается в развитии системы, которая бы позволила более точно и гибко контролировать цветовую схему, особенно для фоновых элементов и незначительных объектов. ## Метод Мы предлагаем интегрировать цветовые палитры как отдельный механизм управления, который будет работать вместе с текстовыми подсказками. Наш метод включает несколько этапов: 1. **Представление цветовой палитры**: Мы представляем цвета в виде нескольких точек в RGB-пространстве, которые объединены в одну структуру для более точного управления. 2. **Интеграция с текстовыми подсказками**: Мы синхронизируем цветовые палитры с текстовыми подсказками, чтобы обеспечить более синергетическое управление цветовой схемой. 3. **Оптимизация в процессе обучения**: Мы оптимизируем модель в процессе обучения, используя палитру как дополнительный сигнал для улучшения точности и качества генерации. 4. **Специальные данные**: Мы создали набор данных, который включает текстовые подсказки, цветовые палитры и соответствующие изображения, для полного исследования возможностей этого подхода. ## Результаты Мы провели многочисленные эксперименты для оценки эффективности нашего подхода. Использовались различные данные для тестирования, включая общедоступные и специально подготовленные наборы. Мы измеряли качество генерируемых изображений с помощью метрик, таких как PSNR, SSIM и LPIPS. Наши результаты показали, что использование цветовых палитр в качестве дополнительного управляющего сигнала существенно повышает точность и качество генерации, особенно для фоновых элементов и незначительных объектов. Мы также провели визуальные оценки, подтверждающие, что наш подход обеспечивает более точное соответствие цветовых схем пользовательским ожиданиям. ## Значимость Наш подход может быть применен в различных областях, таких как графический дизайн, визуализация и искусственное интеллектуальное создание изображений.

Annotation:

With the advent of diffusion models, Text-to-Image (T2I) generation has seen substantial advancements. Current T2I models allow users to specify object colors using linguistic color names, and some methods aim to personalize color-object association through prompt learning. However, existing models struggle to provide comprehensive control over the color schemes of an entire image, especially for background elements and less prominent objects not explicitly mentioned in prompts. This paper propo...

ID: 2508.08754v1 cs.GR, cs.CV, cs.MM

arXiv PDF

📄 Perceive-Sample-Compress: Towards Real-Time 3D Gaussian Splatting

2025-08-09

Авторы:

Zijian Wang, Beizhen Zhao, Hao Wang

Заголовок: Perceive-Sample-Compress: Towards Real-Time 3D Gaussian Splatting В последние годы 3D Gaussian Splatting (3DGS) проявила свою мощь в реализации реального времени и фотореалистичной синтеза представления из новых точек зрения. Однако существующие подходы часто сталкиваются с проблемами управления большими сценами и эффективным хранением данных, особенно при работе с комплексными средами или ограниченными вычислительными ресурсами. В данной работе мы предлагаем Perceive-Sample-Compress — новый подход к решению этих проблем. Мы вводим метод компенсации видимости, который структурирует параметры Гауссовых оболочек на разных уровнях, обеспечивая при этом высокую четкость в ключевых областях и эффективное использование ресурсов. Для управления несколькими уровнями мы предлагаем пирамидальную структуру для Гауссовых примитивов. Наконец, мы предлагаем алгоритм сжатия Generalized Gaussian Mixed Model, позволяющий существенно уменьшить размер представления без потери качества. Наши эксперименты показали, что этот подход эффективно улучшает памятьное использование, повышает качество и поддерживает реального времени синтез.

Annotation:

Recent advances in 3D Gaussian Splatting (3DGS) have demonstrated remarkable capabilities in real-time and photorealistic novel view synthesis. However, traditional 3DGS representations often struggle with large-scale scene management and efficient storage, particularly when dealing with complex environments or limited computational resources. To address these limitations, we introduce a novel perceive-sample-compress framework for 3D Gaussian Splatting. Specifically, we propose a scene percepti...

ID: 2508.04965v1 cs.GR, cs.CV, cs.MM

arXiv PDF

📄 Laplacian Analysis Meets Dynamics Modelling: Gaussian Splatting for 4D Reconstruction

2025-08-09

Авторы:

Yifan Zhou, Beizhen Zhao, Pengcheng Wu, Hao Wang

Метод Лапласа, применяемый к динамическим сценам, предлагает решение проблем, связанных с низким разрешением и коллизиями при динамической моделировании в 3D-сплаттинге. Основная проблема заключается в том, что традиционные методы используют либо низкочастотные модели, которые приводят к затуханию деталей, либо высокочастотные модели, приводящие к коллизиям при движении. Разработанный метод решает эту проблему с помощью гибридной модели, объединяющей в себе эксплицитные и имплицитные функции. Он включает в себя архитектуру спектрального контроля, использующую хэш-кодирование и модуль Лапласа для гибкого управления частотой движения, а также дополнительные атрибуты динамики, устраняющие фотометрические расхождения. Также введена эффективная стратегия оптимизации, основанная на KDTree, для эффективного решения проблемы динамического зрения. Проведенные эксперименты показали, что предлагаемый подход демонстрирует лучшую точность восстановления динамических сцен по сравнению с предыдущими методами.

Annotation:

While 3D Gaussian Splatting (3DGS) excels in static scene modeling, its extension to dynamic scenes introduces significant challenges. Existing dynamic 3DGS methods suffer from either over-smoothing due to low-rank decomposition or feature collision from high-dimensional grid sampling. This is because of the inherent spectral conflicts between preserving motion details and maintaining deformation consistency at different frequency. To address these challenges, we propose a novel dynamic 3DGS fra...

ID: 2508.04966v1 cs.GR, cs.CV, cs.MM

arXiv PDF