📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 LSD-3D: Large-Scale 3D Driving Scene Generation with Geometry Grounding

2025-08-28

Авторы:

Julian Ost, Andrea Ramazzina, Amogh Joshi, Maximilian Bömer, Mario Bijelic, Felix Heide

## Контекст Одной из основных проблем в области машинного обучения для роботов является недостаточность качественных данных для обучения и тестирования. Нейронные сети, используемые в робототехнике, часто требуют больших объемов данных, охватывающих разнообразные сцены и сценарии. Однако существующие методы, основанные на реконструкции нейросетевыми методами, часто привязаны к статическим сценам и имеют ограниченную гибкость в управлении сценами и траекториями. Это ограничивает их применение в ситуациях, требующих более высокой динамичности и контроля. Методы, основанные на искусственных изображениях и видео, предлагают большую гибкость в управлении, однако часто страдают от недостатка геометрической точности и причинности. Наша мотивация заключается в создании метода, который бы объединил точность геометрии и высокую динамичность, обеспечивая полную управляемость и реалистичность в генерации трехмерных сцен. ## Метод Мы предлагаем LSD-3D (Large-Scale 3D Driving Scene Generation with Geometry Grounding) — метод, который комбинирует прокси-геометрию и средства оболочечной интерпретации с обученными признаками из моделей изображений. Метод работает в два этапа: в первом этапе производится генерация прокси-геометрии с помощью специальной архитектуры, которая берет в качестве входных данных карты местности и порождает трехмерные модели. Во втором этапе используется процедура score distillation, которая взята из обученных моделей изображений, чтобы уточнить детали текстуры и структуры. Ключевой особенностью метода является его гибкость: он позволяет гиперпараметрически управлять геометрией, текстурой и структурой сцены, в то же время сохраняя геометрическую точность и причинность. Это делает LSD-3D уникальным в способности генерировать реалистичные трехмерные сцены во всём различии индивидуальности и разнообразия. ## Результаты Мы проверили наш метод на различных корпусах данных, включая карты местности и данные сенсорных систем. Для оценки качества генерации проводились эксперименты, в которых сравнивались наш метод с существующими системами, ориентированными на геометрию и текстурное описание. Результаты показали, что LSD-3D превосходит другие подходы в терминах точности геометрии и качества текстурной детализации. Особенно выдаются результаты, связанные с гибкостью в управлении, что позволяет сгенерировать сцены в разнообразных условиях. Также, проведенные эксперименты показали высокую степень объектной перманентности и точность в оценке трёхмерной геометрии. ## Значимо

Annotation:

Large-scale scene data is essential for training and testing in robot learning. Neural reconstruction methods have promised the capability of reconstructing large physically-grounded outdoor scenes from captured sensor data. However, these methods have baked-in static environments and only allow for limited scene control -- they are functionally constrained in scene and trajectory diversity by the captures from which they are reconstructed. In contrast, generating driving data with recent image ...

ID: 2508.19204v1 cs.CV, cs.AI, cs.GR

arXiv PDF

📄 Image-Conditioned 3D Gaussian Splat Quantization

2025-08-23

Авторы:

Xinshuang Liu, Runfa Blark Li, Keito Suzuki, Truong Nguyen

#### Контекст 3D Gaussian Splatting (3DGS) является перспективной технологией, обеспечивающей высококачественное реального времени рендеринга трёхмерных сцен. Однако существуют две основные проблемы, которые ограничивают её применение. Во-первых, существующие методы сжатия 3DGS сжимают сцены только до мегабайтного диапазона, что недостаточно для больших сцен или коллекций. Во-вторых, существуют никакие механизмы для обновления сцен после их архивирования. Данные ограничения препятствуют использованию 3DGS в большинстве настоящих сценариев применения. Мы предлагаем ICGS-Quantizer, который решает эти проблемы, обеспечивая эффективное сжатие до килобайтного диапазона и добавляя возможность обновления сцен после архивации. #### Метод Мы предлагаем ICGS-Quantizer, который построен на основе 3DGS, но включает дополнительные инновации для эффективного сжатия и улучшения устойчивости к изменениям сцен. Метод учитывает как интер-Гауссовые соотношения, так и интер-атрибутные соотношения. Мы используем общие кодеки для всех сцен, которые не изменяются при добавлении новых сцен, что позволяет снизить потребность в дополнительной памяти. Для достижения устойчивости к изменениям сцен после их архивного хранения, мы вводим механизм, который использует новые изображения, захваченные во время декодирования, для перестроения трёхмерной сцены. Это позволяет хранить сцену в уменьшенном виде, при этом сохраняя возможность обновления. #### Результаты Мы подвергли ICGS-Quantizer кросс-экспериментов на нескольких трёхмерных сценах с разными уровнями сложности. Мы сравнили его с состоянием технологии в двух ключевых аспектах: эффективности сжатия и устойчивости к изменениям сцен. Результаты показали, что ICGS-Quantizer эффективно сжимает сцены до килобайтного диапазона, что значительно превосходит состояние технологии. Также была подтверждена высокая устойчивость к изменениям сцен, что демонстрирует возможность использовать ICGS-Quantizer для реального времени обновления сцен после их архивирования. #### Значимость Наш метод может быть применён в различных областях, включая виртуальную реальность, мобильные приложения и системы с требованиями к высокому качеству рендеринга. Он обеспечивает значительное улучшение в сжатии трёхмерных сцен, что позволяет хранить больше сцен на одном устройстве или в базе данных. Также он предоставляет возможность адаптивного обновления сцен, что делает его уникальным для сценариев, где сцены могут меняться с течением времени. Это улучшение потенциально может иметь большое влияние на разви

Annotation:

3D Gaussian Splatting (3DGS) has attracted considerable attention for enabling high-quality real-time rendering. Although 3DGS compression methods have been proposed for deployment on storage-constrained devices, two limitations hinder archival use: (1) they compress medium-scale scenes only to the megabyte range, which remains impractical for large-scale scenes or extensive scene collections; and (2) they lack mechanisms to accommodate scene changes after long-term archival. To address these li...

ID: 2508.15372v1 cs.CV, cs.AI, cs.GR

arXiv PDF

📄 RayletDF: Raylet Distance Fields for Generalizable 3D Surface Reconstruction from Point Clouds or Gaussians

2025-08-15

Авторы:

Shenxing Wei, Jinxi Li, Yafei Yang, Siyuan Zhou, Bo Yang

#### Контекст Область исследования 3D-сурфейс-реконструкции из точечных множеств или 3D-Гауссиан (т.е., приближенных нормальных распределений) является актуальной для многих прикладных задач, таких как виртуальная реальность, робототехника, 3D-дизайн и инспекция. Несмотря на успех методов, основанных на координатах (Coordinate-Based Methods, CBM), они часто сталкиваются с высокими затратами ресурсов при рендеринге точных эксплорных сурфейсов. Такие методы требуют многократного обращения к нейросетевым моделям для каждого пикселя, что приводит к высокому времени вычислений и неэффективности. Тем самым, существует необходимость в разработке более эффективных, гибких и производительных алгоритмов для решения этой задачи. #### Метод Метод RayletDF предлагает инновационный подход к решению проблемы 3D-сурфейс-реконструкции. Основная идея заключается в использовании "raylet distance field" (RDF), который рассчитывает расстояние до ближайшего сурфейса для каждого исследоваемого луча (raylet). Этот подход позволяет избежать непосредственного вычисления координат сурфейсной точки и, следовательно, снижает компьютерные затраты. Архитектура RayletDF состоит из трех модулей: 1. **Raylet Feature Extractor** — извлекает тонкие локальные геометрические признаки из запросов лучей. 2. **Raylet Distance Field Predictor** — прогнозирует расстояния до сурфейса по этим признакам. 3. **Multi-Raylet Blender** — комбинирует несколько прогнозов для построения точных сурфейсных точек. Эта архитектура обеспечивает точные и производительные реконструкции сурфейсов, с минимальными вычислительными затратами. #### Результаты Работа была проверена на нескольких широко известных реальных данных, в том числе в таких областях, как 3D-сурфейс-реконструкция и виртуальная реальность. Использовались различные точечные множества и 3D-Гауссианы, полученные с помощью 3DGS (3D Gaussian Sampling) из RGB-изображений. Полученные результаты сравнивались с другими современными методами, показав существенное преимущество RayletDF в скорости и точности реконструкции сурфейсов. Особенно выдающимся был его результат в области общей гибкости: RayletDF способен выполнить рендеринг 3D-сурфейсов в одном проходе (single-forward-pass) даже на неизвестных данных. #### Значимость Полученный подход имеет широкие приложения в сферах, требующих эффективной и точной 3D-реконструкции, таких как виртуальная реальность, робототехника, 3D-анализ и отображение. Он отличается высокой скоростью исполнения и гибкостью при работе с различными типами данных. В отличие от методов CBM, RayletDF не требует многократных вызовов нейросети, что де

Annotation:

In this paper, we present a generalizable method for 3D surface reconstruction from raw point clouds or pre-estimated 3D Gaussians by 3DGS from RGB images. Unlike existing coordinate-based methods which are often computationally intensive when rendering explicit surfaces, our proposed method, named RayletDF, introduces a new technique called raylet distance field, which aims to directly predict surface points from query rays. Our pipeline consists of three key modules: a raylet feature extractor...

ID: 2508.09830v1 cs.CV, cs.AI, cs.GR, cs.LG, cs.RO

arXiv PDF

📄 Learning Latent Representations for Image Translation using Frequency Distributed CycleGAN

2025-08-06

Авторы:

Shivangi Nigam, Adarsh Prasad Behera, Shekhar Verma, P. Nagabhushan

В статье представлен Fd-CycleGAN, инновационный фреймворк для задач image-to-image (I2I) трансляции, направленный на улучшение обучения латентных представлений для более точного аппроксимации реальных распределений данных. Основываясь на CycleGAN, Fd-CycleGAN интегрирует Local Neighborhood Encoding (LNE) и частотно-ориентированное наблюдение, что позволяет захватывать тонкие локальные семантические характеристики пикселей и сохранять структурную целостность исходного домена. Используя метрики потерь на основе распределений, такие как KL/JS дивергенция и логарифмические меры схожести, Fd-CycleGAN явно оценивает соответствие между реальными и сгенерированными распределениями изображений в пространственной и частотной областях. Эксперименты на различных датасетах (Horse2Zebra, Monet2Photo, Strike-off) показывают, что Fd-CycleGAN превосходит базовый CycleGAN и другие современные методы по характеристикам качества восприятия, скорости сходимости и разнообразия режимов, особенно в условиях ограниченных данных. Результаты подтверждают, что частотно-ориентированное обучение латентных представлений значительно улучшает общее качество трансляции изображений, с многообещающими применениями в областях документного восстановления, художественного стилевого переноса, и синтеза медициных изображений. Также, в статье представлены сравнительные анализы с диффузионными генеративными моделями, выделяя преимущества Fd-CycleGAN по тренировочной эффективности и качеству вывода.

Annotation:

This paper presents Fd-CycleGAN, an image-to-image (I2I) translation framework that enhances latent representation learning to approximate real data distributions. Building upon the foundation of CycleGAN, our approach integrates Local Neighborhood Encoding (LNE) and frequency-aware supervision to capture fine-grained local pixel semantics while preserving structural coherence from the source domain. We employ distribution-based loss metrics, including KL/JS divergence and log-based similarity m...

ID: 2508.03415v1 cs.CV, cs.AI, cs.GR

arXiv PDF

Показано 21 - 24 из 24 записей