📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

2025-09-26

Авторы:

Yandan Yang, Baoxiong Jia, Shujie Zhang, Siyuan Huang

## Контекст Область виртуальных и интерактивных 3D-сред у presedstavljaet важность в сферах, таких как Embodied AI, имитационные игры, виртуальная реальность и интеллектуальные агенты. Однако создание 3D-сцен, которые не только выглядят реалистично, но и логично организованы с точки зрения физики и функциональности, остается сложной задачей. Существующие подходы часто ограничиваются фиксированными категориями сцен или недостаточным детализмом объектов, что приводит к несоответствию пользовательских инструкций или функциональным требованиям. Эти ограничения способствуют поиску новых подходов, которые могли бы объединить возможности различных методов синтеза сцен, обеспечивая гибкость и точность. ## Метод SceneWeaver — это расширяемый и саморефлексирующий фреймворк, который объединяет различные методы синтеза 3D-сцен с использованием инструментов основанных на генеративных моделях и технологиях глубокого обучения. Основным компонентом является language model-based planner, который выбирает соответствующие инструменты на каждом этапе синтеза. Эти инструменты включают в себя сгенерированные с помощью моделей глубокого обучения, а также методы, основанные на визуальных и текстовых сигналах. Фреймворк работает в замкнутом цикле: планировщик оценивает физическую точность, визуальную реалистичность и семантическое соответствие, а затем применяет нужные инструменты для корректировки сцены. Этот подход позволяет SceneWeaver адаптироваться к различным сценариям и компонентам, создавая более точные и функционально разнообразные сцены. ## Результаты Наблюдается значительное улучшение в основных метриках, включая физическую точность, визуальную реалистичность и семантическую аккуратность. SceneWeaver показал способность эффективно обрабатывать сложные пользовательские инструкции и охватывать широкий спектр сценариев. Эксперименты проводились на различных типах сцен, включая общедоступные комнаты и сцены с открытым словарем. Это позволило установить, что SceneWeaver превосходит другие методы как на тестовых, так и на реальных пользовательских задачах. ## Значимость Сцены, сгенерированные SceneWeaver, могут использоваться в различных приложениях, таких как Embodied AI, имитационные игры, виртуальная реальность и дизайн интерьеров. Главный преимущество этого подхода заключается в его расширяемости и саморефлексирующей структуре, которая позволяет улучшать качество сцен во время выполнения. Это открывает путь к новым возможностям в области генеративных моделей и интерактивных систем. ## Выводы SceneWeaver представляет собой полностью расширяем

Annotation:

Indoor scene synthesis has become increasingly important with the rise of Embodied AI, which requires 3D environments that are not only visually realistic but also physically plausible and functionally diverse. While recent approaches have advanced visual fidelity, they often remain constrained to fixed scene categories, lack sufficient object-level detail and physical consistency, and struggle to align with complex user instructions. In this work, we present SceneWeaver, a reflective agentic fr...

ID: 2509.20414v1 cs.GR, cs.CV, cs.LG, cs.RO

arXiv PDF

📄 Neural Atlas Graphs for Dynamic Scene Decomposition and Editing

2025-09-24

Авторы:

Jan Philipp Schneider, Pratik Singh Bisht, Ilya Chugunov, Andreas Kolb, Michael Moeller, Felix Heide

## Контекст Основной мотивацией для развития методов сценарного разбора в динамических сценах является необходимость создания гибких и высококачественных моделей для анализа и редактирования сложных сцен, вовлеченных в автономное вождение или творческое редактирование. Несмотря на успех некоторых подходов, таких как нейроатласы, которые представляют сцены в виде двух деформируемых слоев (фоновый и передний), эти модели становятся неэффективными при поперекложении и взаимодействии объектов. Альтернативные подходы, основанные на графах сцены, позволяют создавать 3D-спектр предметов с использованием масок и боксингов, но выделение и редактирование этих моделей остается трудоемким и неоднозначным. Мы предлагаем метод Neural Atlas Graphs (NAGs), который объединяет преимущества нейроатласов и графов сцены, обеспечивая высокую точность, редактируемость и эффективность в обработке и редактировании динамических сцен. ## Метод Наша архитектура NAGs основана на нейроатласах, которые представляют каждый граф-узел как представление видящегося слоя в 2D. Каждый узел может находиться в произвольной позиции и выглядеть в зависимости от угла взгляда, что позволяет гибко организовывать трехмерные связи. Мы реализуем это с использованием методики обучения с подкреплением, чтобы обеспечить надёжный поиск и привязку объектов в сцене. Наша модель обладает высокой точностью в разборе сцен, что даёт возможность визуального редактирования в высоком разрешении, включая изменение фонов, позиций и визуальной аппаратуры. Мы также используем внешние проверки качества работы на данных свободного вождения и видео-анализа, чтобы продемонстрировать эффективность NAGs. ## Результаты Мы проверяли NAGs на двух различных датасетах: Waymo Open Dataset для автономных сцен и DAVIS для более общих видео-сцен. На Waymo, наш метод показал значительный прогресс по сравнению с предыдущими подходами, демонстрируя повышение PSNR на 5 дБ. На DAVIS, мы получили результаты, превосходящие современные методы маттинга и видео-редактирования, с увеличением PSNR на 7 дБ. Наши эксперименты показывают, что NAGs эффективно работают в широком диапазоне сцен, включая сложные динамические сцены с множеством объектов и взаимодействий. ## Значимость Наши результаты открывают путь для широких применений, включая автономное вождение, редактирование видео и виртуальную реальность. Мы показали, что NAGs обеспечивают высокое качество редактирования в 3D-мерности с высоким разрешением, что делает их привлекательными для приложений, требующих интерактивно

Annotation:

Learning editable high-resolution scene representations for dynamic scenes is an open problem with applications across the domains from autonomous driving to creative editing - the most successful approaches today make a trade-off between editability and supporting scene complexity: neural atlases represent dynamic scenes as two deforming image layers, foreground and background, which are editable in 2D, but break down when multiple objects occlude and interact. In contrast, scene graph models m...

ID: 2509.16336v1 cs.GR, cs.CV, cs.LG

arXiv PDF

📄 SH-SAS: An Implicit Neural Representation for Complex Spherical-Harmonic Scattering Fields for 3D Synthetic Aperture Sonar

2025-09-17

Авторы:

Omkar Shailendra Vengurlekar, Adithya Pediredla, Suren Jayasuriya

## Контекст Синтезированная щитовая система сиона (SAS) широко используется в области судовых и подводных изысканий для выявления и разрешения подводных объектов. Однако существующие алгоритмы по трёхмерной реконструкции в SAS сталкиваются с ограничениями в моделировании локальной дирекции отражения акустических звуковых волн от объектов. Эти трудности могут привести к неточности и снижению качества реконструкции. Одна из основных причин такого недостатка заключается в том, что ранние способы реконструкции использовали либо временно-доменные методы, либо геометрические модели, которые не учитывали дирекцию отражения. Нейронные сети, применяемые в этой области, также сталкиваются с проблемами, такими как переобучение и невозможность обработки сложных дирекционных скачков. Мотивация заключается в создании модели, которая бы моделировала дирекцию отражения более точно, улучшала качество трёхмерной реконструкции и обеспечивала более эффективную обработку данных. ## Метод Мы предлагаем **SH-SAS**, модель, которая представляет характеристики дирекционного отражения с помощью сферических гармоник (SH). Модель использует подход к неявному представлению данных, в котором каждая точка в пространстве представлена несколькими гармоническими компонентами. Мы используем хеш-кодирование многорезольвенчного типа для построения эффективной репрезентации входных данных. Это позволяет сократить количество параметров, необходимых для моделирования сложных дирекционных отражений. Модель обучается на 1D сигналах времени полета, чтобы избежать необходимости использовать более сложные супервайз-методы, такие как бимбимпинг. В ходе обучения, модель строит трёхмерную модель с помощью SH-компонент, которые могут нормально представлять дирекцию отражения. Мы также используем несколько уровней резолюции для улучшения точности и эффективности модели. ## Результаты Мы провели эксперименты сравнения существующих методов с нашей моделью на синтетических данных, а также на реальных данных, как в воздухе, так и в воде. Наши результаты показывают, что **SH-SAS** превосходит предыдущие методы по метрикам качества реконструкции и геометрическим показателям. Мы также проводили анализ того, как модель справляется с различными объёмами данных, и продемонстрировали, что она показывает значительные улучшения при обработке сложных датасетов. Кроме того, мы провели эксперименты с тем, как модель отвечает на различные уровни детализации в шаровых гармониках и показали, что она эффективно моделирует объёмные структуры с точностью. ## Значимость **SH-SAS** имеет значительно

Annotation:

Synthetic aperture sonar (SAS) reconstruction requires recovering both the spatial distribution of acoustic scatterers and their direction-dependent response. Time-domain backprojection is the most common 3D SAS reconstruction algorithm, but it does not model directionality and can suffer from sampling limitations, aliasing, and occlusion. Prior neural volumetric methods applied to synthetic aperture sonar treat each voxel as an isotropic scattering density, not modeling anisotropic returns. We ...

ID: 2509.11087v1 cs.GR, cs.CV, cs.LG

arXiv PDF

📄 TensoIS: A Step Towards Feed-Forward Tensorial Inverse Subsurface Scattering for Perlin Distributed Heterogeneous Media

2025-09-06

Авторы:

Ashish Tiwari, Satyam Bhardwaj, Yash Bachwana, Parag Sarvoday Sahu, T. M. Feroz Ali, Bhargava Chintalapati, Shanmuganathan Raman

## Контекст Оценка параметров рассеяния в многообразных подземных средах представляется одной из самых сложных задач в области инверсных задач. Исследователи часто используют анализ-по-синтез или различные градиентные методы для решения этой задачи. Однако, многие из этих подходов ограничиваются небольшими изменениями в геометрии или структуре среды, не учитывая сложные и непредсказуемые искажения, которые могут возникнуть в реальных объектах. Другие подходы, основанные на различности, требуют высокой плотности сигнала и не всегда могут корректно работать с реальными темиными данными. Добавляя сложность, большинство существующих работ оставляют за собой решение задачи, ориентируясь на лишь часть ситуации, в основном, на одну конкретную форму или материал. Наша исследовательская группа стремилась развить новый, более общий подход к этой проблеме, используя процедурные модели шума, такие как Perlin и Fractal Perlin, для моделирования рассеяния в динамических, неоднородных подземных средах. ## Метод Мы предлагаем TensoIS, нейросетевую модель, которая использует представление в виде низкоранговых тензоров для описания рассеяния в многообразных подземных средах. Модель TensoIS построена на основе Perlin Perlin noise, который моделирует сложные и непредсказуемые характеристики многообразных подземных сред. Мы разработали HeteroSynth — синтетический набор данных, содержащий перспективно съемки многообразных рассеяний в трехмерных средах, где рассеяние описано с помощью Perlin Perlin noise. Для обучения TensoIS мы сформировали несколько компонент низкого ранга, представляющих тривиальные распределения внутренних свойств материала. Эти компоненты используются для построения тензорной модели рассеяния. Мы тестировали TensoIS на нескольких наборах данных, включая синтетические данные HeteroSynth, реальные объекты и даже сложные геометрии, такие как дым и тучи. ## Результаты В ходе экспериментов TensoIS показал высокую точность в оценке рассеяния в трехмерных многообразных подземных средах. Мы сравнили результаты TensoIS с моделями, основанными на других методах, таких как градиентные оптимизации и анализ-по-синтез. TensoIS демонстрировал значительное превосходство в точности и скорости работы, особенно при работе с большими многообразными подземными материалами. Мы также проверили TensoIS на реальных данных, таких как тучи и дым, и получили очень высокую точность в оценке рассеяния. ## Значимость Мы видим в TensoIS значительный улучшение в области инверсных задач рассеяния в подземных средах. Модель TensoIS может быть использована в различных приложениях, таких как мет

Annotation:

Estimating scattering parameters of heterogeneous media from images is a severely under-constrained and challenging problem. Most of the existing approaches model BSSRDF either through an analysis-by-synthesis approach, approximating complex path integrals, or using differentiable volume rendering techniques to account for heterogeneity. However, only a few studies have applied learning-based methods to estimate subsurface scattering parameters, but they assume homogeneous media. Interestingly, ...

ID: 2509.04047v1 cs.GR, cs.CV, cs.LG

arXiv PDF

📄 Unifi3D: A Study on 3D Representations for Generation and Reconstruction in a Common Framework

2025-09-05

Авторы:

Nina Wiedemann, Sainan Liu, Quentin Leboutet, Katelyn Gao, Benjamin Ummenhofer, Michael Paulitsch, Kai Yuan

## Контекст Ускоряющиеся достижения в области текстовой и изображениягенерации привели к значительному вниманию к 3D-генерации. В отличии от устоявшегося пиксельного представления в изображениях, 3D-представления остаются разнообразными и декомпозированными. Они включают такие подходы, как воксельные графы, нейросетевые радиационные поля, сигнид-даистанс-функции, точечные облака и октиры. Каждый подход имеет свои преимущества и ограничения. В данной работе мы предлагаем общую оценочную систему для анализа 3D-представлений по таким критериям, как качество, эффективность вычислений и универсальность. Мы рассматриваем не только процесс оценки моделей, но и все этапы 3D-генерации, включая предобработку, восстановление моделей, сжатие с помощью автокодировщиков и генерацию. Наши результаты показывают, что ошибки восстановления сильно влияют на получаемый результат, что делает необходимым оценивать генерацию и восстановление вместе. Мы даем рекомендации для выбора 3D-моделей в зависимости от конкретных задач, поддерживая развитие универсальных и прикладно-специфичных решений в 3D-генерации. Наш код доступен по адресу: https://github.com/isl-org/unifi3d. ## Метод Мы предложили общую оценочную систему, которая оценивает 3D-представления по нескольким критериям. Эта система использует несколько типов 3D-моделей, включая воксельные графы, радиационные поля, точечные облака и др. Мы разработали тестовые наборы данных для эталонного сравнения 3D-объектов, чтобы измерить качество восстановления, эффективность и универсальность. Наши эксперименты включили стандартные модели, которые прошли ряд этапов, таких как предобработка, реконструкция моделей, сжатие данных с помощью автокодировщиков и последующая генерация. Наша методология рассматривает взаимодействие этих этапов и определяет лучшие практики для каждого из них. Мы также проанализировали, как различные 3D-представления влияют на качество и производительность в целом. Это позволило нам выделить преимущества и недостатки каждого подхода в различных сценариях. ## Результаты Мы провели ряд экспериментов с различными 3D-представлениями, такими как воксели, радиационные поля и точечные облака. Наши результаты показали, что качество восстановления сильно зависит от того, как хорошо представлено 3D-представление. Мы обнаружили, что модели с более точным восстановлением показали лучшие результаты в целом. Также, мы обнаружили, что сжатие данных имеет значительное влияние на качество результатов. Наши эксперименты показали, что лучшие резуль

Annotation:

Following rapid advancements in text and image generation, research has increasingly shifted towards 3D generation. Unlike the well-established pixel-based representation in images, 3D representations remain diverse and fragmented, encompassing a wide variety of approaches such as voxel grids, neural radiance fields, signed distance functions, point clouds, or octrees, each offering distinct advantages and limitations. In this work, we present a unified evaluation framework designed to assess th...

ID: 2509.02474v1 cs.GR, cs.CV, cs.LG

arXiv PDF

📄 A Bag of Tricks for Efficient Implicit Neural Point Clouds

2025-08-28

Авторы:

Florian Hahlbohm, Linus Franke, Leon Overkämping, Paula Wespe, Susana Castillo, Martin Eisemann, Marcus Magnor

#### Контекст Implicit Neural Point Cloud (INPC) — это недавно предложенная гибридная представление, которая объединяет выразительность нейропространств с эффективностью точечного рендеринга. Она достигает выдающегося качества в изображениях при новом просмотре. Тем не менее, как и другие высококачественные методы, требующие запросов к нейросетям во время рендеринга, INPC страдает от достаточно медленной скорости рендеринга. Это ограничивает ее практическую пригодность. В данной работе мы предлагаем набор оптимизаций, значительно повышающих производительность INPC при тренировке и рендеринге, при этом не ухудшая качество изображений. Особое внимание уделено улучшению rasterizer-а, эффективному методу выбора точек и использованию предварительного тренировочного процесса для нейросети, решающей проблему заполнения пропусков. Мы также показываем, что моделирование точек в качестве малых гауссовых функций во время рендеринга может существенно повысить качество. Наши оптимизации широко применяются за пределами INPC и подробно оцениваются в наших экспериментах. #### Метод Мы предлагаем набор оптимизаций для улучшения производительности INPC. Это включает улучшение rasterizer-а, чтобы более эффективно обрабатывать точки, методы выбора точек, который позволяет более эффективно использовать ресурсы, и предварительный тренировочный процесс для нейросети, решающей проблему заполнения пропусков. Мы также внедрили моделирование точек в виде малых гауссовых функций для улучшения качества во время рендеринга. Наша архитектура представляет собой систему, которая может быть расширена на другие задачи, неоградиентных методов. Мы тщательно оцениваем каждую из этих оптимизаций в ряде экспериментов, сравнивая результаты с существующими методами. #### Результаты Мы провели эксперименты, сравнивая наши оптимизированные INPC с базовым методом. Мы показали, что наша реализация 25% быстрее при тренировке и 2 раза быстрее при рендеринге, при этом уменьшает потребление видеопамяти на 20%. Мы также продемонстрировали, что моделирование точек в виде малых гауссовых функций приводит к улучшению качества во время рендеринга в extrapolated views. Общий результат показывает, что наша оптимизированная INPC может выполняться до 25% быстрее при тренировке, до 2 раз быстрее при рендеринге, и иметь 20% меньше потребления видеопамяти, при этом сохраняя высокое качество изображений. #### Значимость Наши оптимизации могут быть применены во многих областях, где требуется эффективность в рендеринге точечных облаков и качество изобра

Annotation:

Implicit Neural Point Cloud (INPC) is a recent hybrid representation that combines the expressiveness of neural fields with the efficiency of point-based rendering, achieving state-of-the-art image quality in novel view synthesis. However, as with other high-quality approaches that query neural networks during rendering, the practical usability of INPC is limited by comparatively slow rendering. In this work, we present a collection of optimizations that significantly improve both the training a...

ID: 2508.19140v1 cs.GR, cs.CV, cs.LG

arXiv PDF

📄 MixCache: Mixture-of-Cache for Video Diffusion Transformer Acceleration

2025-08-20

Авторы:

Yuanxin Wei, Lansong Diao, Bujiao Chen, Shenggan Cheng, Zhengping Qian, Wenyuan Yu, Nong Xiao, Wei Lin, Jiangsu Du

#### Контекст Видеогенерация — одна из самых сложных и ресурсоемких задач в области искусственного интеллекта. Новая трендовая технология, основанная на Transformer-архитектуре и процессе диффузии (DiT), доминирует в области высококачественной видеогенерации. Однако многошаговый процесс денойсинга в DiT-моделях требует высокой вычислительной нагрузки и влияет на высокую задержку при инференсе. Одним из популярных методов оптимизации является кэширование, которое использует нередкость в процессе диффузии для пропуска вычислений на разных уровнях (строк, блоках, шагах). Тем не менее, существующие методы ограничиваются одноуровневыми стратегиями кэширования, что не позволяет достичь баланса между качеством генерации и производительностью инференса. #### Метод В этой работе предлагается MixCache — новая, тренировка-не требующаяся стратегия кэширования для ускорения видео-DiT. Основной идеей является установление интерфейса между различными стратегиями кэширования и их интерфейсом. MixCache вводит контекстно-ориентированную стратегию активации кэша, чтобы определить, когда кэширование должно быть включено, и адаптивную стратегию гибридного кэширования для выбора наиболее оптимального уровня кэширования в зависимости от текущего контекста. Эта архитектура не требует дополнительных вычислений во время обучения, что делает ее эффективной и простую в использовании. #### Результаты Мы провести ряд экспериментов на различных моделях видеогенерации, включая Wan 14B и HunyuanVideo. Результаты показывают, что MixCache ускоряет обработку видео до 1.94$\times$ при работе с Wan 14B и 1.97$\times$ при работе с HunyuanVideo. В то же время, MixCache демонстрирует не только высокую производительность, но также значительное улучшение качества генерации видео по сравнению с базовыми методами. Это демонстрирует высокую эффективность и универсальность MixCache в разных контекстах. #### Значимость MixCache может быть применено в различных задачах видеогенерации, включая генерацию высококачественных видеороликов, редактирование видео и синтез видео. Он предоставляет значительные преимущества в скорости и эффективности, что делает его привлекательным для сценариев с реального времени, таких как стриминг, видеоредактирование и трансляции. Также MixCache открывает новые пути для будущих исследований в области оптимизации глубоких моделей с использованием кэширования в многоуровневой стратегии. #### Выводы Мы предлагаем MixCache — новую, тренировка-не требующуюся стратегию кэширования для ускорения видео-DiT. Она успешно решает проблему бала

Annotation:

Leveraging the Transformer architecture and the diffusion process, video DiT models have emerged as a dominant approach for high-quality video generation. However, their multi-step iterative denoising process incurs high computational cost and inference latency. Caching, a widely adopted optimization method in DiT models, leverages the redundancy in the diffusion process to skip computations in different granularities (e.g., step, cfg, block). Nevertheless, existing caching methods are limited t...

ID: 2508.12691v1 cs.GR, cs.CV, cs.LG

arXiv PDF

📄 VertexRegen: Mesh Generation with Continuous Level of Detail

2025-08-14

Авторы:

Xiang Zhang, Yawar Siddiqui, Armen Avetisyan, Chris Xie, Jakob Engel, Henry Howard-Jenkins

#### Контекст Область геометрического моделирования и визуализации трехмерных объектов играет ключевую роль в различных приложениях, включая графику, интерактивные системы, симуляции и виртуальную реальность. Одна из наиболее сложных задач в этой области — генерация меша (mesh) с плавной сменой уровня детализации (continuous level of detail, CLOD). Традиционные методы либо генерируют меш полностью, либо производят поэтапную генерацию, что приводит к несогласованности в промежуточных этапах. Данная работа адресует проблему построения фреймворка для постепенного повышения подробности трехмерных моделей, обеспечивающего качественную и плавную генерацию во время работы. #### Метод Предлагаемый фреймворк VertexRegen основывается на подходе, инспирированном прогрессивными мешами, но использует процесс, называемый "сжатием вершины" (vertex split) в качестве генеративной модели. Алгоритм работает в двух этапах: вначале происходит разделение вершин существующего меша, а затем — реконструкция подробностей с применением нейронной сети. Эта модель учится различать различные уровни детализации и постепенно повышать уровень детализации в зависимости от требований. Эта реализация позволяет генерировать меш в любой момент процесса, предоставляя динамическую гибкость в выборе уровня детализации. #### Результаты Выполнены эксперименты для сравнения VertexRegen с другими современными методами генерации меша. Использовались различные типы трехмерных моделей, включая симплексы и сложные декоративные объекты. Результаты показали, что VertexRegen достигает качества, сопоставимого с лучшими существующими методами, при этом обеспечивая уникальную возможность получить модель в любой момент процесса генерации. Это делает его применимым в сценариях, где необходима интерактивность или ограниченная мощность вычислений. #### Значимость Предложенный подход имеет широкие области применения, включая виртуальную и дополненную реальность, игровую индустрию, а также приложения в сфере инженерии и анализа данных. Он обеспечивает более эффективную обработку данных, так как пользователь может остановить генерацию в любой момент и получить модель, подходящую под текущие требования. Это делает VertexRegen более гибким и удобным в использовании по сравнению с традиционными методами. #### Выводы Главным достижением работы является разработка VertexRegen, новый фреймворк для генерации меша с продолжительностью, который обеспечивает качественное моделирование и продолжительность во время работы. Он предоставляет гибкую модель для динамического контроля уровня детализации, что делает его примени

Annotation:

We introduce VertexRegen, a novel mesh generation framework that enables generation at a continuous level of detail. Existing autoregressive methods generate meshes in a partial-to-complete manner and thus intermediate steps of generation represent incomplete structures. VertexRegen takes inspiration from progressive meshes and reformulates the process as the reversal of edge collapse, i.e. vertex split, learned through a generative model. Experimental results demonstrate that VertexRegen produc...

ID: 2508.09062v1 cs.GR, cs.CV, cs.LG

arXiv PDF

📄 RLGS: Reinforcement Learning-Based Adaptive Hyperparameter Tuning for Gaussian Splatting

2025-08-09

Авторы:

Zhan Li, Huangying Zhan, Changyang Li, Qingan Yan, Yi Xu

3D Gaussian Splatting (3DGS) — метод рендеринга 3D-сцен, требующий тонкого адаптивного гиперпараметрического регулирования для получения качественных результатов. Однако этот процесс требует значительных усилий и опыта специалиста. Мы предлагаем RLGS — модель, основанную на развитии стратегий при помощи реINFOrмационного обучения, для адаптивного гиперпараметрического оптимизационного процесса в 3DGS. Решение включает в себя лёгкие политические модели, которые динамически корректируют ключевые параметры, такие как скорость обучения и пороги денсификации. RLGS является моделью, независимой от конкретной архитектуры 3DGS, и может быть легко интегрирована в существующие 3DGS-процессы. Мы проверили её эффективность на нескольких современных 3DGS-моделях, включая Taming-3DGS и 3DGS-MCMC, и показали, что она последовательно повышает качество рендеринга — например, улучшила PSNR Taming-3DGS на 0.7 dB на TNT датасете. Наши результаты указывают на то, что RLGS представляет собой эффективное и универсальное решение для автоматизации гиперпараметрического оптимизационного процесса в 3DGS.

Annotation:

Hyperparameter tuning in 3D Gaussian Splatting (3DGS) is a labor-intensive and expert-driven process, often resulting in inconsistent reconstructions and suboptimal results. We propose RLGS, a plug-and-play reinforcement learning framework for adaptive hyperparameter tuning in 3DGS through lightweight policy modules, dynamically adjusting critical hyperparameters such as learning rates and densification thresholds. The framework is model-agnostic and seamlessly integrates into existing 3DGS pipe...

ID: 2508.04078v1 cs.GR, cs.CV, cs.LG

arXiv PDF

Показано 11 - 19 из 19 записей