📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Evaluating Fisheye-Compatible 3D Gaussian Splatting Methods on Real Images Beyond 180 Degree Field of View

2025-08-13

Авторы:

Ulas Gunes, Matias Turkulainen, Juho Kannala, Esa Rahtu

## Контекст Область трехмерной реконструкции широко применяется в сферах компьютернографии, виртуальной реальности и геоматериальных измерений. Существующие методы, ориентированные на стандартные линзовые камеры, часто сталкиваются с ограничениями при работе с данными, полученными с помощью фишекой-камер, из-за их высокой корректируемости и тесной связи с полями зрения выше 180 градусов. Это создает значительные проблемы в обработке реальных данных, где такие сцены широко распространены. В нашем исследовании мы адресовали эту проблему, оценив новые фишекой-адаптивные 3D Gaussian Splatting (GS) методы, включая Fisheye-GS и 3DGUT, на реальных изображениях с полями зрения, превышающими 180 градусов. ## Метод Мы использовали две основные методологии для оценки: Fisheye-GS и 3DGUT. Для инициализации трехмерных моделей применялся UniK3D, не обученный на данных фишекой-камер, но способный генерировать точные точечные модели в условиях сильной дисторсии, в том числе без явного обучения на реальных данных. Вычисления проводились на реальных изображениях с 200-градусными фишекой-камерами, изучая поведение методов при различных полях зрения (200 градусов, 160 градусов и 120 градусов). Мы изучали торможение дисторсии и его влияние на качество реконструкции. ## Результаты Оценка показала, что Fisheye-GS эффективно справляется с дисторсией при уменьшении поля зрения, особенно при 160 градусов, что приводит к улучшению качества реконструкции. 3DGUT, напротив, поддерживает высокое качество во всех условиях, включая полный 200-градусный полюс. UniK3D доказал свою эффективность, даже в сложных сценах, например, при наличии тумана, сияния или неба, где SfM часто терпит неудачу. Данные результаты подтверждают возможность использования фишекой-адаптивных 3DGS методов для широкого поля зрения в реальных сценах. ## Значимость Наши результаты открывают пути для применения фишекой-камер в трехмерной реконструкции, обеспечивая практическую альтернативу к стандартным методам. Методы, оцененные в нашей работе, выделяются над соревнующимися решениями по своей высокой точности и устойчивости в условиях сильной дисторсии. Это может способствовать широкому развитию в области виртуальной и дополненной реальности, геоматериальных измерений и автоматизированных систем контроля. ## Выводы Наше исследование показало, что фишекой-гибкие 3DGS методы могут эффективно работать в широких полях зрения, даже в условиях высокой дисторсии. Мы также показали, что UniK3D может быть эффективным для инициализации трех

Annotation:

We present the first evaluation of fisheye-based 3D Gaussian Splatting methods, Fisheye-GS and 3DGUT, on real images with fields of view exceeding 180 degree. Our study covers both indoor and outdoor scenes captured with 200 degree fisheye cameras and analyzes how each method handles extreme distortion in real world settings. We evaluate performance under varying fields of view (200 degree, 160 degree, and 120 degree) to study the tradeoff between peripheral distortion and spatial coverage. Fish...

ID: 2508.06968v1 cs.CV, cs.GR

arXiv PDF

📄 HiMat: DiT-based Ultra-High Resolution SVBRDF Generation

2025-08-13

Авторы:

Zixiong Wang, Jian Yang, Yiwei Hu, Milos Hasan, Beibei Wang

#### Контекст В современном 3D-контенте графические ресурсы должны быть высококачественными и детальными. Одним из ключевых аспектов является создание SVBRDF (Spatially Varying Bidirectional Reflectance Distribution Function), который определяет свойства отражения и рассеивания света на поверхности объектов. Традиционные методы порой не могут обеспечить достаточную разрешающую способность или структурную консистенцию. Наблюдается возросшая мотивация для развития методов, позволяющих создавать SVBRDF с высокой разрешающей способностью и синхронностью между различными каналами (например, рифтом, нормалью, и т.д.), что является ключевой сложностью в этой области. #### Метод HiMat — это инновационный фреймворк, основанный на Diffusion Transformer (DiT), который разработан для генерации SVBRDF с высоким разрешением. Основной идеей является добавление CrossStitch модуля, который управляет зависимостями между каналами (например, нормаль и рфт) в рамках существующей архитектуры DiT, не требуя изменения её базовых слоев. Этот модуль имеет легкий вес и оперирует локально, чтобы сохранить высокую эффективность. Метод также поддерживает 4K-разрешение, обеспечивая сохранение высокой структурной консистенции и финер-детайлов. Архитектура HiMat оптимизирована для высокой эффективности и сохранения качества без потерь, связанных с добавлением новых моделей или изменениями в DiT. #### Результаты Тестирование HiMat проводилось на большом количестве текстовых промитов для генерации SVBRDF-материалов. Результаты показали высокую точность в генерации деталей и синхронность между различными каналами. Кроме того, HiMat направлен на расширение своих возможностей в сторону задач принципиальной декомпозиции (например, нахождения отдельных компонент отражения и рассеяния). Эксперименты показали, что алгоритм также может обрабатывать задачи, отличные от генерации SVBRDF, с высокой эффективностью, что демонстрирует широкую применимость. #### Значимость Предлагаемый подход имеет широкие применения в 3D-графике, виртуальной реальности, играх и рендеринге. Особенно ценно его возможность генерировать 4K-качественные SVBRDF-материалы с высокой структурной консистенцией, что значительно сокращает время разработки и улучшает реалистичность 3D-моделей. Благодаря оптимизации, HiMat является доступным для реализации на реальном хорде, что увеличивает его практическое значение. #### Выводы HiMat представляет собой прорыв в сфере генерации SVBRDF, обеспечивая высококачественные результаты с высокой эффективностью и консистенцией. Будущие исследования будут сконцентрированы на расширении спектра при

Annotation:

Creating highly detailed SVBRDFs is essential for 3D content creation. The rise of high-resolution text-to-image generative models, based on diffusion transformers (DiT), suggests an opportunity to finetune them for this task. However, retargeting the models to produce multiple aligned SVBRDF maps instead of just RGB images, while achieving high efficiency and ensuring consistency across different maps, remains a challenge. In this paper, we introduce HiMat: a memory- and computation-efficient d...

ID: 2508.07011v2 cs.CV, cs.GR

arXiv PDF

📄 Sea-Undistort: A Dataset for Through-Water Image Restoration in High Resolution Airborne Bathymetric Mapping

2025-08-13

Авторы:

Maximilian Kromer, Panagiotis Agrafiotis, Begüm Demir

## Контекст Область батиметрического mappiнга в глубоких водах является ключевой задачей в геодезии и геоинформатике. Однако, в условиях глубоких вод, динамические процессы на поверхности воды, такие как волнообразные склонения и глазковый свет, чрезвычайно сильно воздействуют на качество съемочных материалов, усложняя процесс восстановления батиметрии. На сегодняшний день, нет доступных решений, которые позволяли бы реализовать точную батиметрическую картинку в реальных условиях. Здесь вводится Sea-Undistort, инновационный синтетический датасет, предназначенный для адресации проблем восстановления через-водной съемки. ## Метод Sea-Undistort состоит из 1200 парных изображений размером 512x512, сгенерированных в Blender. Каждая пара включает в себя дистортированное и чистые изображения точек на дне моря. Изображения характеризуются реалистичными эффектами воды, такими как глазковый свет, волны и скатерть. Данные также включают метаданные, такие как параметры камеры, положение солнца и средняя глубина. Этот датасет позволяет осуществить учитывающуюся обучение, которого не было возможно в реальных условиях. ## Результаты По данным Sea-Undistort проведены эксперименты с двумя современными методами восстановления изображений, а также с разработанным ранней этапом фреймворком diffusion-based с early-fusion sun-glint mask. Результаты показали, что разработанный модельный подход дает более точные и полные Digital Surface Models (DSMs) в сравнении с другими методами, особенно в глубинных водах. Модель также существенно уменьшает ошибки батиметрии, избавляется от эффектов глазка и широты, а также восстанавливает детали батиметрии с высоким качеством. ## Значимость Sea-Undistort может быть применен в различных областях, включая батиметрическое маппинг, океанографию и прикладное исследование морских процессов. Он предлагает значительные преимущества в том числе повышенное точность восстановления изображений в условиях сложного водного окружения. Будущие исследования будут направлены на улучшение методологии, а также на её применение в реальных сценариях. ## Выводы Sea-Undistort представляет собой первый синтетический датасет, который позволяет осуществить учитывающуюся обучение для восстановления через-водных съемок в высоком разрешении. Результаты экспериментов показали, что достигнутые результаты открывают новые возможности для точного батиметрического маппинга в глубинных водах. Наша работа показывает потенциал для дальнейшего развития технологий в области аэробатиметрии.

Annotation:

Accurate image-based bathymetric mapping in shallow waters remains challenging due to the complex optical distortions such as wave induced patterns, scattering and sunglint, introduced by the dynamic water surface, the water column properties, and solar illumination. In this work, we introduce Sea-Undistort, a comprehensive synthetic dataset of 1200 paired 512x512 through-water scenes rendered in Blender. Each pair comprises a distortion-free and a distorted view, featuring realistic water effec...

ID: 2508.07760v1 eess.IV, cs.CV, cs.GR

arXiv PDF

📄 Matrix-3D: Omnidirectional Explorable 3D World Generation

2025-08-13

Авторы:

Zhongqi Yang, Wenhang Ge, Yuqi Li, Jiaqi Chen, Haoyuan Li, Mengyin An, Fei Kang, Hua Xue, Baixin Xu, Yuyang Yin, Eric Li, Yang Liu, Yikai Wang, Hao-Xiang Guo, Yahui Zhou

## Контекст Область исследования, связанная с описанием и генерацией трехмерных моделей миров, является ключевой задачей в сфере спатиальной интеллектуализации. Недавние работы используют видеомодели для достижения широкого круга и генеративности в 3D-генерации миров. Однако существующие подходы часто ограничены в объеме и детализации создаваемых сцен. Целью данной работы является развитие методологии, позволяющей генерировать развернутые и ориентированные на пользователя 3D-миры из одного изображения или текстового мотива, чтобы улучшить степень генеративности и степень детализации. ## Метод Разработан фреймворк Matrix-3D, который использует панорамные представления для широкомасштабной генерации 3D-миров, объединяя кондиционированное видеогенерирование и панорамное 3D-реконструктирование. Модель работает в двух этапах: первый этап заключается в обучении траектории-руководящей панорамной видео-диффузионной модели, использующей рендеры сцены в качестве условий. Это позволяет достичь высокого качества и геометрической консистентности в генерируемых видеосценах. Второй этап предполагает две трактовки: (1) прямое отображение панорамного видео в 3D-сцены с помощью готовой модели разделения глубины и (2) оптимизационный подход для получения более точных деталей в 3D-моделях. ## Результаты В работе проведены широкомасштабные эксперименты с использованием двух новых датасетов: Matrix-Pano (116K панорамных видеосцен) и Matrix-3D (10K комбинаций текста и изображений). Эксперименты показали, что фреймворк Matrix-3D превосходит существующие подходы в широкомасштабной генерации 3D-миров, достигая более высокого качества реконструкции и описания сцен. Особенно заметны выигрыши в геометрической консистентности и подробности сгенерированных моделей. ## Значимость Метод Matrix-3D может быть применен в различных областях, включая виртуальную реальность, игровые процессы, архитектурное проектирование и визуализацию. Одним из главных преимуществ является возможность генерировать 3D-сцены с высокой детализацией и широким кругом видимости из простых входных данных, таких как изображения или текст. Этот подход может повысить эффективность и гибкость в приложениях, требующих 3D-моделирования. ## Выводы Разработанная методология Matrix-3D достигла новых результатов в широкомасштабной 3D-генерации с высоким качеством и детализацией. Отмечено, что дальнейшие исследования будут направлены на улучшение точности моделей в тяжелых у

Annotation:

Explorable 3D world generation from a single image or text prompt forms a cornerstone of spatial intelligence. Recent works utilize video model to achieve wide-scope and generalizable 3D world generation. However, existing approaches often suffer from a limited scope in the generated scenes. In this work, we propose Matrix-3D, a framework that utilize panoramic representation for wide-coverage omnidirectional explorable 3D world generation that combines conditional video generation and panoramic...

ID: 2508.08086v1 cs.CV, cs.GR

arXiv PDF

📄 HOLODECK 2.0: Vision-Language-Guided 3D World Generation with Editing

2025-08-12

Авторы:

Zixuan Bian, Ruohan Ren, Yue Yang, Chris Callison-Burch

#### Контекст 3D сценогенерация является ключевым элементом в таких областях, как игровой промышленность, искусство, виртуальная реальность и дизайн. Однако создание 3D-сцен до сих пор требует больших усилий от создателей, а существующие автоматизированные методы сталкиваются с ограничениями в генерации свободного формата и возможностями редактирования. Эта проблема обусловлена тем, что требования к 3D-сценам в различных приложениях варьируются в зависимости от стиля, контекста и спецификаций пользователей. В этой работе мы предлагаем HOLODECK 2.0 — расширенную систему, основанную на технологиях видения и языка, для 3D-генерации миров с возможностью редактирования. Она позволяет генерировать сцены различных стилей (реалистичные, аниме, киберпанк), предназначенные для разных сред (внутренние и открытые), при этом сохраняя высокую семантическую точность. #### Метод HOLODECK 2.0 является усовершенствованной системой, которая использует технологии визуального распознавания и естественного языка для создания 3D-сцен. Она начинает с извлечения объектов из текстовых описаний с помощью Vision-Language Models (VLMs), а затем использует современные 3D-генеративные модели для создания высококачественных 3D-активов. Для построения координатных ограничений используются семантические задачи, которые обеспечивают корректность и физическую правдивость расположения объектов. Важным аспектом является возможность редактирования, которая позволяет пользователям изменять сцены в реальном времени, подстраивая их под свои потребности. Это достигается за счет интерактивного управления геометрическим расположением и стилем объектов. #### Результаты Мы провели эксперименты для оценки качества генерируемых сцен, использовав широкий спектр текстовых описаний. Результаты показывают, что HOLODECK 2.0 показывает высокую точность и стильную согласованность при генерации сцен в различных стилях. Мы также провели сравнение с другими методами, показав, что HOLODECK 2.0 показывает значительное преимущество в сфере реалистичности и корректности генерируемых сцен. Для тестирования возможностей редактирования мы провели испытания, в которых пользователи интерактивно модифицировали сцены, и получили положительные отзывы от пользователей. #### Значимость Предлагаемая система имеет широкие применения в игровой промышленности, виртуальной реальности, киноиндустрии и дизайне. Она позволяет эффективно создавать сцены, уменьшая потребность в ручными поправками. Также, возможности редактирования сцен позволяют пользователям ги

Annotation:

3D scene generation plays a crucial role in gaming, artistic creation, virtual reality and many other domains. However, current 3D scene design still relies heavily on extensive manual effort from creators, and existing automated methods struggle to generate open-domain scenes or support flexible editing. As a result, generating 3D worlds directly from text has garnered increasing attention. In this paper, we introduce HOLODECK 2.0, an advanced vision-language-guided framework for 3D world gener...

ID: 2508.05899v1 cs.CV, cs.GR

arXiv PDF

📄 LV-Net: Anatomy-aware lateral ventricle shape modeling with a case study on Alzheimer's disease, the Australian Imaging Biomarkers and Lifestyle flagship study of ageing

2025-08-12

Авторы:

Wonjung Park, Suhyun Ahn, Jinah Park

#### Контекст Углубленное изучение внутренних лимфных систем (LLS) через анатомическое моделирование латеральных вентиклов (LV) может помочь восприятию неврологических заболеваний, но существуют значительные проблемы. Объемная вариативность LV структур и сложности сегментации из-за недостаточной разрешенности MRI ограничивают эффективность исследований. Наша мотивация заключается в создании системы, которая учитывает анатомические отношения LV и улучшает точность моделирования. #### Метод Мы представляем LV-Net — архитектуру, которая порождает индивидуальные 3D-модели LV из MRI-снимков. Она основана на деформации общей шаблонной сетки LV-гиппокампа, учитывающей анатомические отношения. Для повышения точности сегментации мы классифицируем вершины шаблона по анатомическим соседствам. Эта техника улучшает соответствие точек между субъектами. Мы применяем подробную оптимизацию и многоугольные тела для точного создания моделей LV. #### Результаты Мы проверили LV-Net на трех наборах данных сегментации LV, включая 57 случаев из Alzheimer's Disease Neuroimaging Initiative (ADNI). Модель показала более высокую точность в реконструкции LV в сравнении с предыдущими методами, даже при неточных сегментациях. Также, мы выявили LV-субрегионы, значительно связанные с Алцгеймером, отличающимися у больных и здоровых пациентов. #### Значимость LV-Net находит применение в анализе неврологических заболеваний, таких как Алцгеймер, и других расстройств, связанных с LLS. Преимущества LV-Net включают улучшенную точность, устойчивость к ошибкам в сегментации и лучшую корреляцию ЛВ-структур с патологическими процессами. Будущие исследования будут сосредоточены на расширении LV-Net для других зон LLS и его применении в клинических ситуациях. #### Выводы Мы представили LV-Net — первый фреймворк, предназначенный для точного 3D-анатомического моделирования LV с учетом их связи с гиппокампом. Результаты показали высокую точность и стабильность модели в различных условиях. Наша работа открывает новые пути для использования LV-Net в неврологии и дальнейшей персонализированной медицине.

Annotation:

Lateral ventricle (LV) shape analysis holds promise as a biomarker for neurological diseases; however, challenges remain due to substantial shape variability across individuals and segmentation difficulties arising from limited MRI resolution. We introduce LV-Net, a novel framework for producing individualized 3D LV meshes from brain MRI by deforming an anatomy-aware joint LV-hippocampus template mesh. By incorporating anatomical relationships embedded within the joint template, LV-Net reduces b...

ID: 2508.06055v1 cs.CV, cs.GR

arXiv PDF

📄 Advancing Precision in Multi-Point Cloud Fusion Environments

2025-08-09

Авторы:

Ulugbek Alibekov, Vanessa Staderini, Philipp Schneider, Doris Antensteiner

Работа посвящена развитию точности методов слияния и сравнения точечных облаков в индустриальных инспекционных системах. Авторы рассматривают проблемы регистрации точечных облаков и предлагают новый синтетический датасет для квалитиметрического оценивания методов регистрации и анализа различных метрик расстояний. Был разработан плагин для программы CloudCompare, позволяющий объединять несколько точечных облаков и визуализировать поверхностные дефекты. Это решение повышает точность и эффективность автоматизированных инспекционных систем. Основные выводы: предложенный подход способствует улучшению качества регистрации и визуализации точечных облаков, что значительно повышает точность инспекционных процессов в индустрии.

Annotation:

This research focuses on visual industrial inspection by evaluating point clouds and multi-point cloud matching methods. We also introduce a synthetic dataset for quantitative evaluation of registration method and various distance metrics for point cloud comparison. Additionally, we present a novel CloudCompare plugin for merging multiple point clouds and visualizing surface defects, enhancing the accuracy and efficiency of automated inspection systems.

ID: 2508.03179v1 cs.CV, cs.GR

arXiv PDF

📄 Open-world Point Cloud Semantic Segmentation: A Human-in-the-loop Framework

2025-08-09

Авторы:

Peng Zhang, Songru Yang, Jinsheng Sun, Weiqing Li, Zhiyong Su

Open-world point cloud semantic segmentation (OW-Seg) — задача предсказания меток точек для как базовых, так и новых классов в реальных условиях. Однако существующие методы требуют ресурсоёмких операций ввода-вывода или сложных схем обучения с плотной аннотацией данных, что ограничивает их применимость. Мы предлагаем HOW-Seg, первый фреймворк с использованием человека в цикле обучения для OW-Seg. Метод строит классные прототипы непосредственно на входных данных, избегая проблемы изменения распределений внутри классов между поддерживающими и запросимыми данными. Мы используем минимальные человеко-замечания для гибкого рефининга прототипов и добавляем графу Условного Рандовского Фильта (CRF) для расширения контекстной осмысленности. Это позволяет HOW-Seg последовательно улучшаться с помощью итеративных отзывов и достигать высокого качества сегментации, даже при ограниченных обучающих данных. Наши эксперименты показывают, что HOW-Seg сравнял или превзошел значительно состояние технологий GFS-Seg в режиме 5-shot, и при дополнительных вычислительных ресурсах достиг 85.27% mIoU на S3DIS и 66.37% на ScanNetv2, превосходя все альтернативы.

Annotation:

Open-world point cloud semantic segmentation (OW-Seg) aims to predict point labels of both base and novel classes in real-world scenarios. However, existing methods rely on resource-intensive offline incremental learning or densely annotated support data, limiting their practicality. To address these limitations, we propose HOW-Seg, the first human-in-the-loop framework for OW-Seg. Specifically, we construct class prototypes, the fundamental segmentation units, directly on the query data, avoidi...

ID: 2508.04962v1 cs.CV, cs.GR

arXiv PDF

Показано 91 - 98 из 98 записей