📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Youssef Haouchat, Sepand Kashani, Aleix Boquet-Pujadas, Philippe Thévenaz, Michael Unser

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We propose a method to efficiently compute tomographic projections of a 3D volume represented by a linear combination of shifted B-splines. To do so, we propose a ray-tracing algorithm that computes 3D line integrals with arbitrary projection geometries. One of the components of our algorithm is a neural network that computes the contribution of the basis functions efficiently. In our experiments, we consider well-posed cases where the data are sufficient for accurate reconstruction without the ...
ID: 2511.11078v1 cs.CV, eess.IV, eess.SP
Авторы:

Hung Nguyen, Runfa Li, An Le, Truong Nguyen

## Контекст 3D Gaussian Splatting (3DGS) является мощным представлением для изображения-основанной реконструкции объектов. Однако в условиях спарсе-вида (sparse-view) его эффективность значительно снижается. До этого, работы предлагали использовать диффузионные модели для исправления поврежденных рендерингов, которые потом использовались как поддельные земные правди для последующих оптимизаций. Эти подходы, хотя и эффективны, но требуют значительных вычислительных ресурсов из-за трудоемкости шагов диффузионного моделирования и исправления. Наша цель — разработать более эффективный подход для реконструкции 3D-объектов в условиях спарсе-вида, уменьшив накладные расходы на вычисления и улучшив качество реконструкции. ## Метод Мы предлагаем WaveletGaussian — новую фреймворк, который переносит диффузионный процесс в волновой домен (wavelet domain). Здесь, диффузия применяется только к низкочастотной подставке LL, в то время как высокочастотные подставки LH, HL, и HH рефинируются с помощью лёгкой сети нейронной сети. Это позволяет существенно сократить требования к вычислительным ресурсам. Более того, мы предлагаем эффективную онлайн-стратегию для случайного маскирования (online random masking strategy) для генерации обучающих пар диффузионного моделирования, заменяя устаревший, но менее эффективный, leave-one-out подход. ## Результаты Мы провести эксперименты на двух основных бенчмарк-датасетах: Mip-NeRF 360 и OmniObject3D. Наши результаты показывают, что WaveletGaussian достигает качества рендеринга, которое не только соперничает с лучшими существующими методами, но и значительно сокращает время обучения. Это означает, что наш подход не только эффективнее, но и экономичнее по сравнению с предшествующими работами. ## Значимость Наш подход имеет широкие области применения в изображении-основанной графике и виртуальной реальности. Он предлагает значительные преимущества, такие как высокая эффективность, качественную реконструкцию, и низкие требования к вычислительным ресурсам. Это может способствовать развитию новых технологий в области визуализации и интерактивных систем. ## Выводы Мы предложили WaveletGaussian — новый подход к диффузионной реконструкции 3D-объектов в условиях спарсе-вида. Наши результаты показали, что применение диффузии в волновом домене, вместе с эффективной стратегией маскирования, может значительно улучшить качество реконструкции и сократить время обучения. Мы планируем продолжать работу в этом направлении, ориентируясь на улучшение точности и эффективности диффузионных моделей для об
Annotation:
3D Gaussian Splatting (3DGS) has become a powerful representation for image-based object reconstruction, yet its performance drops sharply in sparse-view settings. Prior works address this limitation by employing diffusion models to repair corrupted renders, subsequently using them as pseudo ground truths for later optimization. While effective, such approaches incur heavy computation from the diffusion fine-tuning and repair steps. We present WaveletGaussian, a framework for more efficient spar...
ID: 2509.19073v1 cs.CV, eess.IV, eess.SP
Авторы:

Harry Walsh, Ed Fish, Ozge Mercanoglu Sincan, Mohamed Ilyes Lakhal, Richard Bowden, Neil Fox, Bencie Woll, Kepeng Wu, Zecheng Li, Weichao Zhao, Haodong Wang, Wengang Zhou, Houqiang Li, Shengeng Tang, Jiayi He, Xu Wang, Ruobei Zhang, Yaxiong Wang, Lechao Cheng, Meryem Tasyurek, Tugce Kiziltepe, Hacer Yalim Keles

## Контекст Задача генерирования жестов знаковых языков (Sign Language Production, SLP) заключается в конвертации речи в видео с жестовыми выражениями. Несмотря на недавние прогрессы, особенно с внедрением глубокого обучения, существуют проблемы, такие как несогласованные методы оценки и отсутствие стандартных метрик для SLP. Это существенно сковывает возможности сравнения различных подходов и сводит к минимуму возможность прогресса в этой области. Мы предлагаем первую Sign Language Production Challenge, проведенную в рамках третьей SLRTP Workshop на CVPR 2025. Главная цель этого соревнования — оценить архитектуры, конвертирующие речевые запросы в последовательности скелетных поз, известные как Text-to-Pose (T2P) перевод, с использованием различных метрик. Мы используем RWTH-PHOENIX-Weather-2014T, базу данных для знакового языка Немецкой Дезартерспроагс (DGS) с тематикой погодных прогнозов. Дополнительно, мы создали пользовательский тестовый набор из похожих данных дискурса. Это соревнование привлекло 33 участников, которые представили 231 моделей. Лидирующая команда достигла BLEU-1 значения 31.40 и DTW-MJE 0.0574, используя рамку на основе восстановления и предварительно обученную модель языка. В рамках этого соревнования мы выпустили стандартизированную систему оценки, включающую высококачественные скелетные ключевые точки, позволяющие создать надежный бенчмарк для дальнейших исследований в этой области. ## Метод Разработанная методология состояла из двух основных компонентов: универсальной системы оценки и соревновательного фреймворка. Для оценки входных запросов в виде речи и выходных данных в виде скелетных поз, мы предлагаем стандартизированную сеть, основанную на выделении скелетных ключевых точек. Эта система обеспечивает согласованность и последовательность в сравнении различных моделей. Главный соревновательный фреймворк включал в себя три основных задачи: оценка визуализации жестов, временной динамики и точности трансляции. Мы применяли RWTH-PHOENIX-Weather-2014T в качестве данных тренировки и тестовых наборов, а также создали пользовательский тестовый набор для повышения уровня сложности и реалистичности. Участники были поощрены для разработки моделей, ориентированных на жесты, естественность и точность в генерации знакового языка. ## Результаты За счет участия 33 команд, было представлено 231 моделей, прошедших этапы стандартизированной оценки. Лидирующая команда показала BLEU-1 оценку 31.40 и DTW-MJE 0.0574, используя сочетание ретриев-базисной модели и предварительно обученной модели языка. Б
Annotation:
Sign Language Production (SLP) is the task of generating sign language video from spoken language inputs. The field has seen a range of innovations over the last few years, with the introduction of deep learning-based approaches providing significant improvements in the realism and naturalness of generated outputs. However, the lack of standardized evaluation metrics for SLP approaches hampers meaningful comparisons across different systems. To address this, we introduce the first Sign Language ...
ID: 2508.06951v1 cs.CV, eess.IV, eess.SP