📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Teamwork: Collaborative Diffusion with Low-rank Coordination and Adaptation

2025-10-09

Авторы:

Sam Sartor, Pieter Peers

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large pretrained diffusion models can provide strong priors beneficial for many graphics applications. However, generative applications such as neural rendering and inverse methods such as SVBRDF estimation and intrinsic image decomposition require additional input or output channels. Current solutions for channel expansion are often application specific and these solutions can be difficult to adapt to different diffusion models or new tasks. This paper introduces Teamwork: a flexible and effici...

ID: 2510.05532v1 cs.CV, cs.GR, cs.LG

arXiv PDF

📄 FSFSplatter: Build Surface and Novel Views with Sparse-Views within 3min

2025-10-07

Авторы:

Yibin Zhao, Yihan Pan, Jun Nan, Jianjun Yi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Gaussian Splatting has become a leading reconstruction technique, known for its high-quality novel view synthesis and detailed reconstruction. However, most existing methods require dense, calibrated views. Reconstructing from free sparse images often leads to poor surface due to limited overlap and overfitting. We introduce FSFSplatter, a new approach for fast surface reconstruction from free sparse images. Our method integrates end-to-end dense Gaussian initialization, camera parameter estimat...

ID: 2510.02691v1 cs.CV, cs.GR

arXiv PDF

📄 ROGR: Relightable 3D Objects using Generative Relighting

2025-10-07

Авторы:

Jiapeng Tang, Matthew Lavine, Dor Verbin, Stephan J. Garbin, Matthias Nießner, Ricardo Martin Brualla, Pratul P. Srinivasan, Philipp Henzler

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce ROGR, a novel approach that reconstructs a relightable 3D model of an object captured from multiple views, driven by a generative relighting model that simulates the effects of placing the object under novel environment illuminations. Our method samples the appearance of the object under multiple lighting environments, creating a dataset that is used to train a lighting-conditioned Neural Radiance Field (NeRF) that outputs the object's appearance under any input environmental lighti...

ID: 2510.03163v1 cs.CV, cs.GR

arXiv PDF

📄 Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation

2025-09-25

Авторы:

Sherwin Bahmani, Tianchang Shen, Jiawei Ren, Jiahui Huang, Yifeng Jiang, Haithem Turki, Andrea Tagliasacchi, David B. Lindell, Zan Gojcic, Sanja Fidler, Huan Ling, Jun Gao, Xuanchi Ren

#### Контекст Область исследования, связанная с генерированием виртуальных сред, играет ключевую роль в многих технологических и научных директориях, включая игровой индустрию, робототехнику, автономное вождение и индустриальные приложения. Однако существующие методы генерирования 3D-сцен часто требуют значительных ресурсов на обучение, в том числе многокамерного видео, которого не всегда достаточно в реальном мире. Этот факт ограничивает широкое применение таких методов. Более того, новые развития в области видеодиффузионных моделей очень успешно имитируют реальные сцены в 2D, но не могут предсказывать конкретные 3D-свойства окружения, необходимые для взаимодействия с автономными агентами в симуляции. Мы предлагаем Lyra — протокол самообучения, который позволяет эксплуатировать 3D-свойства, внедренные в видеодиффузионные модели, для создания 3D-сцен, не требуя многокамерного видео. #### Метод Предлагаемая Lyra основывается на фреймворке самообучения, который работает на синтетических данных, генерируемых с помощью видеодиффузионных моделей. Мы расширяем типичную архитектуру модели RGB-decoder, добавляя decode-раздел для 3D-поверхности с использованием Gaussian Splatting (3DGS). Этот новый модуль автоматически связан с RGB-decoder: выход 3DGS-модели воспален с выходом цветного модели RGB. Таким образом, 3DGS-модель может быть обучена только на потоке 3D-сцен, генерируемых видеодиффузионной моделью. В результате модель осуществляет 3D-реконструкцию сингулярного входа, такого как текстовая запроса или единственной картинки, направленной на осуществление 3D-генерации в реальном времени. Для создания динамических 3D-сцен, мы расширяем модель, позволяя ей обучаться на монокумерном видео. #### Результаты Мы проверили Lyra на двух типах задач: статической и динамической 3D-генерации сцен. Мы использовали данные из различных баз данных (видеодиффузионных моделей) и сингулярного входа (текстовые запросы, единственные изображения). Наши эксперименты показали, что Lyra превосходит текущие методы в генерации как статических, так и динамических 3D-сцен. Мы также демонстрируем, что наша модель может генерировать реалистичные 3D-сцены в реальном времени, что делает её применимую в игровой индустрии, вождении автономных машин и других приложениях. #### Значимость Lyra открывает новые возможности для генерирования 3D-сцен в приложениях, требующих взаимодействия с 3D-окружением. Она может использоваться в симуляционных средах для роботов, вождения автономных

Annotation:

The ability to generate virtual environments is crucial for applications ranging from gaming to physical AI domains such as robotics, autonomous driving, and industrial AI. Current learning-based 3D reconstruction methods rely on the availability of captured real-world multi-view data, which is not always readily available. Recent advancements in video diffusion models have shown remarkable imagination capabilities, yet their 2D nature limits the applications to simulation where a robot needs to...

ID: 2509.19296v1 cs.CV, cs.GR

arXiv PDF

📄 Learning Neural Antiderivatives

2025-09-24

Авторы:

Fizza Rubab, Ntumba Elie Nsampi, Martin Balint, Felix Mujkanovic, Hans-Peter Seidel, Tobias Ritschel, Thomas Leimkühler

## Контекст Область исследования заключается в развитии нейронных полей (neural fields) — динамичных, непрерывных представлений, которые превышают традиционные дискретные форматы в области визуальных вычислений. Одной из проблем в этой области является необходимость нейронных представлений для непрерывных локальных операций, таких как повторная интеграция, которые широко используются в дискретных системах, например, в summed-area tables. Изучение непрерывных нейронных представлений позволяет расширить возможности текущих нейронных систем, однако традиционные методы, основанные на решетчатых структурах, не могут быть прямо применены в контексте нейронных полей. Этот аспект подчеркивает важность разработки новых методик для успешного внедрения таких подходов в современные нейронные системы. ## Метод Для адресации проблемы повторной интеграции в нейронных полях, авторы предлагают многочисленные технические подходы, включающие обучение нейронных сетей для вывода непрерывных антидеривативов. Методология основывается на нейронных полях, которые позволяют выражать непрерывные функции и их повторные интеграли. Набор алгоритмов включает в себя адаптации предыдущих работ, а также совершенно новые методики. Эта систематическая интерпретация различных подходов позволяет рассмотреть их преимущества и ограничения в условиях непрерывных объектов. Архитектура основывается на нейронных сетях, которые изучают непрерывные пространства и выполняют сложные интегральные операции, предоставляя динамические представления в нейронных системах. ## Результаты Эксперименты проводились на различных типах входных данных, включая функции с различными мерными пространствами и различными порядками интегрирования. Измерены были качество реконструкции непрерывных функций, эффективность в проведении непрерывных интегральных операций, таких как фильтрация и рендеринг, а также производительность алгоритмов на разных интегральных задачах. Результаты показали высокую точность в реконструкции данных и эффективность в решении непрерывных задач, что демонстрирует практическую значимость предлагаемых методов. Также были проверены различные адаптации и новые подходы, чтобы определить наилучшие решения для условий непрерывных операций. ## Значимость Предлагаемые методы могут быть применены в различных нейронных системах, которые включают непрерывные операции визуальных вычислений, такие как фильтрация, визуальные оценки и визуализация. Основное преимущество заключается в переходе от дискретных методов к непрерывным нейронным полям, что позволяет увеличить област

Annotation:

Neural fields offer continuous, learnable representations that extend beyond traditional discrete formats in visual computing. We study the problem of learning neural representations of repeated antiderivatives directly from a function, a continuous analogue of summed-area tables. Although widely used in discrete domains, such cumulative schemes rely on grids, which prevents their applicability in continuous neural contexts. We introduce and analyze a range of neural methods for repeated integra...

ID: 2509.17755v1 cs.LG, cs.CV, cs.GR

arXiv PDF

📄 Preconditioned Deformation Grids

2025-09-24

Авторы:

Julian Kaltheuner, Alexander Oebel, Hannah Droege, Patrick Stotko, Reinhard Klein

#### Контекст Реконструкция динамических поверхностей объектов из последовательностей точечных облаков является важной проблемой в области компьютерных графики. Существующие подходы сталкиваются с несколькими задачами: они либо требуют нескольких терминов регуляризации, либо подразумевают использование обширных наборов тренировочных данных. Это приводит к с TRедьбеработке в реконструкции, переборствующему в сторону переобучения или низкой универсальности при обработке неизвестных объектов и движений. Мотивация для разработки нового подхода заключается в устранении этих ограничений и повышении точности реконструкции, а также обеспечении гибкости и общеизмеримости. #### Метод Метод Preconditioned Deformation Grids (PDG) вводит новую архитектуру для оценки координатных деформаций непосредственно из неорганизованных последовательностей точечных облаков. Алгоритм основывается на многорезольонной структуре воксельных гридов, которые хранят сведения о движении на разных уровнях детализации. Основной нововведением является внедрение квадратного грида препятствий в подходы на основе оптимизации градиентов. Здесь используется лосс Chamfer, сравнивающий точечные облака и виртуальный шаблон, а также уменьшающийся лосс слабой изометрии, обеспечивающий гладкость и консистентность движения по всей поверхности. Таким образом, технология оптимизирует деформации без предварительной формирования точных соответствий. #### Результаты Исследования показали, что PDG избавляется от необходимости в многочленных регуляризаторах и позволяет достичь более высокой точности в динамической реконструкции. Тесты проводились на последовательностях точечных облаков, включающих объекты различных форм и движениями. Результаты показали, что PDG превосходит современные методы по метрикам точности и времени вычислений. Особенно выдающимися показателями он проявляется при анализе длинных последовательностей движений. Такая эффективность достигается благодаря интеграции многоуровневой структуры гридов и методологии оптимизации. #### Значимость Предложенный подход может применяться в различных областях, таких как виртуальная реальность, моделирование и анимация, в том числе для обработки нестандартных объектов и движений. Наиболее выгодный аспект PDG заключается в своей универсальности и точности, не требуя основных предпосылок, характерных для традиционных подходов. В будущем, данный подход может быть расширен для более сложных сценариев динамики, поддерживая включение дополнительных физических свойств и реалистичности. #### Выводы Разработанная технологи

Annotation:

Dynamic surface reconstruction of objects from point cloud sequences is a challenging field in computer graphics. Existing approaches either require multiple regularization terms or extensive training data which, however, lead to compromises in reconstruction accuracy as well as over-smoothing or poor generalization to unseen objects and motions. To address these lim- itations, we introduce Preconditioned Deformation Grids, a novel technique for estimating coherent deformation fields directly fr...

ID: 2509.18097v1 cs.CV, cs.GR

arXiv PDF

📄 On the Skinning of Gaussian Avatars

2025-09-17

Авторы:

Nikolaos Zioulis, Nikolaos Kotarelas, Georgios Albanis, Spyridon Thermos, Anargyros Chatzitofis

## Контекст Голограммические системы, обладающие реалистичными возможностями для анимации, позволяют создавать глубоко погружающиеся виртуальные и реальность-увеличенная (VR и AR) опыты. Одной из наиболее продвинутых технологий в этой области является Gaussian Splatting, которая позволяет эффективно описывать трехмерные сцены с помощью множества небольших треугольников, как частицы, покрытых гауссианой функцией. Эта технология обеспечивает высокую скорость и простоту в достижении реалистичных результатов, что сделало ее популярной в сегменте цифровых аватаров. Однако, несмотря на ее простоту и быструю работу, Gaussian Splatting сталкивается с проблемами при анимации цифровых субъектов, в частности, при отображении ненаправленных движений. Эти проблемы связаны с необходимостью использования методов, гарантирующих точность и гибкость в анимации. Наша работа в рамках данной статьи целиком и полностью посвящена решению этой проблемы, предлагая новую методику, которая будет улучшать отражение траекторий движения в цифровых субъектах. ## Метод Мы предлагаем новую методику для анимации цифровых субъектов, основанную на гибком использовании гауссианных текстур, которая позволяет улучшить точность и скорость воспроизведения движений в цифровых субъектах. Наша методика включает в себя новую технику трансформации вершинных координат, которая использует линейную смешанную конкатенацию для решения проблем, связанных с ненаправленными движениями в цифровых телах. Мы также применяем улучшенную версию процедурной рекуррентной нейронной сети (PRNN), которая позволяет эффективно управлять гауссианными структурами, повышая как точность, так и скорость анимированных экспериментов. Наша методика была реализована с использованием Python и TensorFlow, задействовав алгоритмы машинного обучения для оптимизации траекторий движения. ## Результаты Мы провели эксперименты с различными цифровыми субъектами, включая гауссиановую модель человеческого тела, чтобы измерить эффективность нашего нового подхода. Наши результаты показали, что новая методика не только улучшила точность движения, но и уменьшила время рендеринга и нагрузку на процессор при анимации. Мы также сравнили нашу технику с другими существующими методами, такими как Mesh-based Skinning и Linear Blend Skinning, и показали, что наш подход дает более гладкий и точный результат в анимации. Также, мы проверили нашу методику на разных видах цифровых субъектов, включая детализированные модели лиц и тел, получив положительные результаты во всех случаях. ## Значимость

Annotation:

Radiance field-based methods have recently been used to reconstruct human avatars, showing that we can significantly downscale the systems needed for creating animated human avatars. Although this progress has been initiated by neural radiance fields, their slow rendering and backward mapping from the observation space to the canonical space have been the main challenges. With Gaussian splatting overcoming both challenges, a new family of approaches has emerged that are faster to train and rende...

ID: 2509.11411v1 cs.CV, cs.GR

arXiv PDF

📄 EclipseTouch: Touch Segmentation on Ad Hoc Surfaces using Worn Infrared Shadow Casting

2025-09-05

Авторы:

Vimal Mollyn, Nathan DeVrio, Chris Harrison

## Контекст Многие современные системы виртуальной и расширенной реальности (МР/МХР) стремятся обеспечить удобный и интерактивный интерфейс для взаимодействия с цифровыми ресурсами. Одним из проблематичных аспектов является возможность точного распознавания тача на разных поверхностях, не оборудованных специальными датчиками. Этот вопрос имеет практическое значение для развития МР/МХР, так как виртуальные интерфейсы, привязанные к физическим поверхностям, обеспечивают более высокую эргономику и производительность, нежели виртуальные интерфейсы, держащиеся в воздухе. Однако существующие методы часто требуют дорогостоящего оборудования или ограничены в их применении к определенным условиям. Наша работа стремится решить эти проблемы, вводя новую методику под названием **EclipseTouch**, которая использует носимое устройство для создания и анализа тени для точного распознавания тача. ## Метод **EclipseTouch** использует компьютер-управляемую камеру и один или несколько иррадиирующих источников света. Эти источники генерируют структурированные тени, которые меняются в зависимости от того, как пользователь взаимодействует с поверхностью. Мы используем логику тени для определения двух ключевых параметров: **hover distance** (расстояние между пальцем и поверхностью при только перерывном контакте) и **touch contact** (точное расположение касания). Метод работает посредством анализа размытости и температурных изменений в сгенерированных тенях. Архитектура EclipseTouch включает модуль для предварительной обработки сигналов, модуль для определения расстояния и контакта, а также модуль для подавления шумов и мелких движений. ## Результаты Мы проводили ряд экспериментов для оценки точности и устойчивости нашего подхода. Использовались различные материалы поверхностей (дерево, металл, пластик) и различные условия света (естественное, искусственное). Результаты показали, что EclipseTouch обеспечивает следующие показатели: **hover distance** с усредненной ошибкой в 6.9 мм, **touch contact** с точностью 98.0%. Эти результаты достигаются независимо от материала поверхности и условий освещения, что делает нашу методику очень универсальной. Также проводились сравнительные эксперименты с другими существующими технологиями, в результате которых EclipseTouch показала значительное превосходство в точности и удобстве. ## Значимость Наша работа имеет большое значение в области МР/МХР, так как она позволяет расширить возможности взаимодействия с пользователем на ранее недоступных поверхностях. Это открывает путь к новым интерактивным решениям в области управления устро

Annotation:

The ability to detect touch events on uninstrumented, everyday surfaces has been a long-standing goal for mixed reality systems. Prior work has shown that virtual interfaces bound to physical surfaces offer performance and ergonomic benefits over tapping at interfaces floating in the air. A wide variety of approaches have been previously developed, to which we contribute a new headset-integrated technique called \systemname. We use a combination of a computer-triggered camera and one or more inf...

ID: 2509.03430v1 cs.HC, cs.CV, cs.GR, cs.RO

arXiv PDF

📄 SmartPoser: Arm Pose Estimation with a Smartphone and Smartwatch Using UWB and IMU Data

2025-09-05

Авторы:

Nathan DeVrio, Vimal Mollyn, Chris Harrison

## Контекст Область трекинга мышечных поз пользователя находится в сердце многих технологических достижений, включая тренировки, реабилитацию, ввод в аugmented reality, life logging и контекстно-ауктуальные системы помощи. Однако существующие решения либо ограничены в области применения, либо сопряжены с значимыми проблемами. Например, системы, использующие камеры, испытывают серьезные затруднения в обеспечении приватности. Альтернативные методы, основанные на нескольких надетовшихся IMU-устройствах или маркерах, требуют дорогостоящего оборудования и не всегда гибки в использовании. Мы подходим к этой проблеме с целью использовать доступное потребительское оборудование, в частности смартфоны и смарт-часы, для точного определения позы рук. Данная технология может потребоваться во многих сферах, включая фитнес-приложения и контекстно-ауктуальные системы. ## Метод Мы разработали систему SmartPoser, которая использует две основные компоненты: смартфон и смарт-час. Эти устройства совмещают данные от датчиков IMU (импульсных датчиков движения) и новой функции UWB (ultra-wideband, интерфейс для точных измерений абсолютных расстояний). Мы применяем метод, который объединяет данные UWB и IMU для точного вычисления положения руки. IMU-данные оказываются эффективными для отслеживания движения в пространстве, но существуют проблемы с дрёмлей. В то же время UWB позволяет определить абсолютное расстояние между двумя устройствами, обеспечивая более точное определение места расположения. Мы использовали технологию оценки позы в реальном времени, объединяя эти источники данных. ## Результаты Мы проводили эксперименты, чтобы оценить точность системы SmartPoser. Мы использовали широкий спектр движений рук, включая простые и сложные позы. Результаты показали, что наш метод дает median positional error of 11.0~cm при оценке расположения руки и cotovelo в реальном времени. Это достижение было получено без необходимости создания пользовательских данных для обучения, что делает нашу систему более удобной и гибкой. ## Значимость Наша система обладает широкими приложениями в различных сферах. Например, она может использоваться в fitness-приложениях для отслеживания упражнений, в системах реабилитации для отслеживания движений пациентов, в augmented reality для точного ввода, а также в life logging для подробного слежения за движениями. Преимуществом нашего подхода является то, что он не требует дополнительных устройств или определенной подготовки, что делает его более доступным для пользователей. Также, наш метод имеет перспективу для дальнейшего развития, включая улучшение точности

Annotation:

The ability to track a user's arm pose could be valuable in a wide range of applications, including fitness, rehabilitation, augmented reality input, life logging, and context-aware assistants. Unfortunately, this capability is not readily available to consumers. Systems either require cameras, which carry privacy issues, or utilize multiple worn IMUs or markers. In this work, we describe how an off-the-shelf smartphone and smartwatch can work together to accurately estimate arm pose. Moving bey...

ID: 2509.03451v1 cs.HC, cs.CV, cs.GR, cs.RO

arXiv PDF

📄 Is this chart lying to me? Automating the detection of misleading visualizations

2025-09-02

Авторы:

Jonathan Tonglet, Jan Zimny, Tinne Tuytelaars, Iryna Gurevych

#### Контекст В настоящее время информационная пандемия в науке, политике и общественной сфере способствует появлению многочисленных мифов и устаревшей информации. Одним из основных источников данной проблемы является скамья мишур, которая активно используются в социальных сетях и веб-ресурсах. Известно, что такие графики искажают данные и приводят читателей к неверным выводам. Несмотря на то, что обнаружение таких изображений может быть полезно для борьбы с фальсификацией информации, существуют существенные проблемы, в том числе отсутствие многогранных и открытых баз данных для обучения AI. #### Метод Авторы предлагают Misviz, бенчмарк, состоящий из 2 604 реальных графиков с пометками по 12 типам ошибок. Для подготовки данных и обучения моделей также предлагается Misviz-synth — синтетическая коллекция 81 814 графиков созданных с помощью Matplotlib на основе настоящих таблиц данных. Методология включает в себя использование моделей MLLM, правил-баз и методов тюннинга для оценки и анализа графических подходов. #### Результаты Исследование проводилось на двух датасетах Misviz и Misviz-synth. Модели были оценены на возможности выявления 12 типов мишур, включая искажения масштаба, неверное использование шкал, выбросы и другие. Тестирование проводилось на state-of-the-art MLLMs, таких как Flan-T5 и LLaMA, а также на правилах, определяющих нарушения графических правил. Результаты показали, что даже наиболее современные модели часто не выявляют мишуры или ошибаются в определении типа. #### Значимость Предложенный подход имеет перспективы в области борьбы с фальсификацией данных в графической форме. Он может применяться для фильтрации социальных медиа-постов, анализа веб-страниц и обучения пользователей критического мышления. Одним из ключевых преимуществ является возможность автоматического обнаружения и классификации мишур, что может способствовать уменьшению распространения устаревшей информации. #### Выводы Изучение авторов показало, что автоматическое выявление мишур остается высоко сложным заданием. Однако предложенные датасеты и вычислительные модели являются значительным шагом в этом направлении. Будущие исследования будут сконцентрированы на усовершенствовании методики, обобщении моделей и расширении датасетов для более широкого применения.

Annotation:

Misleading visualizations are a potent driver of misinformation on social media and the web. By violating chart design principles, they distort data and lead readers to draw inaccurate conclusions. Prior work has shown that both humans and multimodal large language models (MLLMs) are frequently deceived by such visualizations. Automatically detecting misleading visualizations and identifying the specific design rules they violate could help protect readers and reduce the spread of misinformation...

ID: 2508.21675v1 cs.CL, cs.CV, cs.GR

arXiv PDF

Показано 71 - 80 из 98 записей