📚 Саммари научных статей из arXiv

Найдено 98 результатов по запросу 'cs.CV, cs.GR' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 A Technical Review on Comparison and Estimation of Steganographic Tools

2025-08-29

Авторы:

Ms. Preeti P. Bhatt, Rakesh R. Savant

#### Контекст Steganography является методом скрытия данных внутри объекта среднего, используя различные стеганографические инструменты. Изображение является часто используемой средой для скрытия данных, включая текст, изображения, аудио и видео. Цель данной работы — проанализировать классификацию изображений в стеганографии и провести сравнение различных изображенных инструментов с различными форматами изображений. Статья приводит классификацию изображений в стеганографии и сравнивает различные инструменты на основе изображений, выделяя лучшую программу. #### Метод Результаты получены путем экспериментального исследования. Были выбраны популярные стеганографические средства и проверены на одних и тех же изображениях с одинаковым входным текстом. Для сравнения использовались метрики, такие как размер, разрешение, значения пикселей и различия в гистограммах. Это позволило изучить различные инструменты стеганографии и установить, какой инструмент более эффективен. Результаты показали, что ни один инструмент не показал значительное преимущество, хотя некоторые работали более эффективно. #### Результаты В ходе исследования проверено несколько стеганографических инструментов, используя общие изображения и текст. Результаты показали, что все инструменты выполняются на одном уровне, однако некоторые инструменты показали лучшую производительность в зависимости от различных изображений. Например, инструменты, которые учитывают разрешение и размер изображения, показали лучший результат в сравнении с другими. Однако, в целом, все инструменты показали примерно одинаковые результаты, но некоторые инструменты были более эффективны. #### Значимость Выявленные результаты могут быть применены в области безопасности, где важно скрывать данные. Инструменты стеганографии могут применяться для защиты конфиденциальной информации. Благодаря этому исследованию, можно выбрать более эффективные инструменты для конкретных задач. Это также дает возможность повысить безопасность и скрыть информацию в различных форматах, включая изображения. #### Выводы В ходе исследования было выявлено, что эффективность стеганографических инструментов зависит от изображений, которые используются в качестве основы. Будущие исследования будут фокусироваться на улучшении производительности стеганографических инструментов, в том числе использование новых форматов изображений и улучшение алгоритмов. Это может помочь повысить эффективность и безопасность стеганографии в будущем.

Annotation:

Steganography is technique of hiding a data under cover media using different steganography tools. Image steganography is hiding of data (Text/Image/Audio/Video) under a cover as Image. This review paper presents classification of image steganography and the comparison of various Image steganography tools using different image formats. Analyzing numerous tools on the basis of Image features and extracting the best one. Some of the tools available in the market were selected based on the frequent...

ID: 2508.19323v1 cs.CR, cs.CV, cs.GR

arXiv PDF

📄 Seam360GS: Seamless 360° Gaussian Splatting from Real-World Omnidirectional Images

2025-08-29

Авторы:

Changha Shin, Woong Oh Cho, Seon Joo Kim

## Контекст 360-degree visual content широко распространен на платформах, таких как YouTube, и играет ключевую роль в таких областях, как виртуальная реальность, робототехника и автономная навигация. Однако потребительские системы с двумя фишей-камерами часто создают несовершенные панорамы из-за инфракрасной разделки объективов и ангулярных деформаций. В настоящей работе предлагается новая калибровочная модель, интегрирующая модель двух фишек-камер в 3D-пайплайн Гауссовского сплетения. Эта модель не только демонстрирует реалистичные визуальные артефакты, но и позволяет синтезировать идеальные 360-degree изображения. Это достигается путем оптимизации параметров 3D-Гауссовской модели вместе с параметрами калибровки, которые имитируют швы объективов и деформации. Таким образом, наши алгоритмы превращают несовершенные 360-degree изображения в самые точные новые виды синтеза. ## Метод Методология основывается на 3D-пайплайне Гауссовского сплетения, который использует данные с двух фишек-камер. Мы вводим новую калибровочную модель, которая учитывает швы и деформации, добавляя дополнительные параметры, которые позволяют имитировать визуальные артефакты, встречающиеся в реальных условиях. Для каждого кадра мы оптимизируем общую модель, учитывая 3D-параметры и калибровочные параметры, чтобы получить оптимальный результат. Это позволяет создавать идеальные 360-degree изображения даже из несовершенных входных данных, которые могут быть использованы в виртуальной реальности и других приложениях. ## Результаты Мы проверили нашу модель на реальных данных, включая съемки с двух фишек-камер. Наши результаты показали, что метод способен создавать идеальные 360-degree изображения, даже из несовершенных съемок. Мы сравнили нашу модель с другими моделями 360-degree rendering и показали, что она превосходит их в качестве нового вида синтеза. Эти результаты подтверждают, что наш метод является эффективным и реалистичным для 360-degree изображений в реальном мире. ## Значимость Наш метод может применяться в различных областях, таких как виртуальная реальность, робототехника и автономная навигация. Он обеспечивает более реалистичную и точную синтезированную 360-degree визуализацию, что делает его полезным для пользователей, стремящихся к более высокому качеству визуального окружения. Этот подход может быть использован для создания более детальных интерактивных систем и для улучшения существующих приложений, в которых требуется высококачественная 360-degree синтезированная среда. ## Выводы Мы представили новую моде

Annotation:

360-degree visual content is widely shared on platforms such as YouTube and plays a central role in virtual reality, robotics, and autonomous navigation. However, consumer-grade dual-fisheye systems consistently yield imperfect panoramas due to inherent lens separation and angular distortions. In this work, we introduce a novel calibration framework that incorporates a dual-fisheye camera model into the 3D Gaussian splatting pipeline. Our approach not only simulates the realistic visual artifact...

ID: 2508.20080v1 cs.CV, cs.GR

arXiv PDF

📄 Impact of Target and Tool Visualization on Depth Perception and Usability in Optical See-Through AR

2025-08-28

Авторы:

Yue Yang, Xue Xie, Xinkai Wang, Hui Zhang, Chiming Yu, Xiaoxian Xiong, Lifeng Zhu, Yuanyi Zheng, Jue Cen, Bruce Daniel, Fred Baik

#### Контекст Оптические системы смешанной или масштабируемой реальности (OST-AR), такие как Microsoft HoloLens 2, показали себя как подходящие для применения в медицинских и производственных сферах, где требуется точное руководство в условиях ограниченного диапазона действий. Однако, существуют трудности в достижении точного диапазона глубины и восприятия между виртуальными и реальными объектами, что препятствует эффективному применению таких систем. В нашем исследовании были изучены эффекты различных стратегий визуализации целевого объекта и инструмента на восприятие глубины и системную эффективность в OST-AR. #### Метод Исследование основывалось на двух экспериментах, проводимых на HoloLens 2. В первом эксперименте (Experiment 1) проанализировали воздействие уровня прозрачности виртуального целевого объекта (высоко прозрачный vs. высоко опакный) на восприятие глубины при задаче сравнения глубины (depth matching task) при расстоянии около 1 метра. Во втором эксперименте (Experiment 2) проводилась симуляция сухопутного хирургического задания (simulated surgical task) на модели головы, где проанализировали влияние трех режимов визуализации инструмента (виртуальный тул, реальный инструмент или отсутствие визуализации) на три глубинных уровня целевого объекта. Использовали данные о глубинных ошибках, ошибках локализации, удобстве системы, нагрузке на пользователя и представлениях пользователей. #### Результаты В первом эксперименте было обнаружено, что высоко прозрачный целевой объект приводит к большим ошибкам в определении глубины по сравнению с высоко опакным. Во втором эксперименте, реальный инструмент, который окрылял виртуальный объект, привел к наибольшей точности и самой низкой нагрузке на пользователя. Не отслеживая инструмент, делали виртуальный объект слишком прозрачным и ухудшали глубинные знаний, что приводило к наибольшей нагрузке и меньшему удобству. Таким образом, важно учитывать корректные коллайдерные сигналы и стратегии визуализации, чтобы повысить точность в OST-AR. #### Значимость Наши результаты имеют значение для конструирования AR-систем, в которых необходимо достичь высокой точности в руководстве в расстоянии до рук. Оптимальные результаты достигаются при полной окрылении виртуальных объектов реальными инструментами. Это может повысить удобство и точность в таких областях, как медицинские операции и производственные процессы. Отсутствие визуализации инструмента или нежелательные транспарентности в целевых объектах могут привести к неточности и увеличению нагрузки на пользователя

Annotation:

Optical see-through augmented reality (OST-AR) systems like Microsoft HoloLens 2 hold promise for arm's distance guidance (e.g., surgery), but depth perception of the hologram and occlusion of real instruments remain challenging. We present an evaluation of how visualizing the target object with different transparencies and visualizing a tracked tool (virtual proxy vs. real tool vs. no tool tracking) affects depth perception and system usability. Ten participants performed two experiments on Hol...

ID: 2508.18481v1 cs.HC, cs.CV, cs.GR

arXiv PDF

📄 Topology Aware Neural Interpolation of Scalar Fields

2025-08-27

Авторы:

Mohamed Kissi, Keanu Sisouk, Joshua A. Levine, Julien Tierny

## Контекст В последние годы возрастает интерес к методам интерполяции временных последовательностей, особенно в архитектурах на основе нейронных сетей. Одним из направлений является интерполяция скалярных полей, которая находит применение в геометрических моделях, визуализации и других областях. Однако существуют сложности, связанные с топологическими особенностями полей, которые могут приводить к ошибкам в интерполированных данных. Наличие только некоторых ключевых кадров (keyframes) для временных последовательностей добавляет дополнительные затруднения, так как требуется выводить данные для промежуточных моментов времени. Необходимость создания метода, который бы учитывал топологические свойства полей при интерполяции, лежит в основе мотивации для данных исследований. ## Метод Метод предлагаемый в статье основывается на нейронной архитектуре, которая обучается на ключевых кадрах временных последовательностей скалярных полей. Алгоритм автоматически выводит отсутствующие данные для промежуточных моментов времени, используя не только информацию о ключевых кадрах, но также и топологические свойства полей, содержащиеся в последовательности. Архитектура имеет входную часть, обученную представлять отношение между временем и скалярным полем, и выходную часть, которая генерирует промежуточные значения. Особенностью является использование топологических потерь, которые влияют на точность интерполяции, особенно в геометрических свойствах. Этот подход позволяет обеспечить качественную интерполяцию даже в условиях неполных входных данных. ## Результаты Результаты экспериментов показывают высокую точность интерполяции скалярных полей в 2D и 3D. Метод был проверен на различных наборах данных, включая временные последовательности скалярных полей, отсутствующие в ключевых кадрах. Он показал лучшие результаты по сравнению с существующими методами в терминах топологической и геометрической точности. Эксперименты также подтвердили высокую скорость работы алгоритма, который может производить интерполяцию немедленно, благодаря единой пропускаемости данных через нейронную сеть. ## Значимость Данный подход может найти применение в таких областях, как визуализация данных, моделирование пространственных полей и динамических систем. Он позволяет повысить точность интерполяции благодаря учету топологических свойств полей. Благодаря низким требованиям к вычислительным ресурсам и моментальной отзывчивости, метод может быть применен в реальном времени, что делает его привлекательным для прикладных задач. ## Выводы Авторы успешно представили метод для топология-ориентиро

Annotation:

This paper presents a neural scheme for the topology-aware interpolation of time-varying scalar fields. Given a time-varying sequence of persistence diagrams, along with a sparse temporal sampling of the corresponding scalar fields, denoted as keyframes, our interpolation approach aims at "inverting" the non-keyframe diagrams to produce plausible estimations of the corresponding, missing data. For this, we rely on a neural architecture which learns the relation from a time value to the correspon...

ID: 2508.17995v1 cs.LG, cs.CV, cs.GR

arXiv PDF

📄 Scaling Group Inference for Diverse and High-Quality Generation

2025-08-23

Авторы:

Gaurav Parmar, Or Patashnik, Daniil Ostashev, Kuan-Chieh Wang, Kfir Aberman, Srinivasa Narasimhan, Jun-Yan Zhu

#### Контекст Generative models, такие как системы текст-к-изображению и изображение-к-изображению, стали основополагающими в создании изображений и видео. Однако, несмотря на их продвинутые возможности, эти модели обычно работают в режиме индивидуального выбора пользователя, то есть каждая выдаваемая картинка — это отдельный элемент. В реальной жизни пользователи часто хотят получить несколько вариантов изображений для одного запроса, чтобы сравнивать их и выбирать наиболее подходящий. Такая ситуация возникает, например, при создании разнообразных вариантов для логотипа или когда необходимо выбрать несколько изображений для создания видеосюжета. Недостаток такого подхода заключается в том, что стандартные методы выбора семплов приводят к повторяющимся или недостаточно инновационным результатам. Данная работа адресует эту проблему, предлагая метод, который улучшает как качество, так и разнообразие группы изображений, генерируемых одной моделью. #### Метод Мы предлагаем метод **scalable group inference**, который преобразует задачу выбора группы изображений в задачу квадратичного целочисленного задания. В этой модели каждое изображение — это узел графа, а кандидаты выбираются так, чтобы обеспечить максимальное качество каждого отдельного изображения (это — unary term) и максимальное разнообразие в группе изображений (это — binary term). Чтобы увеличить эффективность вычислений, мы применяем **progressive pruning**, т. е. постепенно удаляем кандидатов, используя начальные предсказания модели. Эта техника позволяет нашему методу работать даже при очень больших группах кандидатов, что делает его применимым для задач, где требуется выбирать множество генерируемых изображений. #### Результаты Мы провели ряд экспериментов на различных задачах: текст-к-изображению, изображение-к-изображению, построении групп изображений по запросу пользователя и видеогенерации. Мы сравнивали нашу модель с базовым подходом индивидуального выбора и с некоторыми подходами, работающими на уровне генерации. Наши результаты показали, что **scalable group inference** увеличивает как качество, так и разнообразие группы изображений, по сравнению с основными методами. Например, для текст-к-изображению генерируемые группы оказались более разнообразными и творческими, а для видеогенерации — более координированными в целом потоке. #### Значимость Наш метод может быть применен в различных областях, где требуется высокое разнообразие и качество изображений. Например, он может использоваться в творческом дизайне, видеоредактировании, реалистичной видеогенерации. Этот подход улучшает выбор пользова

Annotation:

Generative models typically sample outputs independently, and recent inference-time guidance and scaling algorithms focus on improving the quality of individual samples. However, in real-world applications, users are often presented with a set of multiple images (e.g., 4-8) for each prompt, where independent sampling tends to lead to redundant results, limiting user choices and hindering idea exploration. In this work, we introduce a scalable group inference method that improves both the diversi...

ID: 2508.15773v1 cs.CV, cs.GR, cs.LG

arXiv PDF

📄 Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer

2025-08-22

Авторы:

Md Ashiqur Rahman, Chiao-An Yang, Michael N. Cheng, Lim Jun Hao, Jeremiah Jiang, Teck-Yian Lim, Raymond A. Yeh

## Контекст Scale variation является одной из фундаментальных проблем в области компьютерного зрения. Объекты одного класса могут различаться по размеру, а размер, воспринимаемый зрительно, также зависит от дистанции до камеры. Эти различия локальны для объектов, т.е., разные размеры объектов могут изменяться по-разному внутри одного и того же изображения. Для эффективного управления этими различиями мы предлагаем глубокий инструмент нормализации (DEC), который позволяет улучшить локальную согласованность масштабов в модели. Это решение может легко добавляться к существующим архитектурам и использоваться с предобученными моделями. Мы продемонстрировали, что на бенчмарке ImageNet, DEC улучшает качество моделей и локальную согласованность масштабов во всех четырех анализируемых моделях, включая ViT, DeiT, Swin и BEiT. Наш код доступен по адресу: https://github.com/ashiq24/local-scale-equivariance. ## Метод Мы предлагаем глубокую операцию балансировки масштабов (DEC), которая использует динамический иглауровень, чтобы обеспечивать локальную согласованность масштабов. Модель DEC основывается на глубоком стеке статического и глубоком стеке динамического решений. Мы используем нейросетевые техники, чтобы включить в DEC функции информации о масштабе, чтобы предотвратить потерю локальных сдвигов. Также мы провели тщетное уточнение, чтобы оптимизировать DEC для включенных моделей. ## Результаты Мы провели эксперименты на бенчмарке ImageNet, используя четыре предобученных модели: ViT, DeiT, Swin и BEiT. Мы установили, что DEC улучшает точность классификации и согласованность масштабов во всех моделях. Например, на ViT-Base, DEC улучшил точность на 1.2%, при этом сохранив локальную согласованность масштабов. Были проведены дополнительные эксперименты на других данных, подтверждающие эффективность DEC на различных задачах. ## Значимость DEC может применяться во многих областях компьютерного зрения, включая обнаружение объектов, обозначение сегментов, а также работу с видео. Это решение имеет преимущества в том, что оно легко интегрируется с существующими моделями и не требует изменения их структуры. DEC влияет на модели, улучшая их точность и локальную согласованность, что может оказаться полезным для задач, где точность классификации и консистентность масштабов критичны. ## Выводы Мы предложили новый подход для улучшения локальной согласованности масштабов в компьютерном зрении. Наши эксперименты показали, что DEC может легко внедряться в существующие модели и повышать их точность и согласованность. Мы полагаем, что будущие исследова

Annotation:

Scale variation is a fundamental challenge in computer vision. Objects of the same class can have different sizes, and their perceived size is further affected by the distance from the camera. These variations are local to the objects, i.e., different object sizes may change differently within the same image. To effectively handle scale variations, we present a deep equilibrium canonicalizer (DEC) to improve the local scale equivariance of a model. DEC can be easily incorporated into existing ne...

ID: 2508.14187v1 cs.CV, cs.GR, cs.LG

arXiv PDF

📄 Puppeteer: Rig and Animate Your 3D Models

2025-08-16

Авторы:

Chaoyue Song, Xiu Li, Fan Yang, Zhongcong Xu, Jiacheng Wei, Fayao Liu, Jiashi Feng, Guosheng Lin, Jianfeng Zhang

## Контекст Современные интерактивные приложения широко используют 3D-контент, но создание динамического 3D-контента остается трудоемким и затратным процессом. Одной из основных проблем является необходимость преобразования статических 3D-моделей в анимированные активы. Этот процесс, известный как "rigging" и "анимация", требует специальных знаний и инструментов, что затрудняет его автоматизацию. Особенно сложно сделать это для разнообразных 3D-объектов, включая игровые модели, символы и реалистичные объекты. Исследователи пытались решить эту проблему с помощью машинного обучения, однако существующие подходы обычно ограничиваются одним или несколькими типами 3D-объектов и имеют ограниченную точность и качество. ## Метод Мы предлагаем Puppeteer, полностью автоматизированный фреймворк для rigging и анимации 3D-моделей. Работа фреймворка основывается на трех ключевых компонентах: 1. **Авто-регрессивный трансформер с новой техникой токенизации**: Он использует новую технику токенизации, основанную на скелетных узлах, что позволяет эффективно представить структуру скелета. Также вводится метод организации последовательностей, который улучшает возможности обучения в двух направлениях. 2. **Архитектура внимания для определения весов скининга**: Эта часть использует топологически основанное внимание, которое учитывает расстояния между узлами скелета, чтобы точно определить взаимосвязи между узлами. 3. **Разностициальный подход для анимации**: Мы предлагаем разностициальный подход, основанный на оптимизации, для создания анимации. Он использует физические модели для получения стабильных и высококачественных анимаций. ## Результаты Мы проводили опытные эксперименты с несколькими 3D-моделями, включая профессионально созданные модели для игр и AI-генерируемые объекты. Наши результаты показали, что Puppeteer превосходит существующие методы в следующих аспектах: - **Точность трансформации**: Наша система точно определяет скелеты для разнообразных 3D-объектов. - **Качество скининга**: Метод внимания-топологии позволяет получить точные веса скининга, что влечет более гладкие и точные анимации. - **Качество анимации**: Разностициальный подход извлекает более стабильные анимации, снижая проблемы jittering и неточностей в сравнении с другими методами. ## Значимость Puppeteer может быть применен в различных областях, включая игровое производство, виртуальную реальность, виртуальные конференции и даже робототехнику. Он обеспечивает высокую точность, качество и удобство в со

Annotation:

Modern interactive applications increasingly demand dynamic 3D content, yet the transformation of static 3D models into animated assets constitutes a significant bottleneck in content creation pipelines. While recent advances in generative AI have revolutionized static 3D model creation, rigging and animation continue to depend heavily on expert intervention. We present Puppeteer, a comprehensive framework that addresses both automatic rigging and animation for diverse 3D objects. Our system fir...

ID: 2508.10898v1 cs.CV, cs.GR

arXiv PDF

📄 Story2Board: A Training-Free Approach for Expressive Storyboard Generation

2025-08-15

Авторы:

David Dinkevich, Matan Levy, Omri Avrahami, Dvir Samuel, Dani Lischinski

#### Контекст Описание области исследования: генерация выразительных сторибордов на основе естественного языка — это сложная задача, требующая учета многих аспектов визуальной истории, таких как специфика сюжета, пауза, размеры и расположение панелей, а также их внутренняя структура. Однако предыдущие подходы либо ограничивались описанием лиц и объектов, либо требовали значительного обучения и моделей с тяжелым размером. Мотивация: Это привело к недостатку в гибкости и динамичности генерируемых сторибордов. Нужен подход, который бы учёл эти ограничения, без необходимости полного обучения, и позволил бы улучшить соблюдение контекста и логики в генерируемых работах. #### Метод **Описание методологии:** Story2Board — это новая простая фреймворк, не требующий обучения модели. Он включает в себя два основных компонента: 1. **Latent Panel Anchoring** — это система, которая позволяет сохранять взаимосвязь между персонажами и сценами в разных панелях. 2. **Reciprocal Attention Value Mixing** — это механизм, который смешивает визуальные признаки между сильно связанными токенами, чтобы улучшить логическую консистенцию и динамику старости. **Технические решения и архитектура:** Framework использует существующие модели разметки рассказов (off-the-shelf language model), которые преобразуют свободный текст в пространство промежуточных проявлений. Затем эти проявления подаются на вход модели Diffusion, которая генерирует выходные сториборды. #### Результаты **Эксперименты и данные:** Использовались несколько различных тестовых баз данных, включая различные жанры рассказов. Данные были собраны для оценки различных аспектов генерируемых сторибордов: - Консистенции персонажей и сцен. - Динамики и разнообразия визуальных элементов. - Логической последовательности в генерируемом результате. **Результаты:** На тестируемых базах данных, Story2Board показал высокую степень динамичности и консистентности по сравнению с другими подходам. Улучшения были заметны в сценах, где требовалась глубокая контекстная интерпретация и выразительность. #### Значимость **Области применения:** Story2Board может использоваться в различных областях, таких как: - Генерация выразительных комиксов и сериалов. - Обучение глубокого понимания текста в контексте сюжетных работ. - Автоматическое создание визуальных рассказов для развлекательных и образовательных целей. **Преимущества:** Его легковесная архитектура и отсутствие необходимости в обучении делают его более эффективным по сравнению с обучаемыми моделями. **Потенциальное влияние:** Этот подход мож

Annotation:

We present Story2Board, a training-free framework for expressive storyboard generation from natural language. Existing methods narrowly focus on subject identity, overlooking key aspects of visual storytelling such as spatial composition, background evolution, and narrative pacing. To address this, we introduce a lightweight consistency framework composed of two components: Latent Panel Anchoring, which preserves a shared character reference across panels, and Reciprocal Attention Value Mixing, ...

ID: 2508.09983v1 cs.CV, cs.GR, cs.LG

arXiv PDF

📄 VOccl3D: A Video Benchmark Dataset for 3D Human Pose and Shape Estimation under real Occlusions

2025-08-14

Авторы:

Yash Garg, Saketh Bachu, Arindam Dutta, Rohit Lal, Sarosij Bose, Calvin-Khang Ta, M. Salman Asif, Amit Roy-Chowdhury

## Контекст В последние годы постепенно усиливается интерес к методам оценки трехмерной формы и позы человека (HPS) в реальном мире. Эти методы основываются на изображениях и видео, где необходимо определить трехмерные координаты тела и свойства одежды. Однако существуют существенные проблемы в области HPS, особенно при работе с объектами, покрытыми многослойной одеждой, или находящихся в условиях значительных окклюзий. Несмотря на то, что многие модели показали высокую точность в условиях безухажистых изображений и видео, технические ограничения не позволяют их эффективно использовать в реальных сценариях с интенсивными окклюзиями. Для подтверждения данного положения существует недостаточное количество реалистичных данных, которые могли бы оказаться полезными для развития HPS. ## Метод Мы предлагаем VOccl3D — новый бенчмарк-датасет, состоящий из видео-снимков, где человек находится в условиях сильных окклюзий. Данный ресурс был сформирован с использованием высокоточных графических технологий, позволяющих создавать реалистичные модели со всеми деталями одежды, механизмов тела и движений. Мы использовали рендеринг в High-Fidelity Graphics, включили в датасет различные ситуации с окклюзиями, от ситуаций с большим количеством пространственных ограничений до случаев, когда человек оказывается в полной окклюзии. Наша модель основывается на процессе обучения с подкреплением (reinforcement learning) для точного построения трехмерной модели человека. ## Результаты Мы провели эксперименты для точного определения трехмерных координат тела и текстур одежды в условиях сильных окклюзий. В результате нашей модели существенно улучшила точность по сравнению с предыдущими моделями, использующими те же датасеты. Мы также проверили нашу модель на открытых датасетах, а также сравнили ее с другими современными HPS-моделями. Были получены повышенные результаты как в теоретических аспектах, так и в практических. Обученная нашей моделью YOLO11 модель чувствительности улучшилась в значительной степени в ситуациях с окклюзиями, снизившимися до минимума. ## Значимость Наш датасет VOccl3D может быть широко использован в последующих исследованиях по трехмерной оценке тела и текстуры, особенно в сценариях с сильными окклюзиями. Мы показали, что модель предлагает существенные преимущества в сценариях с низким допуском ошибок в сложных окклюзионных условиях. Это может быть использовано для развития новых методов в области технологий 3D-оценки для технологий детектирования в реальном мире, включа

Annotation:

Human pose and shape (HPS) estimation methods have been extensively studied, with many demonstrating high zero-shot performance on in-the-wild images and videos. However, these methods often struggle in challenging scenarios involving complex human poses or significant occlusions. Although some studies address 3D human pose estimation under occlusion, they typically evaluate performance on datasets that lack realistic or substantial occlusions, e.g., most existing datasets introduce occlusions w...

ID: 2508.06757v1 cs.CV, cs.GR

arXiv PDF

📄 DiffUS: Differentiable Ultrasound Rendering from Volumetric Imaging

2025-08-14

Авторы:

Noe Bertramo, Gabriel Duguey, Vivek Gopalakrishnan

## Контекст Улучшение оперативного взаимодействия с использованием ультразвукового изображения является ключевым поводом для развития хирургических технологий. Однако наличие шума, искажений и недостаточной алгонизации с предельно высокоразрешенными сканами МРТ/КТ ограничивает эффективность. Целью проекта DiffUS является создание физически-кратного, дифференцируемого симулятора ультразвука, который моделирует реалистичные B-режимные изображения на основе трехмерных МРТ-сканов. ## Метод Статья описывает пошаговую методологию для получения реалистичных симуляций ультразвука: 1. **Преобразование МРТ-сканов**: Используется машинное обучение для преобразования трехмерных сканов МРТ в высококачественные акустические импедансные модели. 2. **Моделирование ультразвукового распространения**: Реализована физическая модель с учетом парного взаимодействия отражений и преломлений, описанных уравнениями разделения. 3. **Синтез B-режима**: Данные МРТ используются для реконструкции B-режима, включая эффекты шума и деградации в зависимости от глубины. 4. **Реализация в PyTorch**: Все участки системы реализованы как дифференцируемые операции, обеспечивающие градиентно-поддерживаемые оптимизации. ## Результаты Анализ на ReMIND-датасете показал, что DiffUS способен генерировать B-режимные изображения, в точности соответствующие анатомическим характеристикам. Это достигается благодаря точной моделированию шума, артефактов и глубинной зависимости визуализации. ## Значимость DiffUS открывает новые возможности для областей регистрации сканов, восстановления объемных структур и подготовки операций. Он может повысить точность хирургических процедур, улучшить диагностические возможности и способствовать развитию интеллектуальных хирургических технологий. ## Выводы DiffUS является прорывом в синтезе ультразвуковых изображений. Его развитие может привести к более эффективным методам регистрации, оценки и хирургических операций. Будущие исследования будут фокусироваться на расширении модели для других видов тканей и улучшении точности в условиях реального операционного пространства.

Annotation:

Intraoperative ultrasound imaging provides real-time guidance during numerous surgical procedures, but its interpretation is complicated by noise, artifacts, and poor alignment with high-resolution preoperative MRI/CT scans. To bridge the gap between reoperative planning and intraoperative guidance, we present DiffUS, a physics-based, differentiable ultrasound renderer that synthesizes realistic B-mode images from volumetric imaging. DiffUS first converts MRI 3D scans into acoustic impedance vol...

ID: 2508.06768v1 cs.CV, cs.GR

arXiv PDF

1
2
7
8
9
10

Показано 81 - 90 из 98 записей