📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Junyu Zhou, Yuyang Huang, Wenrui Dai, Junni Zou, Ziyang Zheng, Nuowen Kan, Chenglin Li, Hongkai Xiong

3DGaussian Splatting (3DGS), широко используемый для реального времени рендеринга с высокой качественной новообразной генерацией, имеет ограничения в представлении высокочастотных деталей 3D-сцен. Это приводит к неэффективности в обучении и рендеринге, а также к значительному накладному объему памяти. Мы предлагаем 3D Gabor Splatting (3DGabSplat), который использует новую 3D Gabor-основу с множеством направлений 3D-частотных ответов для представления радианных полей, оптимизированных с помощью многопросмотров изображений. 3D Gabor-основа включает фильтр-банк, охватывающий разные частоты, что улучшает гибкость и эффективность компьютерного зрения. Мы также предлагаем эффективный CUDA-растризатор для 2D-проекции 3D Gabor-основ и инновационный механизм адаптивной оптимизации при помощи частотных фильтров. 3DGabSplat доказал свою превосходность в сравнении с 3DGS и его альтернативными представлениями, показав до 1.35 dB PSNR при уменьшении числа примитивов и потребления памяти.
Annotation:
Recent prominence in 3D Gaussian Splatting (3DGS) has enabled real-time rendering while maintaining high-fidelity novel view synthesis. However, 3DGS resorts to the Gaussian function that is low-pass by nature and is restricted in representing high-frequency details in 3D scenes. Moreover, it causes redundant primitives with degraded training and rendering efficiency and excessive memory overhead. To overcome these limitations, we propose 3D Gabor Splatting (3DGabSplat) that leverages a novel 3D...
ID: 2508.05343v1 cs.CV
Авторы:

Yongjun Zhang, Mingtao Xiong, Yi Wan, Gui-Song Xia

**Резюме** Успешное определение местоположения смарт-транспорта в GNSS-отсутствующих условиях требует точной кросс-виев-локализации (CVL), которая связывает земные изображения с аэропрограммированными спутниковыми снимками. Однако существующие методы CVL обычно определяют только одну компоненту местоположения — положение камеры, не обеспечивая достаточного количества проверяемых данных для адекватной оценки надежности локализации. В статье предлагается метод Slice-Loc, решающий эту проблему. Он разделяет изображение на подизображения, для которых вычисляются три компоненты локального положения (3-DoF), что обеспечивает задачу сравнения изображений с несколькими независимыми выходами. Для улучшения чувствительности используется формула геометрической жесткости для отсева неточных результатов. Также предложен модельный подход для оценки результата локализации с учетом числа ложных срабатываний (NFA). Тестирование на DReSS-данных показало, что Slice-Loc снижает значительно процент ошибок локализации до 3%, повышая точность до 1.86 м в позиции и 1.24 градусов в ориентации.
Annotation:
Cross-view localization (CVL) matches ground-level images with aerial references to determine the geo-position of a camera, enabling smart vehicles to self-localize offline in GNSS-denied environments. However, most CVL methods output only a single observation, the camera pose, and lack the redundant observations required by surveying principles, making it challenging to assess localization reliability through the mutual validation of observational data. To tackle this, we introduce Slice-Loc, a...
ID: 2508.05369v1 cs.CV
Авторы:

Hamza Kalisch, Fabian Hörst, Jens Kleesiek, Ken Herrmann, Constantin Seibold

Автоматизация генерации радиологических отчетов становится ключевым инструментом для облегчения больших нагрузок на радиологов. Несмотря на то, что существующие методы используют глобальные изображения для вывода, они часто пропускают тонкие связи между органами, которые критичны для точности отчетов. Мы предлагаем CT-GRAPH, инновационную архитектуру на основе графа с ато attention, которая акцентирует внимание на фине-грейнной структуре органов и их связях с более общими анатомическими системами. Метод строится на предобученных медицинских 3D-решетках, объединяя локальные и глобальные особенности в графическую модель, которая далее интегрируется с технологией генерации текста. На большой выборке CT-RATE показана улучшение F1-меры на 7.9% по сравнению с состоянием технологии. Это демонстрирует значительный потенциал CT-GRAPH в создании точных и комплексных радиологических отчетов. Исходный код доступен на GitHub.
Annotation:
As medical imaging is central to diagnostic processes, automating the generation of radiology reports has become increasingly relevant to assist radiologists with their heavy workloads. Most current methods rely solely on global image features, failing to capture fine-grained organ relationships crucial for accurate reporting. To this end, we propose CT-GRAPH, a hierarchical graph attention network that explicitly models radiological knowledge by structuring anatomical regions into a graph, link...
ID: 2508.05375v1 cs.CV
Авторы:

Mingxi Fu, Xitong Ling, Yuxuan Chen, Jiawen Li, fanglei fu, Huaitian Yuan, Tian Guan, Yonghong He, Lianghui Zhu

Определение классов в histopathology Whole Slide Images (WSIs) и Regions of Interest (ROIs) является важной проблемой в рамках компьютерной патологии. Основные подходы, основанные на Multiple Instance Learning (MIL), часто не могут трактовать пространственные зависимости между ткаческими структурами. Для решения этой проблемы модели на основе Graph Neural Networks (GNN) получили распространение, однако большинство из них используют статические графовые топологии, не учитывая физические координаты ткаческих патчей. Кроме того, традиционные механизмы аттенции недостаточно специфичны, что ограничивает возможности сетей акцентироваться на структурно важных регионах. Мы предлагаем новую модель GNN с deformable attention, которая построена на динамическом, взвешенном графе, где каждый узел аггрегирует контекстное представление из соседних узлов с использованием весов, определяемых специальным способом в соответствии с реальными координатами патчей. Это позволяет модели улучшить контекстное поле анализа и сохранить специфичность пространственных зависимостей. Мы проверили модель на четырех бенчмарк-датасетах, и она показала лучшие результаты, что демонстрирует силу deformable attention в решении задач, связанных с пространственными структурами в WSIs и ROIs.
Annotation:
Accurate classification of Whole Slide Images (WSIs) and Regions of Interest (ROIs) is a fundamental challenge in computational pathology. While mainstream approaches often adopt Multiple Instance Learning (MIL), they struggle to capture the spatial dependencies among tissue structures. Graph Neural Networks (GNNs) have emerged as a solution to model inter-instance relationships, yet most rely on static graph topologies and overlook the physical spatial positions of tissue patches. Moreover, con...
ID: 2508.05382v1 cs.CV
Авторы:

Ruben T. Lucassen, Marjanna Romers, Chiel F. Ebbelaar, Aia N. Najem, Donal P. Hayes, Antien L. Mooyaart, Sara Roshani, Liliane C. D. Wynaendts, Nikolas Stathonikos, Gerben E. Breimer, Anne M. L. Jansen, Mitko Veta, Willeke A. M. Blokx

Spitz-туморы широко известны своей диагностической сложностью, в связи с чем исследовалось потенциало AI-моделей в различных ситуациях. Исследование анализировало 393 Spitz-туморов и 379 конвенциональных меланом, сравнивая предсказательную эффективность AI-моделей с четырьмя опытными патологами. AI-модели, основанные на UNI-функциях, показали сильный показатель AUROC (0.95) и достоверность (0.86) при различении Spitz-туморов и меланом, обнаружив генетические аберрации с достоверностью 0.55 против 0.25 в случае случайного предположения. Также был проведен эксперимент, показавший, что AI-рекомендации могут уменьшить стоимость материалов, время отклика и диагностические исследования. Общий вывод: AI-модели достигли высокой точности в дифференциации Spitz-туморов и меланом, что демонстрирует их потенциал для улучшения диагностики.
Annotation:
Spitz tumors are diagnostically challenging due to overlap in atypical histological features with conventional melanomas. We investigated to what extent AI models, using histological and/or clinical features, can: (1) distinguish Spitz tumors from conventional melanomas; (2) predict the underlying genetic aberration of Spitz tumors; and (3) predict the diagnostic category of Spitz tumors. The AI models were developed and validated using a dataset of 393 Spitz tumors and 379 conventional melanoma...
ID: 2508.05391v1 eess.IV, cs.CV
Авторы:

Rui Yu, Xianghang Zhang, Runkai Zhao, Huaicheng Yan, Meng Wang

**Резюме** Автоматическое управление транспортными средствами столкнулось с ограничениями в робастности и универсальности решений, опирающихся только на модели ego-vehicle. На основе этой проблемы авторы предлагают DistillDrive — модель классического размера с использованием knowledge distillation. Она оптимизирует multi-mode motion planning с использованием planning-oriented instances, созданных с помощью generative modeling. Особенностью является использование structured scene representations в качестве teacher model, которая нацелена на повышение робастности и уменьшение collision rate. Результаты на nuScenes и NAVSIM демонстрируют улучшение closed-loop performance на 3 балла и сокращение collision rate на 50% по сравнению со стандартным подходом. Авторы обещают сделать исходный код и модель доступными для исследователей.
Annotation:
End-to-end autonomous driving has been recently seen rapid development, exerting a profound influence on both industry and academia. However, the existing work places excessive focus on ego-vehicle status as their sole learning objectives and lacks of planning-oriented understanding, which limits the robustness of the overall decision-making prcocess. In this work, we introduce DistillDrive, an end-to-end knowledge distillation-based autonomous driving model that leverages diversified instance i...
ID: 2508.05402v1 cs.RO, cs.CV
Авторы:

Farah Wahida, M. A. P. Chamikara, Yashothara Shanmugarasa, Mohan Baruwal Chhetri, Thilina Ranbaduge, Ibrahim Khalil

Объективная система распознавания лиц на основе глубоких нейронных сетей требует безопасности и достоверности данных. Атаки типа "ловушка" могут подрывать эти системы, внедряя невидимые триггеры в обучающие изображения, что приведет к неправильному распознаванию при аутентификации. Большинство существующих методов защиты против таких атак страдают от неточностей в выявлении зараженных изображений или ухудшении точности распознавания чистых данных. Мы предлагаем новую стратегию TrueBiometric, которая определяет зараженные изображения с помощью механизма опроса, использующего несколько современных языковых-визуальных моделей. Затем, используя целенаправленное добавление шума, эти изображения восстанавливаются без потери качества работы с чистыми данными. Наши эмпирические исследования показали, что TrueBiometric обеспечивает 100% точность в выявлении и исправлении зараженных изображений, демонстрируя превосходство перед альтернативными подходами в области безопасности лицевых систем распознавания.
Annotation:
Biometric systems, such as face recognition systems powered by deep neural networks (DNNs), rely on large and highly sensitive datasets. Backdoor attacks can subvert these systems by manipulating the training process. By inserting a small trigger, such as a sticker, make-up, or patterned mask, into a few training images, an adversary can later present the same trigger during authentication to be falsely recognized as another individual, thereby gaining unauthorized access. Existing defense mecha...
ID: 2508.05409v1 cs.CV, cs.SD, eess.AS
Авторы:

Jiawei Liang, Siyuan Liang, Jianjie Huang, Chenxi Si, Ming Zhang, Xiaochun Cao

**Резюме** В настоящей работе рассматривается проблема физического адверсарского камуфляжа, которая представляет собой серьезный риск для безопасности в подсистемах, основанных на динамических объектных детекторах, таких как системы автономного управления транспортными средствами. Чтобы гарантировать успешную атаку в различных физических условиях, авторы выделяют две сложности: непостоянная плотность точек выбора при изменении угла и расстояния, а также конфликтующие обновления градиентов при оптимизации. Для решения этих проблем предложено новшественное адверсарсное камуфляжевое решение, основанное на методике оптимизации градиентов. В частности, используются стратегия калибровки градиентов, обеспечивающая непрерывность обновлений на различных расстояниях, и метод декорреляции градиентов, который уменьшает конфликты между градиентами в многоугловой оптимизации. Экспериментальные результаты показывают, что предложенный подход повышает процент успешных атак на 13.46% при изменении расстояния и на 11.03% при изменении угла, что значительно превосходит состояние искусства. Исследования в реальных условиях также подтверждают ценность предложенного подхода.
Annotation:
The advancement of deep object detectors has greatly affected safety-critical fields like autonomous driving. However, physical adversarial camouflage poses a significant security risk by altering object textures to deceive detectors. Existing techniques struggle with variable physical environments, facing two main challenges: 1) inconsistent sampling point densities across distances hinder the gradient optimization from ensuring local continuity, and 2) updating texture gradients from multiple ...
ID: 2508.05414v1 cs.CV
Авторы:

Rongzhen Zhao, Wenyan Yang, Juho Kannala, Joni Pajarinen

Объектно-ориентированное разделение изображений и видео часто тем не менее сталкивается с проблемами при обработке первых кадров изображений и видео. Эти проблемы возникают из-за отсутствия специфичных признаков в начальных этапах агрегации слотов. Мы предлагаем SmoothSA, решение, которое адресует эти проблемы. Оно представляет собой подход, который улучшает изначальную фазу агрегации слотов за счет предобученного модуля, который генерирует более информативные начальные слоты на основе входных признаков. Для видео, мы различаем трансформации слотов в первых и последующих кадрах, учитывая различия в задачах. Это позволяет повысить точность обработки кадров и уменьшить повторяемость алгоритма. Мы проверили эффективность SmoothSA на множестве задач объектного распознавания и обнаружения, получив улучшения по сравнению с текущими методами. Наш алгоритм также обеспечивает более стабильное обучение и повышенную точность для обработки видео.
Annotation:
Slot Attention (SA) and its variants lie at the heart of mainstream Object-Centric Learning (OCL). Objects in an image can be aggregated into respective slot vectors, by \textit{iteratively} refining cold-start query vectors, typically three times, via SA on image features. For video, such aggregation is \textit{recurrently} shared across frames, with queries cold-started on the first frame while transitioned from the previous frame's slots on non-first frames. However, the cold-start queries la...
ID: 2508.05417v1 cs.CV
Авторы:

Liangwei Li, Lin Liu, Juanxiu Liu, Jing Zhang, Ruqian Hao, Xiaohui Du

Мы предлагаем новую подходящую для составления технику для неуправляемого обнаружения и локализации аномалий, основанную на методе Flow Matching (FM). Наша техника устраняет ограничения моделей, связанные с ограниченностью моделей потоков, используя временную обратную FM, которая преобразует неизвестные распределения данных в стандартное гауссово распределение с помощью регрессии векторных полей вдоль заданного промежуточного шага. Мы доказываем, что FM с линейным полосой вероятности не может быть инвертированной, а при работе в высокомерных пространствах может привести к нежелательным эффектам из-за ограничений многообразий. Мы предлагаем новую интерполяцию Метода Хорват (WT) для создания непроблемного процесса эволюции. Наше решение, под названием WT-Flow, позволяет контролировать динамику траекторий показателей, создавая «дегенерированные потенциальные ямах для обнаружения и отделения нестандартных образцов. Мы продемонстрировали первое успешное применение FM в неуправляемом обнаружении и локализации аномалий на датасете MVTec, достигнув лидирующих результатов в задаче.
Annotation:
We propose a new paradigm for unsupervised anomaly detection and localization using Flow Matching (FM), which fundamentally addresses the model expressivity limitations of conventional flow-based methods. To this end, we formalize the concept of time-reversed Flow Matching (rFM) as a vector field regression along a predefined probability path to transform unknown data distributions into standard Gaussian. We bring two core observations that reshape our understanding of FM. First, we rigorously p...
ID: 2508.05461v1 cs.CV
Показано 11481 - 11490 из 11614 записей