📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня
Авторы:

Saifullah Saifullah, Stefan Agne, Andreas Dengel, Sheraz Ahmed

Непрозрачность AI-систем при принятии решений в обработке документов ограничивает их доверительность, особенно в высокорисковых приложениях, где спутниковые корреляции могут привести к критичным ошибкам. Одна из сложностей в этой области — объяснение решений моделей классификации документовых изображений. До этого момент в качестве объяснений использовались карты важности признаков, но они часто оказываются непонятными и не дают глобального представления обученного модели. В нашей работе мы предлагаем DocVCE — метод, основанный на диффузионных моделях, для генерирования диалогических визуальных контрфактуальных объяснений. Метод работает в два этапа: сначала генерируются визуальные контрфактуальные объяснения, а затем они уточняются с помощью глубокого обучения для поиска ближайшего к исходному изображению валидного контрфактуального. Мы проверили DocVCE на трех датасетах классификации документов (RVL-CDIP, Tobacco3482, DocLayNet) и тремя моделями классификации (ResNet, ConvNeXt, DiT). Мы показали, что DocVCE эффективен в создании понятных и реалистичных контрфактуальных объяснений. Это первая работа, призванная улучшить прозрачность моделей классификации документовых изображений.
Annotation:
As black-box AI-driven decision-making systems become increasingly widespread in modern document processing workflows, improving their transparency and reliability has become critical, especially in high-stakes applications where biases or spurious correlations in decision-making could lead to serious consequences. One vital component often found in such document processing workflows is document image classification, which, despite its widespread use, remains difficult to explain. While some rec...
ID: 2508.04233v1 cs.CV
Авторы:

Romina Gaburro, Patrick Healy, Shraddha Naidu, Clifford Nolan

Исследование рассматривает применение сверточных нейронных сетей (CNN) для классификации объектов на основе данных синтетического апертурного радиолокатора (SAR). Авторы используют одиночную скачковую приближение для классификации формы объектов, основываясь на симулированных и реконструированных SAR-данных, и сравнивают успешность этих подходов. Также проводится классификация типов льда в реальных SAR-изображениях спутника Sentinel-1, где также достигнут высокий уровень точности классификации (от 75%). Исследование исследует влияние высоты антенны SAR-навигатора на эффективность классификации. Основной вывод: CNNs эффективно применяются для решения задач геометрической и экологической классификации на основе SAR-данных, а радиус антенны является важной фактором успешности классификации.
Annotation:
We consider the problem in Synthetic Aperture RADAR (SAR) of identifying and classifying objects located on the ground by means of Convolutional Neural Networks (CNNs). Specifically, we adopt a single scattering approximation to classify the shape of the object using both simulated SAR data and reconstructed images from this data, and we compare the success of these approaches. We then identify ice types in real SAR imagery from the satellite Sentinel-1. In both experiments we achieve a promisin...
ID: 2508.04234v1 cs.CV, cs.NA, math.NA
Авторы:

Muhua Zhu, Xinhao Jin, Chengbo Wang, Yongcong Zhang, Yifei Xue, Tie Ji, Yizhen Lao

**Резюме** Статья предлагает решение для проблемы стайтинга изображений с значительным параллаксом, когда объекты в сцене имеют существенные различия в пространственном размещении между двумя изображениями. Традиционные методы стайтинга сталкиваются с трудностями при обработке таких сцен, что приводит к геометрическим искажениям и потере деталей. Авторы предлагают PIS3R — алгоритм, основанный на deep 3D reconstruction. Он применяет visual geometry grounded transformer для получения параметров камеры и 3D-реконструкции сцены. Затем используется проекция предсказанной точечной трехмерной модели на целевой вид, чтобы получить пиксельно-совместимое слияние. Для улучшения результатов применяется модуль diffusion, который устраняет гладкость и шум. PIS3R показал высокую точность и толерантность к сильному параллаксу в сравнении с существующими методами. Результаты могут быть использованы в суррогатной моделировании и других задачах AI, основанных на 3D-визуализации.
Annotation:
Image stitching aim to align two images taken from different viewpoints into one seamless, wider image. However, when the 3D scene contains depth variations and the camera baseline is significant, noticeable parallax occurs-meaning the relative positions of scene elements differ substantially between views. Most existing stitching methods struggle to handle such images with large parallax effectively. To address this challenge, in this paper, we propose an image stitching solution called PIS3R t...
ID: 2508.04236v1 cs.CV
Авторы:

Giuseppe Chindemi, Camilla Bellone, Benoit Girard

**Резюме** В статье рассматривается переход в исследовании социального поведения мышей от традиционных методов на основе прямого человеческого наблюдения к современным подходам, основанным на искусственном интеллекте (AI) и машинном обучении. Традиционные методы часто индуцируют погрешности и не полностью отражают сложность социальных интеракций мышей. В то же время новые подходы, объединяющие компьютерного зрения, этнологию и нейронауку, позволяют получать более глубокие и точные анализы поведения, в частности в области социальной нейронауки. Однако использование AI в таких исследованиях не без своих проблем: сложности с данными, необходимостью тщательной настройки моделей и сложностями в интеграции междисциплинарных подходов. Статья предлагает разработанные инструменты и методы для решения этих проблем, а также дает рекомендации для молодых исследователей, помогая им внедрять эти технологии. В итоге авторы призывают к дальнейшему обсуждению и усовершенствованию методов исследования социального поведения с применением AI.
Annotation:
The study of rodent social behavior has shifted in the last years from relying on direct human observation to more nuanced approaches integrating computational methods in artificial intelligence (AI) and machine learning. While conventional approaches introduce bias and can fail to capture the complexity of rodent social interactions, modern approaches bridging computer vision, ethology and neuroscience provide more multifaceted insights into behavior which are particularly relevant to social ne...
ID: 2508.04255v1 cs.CV, q-bio.NC, I.2.10; I.4.8; J.3; I.2.10; I.4.8; J.3
Авторы:

Duzhen Zhang, Yong Ren, Wei Cong, Junhao Zheng, Qiaoyi Su, Shuncheng Jia, Zhong-Zhi Li, Xuanle Zhao, Ye Bai, Feilong Chen, Qi Tian, Tielin Zhang

**Резюме** Continual Semantic Segmentation (CSS) — задача, которая предполагает постепенное обучение модели для сегментации новых классов, сохраняя накопленные знания о прошедших классах. Недавние успехи в этой области сильно зависят от применения Pre-trained Vision Models (PVMs) в качестве бэкбонов. Однако, метод Direct Fine-Tuning (DFT), где модель последовательно тренируется на новых классах, часто считается простой, но неэффективной, так как считается подверженным серьезной забываемости. В нашей работе мы доказываем, что это предположение неверно — PVMs значительно лучше запоминают прошедшие классы, чем обычно считается. Мы выяснили, что проблема забываемости в DFT возникает не из-за деградации PVM, а из-за того, что классификатор сдвигается от старых классов. Разработанное нами усовершенствование DFT* (DFT-star), включающее такие меры, как заморозка слоев PVM и классификаторов, а также предусмотрение мест для новых классов, позволяет достигать более высокой точности и эффективности по сравнению с 16 государственными методами, при этом требуя меньшего количества параметров и времени на обучение.
Annotation:
Continual Semantic Segmentation (CSS) seeks to incrementally learn to segment novel classes while preserving knowledge of previously encountered ones. Recent advancements in CSS have been largely driven by the adoption of Pre-trained Vision Models (PVMs) as backbones. Among existing strategies, Direct Fine-Tuning (DFT), which sequentially fine-tunes the model across classes, remains the most straightforward approach. Prior work often regards DFT as a performance lower bound due to its presumed v...
ID: 2508.04267v1 cs.CV
Авторы:

Deming Zhou, Yuetong Fang, Zhaorui Wang, Renjing Xu

Модели визуального коры, характеризующиеся топографическим устройством, где специализированные нейроны сгруппированы в зависимости от их функций, хорошо удовлетворяют требованиям эффективности обработки. Однако традиционные глубокие нейронные сети (DNNs), несмотря на их успех в задачах распознавания объектов, не учитывают важность временных динамик в процессе обучения. Эти модели часто показывают низкий уровень поддержки биологической природы и нарушают логику топографической организации. В нашей работе мы предлагаем Topographic Deep Spiking Neural Networks (TDSNNs), которые интегрируют гибридную структуру SNN, заложив в нее не только топографическую организацию, но и временные динамики. Это ставит TDSNN в центр внимания как модели, которая эффективно реплицирует топографические особенности визуальной коры. Мы показали, что наша модель демонстрирует значительно меньшую потерю точности (в том числе на ImageNet) по сравнению с лучшими топографическими DNNs, при этом она показывает лучшую биологическую эмуляцию. Эти результаты указывают на то, что TDSNN может стать мощным инструментом для развития эмуляторов нейронных систем в области AI.
Annotation:
The primate visual cortex exhibits topographic organization, where functionally similar neurons are spatially clustered, a structure widely believed to enhance neural processing efficiency. While prior works have demonstrated that conventional deep ANNs can develop topographic representations, these models largely neglect crucial temporal dynamics. This oversight often leads to significant performance degradation in tasks like object recognition and compromises their biological fidelity. To addr...
ID: 2508.04270v1 cs.NE, cs.CV
Авторы:

Junan Lin, Daizong Liu, Xianke Chen, Xiaoye Qu, Xun Yang, Jixiang Zhu, Sanyuan Zhang, Jianfeng Dong

**Резюме** В задаче Video Moment Retrieval (VMR) цель состоит в поиске конкретного момента, семантически связанного с заданным запросом. Однако большинство существующих подходов сосредоточены только на визуальной и текстовой информации, недооценивая аудиомодуль. Несмотря на недавние работы, опробовавшие joint reasoning для всех модулей, их дизайн тREметьющих все модальности одинаково, не учитывает их различную полезность и влияние на результат. Например, аудио может нести за собой полезную информацию или же быть полностью шумовым. Мы предлагаем Importance-aware Multi-Granularity Fusion (IMG) model, которая адаптивно использует аудио, визуальную и текстовую информацию. Модель оценивает важность аудио-данных, используя псевдометки, и применяет контекстную связь на разных уровнях — локальном, событийном и общем. Также предложена cross-modal knowledge distillation, которая позволяет обучать модель даже при отсутствии аудио на этапе инференса. Мы также создали новую VMR-датасет, Charades-AudioMatter, для валидации модели. Эксперименты показали, что наш подход позволяет достигать state-of-the-art результатов в audio-video fusion для VMR. Исходный код доступен на GitHub.
Annotation:
Video Moment Retrieval (VMR) aims to retrieve a specific moment semantically related to the given query. To tackle this task, most existing VMR methods solely focus on the visual and textual modalities while neglecting the complementary but important audio modality. Although a few recent works try to tackle the joint audio-vision-text reasoning, they treat all modalities equally and simply embed them without fine-grained interaction for moment retrieval. These designs are counter-practical as: N...
ID: 2508.04273v1 cs.IR, cs.CV, cs.MM, cs.SD, eess.AS
Авторы:

Chenlei Lv, Hui Huang

**Резюме** Point cloud registration — классическая задача в области 3D Vision и Computer Graphics, но она чувствительна к схожести преобразований (преобразованиям скалирования, поворота и перестановки), шумным точкам и неполным геометрическим структурам точечных множеств. Особенно сложности возникают при работе с точками, имеющими неравномерную плотность или поврежденными участками. В данной работе предлагается метод PKSS-Align, который обеспечивает устойчивую регистрацию точечных множеств, даже при влиянии указанных факторов. Метод основывается на измерении схожести форм точечных множеств в Pre-Kendall shape space (PKSS) — методе, не требующем точечного или плоскостного подхода, а работающем с более широкой маннифольдной метрикой, устойчивой к различным представлениям в евклидовой системе координат. Это позволяет эффективно вычислить матрицу преобразования для точечных множеств, даже с вышеуказанными проблемами. PKSS-Align не требует обучения модели и сложного кодирования признаков, благодаря чему является простой и эффективной алгоритмом. Эксперименты показали, что он превосходит современные методы регистрации точечных множеств по эффективности и надёжности.
Annotation:
Point cloud registration is a classical topic in the field of 3D Vision and Computer Graphics. Generally, the implementation of registration is typically sensitive to similarity transformations (translation, scaling, and rotation), noisy points, and incomplete geometric structures. Especially, the non-uniform scales and defective parts of point clouds increase probability of struck local optima in registration task. In this paper, we propose a robust point cloud registration PKSS-Align that can ...
ID: 2508.04286v1 cs.CV
Авторы:

Yaopeng Lou, Liao Shen, Tianqi Liu, Jiaqi Li, Zihao Huang, Huiqiang Sun, Zhiguo Cao

Резюме: Многобазенная общеприменимая технология реконструкции с применением гауссовых сплаттингов (MuGS) предлагает универсальное решение для организации проекции с высоким качеством, способное эффективно работать с широким диапазоном условий ввода, включая как узкие, так и широкие базели. Используя принципы Много birds Stereo (MVS) и монокулярной оценки глубины (MDE), MuGS улучшает представление о глубине и позволяет создавать точный прогноз пространственного геометрического пространства. Технология также внедряет новую механику для глубокого слияния глубинных карт и использует специальный спектр листов 3D-гауссовых представлений, что делает процессы обучения и применения более быстрыми и качественными. Испытания показали, что MuGS показывает ведущую производительность на различных наборах данных и сценах, от простых объектов до сложных внутренних инаутерных сцен, начиная с DTU и заканчивая RealEstate10K. Этот подход демонстрирует также неплохие результаты с нулевым вводом на LLFF и Mip-NeRF 360.
Annotation:
We present Multi-Baseline Gaussian Splatting (MuRF), a generalized feed-forward approach for novel view synthesis that effectively handles diverse baseline settings, including sparse input views with both small and large baselines. Specifically, we integrate features from Multi-View Stereo (MVS) and Monocular Depth Estimation (MDE) to enhance feature representations for generalizable reconstruction. Next, We propose a projection-and-sampling mechanism for deep depth fusion, which constructs a fi...
ID: 2508.04297v1 cs.CV
Авторы:

Yifan Wang, Ziyi Liu, Xiaolong Sun, Jiawei Wang, Hongmin Liu

**Резюме** В статье предлагается Length-Aware Transformer (LATR) — новый подход для решения задачи temporal sentence grounding (TSG), связанной с локализацией видеоподвыпуклых фрагментов, соответствующих естественному языковому описанию. Основная проблема, которую LATR адресован, заключается в дублировании ролей обучаемых запросов в DETR-подобных моделях, что приводит к ошибочным и противоречивым предсказаниям. Рассматривается влияние длины текстового описания и видео на данную проблему. LATR разделяет запросы на три группы, каждая отвечающая за различные длины видеоподвыпуклых фрагментов. Для обучения введена дополнительная задача классификации длины, которая помогает каждому запросу специализироваться на своей длине. Это позволяет повысить точность предсказаний и уменьшить коллизии между запросами. Опытные исследования показали, что LATR дает лучшую точность на трех общедоступных TSG-benchmark-тестах. Абляционные исследования подтвердили важность включения длины в моделирование и эффективность предложенного подхода.
Annotation:
Temporal sentence grounding (TSG) is a highly challenging task aiming to localize the temporal segment within an untrimmed video corresponding to a given natural language description. Benefiting from the design of learnable queries, the DETR-based models have achieved substantial advancements in the TSG task. However, the absence of explicit supervision often causes the learned queries to overlap in roles, leading to redundant predictions. Therefore, we propose to improve TSG by making each quer...
ID: 2508.04299v1 cs.CV
Показано 33451 - 33460 из 34123 записей