📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Towards MR-Based Trochleoplasty Planning

2025-08-12

Авторы:

Michael Wehrli, Alicia Durrer, Paul Friedrich, Sidaty El Hadramy, Edwin Li, Luana Brahaj, Carol C. Hasler, Philippe C. Cattin

## Контекст Трохеарная дисплазия (TD) — опухолевая болезнь, характеризующаяся изменением формы диафизарной части фемура. Для ее лечения применяются хирургические методы, включающие в себя рентгеновскую контрастированную томографию (CT) или клинические магнитно-резонансные сканы (MR). Однако, существующие подходы ограничены низким разрешением клинических MR-сканов и применением субъективного опыта специалистов. Такие подходы приводят к несогласованным результатам и крайне ограниченному использованию минимально инвазивных технологий. Существует необходимость в разработке более точных и оптимизированных методов планирования хирургических операций на TD. ## Метод Мы предлагаем полностью автоматизированную пипель, которая генерирует изобронированные, пациент-специфичные 3D-модели на основе клинических MR-сканов. Метод включает: 1. Изотропное повышение разрешения MR-скана с использованием Implicit Neural Representation (INR). 2. Автоматическое сегментирование фемура, тибии, паттелы и фибулы с помощью многометкивой сети, настроенной на такой кейс. 3. Генерацию псевдоздоровой целевой морфологии с помощью Wavelet Diffusion Model (WDM), которая позволяет получить высокорезольвентные модели с разрешением в подмм. Заметно, что наш подход не требует использования CT, уменьшая радиационную нагрузку. Мы применяем нашу модель к 25 пациентам с TD и обеспечиваем существенную улучшение сулкусного угла (SA) и глубины трохеарной галлеты (TGD). ## Результаты Мы проверяли метод на собственных данных 25 пациентов с TD. Результаты показали, что наш подход существенно улучшает сулкусный угол (SA) с средним значением 12.3° до 17.5° и глубину трохеарной галлеты (TGD) с 4.2 мм до 6.4 мм. Эти результаты демонстрируют высокую точность и надежность нашего подхода в планировании хирургических операций. Мы также показали, что наше решение позволяет значительно сократить время, необходимое для планирования операций, и улучшить консистентность результатов. ## Значимость Наш подход имеет широкие применения в медицине, особенно в планировании хирургических операций на TD. Он обеспечивает более точные и предсказуемые модели для планирования пациент-специфичных операций. Это улучшает качество лечения, снижает риск ошибок и увеличивает эффективность. Наш подход также имеет потенциал для использования в минимально инвазивных методах лечения TD, что может революционизовать текущие подходы к лечению. ## Выводы Мы представили метод для генерации псевдоздоровых морфологий

Annotation:

To treat Trochlear Dysplasia (TD), current approaches rely mainly on low-resolution clinical Magnetic Resonance (MR) scans and surgical intuition. The surgeries are planned based on surgeons experience, have limited adoption of minimally invasive techniques, and lead to inconsistent outcomes. We propose a pipeline that generates super-resolved, patient-specific 3D pseudo-healthy target morphologies from conventional clinical MR scans. First, we compute an isotropic super-resolved MR volume using...

ID: 2508.06076v1 cs.CV, cs.AI

arXiv PDF

📄 Mask & Match: Learning to Recognize Handwritten Math with Self-Supervised Attention

2025-08-12

Авторы:

Shree Mitra, Ritabrata Chakraborty, Nilkanta Sahu

## Контекст Распознавание рукописных математических выражений (Handwritten Mathematical Expression Recognition, HMER) является сложной задачей из-за двухмерной структуры выражений, разного масштаба символов и сложных пространственных связей между ними. Из-за этих особенностей распознавание рукописных математических выражений требует больших объемов маркированных данных для обучения, что затрудняет применение методов машинного обучения. Недостаток этих данных ставит дополнительные ограничения на развитие моделей. В настоящей работе предлагается самостоятельный подход к обучению, который устраняет необходимость в дорогостоящих маркированных данных. ## Метод Наше решение основывается на самостоятельном обучении (Self-Supervised Learning, SSL), которое использует большие объемы немаркированных данных. Мы предлагаем два ключевых инструмента: (1) **Самостоятельное обучение с использованием контрастной функции** — этот подход позволяет модели учиться одновременно в глобальной и локальной структуре выражений, что улучшает их уязвимость к разным видам данных. (2) **Самостоятельная аттенционная сеть** — мы предлагаем прогрессивную стратегию маскирования, чтобы обучить модель понимать значимые семантические фокусные регионы, такие как операторы, степени и вложенные математические выражения, без необходимости в маркированных данных. ## Результаты В экспериментах, проведенных на наборе данных CROHME, наш метод показал значительные результаты по сравнению с другими самостоятельными подходами и методами с полностью маркированными данными. Мы продемонстрировали, что аттенционная сеть, обученная с помощью прогрессивного маскирования, повышает робастность модели к различным ситуациям, таким как удаление или затуманение частей выражения. Это позволяет модели стабильно повышать точность распознавания в рукописных математических выражениях. ## Значимость Наш подход может применяться в различных областях, включая обработку рукописных текстов, где требуется уменьшить зависимость от маркированных данных. Он также может использоваться в области обучения глубоким сетям для работы с математическими данными, что может быть полезно для разработки инструментов для систем автоматической оценки и анализа математических задач. Мы видим потенциал нашего подхода в улучшении обработки текстов в области математических и научных текстов. ## Выводы Мы представили Mask & Match, полностью самостоятельный подход к распознаванию рукописных математических выражений, который удачно обучается без маркированных данных и превосходит существующие методы. Наша работа демонстрирует, что прогрессивное маскирование может стать базовым инструментом для обучения моделей к пониманию структуры выра

Annotation:

Recognizing handwritten mathematical expressions (HMER) is a challenging task due to the inherent two-dimensional structure, varying symbol scales, and complex spatial relationships among symbols. In this paper, we present a self-supervised learning (SSL) framework for HMER that eliminates the need for expensive labeled data. Our approach begins by pretraining an image encoder using a combination of global and local contrastive loss, enabling the model to learn both holistic and fine-grained rep...

ID: 2508.06107v1 cs.CV, cs.AI

arXiv PDF

📄 FMCE-Net++: Feature Map Convergence Evaluation and Training

2025-08-12

Авторы:

Zhibo Zhu, Renyu Huang, Lei He

#### Контекст Текущие глубокие нейронные сети (DNNs) сталкиваются с трудностями в интерпретируемости их внутренних представлений. Хотя Feature Map Convergence Evaluation (FMCE) предлагает метод для оценки модулярного уровня сходимости через Feature Map Convergence Scores (FMCS), он недостаточно проверен экспериментально и не интегрирован с обучением. Этот недостаток приводит к уменьшенной точности и неэффективности моделей в задачах классификации. Для устранения этой проблемы мы предлагаем FMCE-Net++, новую структуру, которая интегрирует замороженную FMCE-Net в качестве вспомогательного модуля для оценки FMCS и динамического оптимизации основной модели. #### Метод FMCE-Net++ включает в себя замороженный FMCE-Net в качестве вспомогательного заголовка, который вычисляет FMCS для каждого модуля сети. Эти оценки, вместе с метками задачи, подаются в Representation Auxiliary Loss (RAL), который динамически регулирует баланс между основной задачей классификации и оптимизацией сходимости функций. Регулятор Representation Abstraction Factor (RAF) позволяет динамически адаптировать силу вклада вспомогательного модуля в обучение. Это гибкое решение интегрирует FMCE в обучение, не требуя изменений архитектуры или дополнительных данных. #### Результаты Мы провели исследования на MNIST, CIFAR-10, FashionMNIST и CIFAR-100, используя модели ResNet-50, ShuffleNet v2 и другие. Результаты показали значительные улучшения в точности: $+1.16$ pp для ResNet-50 на CIFAR-10 и $+1.08$ pp для ShuffleNet v2 на CIFAR-100. Эти результаты демонстрируют, что FMCE-Net++ может повысить эффективность сетей без изменений архитектуры или дополнительных данных, повысив их моделируемую точность. #### Значимость Предлагаемый подход может быть применен в различных областях, где требуется улучшение точности без увеличения сложности модели или доступа к большому количеству данных. FMCE-Net++ демонстрирует выгоду в скейлируемости и универсальности, может быть использован в задачах классификации изображений и даже в задачах с более сложными входными данными. Этот подход также открывает пути для дальнейшего исследования в области интерпретируемости и оптимизации DNNs. #### Выводы FMCE-Net++ достигает значительных выгод в точности без дополнительных изменений архитектуры или дополнительных данных. Он показывает, что интеграция FMCE в обучение может быть эффективным инструментом для повышения моделируемой точности. Будущие исследования будут сфокусированы на расширении применения FMCE-Net++ к более сложным задачам и развитии его вариантов для других видов DNNs.

Annotation:

Deep Neural Networks (DNNs) face interpretability challenges due to their opaque internal representations. While Feature Map Convergence Evaluation (FMCE) quantifies module-level convergence via Feature Map Convergence Scores (FMCS), it lacks experimental validation and closed-loop integration. To address this limitation, we propose FMCE-Net++, a novel training framework that integrates a pretrained, frozen FMCE-Net as an auxiliary head. This module generates FMCS predictions, which, combined wi...

ID: 2508.06109v1 cs.CV, cs.AI

arXiv PDF

📄 Roll Your Eyes: Gaze Redirection via Explicit 3D Eyeball Rotation

2025-08-12

Авторы:

YoungChan Choi, HengFei Wang, YiHua Cheng, Boeun Kim, Hyung Jin Chang, YoungGeun Choi, Sang-Il Choi

## Контекст ### Область исследования и проблематика Газирование (gaze redirection) — это задача, направленная на изменение направления взгляда на лицевой картине, чтобы сделать ее более привлекательной или соответствовать желаемому направлению. Одной из основных проблем текущих методов является несостоятельность в создании реалистичных трехмерных эффектов. Они часто опираются на нейронные радиентные поля (NeRF), но эти подходы не могут эффективно реплицировать трехмерные движения глаз. Эта проблема вызывает необходимость разработки более реалистичных и эффективных систем газирования. ### Мотивация Высококачественное газирование лица требует точного моделирования трехмерного строения глаза и явных движений мышц. Недостаток в существующих методах побудил нас разработать новую архитектуру, которая могла бы преодолеть эти ограничения. ## Метод ### Описание методологии Мы предлагаем новую архитектуру газирования, основанную на трёхмерной структуре глаза и использовании 3D Gaussian Splatting (3DGS). Это позволяет использовать явные трехмерные представления для моделирования глаза и связанных с ними движений. Будучи чувствительной к деталям, эта модель представляет глаза как трехмерные сферы, где каждый пиксель представляет собой трехмерный шар. ### Технические решения и архитектура Мы разработали адаптивный модуль деформации, который моделирует микро-движения мышц вокруг глаз. Этот модуль позволяет добавить реалистичные небольшие движения, такие как скрижали глаз. Мы также используем глубокую нейронную сеть для оптимизации трехмерной модели и точного узнавания желаемого направления взгляда. ## Результаты ### Описание экспериментов Мы провели эксперименты на большом датасете ETH-XGaze, который содержит разнообразные лица и направления взгляда. Мы сравнили нашу модель с текущими лидерами в области газирования. Мы измерили качество генерируемых изображений и точность определения направления взгляда. ### Полученные результаты Наши эксперименты показали, что наша модель достигает более высокого качества изображений и более точного определения направления взгляда, чем другие методы. Мы также обнаружили, что нашу модель легче адаптировать к различным типам лиц и условиям съемки. ## Значимость ### Области применения Наш подход может быть применен в различных областях, включая виртуальную реальность, игровые индустрии, интерактивные системы и анализ человеческого поведения. Также, он может быть применим в медицине для моделирования глазных движений и диагностики. ### Пре

Annotation:

We propose a novel 3D gaze redirection framework that leverages an explicit 3D eyeball structure. Existing gaze redirection methods are typically based on neural radiance fields, which employ implicit neural representations via volume rendering. Unlike these NeRF-based approaches, where the rotation and translation of 3D representations are not explicitly modeled, we introduce a dedicated 3D eyeball structure to represent the eyeballs with 3D Gaussian Splatting (3DGS). Our method generates photo...

ID: 2508.06136v1 cs.CV, cs.AI

arXiv PDF

📄 UW-3DGS: Underwater 3D Reconstruction with Physics-Aware Gaussian Splatting

2025-08-12

Авторы:

Wenpeng Xing, Jie Chen, Zaifeng Yang, Changting Lin, Jianfeng Dong, Chaochao Chen, Xun Zhou, Meng Han

## Контекст Область исследования подводных 3D-реконструкций становится все более важной в связи с ростом запросов на точные модели подводных объектов и сред. Однако текущие методы, такие как NeRF, сталкиваются с значительными проблемами в условиях подводных сред, где сильное ослабление света, рассеяние и турбидность вносят значительные дисторсии в геометрические модели и цветовую точность. Особенно важным является использование физически точных моделей для повышения точности и реализме. Этот аспект становится ключевым в мотивации для разработки UW-3DGS, который адаптирует 3DGS для решения этих задач. ## Метод UW-3DGS проявляет свои инновационные возможности в нескольких ключевых элементах. Он включает стильное интегрированное обучение модуля подводной изображенческой формации с помощью воздушных шаров. Этот модуль использует возможности зависимостей в спектре рассеяния и отражения, чтобы создавать более точные физические модели. Более того, UW-3DGS включает Physics-Aware Uncertainty Pruning (PAUP), который добавляет критерий низкой надежности для очистки нежелательных шумовых гауссов. Это позволяет гарантировать чистую структуру и точность в процессе сбора геометрических данных. Таким образом, фреймворк UW-3DGS сочетает физику и машинное обучение для повышения цветовой и геометрической точности в подводных областях. ## Результаты Мы проверили эффективность UW-3DGS на двух наборах данных: SeaThru-NeRF и UWBundle. На SeaThru-NeRF, UW-3DGS достиг PSNR равного 27.604, SSIM который составляет 0.868, и LPIPS в размере 0.104. Это указывает на существенную повышение точности по сравнению с традиционными методами. Более того, в отношении уменьшения шумовых гауссов, UW-3DGS показал ~65% снижение в артефактах. Эти результаты подтверждают то, что UW-3DGS представляет собой эффективный подход к подводной 3D-реконструкции, превосходящий современные методы в области цветовой и геометрической точности. ## Значимость UW-3DGS может найти применение в различных областях, включая подводные исследования, океанографию и артефакты восстановления. Его основное преимущество заключается в повышении точности и реализма подводных 3D-моделей, что может быть критично для принятия решений в области океанических исследований и окружающей среды. Благодаря использованию физически точных моделей, UW-3DGS обеспечивает более надежные данные для подводных задач, что может повлиять на развитие технологий в этой области. ## Выводы Результаты UW-3DGS демонстрируют его превосходство над существующими методами в подводных 3D

Annotation:

Underwater 3D scene reconstruction faces severe challenges from light absorption, scattering, and turbidity, which degrade geometry and color fidelity in traditional methods like Neural Radiance Fields (NeRF). While NeRF extensions such as SeaThru-NeRF incorporate physics-based models, their MLP reliance limits efficiency and spatial resolution in hazy environments. We introduce UW-3DGS, a novel framework adapting 3D Gaussian Splatting (3DGS) for robust underwater reconstruction. Key innovations...

ID: 2508.06169v1 cs.CV, cs.AI

arXiv PDF

📄 Synthetic Data-Driven Multi-Architecture Framework for Automated Polyp Segmentation Through Integrated Detection and Mask Generation

2025-08-12

Авторы:

Ojonugwa Oluwafemi Ejiga Peter, Akingbola Oluwapemiisin, Amalahu Chetachi, Adeniran Opeyemi, Fahmi Khalifa, Md Mahmudur Rahman

#### Контекст Колоноскопия является важной методологией для раннего аудитории колоректального рака, который является одной из ведущих причин смертности от рака. Однако применение этого метода сталкивается с некоторыми ограничениями, включая ограниченные размеры здравоохранеточных данных и сложности в аннотации данных. Эти ограничения могут привести к неточностям в диагностике и снижению качества лечения. Исследование предлагает новую, многонаправленную архитектуру, которая автоматизирует процесс детекции и сегментации полипов на изображениях колоноскопии. Целью является решение проблем, связанных с недостатком больших данных и сложностями в их аннотации, для повышения точности диагностики. #### Метод Исследование вводит многоаспектную архитектуру для автоматизации детекции и сегментации полипов. Основные компоненты этого подхода: 1. **Синтетическая генерация данных** — используется Stable Diffusion для повышения разнообразия и качества синтетических данных. 2. **Обнаружение полипов** — Faster R-CNN используется для первого локализации объектов, а Segment Anything Model (SAM) создает точные маски сегментации. 3. **Сегментационные модели** — оценивались пять современных сегментационных моделей: U-Net, PSPNet, FPN, LinkNet, MANet, основанные на ResNet34. #### Результаты Эксперименты показали высокую эффективность предложенной системы. Faster R-CNN достиг значений recall 93.08%, precision 88.97% и F1-score 90.98%. Оценка сегментационных моделей демонстрирует следующие результаты: - **FPN** показал наилучшие результаты с PSNR 7.205893 и SSIM 0.492381. - **U-Net** выделился с высоким recall (84.85%) и быстростью обучения. - **LinkNet** показал балансированные результаты с IoU 64.20% и Dice score 77.53%. #### Значимость Предложенная система обладает широкими перспективами в здравоохранении, особенно в сфере колоректального диагностирования. Она может решить проблемы нехватки данных и сложности аннотации, улучшив точность в диагностике и предотвращении колоректального рака. Многоаспектный подход также может быть применен в других областях медицинской интеллектуальной обработки изображений. #### Выводы Представленная работа достигла значительных улучшений в автоматизации детекции и сегментации полипов в колоноскопических изображениях. Основной достигнутый результат — синтез качественных синтетических данных и сравнительная оценка современных сегментационных моделей. Будущие исследования будут фокусироваться на дальнейшем улучшении точности и выносливости системы в разных медицинских приложениях.

Annotation:

Colonoscopy is a vital tool for the early diagnosis of colorectal cancer, which is one of the main causes of cancer-related mortality globally; hence, it is deemed an essential technique for the prevention and early detection of colorectal cancer. The research introduces a unique multidirectional architectural framework to automate polyp detection within colonoscopy images while helping resolve limited healthcare dataset sizes and annotation complexities. The research implements a comprehensive ...

ID: 2508.06170v1 cs.CV, cs.AI

arXiv PDF

📄 LoRA in LoRA: Towards Parameter-Efficient Architecture Expansion for Continual Visual Instruction Tuning

2025-08-12

Авторы:

Chang Che, Ziqi Wang, Pengwan Yang, Qi Wang, Hui Ma, Zenglin Shi

################################# ## Контекст ################################# Continual Visual Instruction Tuning (CVIT) — это метод, позволяющий Multimodal Large Language Models (MLLMs) надёжно и эффективно учиться последовательно по новым задачам в процессе. Однако, данный подход сталкивается с проблемой катастрофического забывания (catastrophic forgetting), при которой показатели работы модели на предыдущих задачах существенно ухудшаются вследствие того, что модель адаптируется к новым. Основным способом решения этой проблемы является расширение модели, т.е. добавление новых модулей для каждой задачи. Однако, такие методы часто приводят к заметному повышению потребления памяти и снижению степени скалябильности. Наша цель — устранить эти недостатки, разработав метод для эффективного расширения модели, который позволит улучшить её производительность при значительном сокращении потребления ресурсов. ################################# ## Метод ################################# Мы предлагаем LoRA in LoRA (LiLoRA) — новый подход для расширения модели, ориентированный на CVIT. Идея заключается в следующем: 1. **Разделение модулей для каждой задачи**: LiLoRA использует собственную архитектуру с раздельными модулями для каждой задачи, чтобы избежать катастрофического забывания. 2. **Параметрическая эффективность**: Мы предложили несколько методов для эффективного управления памятью. Например, главным элементом является **LoRA matrix A**, который делится между задачами, чтобы уменьшить повторение параметров. Для уменьшения размера модулей мы применяем **low-rank decomposition** к **LoRA matrix B**, чтобы уменьшить количество параметров, относящихся к каждой задаче. 3. **Стабильность используемых представлений**: Для того, чтобы сохранить качество решения при прохождении последовательных задач, мы добавляем **cosine-regularized stability loss**. Это позволяет модели стабильно учиться и не потерять эффективность на предыдущих задачах. ################################# ## Результаты ################################# Мы провели тестирование LiLoRA на широком круге многомодальных задач, включая обработку текстов, изображений и видео. Во всех экспериментах LiLoRA показал значительное улучшение в отношении качества работы по сравнению с другими методами, особенно при последовательном обучении на множестве задач. Наш метод показал лучшую эффективность в памяти, не вызывая катастрофического забывания, и поддерживал высокую производительность при увеличении числа задач. Эксперименты показали, что LiLoRA значительно эффективнее существующих подходов в плане уменьшения потребления памяти и показателей последовательного обучения. ################################# ## Значимость ################################# LiLoRA может использоваться в различных областях, где требуется перспективное расширение моделей без увеличения потребления ресурсов. Например, в области многомодального анализа, где требуется специализированный подход для каждого типа данных

Annotation:

Continual Visual Instruction Tuning (CVIT) enables Multimodal Large Language Models (MLLMs) to incrementally learn new tasks over time. However, this process is challenged by catastrophic forgetting, where performance on previously learned tasks deteriorates as the model adapts to new ones. A common approach to mitigate forgetting is architecture expansion, which introduces task-specific modules to prevent interference. Yet, existing methods often expand entire layers for each task, leading to s...

ID: 2508.06202v1 cs.CV, cs.AI

arXiv PDF

📄 SIFThinker: Spatially-Aware Image Focus for Visual Reasoning

2025-08-12

Авторы:

Zhangquan Chen, Ruihui Zhao, Chuwei Luo, Mingze Sun, Xinlei Yu, Yangyang Kang, Ruqi Huang

## Контекст Существующие multimodal large language models (MLLMs) сталкиваются с значительными ограничениями в решении сложных визуальных задач, таких как спатиальное понимание и тонкая визуальная перцепция. Несмотря на то, что многие методы пытались интегрировать визуальную размышление, они часто не учитывали корректировку внимания с использованием пространственных признаков для тонкой регулировки фокуса на относительно целевых областях в задаче. Мы предлагаем SIFThinker, новая система, которая эмулирует человеческое визуальное восприятие, способная выполнять интеллектуальную корректировку внимания и сосредоточиться на целевых регионах в изображении. Этот подход может существенно улучшить эффективность в решении визуальных задач. ## Метод SIFThinker использует стратегию "reverse expansion forward inference", чтобы генерировать интеллектуальные цепочки мыслей в форме объединенных изображений и текстов. Метод использует depth-enhanced bounding boxes и естественный язык для создания динамической корректировки внимания. Для тонкого визуального осмысления, SIFThinker использует GRPO-SIF, унифицированный цикл развития и улучшения визуальной навигации в реальном времени. Эта архитектура позволяет модели лучше понимать пространственные взаимоотношения и сосредоточиться на релевантных областях в процессе решения задач. ## Результаты Наши эксперименты проводились на большой датасет SIF-50K, созданный в рамках нашей работы. Мы сравнили SIFThinker с текущими лидерами в области визуально-текстовых моделей. Результаты демонстрируют существенное превосходство SIFThinker в сложных визуальных задачах, в том числе в спатиальном понимании и тонкой визуальной перцепции. Модель показала значительный прирост в точности решения задач, при этом сохранив гибкость и работу в условиях широкого диапазона визуальных сценариев. ## Значимость SIFThinker может быть применен в различных приложениях, включая автоматический машинный транслятор, визуальный поиск, искусственный интеллект в реальном времени и даже в сферу медицины, где точное визуальное понимание критично. Особым преимуществом является возможность модели для динамической корректировки внимания и сосредоточения на целевых областях, что позволяет ей выполнять более точные и эффективные распознавания и решения задач. ## Выводы Мы представили SIFThinker, новую систему, которая применяет спатиально-акцентную корректировку визуального фокуса в системах визуального рассуждения. Наши результаты показали, что SIFThinker превосходит состояние искусства в сложных визуальных задачах. Будущие исследования будут нацелены на улучшение ее производительност

Annotation:

Current multimodal large language models (MLLMs) still face significant challenges in complex visual tasks (e.g., spatial understanding, fine-grained perception). Prior methods have tried to incorporate visual reasoning, however, they fail to leverage attention correction with spatial cues to iteratively refine their focus on prompt-relevant regions. In this paper, we introduce SIFThinker, a spatially-aware "think-with-images" framework that mimics human visual perception. Specifically, SIFThink...

ID: 2508.06259v1 cs.CV, cs.AI, I.2.10

arXiv PDF

📄 Mixture of Experts Guided by Gaussian Splatters Matters: A new Approach to Weakly-Supervised Video Anomaly Detection

2025-08-12

Авторы:

Giacomo D'Amicantonio, Snehashis Majhi, Quan Kong, Lorenzo Garattoni, Gianpiero Francesca, François Bremond, Egor Bondarev

## Контекст Video Anomaly Detection (VAD) является сложной задачей, так как аномальные события отличаются видоизменяющимися природой и небольшим количеством отмеченных данных. Особенно вызов является Weakly-Supervised VAD (WSVAD), где во время обучения доступны только видео-уровневые метки, но анализ производится на уровне кадров. Несмотря на то, что современные модели справляются с простыми аномалиями (например, взрывами), они сталкиваются с трудностями при работе с реальностью, такими как кража в магазине. Это обусловлено двумя основными проблемами: (1) невозможностью моделей учитывать разнообразие типов аномалий, так как они обрабатывают все категории общим подходом, не отделяя категорийские особенности; и (2) слабую сигнализацию, которая не имеет точной информации о времени, что ограничивает возможность ловкого отслеживания аномалий, смешанных с нормальными событиями. ## Метод Мы предлагаем Gaussian Splatting-guided Mixture of Experts (GS-MoE) — новую модель, которая значительно улучшает детекцию аномалий. GS-MoE состоит из нескольких экспертных моделей, каждая из который специализируется на определенном типе аномалий. Эти эксперты направляются с помощью нового терминального потери Гаусса (Gaussian Splatting Loss), который позволяет модели учитывать временную согласованность и улучшить слабую сигнализацию. Область Гаусса используется для концентрации внимания на временных отрезках, которые скорее всего содержат аномальные события. Таким образом, модель может определять характеристики аномалий более точно. Затем эти специализированные эксперты объединяются с помощью механизма смеси экспертов, который моделирует сложные отношения между разными типами аномалий. Эта архитектура позволяет нашей модели решить проблемы ранее недостаточно затронутых технологиями. ## Результаты Мы проводили эксперименты на UCF-Crime, XD-Violence и MSAD датасетах, а также сравнили полученные результаты с состоянием технологии. На UCF-Crime, наша модель достигла 91.58% AUC, превосходя существующие решения. Также, на XD-Violence и MSAD, наша модель показала значительные улучшения по сравнению с предыдущими моделями. Эти результаты указывают на то, что GS-MoE эффективно детектирует аномалии, даже в сложных реальных условиях. ## Значимость Наша модель может применяться в различных областях, таких как безопасность, мониторинг видеокамер и анализ данных в реальном времени. Основное преимущество GS-MoE заключается в её способности обрабатывать разнообразные типы аномалий, что делает её применимую в широком круге задач. Благодаря использованию Гаусса для гидродинамического представления, модель может предлагать б

Annotation:

Video Anomaly Detection (VAD) is a challenging task due to the variability of anomalous events and the limited availability of labeled data. Under the Weakly-Supervised VAD (WSVAD) paradigm, only video-level labels are provided during training, while predictions are made at the frame level. Although state-of-the-art models perform well on simple anomalies (e.g., explosions), they struggle with complex real-world events (e.g., shoplifting). This difficulty stems from two key issues: (1) the inabi...

ID: 2508.06318v1 cs.CV, cs.AI

arXiv PDF

📄 Are you In or Out (of gallery)? Wisdom from the Same-Identity Crowd

2025-08-12

Авторы:

Aman Bhatta, Maria Dhakal, Michael C. King, Kevin W. Bowyer

#### Контекст Одна из основных проблем в системах однонаправленного лицового распознавания — определение, принадлежит ли пробельное лицо (отсутствующее в галерее) к одному из идентификационных образов в галерее или нет. Традиционные методы, основывающиеся на сравнении лиц с галереи, часто применяют простую треугольную формулу для выявления подходящего порога сходства. Однако этот подход может привести к неточным оценкам, особенно в условиях низкого качества пробы. Наша исследовательская группа предлагает новый подход, использующий дополнительные идентификационные изображения одного идентификационного образа для классификации результатов распознавания как "в галерее" или "не в галерее". #### Метод Для построения модели классификации мы строим выборку In-gallery и Out-of-gallery с использованием дополнительных изображений зарегистрированных в галерее для определенного идентификационного образа. Эти изображения затем используются для создания признакового вектора, отражающего порядок регистрации изображений в галерее. Этот вектор вводится в классификатор, который выводит вероятность того, что результат распознавания (rank-one) — In-gallery или Out-of-gallery. Мы использовали два разных набора данных и четыре разных метода сравнения лиц. Оцениваем полученные вероятности в различных условиях, включая пробы с небольшим разрешением, замылением, атмосферным туманом и скрывающими очки. #### Результаты Эксперименты показали, что наш подход дает надежные результаты для различных типов проб, в том числе низкокомпактных и поврежденных проб. Метрика точности классификации значительно превышает простой пороговый метод. Мы также проанализировали показатели классификации в разных демографических группах, убедившись, что наша модель не страдает от bias-а по расы и полам. Более того, результаты показали, что наш подход работает не только для простых матчеров, но и для более современных глубокосетевых лицовых матчеров, оптимизированных средствами margin-based loss functions. #### Значимость Предлагаемый подход может использоваться для оценки вероятности того, что результат просмотра одной лицовой галереи является маскирующим (Out-of-gallery). Это позволяет улучшить качество идентификации, снижая фальсификации и неточности, которые могут привести к ложноположительным случаям или несправедливым задержкам. Наш метод может быть применен в системах безопасности, правоохранительных органах и научных исследованиях. Мы также показали, что наш подход зависит от высокой степени сложности модели матчера и взаимосвязанных сложностей, что демонстрирует важность последних развитий в глубоко

Annotation:

A central problem in one-to-many facial identification is that the person in the probe image may or may not have enrolled image(s) in the gallery; that is, may be In-gallery or Out-of-gallery. Past approaches to detect when a rank-one result is Out-of-gallery have mostly focused on finding a suitable threshold on the similarity score. We take a new approach, using the additional enrolled images of the identity with the rank-one result to predict if the rank-one result is In-gallery / Out-of-gall...

ID: 2508.06357v1 cs.CV, cs.AI

arXiv PDF

1
2
217
218
219
220
221
227
228

Показано 2181 - 2190 из 2274 записей