📚 Саммари научных статей из arXiv

Найдено 101 результатов по запросу 'cs.CV, eess.IV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Adversarial Hospital-Invariant Feature Learning for WSI Patch Classification

2025-08-22

Авторы:

Mengliang Zhang, Jacob M. Luber

#### Контекст Патологические исследования стремятся к точным диагнозам и раннему выявлению заболеваний, чтобы снизить риск задержки лечения и улучшить прогноз болезни. Whole-slide image (WSI) анализ, позволяющий анализировать ткани на гранулярном уровне, становится важной частью этого процесса. Однако существуют проблемы, связанные с доменным биасом, который возникает из-за различий в сканировании и предобработке тканей в разных госпиталях. Это может привести к недостоверным выводам и ошибкам в классификации. Поэтому необходимо разработать методы, которые позволят извлечь общие особенности, независимые от конкретных госпиталей. #### Метод Мы предлагаем алгоритм, основанный на адверсарном обучении, для удаления домен-специфических признаков из представлений, полученных из модели, без изменения её основной архитектуры. Метод включает в себя следующие компоненты: 1. **Построение адаптера (adapter)**: задача этого модуля — удалять специфические признаки, связанные с определенным госпиталем, из выходных данных модели. 2. **Введение градиентного обратного классификатора (gradient reversal layer, GRL)**: этот классификатор вносит конфликт между адаптером и основной моделью, принуждая модель выводить более общие признаки, независимые от домена. 3. **Заморозка модели**: представления, полученные из замороженной модели, используются в качестве входных данных для адаптера. Это позволяет избежать переобучения и сохранить хорошую классификационную производительность. #### Результаты Мы проводили эксперименты на множестве патологических данных, в том числе данных из нескольких госпиталей. Наши результаты показали, что алгоритм существенно уменьшает домен-специфичность в представлениях, не ухудшая классификационную точность. Были проведены анализы того, как модель классифицирует разные госпитали, и графические представления признаков, показавшие, что модель более устойчива к разным стилям сканирования. #### Значимость Наш алгоритм может быть применен в различных сценариях, где необходимо обучить модели классификации, владеющие общими признаками, независимыми от госпиталя. Это может помочь улучшить надежность диагноза в разных клинических условиях. Кроме того, наш метод может быть применен для других видов изображений, где домен-специфичность может стать проблемой. #### Выводы Мы предложили новую методологию для обучения моделей классификации, которые извлекают общие признаки в патологической диагностике, независимо от разных госпиталей. Мы показали, что наш алгоритм эффективен в уменьшении домен-специфичности, не ухудшая классификационную точность. Будущие ис

Annotation:

Pathology foundation models (PFMs) have demonstrated remarkable potential in whole-slide image (WSI) diagnosis. However, pathology images from different hospitals often vary due to differences in scanning hardware and preprocessing styles, which may lead PFMs to inadvertently learn hospital-specific features, posing risks for clinical deployment. In this work, we present the first systematic study of domain bias in PFMs arising from hospital source characteristics. Specifically, we (1) construct...

ID: 2508.14779v1 cs.CV, eess.IV

arXiv PDF

📄 High-Throughput Low-Cost Segmentation of Brightfield Microscopy Live Cell Images

2025-08-22

Авторы:

Surajit Das, Gourav Roy, Pavel Zun

#### Контекст Проблемы сегментации живых клеток в bright-field микроскопии остаются значительной трудностью в биомедицинских исследованиях. Эти клетки обычно неоклеточны и имеют невысокий контраст, что усложняет их формальное разделение от фона. До Top-Down сегментации, основывающейся на зеркальном синтезе новых изображений, попытки решить эту задачу либо требуют обширных данных, либо ограничены в производительности. Многие существующие подходы не учитывают конкретные проблемы bright-field микроскопии, такие как небольшой контраст, шум, мобильность клеток и их воздействие на разрешение. Задача авторов заключается в создании подхода, обеспечивающего высокую точность в тестировании, адаптивность к различным объемам данных и эффективность в вычислительных ресурсах. #### Метод Высокопроизводительный, низкозатратный подход к сегментации живых клеток в bright-field микроскопии основывается на создании архитектуры U-Net с применением модифицированных кодировщиков (frozen encoders), включающих в себя универсальный набор методик. Авторы использовали адаптивные функции потерь, включающие в себя системы внимательности (attention mechanisms), инстанс-аура (instance-aware systems), встроенные в алгоритмы обучения. Для того чтобы уменьшить риск переобучения, использовались такие механизмы, как динамическая установка learning rates, progressive mechanisms. Также был применен ensemble-подход для повышения точности. Использовалась модель тренировочного тестирования на различные варианты клеток, включая широкий диапазон контрастных изображений. #### Результаты В результате использования предложенной модели была достигнута высокая точность сегментации — 93%. Авторы проверили работу модели на датасете LIVECell, чтобы проверить ее мобильность и производительность в условиях с низким контрастом и шумом. Модель показала F1-score в 89% (стандартное отклонение 0.07) при сегментации живых клеток, даже при очень низком контрасте и шумном виде. Для улучшения модели в течение обучения были применены механизмы retraining с помощью hard instance. Модель также была протестирована на данных bright-field, и ее результаты были сопоставимы с современными методами, но с более высокой эффективностью учета ресурсов. #### Значимость Предложенный подход может применяться в различных биологических исследованиях, вроде cell-based assays и выявления динамики клеток. Особенно он полезен для высокопроизводительных и низкозатратных вычислительных установок. Он позволяет достичь высокой точности в сегментации живых клеток, не требуя особых вычислительных мощностей. Благодаря универсальности модели, она может быть использована для различных видов клеток и

Annotation:

Live cell culture is crucial in biomedical studies for analyzing cell properties and dynamics in vitro. This study focuses on segmenting unstained live cells imaged with bright-field microscopy. While many segmentation approaches exist for microscopic images, none consistently address the challenges of bright-field live-cell imaging with high throughput, where temporal phenotype changes, low contrast, noise, and motion-induced blur from cellular movement remain major obstacles. We developed a lo...

ID: 2508.14106v1 q-bio.QM, cs.AI, cs.CV, eess.IV

arXiv PDF

📄 AIM 2025 challenge on Inverse Tone Mapping Report: Methods and Results

2025-08-21

Авторы:

Chao Wang, Francesco Banterle, Bin Ren, Radu Timofte, Xin Lu, Yufeng Peng, Chengjie Ge, Zhijing Sun, Ziang Zhou, Zihao Li, Zishun Liao, Qiyu Kang, Xueyang Fu, Zheng-Jun Zha, Zhijing Sun, Xingbo Wang, Kean Liu, Senyan Xu, Yang Qiu, Yifan Ding, Gabriel Eilertsen, Jonas Unger, Zihao Wang, Ke Wu, Jinshan Pan, Zhen Liu, Zhongyang Li, Shuaicheng Liu, S. M Nadim Uddin

#### Контекст Inverse Tone Mapping (ITM) — метод восстановления Гибких Динамических Рангов (HDR) с изображений Малого Динамического Ранга (LDR). Это актуальная задача в контексте развития технологий HDR-дисплеев и AR/VR-систем. Однако существуют значимые проблемы: ограниченность технологий восстановления HDR, трудности в адаптации к различным условиям иллюминации и гаммы цветов. Эти ограничения приводят к несоответствию реальной и виртуальной реальности, что снижает качество опыта пользователя. Мотивация для AIM 2025 Challenge заключается в поиске эффективных решений для этих проблем с использованием развитых ITM-алгоритмов. #### Метод Проведенный AIM 2025 Challenge состоял из трех отдельных тестов: сценариев с низким, средним и высоким контрастом. Разработчики предлагали алгоритмы ITM, которые должны были восстанавливать HDR-изображения из LDR-входных данных. Методы оценивались на основе новых метрик качества, таких как PU21-PSNR и LPIPS, чтобы гарантировать объективность и ценность результатов. Во всех тестах принимали участие \textbf{67} команд, подавших \textbf{319} работ. Область исследования включала не только стандартные подходы, но и инновационные решения, такие как нейросетевые модели и методы оптимизации цветового пространства. #### Результаты Среди 319 поданных решений были выделены пять лучших команд, прошедших тщательный анализ. Низкая PU21-PSNR среди них составила \textbf{29.22 dB}. Анализ показал, что главным фактором успеха являлись стратегии, способствующие восстановлению глубины, детализации и цветовой гаммы в HDR-изображениях. Однако некоторые решения столкнулись с проблемами, такими как излишняя шумизму или недостаточная переносимость в разных условиях. Такие результаты определили новые бенчмарки для ITM, показав возможности и ограничения нынешних технологий. #### Значимость Результаты AIM 2025 Challenge применимы в сферах цифрового телевидения, виртуальной и аugmented реальности, а также в промышленных приложениях, таких как рендеринг и анализ изображений. Основные преимущества — улучшение качества изображений, увеличение переносимости алгоритмов и оптимизация ресурсов. Этот прогресс может влиять на развитие новых стандартов в области цифровой контент-производства, обеспечивая более живые и реалистичные визуальные опыты. #### Выводы AIM 2025 Challenge подчеркнул важность инверсного туннелинга в HDR-восстановлении и выделил новые направления для исследований. Будущие работы будут фокусироваться на улучшении точности реконструкции, уменьшении шума и создании универс

Annotation:

This paper presents a comprehensive review of the AIM 2025 Challenge on Inverse Tone Mapping (ITM). The challenge aimed to push forward the development of effective ITM algorithms for HDR image reconstruction from single LDR inputs, focusing on perceptual fidelity and numerical consistency. A total of \textbf{67} participants submitted \textbf{319} valid results, from which the best five teams were selected for detailed analysis. This report consolidates their methodologies and performance, with...

ID: 2508.13479v1 cs.CV, eess.IV

arXiv PDF

📄 AdaptiveAE: An Adaptive Exposure Strategy for HDR Capturing in Dynamic Scenes

2025-08-21

Авторы:

Tianyi Xu, Fan Zhang, Boxin Shi, Tianfan Xue, Yujin Wang

## Контекст В последние годы наблюдается повышение интереса к видеосъемке в высоком динамическом диапазоне (HDR), так как это позволяет получить лучшую яркость и цветовые оттенки, воспроизводящиеся на экране. Однако, в динамических сценах, где объекты двигаются, существуют серьезные проблемы. Установить оптимальные значения ISO и скорости затвора (шуттера) очень важно, чтобы избежать шума и моторной смазки, но в существующих методах эти параметры редко учитываются динамическим способом. Данная работа фокусируется на создании нового подхода, который может адаптировать эти значения в реальном времени, чтобы повысить качество HDR-видео в таких сценах. ## Метод Метод, предложенный в работе, называется AdaptiveAE. Он основывается на методе ускоренного обучения с подкреплением (reinforcement learning), который настраивает значения ISO и скорости затвора для каждого кадра видео, оптимизируя качество HDR-изображений. Авторы предлагают интегрировать в процесс обучения модели симуляцию шума и моторной смазки. Это позволяет модели выучивать оптимальные параметры в условиях реальных сцен. Кроме того, алгоритм использует семантическую информацию и исходные данные экспозиции для точного выбора значений. ## Результаты Результаты экспериментов продемонстрировали эффективность AdaptiveAE по сравнению с другими методами в различных условиях. Модель была протестирована на нескольких HDR-видеоданных, включая сцены с движущимися объектами. Эксперименты показали, что AdaptiveAE не только улучшает яркость и цветовую гамму, но и сокращает шум и моторную смазку, даже при движении объектов. Эти результаты указывают на возможность реального времени оптимизации HDR-видео, что является ключевым преимуществом. ## Значимость Предлагаемый подход может быть применен в различных областях, таких как видеосъемка, живой передачей, а также видеоредактирование. Он особенно полезен в сценах со сложной динамикой, где традиционные методы часто дают низкое качество изображений. Эта работа открывает новые возможности для развития HDR-видеотехнологий, улучшая качество видео в реальном времени. ## Выводы Результаты демонстрируют, что AdaptiveAE является новой мощной моделью для HDR-видеосъемки в динамических условиях. Она позволяет повысить качество изображений в реальном времени, уменьшая шум и моторную смазку. Будущие исследования будут направлены на улучшение модели для более сложных сцен, включая тех, которые имеют высокую степень движения и низкое освещение.

Annotation:

Mainstream high dynamic range imaging techniques typically rely on fusing multiple images captured with different exposure setups (shutter speed and ISO). A good balance between shutter speed and ISO is crucial for achieving high-quality HDR, as high ISO values introduce significant noise, while long shutter speeds can lead to noticeable motion blur. However, existing methods often overlook the complex interaction between shutter speed and ISO and fail to account for motion blur effects in dynam...

ID: 2508.13503v1 cs.CV, eess.IV

arXiv PDF

📄 A Lightweight Dual-Mode Optimization for Generative Face Video Coding

2025-08-21

Авторы:

Zihan Zhang, Shanzhi Yin, Bolin Chen, Ru-Ling Liao, Shiqi Wang, Yan Ye

#### Контекст Generative Face Video Coding (GFVC) является современным подходом к кодированию лиц в видео, основанным на искусственных нейронных сетях. Он достигает высокой эффективности в кодировании, обеспечивая высокое качество восстановления изображений с минимальным объемом данных. Однако существуют ряд проблем, связанных с высоким потреблением ресурсов, включая большой объем параметров моделей и высокие требования к вычислительным ресурсам. Эти ограничения затрудняют развертывание GFVC в ресурс-контрентных средах, таких как мобильные устройства. Целью данного исследования является развитие эффективной архитектуры GFVC, которая сочетает в себе уменьшение количества параметров и эффективность вычислений, не ухудшая качество восстановления. #### Метод Предлагаемая методика Dual-Mode Optimization состоит из двух основных компонентов: архитектурного редизайна и операционного уточнения. Архитектурный редизайн включает замену традиционных сверток 3x3 на более сжатые и быстрые слои, что позволяет сократить количество параметров без потери возможности выражения. Операционное уточнение включает в себя два этапа: (1) **soft pruning** во время обучения, при помощи программных масок и оптимизации, и (2) **hard pruning** после завершения обучения, когда неиспользуемые каналы удаляются навсегда с помощью полученных масок. Этот двухэтапный подход обеспечивает стабильность обучения и эффективность во время выполнения. #### Результаты Исследования включали в себя сравнение нового подхода с базовыми архитектурами GFVC на стандартных наборах данных. Наборы экспериментов показали, что уменьшение количества параметров достигло **90.4%**, а счетчик операций (FLOPs) сократился на **88.9%**. Уменьшение параметров и вычислительных затрат не привело к качеству восстановления, а наоборот, улучшило его в сравнении с текущими стандартами, такими как Versatile Video Coding (VVC). Эти результаты подтверждают эффективность нового подхода в ресурсно-ограниченных средах. #### Значимость Предлагаемый подход Dual-Mode Optimization может быть применён в различных областях, включая мобильные приложения, видеокодирование на устройствах безвесомости, и видеосервисы с низкой задержкой. Он привносит выгоду в уменьшении затрат на вычисления и энергосбережение. Благодаря своей эффективности и точности, этот подход может стать ключевым решением для развития мобильных устройств в области видеокодирования. #### Выводы Предложенная методика Dual-Mode Optimization является эффективным способом улучшения GFVC, обеспечивающим высокий уровень качества восстановления с минимальными ресурсами. В дальнейшем исследовании будет рассмот

Annotation:

Generative Face Video Coding (GFVC) achieves superior rate-distortion performance by leveraging the strong inference capabilities of deep generative models. However, its practical deployment is hindered by large model parameters and high computational costs. To address this, we propose a lightweight GFVC framework that introduces dual-mode optimization -- combining architectural redesign and operational refinement -- to reduce complexity whilst preserving reconstruction quality. Architecturally,...

ID: 2508.13547v1 cs.CV, eess.IV

arXiv PDF

📄 PreSem-Surf: RGB-D Surface Reconstruction with Progressive Semantic Modeling and SG-MLP Pre-Rendering Mechanism

2025-08-21

Авторы:

Yuyan Ye, Hang Xu, Yanghang Huang, Jiali Huang, Qian Weng

## Контекст Современные технологии в области распознавания объектов и строительства трехмерных моделей с сенсорных данных RGB-D становятся все более востребованными в приложениях, таких как видеореалистичные игры, виртуальная реальность и проектирование внутренних пространств. Однако существуют проблемы, связанные с неэффективностью, долгой обработкой и недостаточной точностью существующих методов. Эти приложения требуют методов, которые могут быстро и точно восстановить трехмерные сцены, учитывая как цветные изображения, так и глубинные данные, а также информацию о семантической принадлежности объектов. Таким образом, существует необходимость в развитии эффективных методов восстановления трехмерных сцен, которые могут быстро обрабатывать данные и поддерживать высокую точность. ## Метод Метод PreSem-Surf основывается на NeRF-фреймворке и предлагает расширенный подход к восстановлению трехмерных сцен. Он использует RGB-D потоки данных и интегрирует RGB-, depth- и semantic-данные для улучшения восстановления. Метод включает прогрессивную семантическую модель для точного извлечения семантической информации на разных уровнях. Основной инновацией является интеграция SG-MLP (Structured Gated Multi-Layer Perceptron) вместе с PR-MLP (Preconditioning Multilayer Perceptron) для эффективного предварительного ранжирования voxel-данных. Это позволяет модели быстрее отфильтровать шум и улучшить точность распознавания локальных деталей. SG-MLP и PR-MLP работают вместе для улучшения процесса предварительной обработки данных и повышения общей эффективности. ## Результаты Результаты экспериментов проводились на семи синтетических сценах с использованием шести разных метрик (C-L1, F-score, IoU, NC, Accuracy, Completeness). Результаты показали, что PreSem-Surf показал лучшие результаты в C-L1, F-score и IoU, показав высокую точность восстановления поверхностей. Он также показал конкурентные результаты в NC, Accuracy и Completeness, демонстрируя широкую применимость и эффективность в различных сценах. Эти результаты подтверждают то, что PreSem-Surf эффективен в быстром восстановлении трехмерных сцен из RGB-D потоков данных. ## Значимость Метод PreSem-Surf может быть применен в различных областях, таких как виртуальная реальность, видеоигры, проектирование интерьеров и архитектура. Он предоставляет высокую точность и быструю обработку данных, что делает его идеальным для использования в реальном времени. Благодаря использованию семантической информации, PreSem-Surf также обеспечивает лучшее понимание сцены, что может использоваться для улучшения дальнейшего визуального моделирования и анализа. Помимо этого, способность модели быстро отфиль

Annotation:

This paper proposes PreSem-Surf, an optimized method based on the Neural Radiance Field (NeRF) framework, capable of reconstructing high-quality scene surfaces from RGB-D sequences in a short time. The method integrates RGB, depth, and semantic information to improve reconstruction performance. Specifically, a novel SG-MLP sampling structure combined with PR-MLP (Preconditioning Multilayer Perceptron) is introduced for voxel pre-rendering, allowing the model to capture scene-related information ...

ID: 2508.13228v1 cs.GR, cs.AI, cs.CV, eess.IV

arXiv PDF

📄 XR-NPE: High-Throughput Mixed-precision SIMD Neural Processing Engine for Extended Reality Perception Workloads

2025-08-20

Авторы:

Tejas Chaudhari, Akarsh J., Tanushree Dewangan, Mukul Lokhande, Santosh Kumar Vishvakarma

## Контекст Развитие расширенной реальности (XR), включающей виртуальную, дополненную и смешанную реальность, требует высокопроизводительных алгоритмов для обработки чувствительных к задержкам задач, таких как визуально-инитерийная одометрия (VIO), классификация объектов и извлечение взглядов. Эти задачи требуют высокопроизводительных микропроцессоров с эффективными механизмами уменьшения потребления энергии и оптимальным использованием памяти. Существующие решения часто используют 32-разрядную точность, что неэффективно для задач с малой точностью. Целью данной работы является разработка XR-NPE, эффективного микропроцессора с переменной точностью, который может быть применен в ресурсами ограниченных устройствах XR. ## Метод XR-NPE представляет собой микропроцессор с переменной точностью, разработанный на базе SIMD (Single Instruction, Multiple Data) для работы с расширенной реальностью. Оно поддерживает несколько форматов чисел, включая FP4, Posit (4,1), Posit (8,0) и Posit (16,1), позволяя выполнять вычисления с ultra-low bit precision. Разработанная Reconfigurable Mantissa Multiplication and Exponent processing Circuitry (RMMEC) уменьшает расход энергии в SIMD MAC compute engine с помощью selective power gating. Для минимизации потерь точности во время обучения используется quantization-aware training. ## Результаты XR-NPE достигает максимальной частоты работы 1.72 ГГц, с малой плотностью (0.016 мм²) и высокой арифметической плотностью (14 пДж на 28-нанометровую технологию CMOS). Это приводит к сокращению объема на 42%, энергопотреблению на 38% и повышению эффективности вычислений по сравнению с лучшими достижениями современных методов. На VIO-задачах XR-NPE показывает 23% большую энергоэффективность и 4% вышуую плотность вычислений по сравнению со существующими акселераторами. Проектный код для репродуцированности результатов доступен на GitHub: [стартовая ссылка]. ## Значимость XR-NPE может использоваться в различных XR-приложениях, таких как виртуальная и дополненная реальность, а также для задач компьютерного зрения. Это решение обеспечивает высокую эффективность, низкое потребление энергии и переменную точность для различных XR-задач. Благодаря своей гибкости и эффективности, XR-NPE может стать основой для создания следующих поколений устройств XR. ## Выводы XR-NPE доказывает свою эффективность как высокопроизводительный, энергоэффективный и переменно-точный микропроцессор для XR-задач. Он успешно уменьшает потребление энергии и увеличивает вычислительную плотность по сравнению с современными методами. Будущие исследования будут сосредоточены на улучшении точности и увеличени

Annotation:

This work proposes XR-NPE, a high-throughput Mixed-precision SIMD Neural Processing Engine, designed for extended reality (XR) perception workloads like visual inertial odometry (VIO), object classification, and eye gaze extraction. XR-NPE is first to support FP4, Posit (4,1), Posit (8,0), and Posit (16,1) formats, with layer adaptive hybrid-algorithmic implementation supporting ultra-low bit precision to significantly reduce memory bandwidth requirements, and accompanied by quantization-aware t...

ID: 2508.13049v1 cs.AR, cs.AI, cs.CV, eess.IV

arXiv PDF

📄 Large Kernel Modulation Network for Efficient Image Super-Resolution

2025-08-19

Авторы:

Quanwei Hu, Yinggan Tang, Xuguang Zhang

#### Контекст Изображение с повышенным разрешением (SR) в ресурсоразрушительных сценариях требует моделей с минимальным объемом вычислительных ресурсов, сбалансированными показателями качества и производительностью. Легкие модели сверточных нейронных сетей (CNNs) обеспечивают высокую производительность за счет быстрого выполнения вычислений. Однако они страдают от неэффективного моделирования неоднородных признаков. Трансформеры, напротив, хорошо справляются с неоднородностью, но часто требуют большого объема вычислительных ресурсов, что неприемлемо для ресурсоразрушительных сценариев. Это существующая проблема в области изображения с повышенным разрешением, которая мотивирует разработку моделей, способных эффективно решать задачи SR без значительных затрат ресурсов. #### Метод Large Kernel Modulation Network (LKMN) представляет собой CNN-based модель, сочетающую высокое качество с моделированием неоднородных признаков. Модель включает два основных компонента: Enhanced Partial Large Kernel Block (EPLKB) и Cross-Gate Feed-Forward Network (CGFN). EPLKB использует канальную перемешивание (channel shuffle) для улучшения взаимодействия каналов и добавляет канальное внимание (channel attention), чтобы сосредоточиться на ключевых деталях. Большие ядра (large kernel strip), применяемые на части каналов, позволяют эффективно извлекать неоднородные признаки с сокращенной сложностью. CGFN анализирует информацию о скоринге неоднородных и локальных признаков, адаптируясь с помощью динамического scale factor. Затем, CGFN использует cross-gate стратегию для модуляции и слияния этих признаков, что дает улучшенную гармонию и эффективность. #### Результаты Наши эксперименты проводились на датасете Manga109 с различными множителями увеличения (upscale). Модель LKMN-L отличалась высоким PSNR (0.23 dB выше DAT-light) и незначительным увеличением времени работы (почти $\times$4.8 быстрее). Это демонстрирует эффективность LKMN в сравнении с другими SOTA моделями, которые либо недостаточно эффективны, либо недостаточно точны. Обучающие данные и результаты доступны в ссылке на GitHub (https://github.com/Supereeeee/LKMN), где модель и ее код могут быть проанализированы и использованы для дальнейших исследований. #### Значимость LKMN является сильным конкурентом в области SR для ресурсоразрушительных сценариев. Он обладает высоким качеством изображения, оптимальным балансом между качеством и производительностью, а также широким потенциалом для применения в реальных ситуациях, таких как мобильные приложения или устройства с ограниченными ресурсами. Наша модель предлагает новый подход к решению задачи SR, который может быть расширен и применен в других областях, таких как computer vision и image processing. #### Выводы Результаты нашего исследования показа

Annotation:

Image super-resolution (SR) in resource-constrained scenarios demands lightweight models balancing performance and latency. Convolutional neural networks (CNNs) offer low latency but lack non-local feature capture, while Transformers excel at non-local modeling yet suffer slow inference. To address this trade-off, we propose the Large Kernel Modulation Network (LKMN), a pure CNN-based model. LKMN has two core components: Enhanced Partial Large Kernel Block (EPLKB) and Cross-Gate Feed-Forward Net...

ID: 2508.11893v1 cs.CV, eess.IV

arXiv PDF

📄 Privacy-Aware Detection of Fake Identity Documents: Methodology, Benchmark, and Improved Detection Methods (FakeIDet2)

2025-08-19

Авторы:

Javier Muñoz-Haro, Ruben Tolosana, Ruben Vera-Rodriguez, Aythami Morales, Julian Fierrez

## Контекст Открытый доступ в Интернет позволяет пользователям получать услуги, но при этом использовать фальшивые идентификационные документы (ID) становится все проще. Это создает серьезные угрозы безопасности и нужды в эффективных методах для их обнаружения. Использование реальных ID для обучения моделей представляет собой значительную проблему из-за чувствительности таких документов. Фонды реальных данных недоступны, и использование имитации часто приводит к неточности. Данное исследование фокусируется на развитии методов, которые позволят решать эту проблему с учетом конфиденциальности и эффективности. ## Метод Методология предложенного подхода основывается на разбиении изображений ID на патчи, что позволяет ограничить доступ к конфиденциальной информации. Для обучения и тестирования разработана новая база данных FakeIDet2-db, содержащая более 900 тысяч патчей из 2 000 ID-документов, полученных с различных устройств, условий света и высоты. Дополнительно, эксперименты проводятся с тремя физическими атаками: напечатанные, экранные и композитные фальшивые ID. Также предлагается новая модель FakeIDet2, которая гарантирует конфиденциальность данных во время обучения и применения. ## Результаты На базе FakeIDet2-db проводились эксперименты с новой моделью FakeIDet2, что позволило сравнить ее с другими популярными методами. Результаты показали, что FakeIDet2 превосходит конкуренты в обнаружении физических и синтетических атак, обеспечивая высокую точность и малую ошибку ложных срабатываний. База данных FakeIDet2-db позволила создать репрезентативную среду для проверки методов и даст возможность развития дальнейших исследований в этой области. ## Значимость Разработанный подход имеет широкие возможности для применения в системах удаленной верификации, которые широко используются в цифровых приложениях. Он обеспечивает улучшение безопасности, снижая риск подделок ID. База данных FakeIDet2-db открывает новые возможности для исследований в области систем безопасности и предотвращения мошенничества. Этот подход может иметь потенциал для распространения на другие сферы, где требуется проверка личности и обнаружение мошенничества. ## Выводы Наши результаты показывают, что FakeIDet2 является эффективным инструментом для обнаружения фальшивых ID. База данных FakeIDet2-db позволила продемонстрировать мощь этого подхода в реальных условиях. Мы планируем дальнейшее развитие модели, включая добавление новых атак и подходов к обучению. Будущие исследования также будут направлены на повышение точности и скорости для использования в реальных приложениях.

Annotation:

Remote user verification in Internet-based applications is becoming increasingly important nowadays. A popular scenario for it consists of submitting a picture of the user's Identity Document (ID) to a service platform, authenticating its veracity, and then granting access to the requested digital service. An ID is well-suited to verify the identity of an individual, since it is government issued, unique, and nontransferable. However, with recent advances in Artificial Intelligence (AI), attacke...

ID: 2508.11716v1 cs.CR, cs.AI, cs.CV, eess.IV

arXiv PDF

📄 SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning

2025-08-18

Авторы:

Weijian Mai, Jiamin Wu, Yu Zhu, Zhouheng Yao, Dongzhan Zhou, Andrew F. Luo, Qihao Zheng, Wanli Ouyang, Chunfeng Song

## Контекст Установление точного подхода к моделированию взаимосвязи между визуальными стимулами и нейронными ответами, характерных для зрительного потока, является ключевым вопросом в области компьютерной нейронауки. Особенностью этого процесса является то, что одинаковые визуальные стимулы способствуют разным нейронным ответам в зависимости от контекста, субъекта и условий испытаний. Традиционные задачи синтеза сигналов fMRI часто стремятся описать это с помощью детерминированных функций, но их не могут полностью корректно охватить неоднородность и вариативность поведения биологических систем. На данный момент в этой области необходима более точная модель, которая могла бы синтезировать fMRI-сигналы с учетом вариативности, характерной для биологических систем. ## Метод Мы предлагаем SynBrain, новое генерирующее фреймворковое решение, которое адресует эти проблемы с помощью прогнозируемых методов, основанных на принципах вероятностного и биологически интерпретируемого подхода. Основные компоненты SynBrain: (i) BrainVAE - модель, которая представляет нейронные ответы в виде непрерывных вероятностных распределений, сохраняя функциональную консистентность с помощью ограничений, накладываемых визуальными семантическими конструктами; (ii) Semantic-to-Neural Mapper - целевая система, преобразующая визуальные семантические сигналы в нейронные ответы с помощью семантических проекций. Весь механизм работает на базе глубоких нейронных сетей и целей, которые имитируют биологические процессы. ## Результаты Мы провели эксперименты, которые использовали определенные данные, в том числе аудио- и видеоконтент, а также сигналы fMRI. Метод SynBrain демонстрирует повышенную точность в синтезе fMRI-сигналов в сравнении с состоянием искусства. Мы также проверили его способность адаптироваться к новым пользователям с минимальным количеством данных. Формированные сигналы были эффективны в улучшении декодирования fMRI-to-image, что демонстрирует способность SynBrain к вариативному описанию нервных ответов. Эти результаты свидетельствуют о том, что SynBrain может имитировать биологическую неоднородность и сохранять функциональную консистентность. ## Значимость Области применения SynBrain включают в себя области компьютерных наук, социальных наук и медицины. Этот подход может быть использован для моделирования нейронных раскладок в разных условиях, в том числе при выявлении заболеваний, связанных с биологическим недостатком. Особенно важно, что SynBrain может применяться для преобразования сигналов fMRI в изображения, что может повысить эффективность обработки данных в с

Annotation:

Deciphering how visual stimuli are transformed into cortical responses is a fundamental challenge in computational neuroscience. This visual-to-neural mapping is inherently a one-to-many relationship, as identical visual inputs reliably evoke variable hemodynamic responses across trials, contexts, and subjects. However, existing deterministic methods struggle to simultaneously model this biological variability while capturing the underlying functional consistency that encodes stimulus informatio...

ID: 2508.10298v2 cs.LG, cs.CV, eess.IV

arXiv PDF

1
2
6
7
8
9
10
11

Показано 71 - 80 из 101 записей