📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Time-Series at the Edge: Tiny Separable CNNs for Wearable Gait Detection and Optimal Sensor Placement

2025-12-02

Авторы:

Andrea Procopio, Marco Esposito, Sara Raggiunto, Andrey Gizdov, Alberto Belli, Paola Pierleoni

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We study on-device time-series analysis for gait detection in Parkinson's disease (PD) from short windows of triaxial acceleration, targeting resource-constrained wearables and edge nodes. We compare magnitude thresholding to three 1D CNNs for time-series analysis: a literature baseline (separable convolutions) and two ultra-light models - one purely separable and one with residual connections. Using the BioStampRC21 dataset, 2 s windows at 30 Hz, and subject-independent leave-one-subject-out (L...

ID: 2512.00396v1 cs.LG, cs.AI, cs.CV, eess.IV

arXiv PDF

📄 NEF-NET+: Adapting Electrocardio panorama in the wild

2025-11-07

Авторы:

Zehui Zhan, Yaojun Hu, Jiajing Zhan, Wanchen Lian, Wanqing Wu, Jintai Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Conventional multi-lead electrocardiogram (ECG) systems capture cardiac signals from a fixed set of anatomical viewpoints defined by lead placement. However, certain cardiac conditions (e.g., Brugada syndrome) require additional, non-standard viewpoints to reveal diagnostically critical patterns that may be absent in standard leads. To systematically overcome this limitation, Nef-Net was recently introduced to reconstruct a continuous electrocardiac field, enabling virtual observation of ECG sig...

ID: 2511.02880v1 eess.SP, cs.AI, cs.CV, eess.IV

arXiv PDF

📄 Adaptive Token Merging for Efficient Transformer Semantic Communication at the Edge

2025-09-16

Авторы:

Omar Erak, Omar Alhussein, Hatem Abou-Zeid, Mehdi Bennis, Sami Muhaidat

## Контекст Область семантической связи, основанной на трансформерах, является ключевой для современных систем интеллектуального анализа данных и обработки текста. Однако высокая вычислительная сложность и требования к связи препятствуют развертыванию трансформеров на ресурс-ограниченных устройствах, таких как edge-устройства. Эта проблема становится особенно актуальной в ситуациях, где необходимо быстрое взаимодействие и минимальное потребление ресурсов. Необходимость эффективной реализации трансформеров в таких условиях вдохновила разработку адаптивной методики по изменению токенов, нацеленной на эффективное сжатие представлений трансформера во время выполнения. ## Метод Метод предлагаемого фреймворка основывается на адаптивной методике по изменению токенов, которая включает в себя выделение и избавление от семантически повторяющихся токенов в процессе выполнения. Алгоритм построен на многоцелевой оптимизации, где каждое изменение токена проверяется по нескольким критериям: точности решения задачи, затратам вычислительных ресурсов и требованиям к связи. Используется техника Bayesian optimization для поиска оптимальных точек компромисса между этими факторами. Это позволяет адаптировать поведение трансформера к конкретным условиям задачи и условиям связи в реальном времени, не требуя переноса или переучивания модели. ## Результаты Эксперименты проводились на датасетах ImageNet для классификации изображений и Visual Question Answering (VQA) для обработки визуальных запросов. Адаптивная токенная мерж-методика позволила сократить число выполняемых операций с плавающей точкой (FLOPs) на 30% при сохранении точности классификации на уровне необработанного трансформера. Для VQA, алгоритм достиг точности, приближающейся к LLaVA, с потреблением менее трети вычислительных ресурсов и менее 10% ширины канала связи. Эти результаты демонстрируют высокую эффективность и универсальность подхода в условиях ограниченных ресурсов. ## Значимость Предложенный подход может быть применен в различных сценариях, где необходимы быстрые и эффективные вычисления на edge-устройствах, такие как распознавание речи, обработка видео, интеллектуальные системы для IoT. Он предоставляет преимущества в скорости работы, экономии ресурсов и повышении приватности данных, так как снижает вероятность успешных модельно-инверсионных атак. Это делает его привлекательным для разработчиков, которые стремятся к максимальной эффективности в задачах обработки семантических данных на крайних краях сети. ## Выводы Предложенный фреймворк адаптивной токен

Annotation:

Large-scale transformers are central to modern semantic communication, yet their high computational and communication costs hinder deployment on resource-constrained edge devices. This paper introduces a training-free framework for adaptive token merging, a novel mechanism that compresses transformer representations at runtime by selectively merging semantically redundant tokens under per-layer similarity thresholds. Unlike prior fixed-ratio reduction, our approach couples merging directly to in...

ID: 2509.09955v1 cs.LG, cs.AI, cs.CV, eess.IV

arXiv PDF

📄 Adaptive Pareto-Optimal Token Merging for Edge Transformer Models in Semantic Communication

2025-09-13

Авторы:

Omar Erak, Omar Alhussein, Hatem Abou-Zeid, Mehdi Bennis

## Контекст Semantic communication systems, основанные на transformers, являются важной компонентой 6G-сетей, обеспечивая богатые семантические представления для надежного распознавания в условиях шумных каналов. Однако высокая сложность и требования к вычислительным ресурсам этих моделей препятствуют их эффективному использованию в ресурсами ограниченных устройствах. В этом контексте возникает необходимость разработки методов, уменьшающих нагрузку на вычисления, одновременно сохраняя высокую точность и эффективность. ## Метод Работа предлагает фреймворк, основанный на адаптивном маржинализации токенов, для адаптивного сокращения размера токенов в моделях vision transformers. Метод формулируется как многоцелевое оптимизационное задание, которое стремится минимизировать объем передаваемых данных и вычислительные затраты, поддерживая при этом высокую точность. Для построения оптимальных конфигураций используется Gaussian Process-Based Bayesian Optimization, которая позволяет определить парето-оптимальные точки. Такая подход позволяет адаптировать модель в реальном времени в зависимости от условий канала и потребностей приложений. ## Результаты Проведены эксперименты, использующие различные сценарии семантической связи, включая различные уровни шума в канале (SNR). На основе наборов данных, таких как CIFAR-10 и ImageNet, показано, что предлагаемый подход существенно уменьшает число floating-point operations (FLOPs), не ухудшая точность. В сравнении с другими методами, такими как Dynamic Token Pruning и Dynamic Quantization, предлагаемый фреймворк демонстрирует выигрыш в эффективности, сохраняя высокую точность в различных условиях сети. ## Значимость Предлагаемый подход имеет широкие применения в семантической связи, включая 5G/6G-сети, ИИ на основе трансформеров и машинное обучение на крайних устройствах. Он обеспечивает значительную экономию вычислительных ресурсов без существенного потери точности. Его гибкость в процессе между скоростью и точностью делает его идеальным выбором для реализации в реальных системах, где необходимо быстро реагировать на изменения условий сети. ## Выводы Работа представляет собой новую точку в развитии адаптивных методов для semantic communication systems. Она демонстрирует, что адаптивная токенная маржинализация может эффективно компромиссом регулировать вычислительные затраты и точность в реальном времени. Будущие исследования будут сфокусированы на расширении этого подхода для других типов моделей и его интеграции с другими методами оптимизации в семантических сетях.

Annotation:

Large-scale transformer models have emerged as a powerful tool for semantic communication systems, enabling edge devices to extract rich representations for robust inference across noisy wireless channels. However, their substantial computational demands remain a major barrier to practical deployment in resource-constrained 6G networks. In this paper, we present a training-free framework for adaptive token merging in pretrained vision transformers to jointly reduce inference time and transmissio...

ID: 2509.09168v1 cs.LG, cs.AI, cs.CV, eess.IV

arXiv PDF

📄 Fusing Structural Phenotypes with Functional Data for Early Prediction of Primary Angle Closure Glaucoma Progression

2025-08-23

Авторы:

Swati Sharma, Thanadet Chuangsuwanich, Royston K. Y. Tan, Shimna C. Prasad, Tin A. Tun, Shamira A. Perera, Martin L. Buist, Tin Aung, Monisha E. Nongpiur, Michaël J. A. Girard

#### Контекст При поражении глаза нарушением венозного кровотока (венозная ишемия глаза, VI) возникает недостаточность кровообращения в сетчатке, что приводит к повреждению клеток этой области. Характеризуется частотой и тяжестью заболевания, необходимостью в прогностических критериях для преждевременного выявления прогрессирования, чтобы предотвратить развитие тяжелых последствий. Однако наличие эффективных методов для прогноза и мониторинга VI еще недостаточно изучено, что создает мотивацию для разработки новых подходов. #### Метод Для прогноза VI используется многомодельный подход, комбинирующий структурные и функциональные параметры. Обработка структурных данных включает разделение полей зрения на сектора, рассчитывающие плотность пика сенсорного поля в каждом регионе. Для функциональных параметров используется метод сегментации ОНН с помощью машинного обучения, выделяющий 31 структурных параметров ОНН. Для классификации прогноза VI используются модели машинного обучения (например, Random Forest). Кроме того, используется метод SHAP для определения важных признаков. Эксперименты проводятся на 451 глазах из 299 пациентов. #### Результаты Проанализированы данные о 451 глазах, из которых 369 относятся к медленному прогрессированию (VFI индекса -0.92% в год), 82 к быстрому (VFI -2.0% в год). Random Forest-модель, использующая комбинированные структурные и функциональные признаки, демонстрирует наилучшую производительность (AUC = 0.87) в тестировании на 2000 итераций Monte Carlo. SHAP выделяет 6 ключевых признаков: нижние слои MRW и RNFL, горизонтальные и вертикальные LC, носовый глубинный VF, нижние слои GCL+IPL. Другие модели, использующие только структурные или функциональные признаки, показали значительно нижую производительность (AUC = 0.82 и 0.78). #### Значимость Предложенный подход оказался эффективным для прогноза прогрессирования VI, объединяя структурные и функциональные данные. Обнаружено, что нижние слои MRW и RNFL ОНН являются наиболее важными предикторами, что подтверждает значимость ОНН-морфологии в мониторинге VI. Эти результаты могут быть применены в клинической практике для преждевременного выявления риска прогрессирования и раннего назначения терапии. #### Выводы Результаты указывают на эффективность комбинированного использования структурных и функциональных данных для прогноза VI. Обнаруженные ключевые признаки могут стать основой для разработки новых критериев прогноза и мониторинга VI. Будущие исследования будут фокусироваться на уточнении моделей и расширении данных для улучшения прог

Annotation:

Purpose: To classify eyes as slow or fast glaucoma progressors in patients with primary angle closure glaucoma (PACG) using an integrated approach combining optic nerve head (ONH) structural features and sector-based visual field (VF) functional parameters. Methods: PACG patients with >5 reliable VF tests over >5 years were included. Progression was assessed in Zeiss Forum, with baseline VF within six months of OCT. Fast progression was VFI decline <-2.0% per year; slow progression >-2.0% per ye...

ID: 2508.14922v1 q-bio.QM, cs.AI, cs.CV, eess.IV

arXiv PDF

📄 SurgWound-Bench: A Benchmark for Surgical Wound Diagnosis

2025-08-23

Авторы:

Jiahao Xu, Changchang Yin, Odysseas Chatzipanagiotou, Diamantis Tsilimigras, Kevin Clear, Bingsheng Yao, Dakuo Wang, Timothy Pawlik, Ping Zhang

## Контекст Область сургеонской диагностики характеризуется важной ролью, которую играет в обеспечении качественной помощи пациентам, а также в гарантии уменьшения риска развития послеоперационных осложнений. Одним из наиболее распространенных и затратных аспектов сургеонской практики является способность точно диагностировать различные типы сургеонских ран, так как это имеет значительное влияние на отсрочку или предотвращение лечения, а также на долгосрочные последствия для пациентов. Несмотря на то, что недавние исследования показали, что методы машинного обучения могут помочь в скрининге сургеонских ран и повышении качества здравоохранения, проблематика связана с тем, что данные, используемые для обучения моделей, часто ограничены по объему и недоступны в открытом доступе. Нет открытой библиотеки или бенчмарка, который бы включал различные типы сургеонских раны, что затрудняет развитие прогресса в области автоматизированного диагностического инструментария. ## Метод Для решения данной проблемы мы представляем **SurgWound-Bench**, первый опен-серис датасет, охватывающий различные типы сургеонских ран. Он содержит 697 изображений, которые были аннотированы тремя квалифицированными специалистами, включая восемь тонких атрибутов клинической природы. Методология основывается на создании модели визуального вопроса-ответа (VQA) и генерации отчетов для расширенного понимания и диагностики. Для этого мы предлагаем **WoundQwen** — развитое трехэтапное фреймворк, которое включает в себя: (1) использование нескольких моделей многомодальных глубоких нейросетей (MLLM) для точной оценки уровня заболевания, (2) интеграцию всех этих моделей для определения риска инфекции и рекомендаций медицинских интервенций и (3) объединение этих результатов в комплексный отчет, который может быть использован для персонализированного лечения. ## Результаты Используя бенчмарк SurgWound-Bench, мы провели ряд экспериментов, используя различные модели, включая MLLM и модели, которые использовались для визуального скрининга и генерации отчетов. Наши эксперименты позволили доказать, что WoundQwen превосходит существующие модели на 10-15% в среднем по метрикам качества, включая точность, F1-меру и ложноположительные результаты. Особое внимание уделено обнаружению ран, которые имеют высокий риск инфекционных осложнений, что позволяет улучшить ранний диагноз и клинический результат. ## Значимость Наш бенчмарк SurgWound-Bench и соответствующие модели могут иметь значительное влияние на сургеонскую

Annotation:

Surgical site infection (SSI) is one of the most common and costly healthcare-associated infections and and surgical wound care remains a significant clinical challenge in preventing SSIs and improving patient outcomes. While recent studies have explored the use of deep learning for preliminary surgical wound screening, progress has been hindered by concerns over data privacy and the high costs associated with expert annotation. Currently, no publicly available dataset or benchmark encompasses v...

ID: 2508.15189v1 cs.AI, cs.CV, eess.IV

arXiv PDF

📄 High-Throughput Low-Cost Segmentation of Brightfield Microscopy Live Cell Images

2025-08-22

Авторы:

Surajit Das, Gourav Roy, Pavel Zun

#### Контекст Проблемы сегментации живых клеток в bright-field микроскопии остаются значительной трудностью в биомедицинских исследованиях. Эти клетки обычно неоклеточны и имеют невысокий контраст, что усложняет их формальное разделение от фона. До Top-Down сегментации, основывающейся на зеркальном синтезе новых изображений, попытки решить эту задачу либо требуют обширных данных, либо ограничены в производительности. Многие существующие подходы не учитывают конкретные проблемы bright-field микроскопии, такие как небольшой контраст, шум, мобильность клеток и их воздействие на разрешение. Задача авторов заключается в создании подхода, обеспечивающего высокую точность в тестировании, адаптивность к различным объемам данных и эффективность в вычислительных ресурсах. #### Метод Высокопроизводительный, низкозатратный подход к сегментации живых клеток в bright-field микроскопии основывается на создании архитектуры U-Net с применением модифицированных кодировщиков (frozen encoders), включающих в себя универсальный набор методик. Авторы использовали адаптивные функции потерь, включающие в себя системы внимательности (attention mechanisms), инстанс-аура (instance-aware systems), встроенные в алгоритмы обучения. Для того чтобы уменьшить риск переобучения, использовались такие механизмы, как динамическая установка learning rates, progressive mechanisms. Также был применен ensemble-подход для повышения точности. Использовалась модель тренировочного тестирования на различные варианты клеток, включая широкий диапазон контрастных изображений. #### Результаты В результате использования предложенной модели была достигнута высокая точность сегментации — 93%. Авторы проверили работу модели на датасете LIVECell, чтобы проверить ее мобильность и производительность в условиях с низким контрастом и шумом. Модель показала F1-score в 89% (стандартное отклонение 0.07) при сегментации живых клеток, даже при очень низком контрасте и шумном виде. Для улучшения модели в течение обучения были применены механизмы retraining с помощью hard instance. Модель также была протестирована на данных bright-field, и ее результаты были сопоставимы с современными методами, но с более высокой эффективностью учета ресурсов. #### Значимость Предложенный подход может применяться в различных биологических исследованиях, вроде cell-based assays и выявления динамики клеток. Особенно он полезен для высокопроизводительных и низкозатратных вычислительных установок. Он позволяет достичь высокой точности в сегментации живых клеток, не требуя особых вычислительных мощностей. Благодаря универсальности модели, она может быть использована для различных видов клеток и

Annotation:

Live cell culture is crucial in biomedical studies for analyzing cell properties and dynamics in vitro. This study focuses on segmenting unstained live cells imaged with bright-field microscopy. While many segmentation approaches exist for microscopic images, none consistently address the challenges of bright-field live-cell imaging with high throughput, where temporal phenotype changes, low contrast, noise, and motion-induced blur from cellular movement remain major obstacles. We developed a lo...

ID: 2508.14106v1 q-bio.QM, cs.AI, cs.CV, eess.IV

arXiv PDF

📄 PreSem-Surf: RGB-D Surface Reconstruction with Progressive Semantic Modeling and SG-MLP Pre-Rendering Mechanism

2025-08-21

Авторы:

Yuyan Ye, Hang Xu, Yanghang Huang, Jiali Huang, Qian Weng

## Контекст Современные технологии в области распознавания объектов и строительства трехмерных моделей с сенсорных данных RGB-D становятся все более востребованными в приложениях, таких как видеореалистичные игры, виртуальная реальность и проектирование внутренних пространств. Однако существуют проблемы, связанные с неэффективностью, долгой обработкой и недостаточной точностью существующих методов. Эти приложения требуют методов, которые могут быстро и точно восстановить трехмерные сцены, учитывая как цветные изображения, так и глубинные данные, а также информацию о семантической принадлежности объектов. Таким образом, существует необходимость в развитии эффективных методов восстановления трехмерных сцен, которые могут быстро обрабатывать данные и поддерживать высокую точность. ## Метод Метод PreSem-Surf основывается на NeRF-фреймворке и предлагает расширенный подход к восстановлению трехмерных сцен. Он использует RGB-D потоки данных и интегрирует RGB-, depth- и semantic-данные для улучшения восстановления. Метод включает прогрессивную семантическую модель для точного извлечения семантической информации на разных уровнях. Основной инновацией является интеграция SG-MLP (Structured Gated Multi-Layer Perceptron) вместе с PR-MLP (Preconditioning Multilayer Perceptron) для эффективного предварительного ранжирования voxel-данных. Это позволяет модели быстрее отфильтровать шум и улучшить точность распознавания локальных деталей. SG-MLP и PR-MLP работают вместе для улучшения процесса предварительной обработки данных и повышения общей эффективности. ## Результаты Результаты экспериментов проводились на семи синтетических сценах с использованием шести разных метрик (C-L1, F-score, IoU, NC, Accuracy, Completeness). Результаты показали, что PreSem-Surf показал лучшие результаты в C-L1, F-score и IoU, показав высокую точность восстановления поверхностей. Он также показал конкурентные результаты в NC, Accuracy и Completeness, демонстрируя широкую применимость и эффективность в различных сценах. Эти результаты подтверждают то, что PreSem-Surf эффективен в быстром восстановлении трехмерных сцен из RGB-D потоков данных. ## Значимость Метод PreSem-Surf может быть применен в различных областях, таких как виртуальная реальность, видеоигры, проектирование интерьеров и архитектура. Он предоставляет высокую точность и быструю обработку данных, что делает его идеальным для использования в реальном времени. Благодаря использованию семантической информации, PreSem-Surf также обеспечивает лучшее понимание сцены, что может использоваться для улучшения дальнейшего визуального моделирования и анализа. Помимо этого, способность модели быстро отфиль

Annotation:

This paper proposes PreSem-Surf, an optimized method based on the Neural Radiance Field (NeRF) framework, capable of reconstructing high-quality scene surfaces from RGB-D sequences in a short time. The method integrates RGB, depth, and semantic information to improve reconstruction performance. Specifically, a novel SG-MLP sampling structure combined with PR-MLP (Preconditioning Multilayer Perceptron) is introduced for voxel pre-rendering, allowing the model to capture scene-related information ...

ID: 2508.13228v1 cs.GR, cs.AI, cs.CV, eess.IV

arXiv PDF

📄 XR-NPE: High-Throughput Mixed-precision SIMD Neural Processing Engine for Extended Reality Perception Workloads

2025-08-20

Авторы:

Tejas Chaudhari, Akarsh J., Tanushree Dewangan, Mukul Lokhande, Santosh Kumar Vishvakarma

## Контекст Развитие расширенной реальности (XR), включающей виртуальную, дополненную и смешанную реальность, требует высокопроизводительных алгоритмов для обработки чувствительных к задержкам задач, таких как визуально-инитерийная одометрия (VIO), классификация объектов и извлечение взглядов. Эти задачи требуют высокопроизводительных микропроцессоров с эффективными механизмами уменьшения потребления энергии и оптимальным использованием памяти. Существующие решения часто используют 32-разрядную точность, что неэффективно для задач с малой точностью. Целью данной работы является разработка XR-NPE, эффективного микропроцессора с переменной точностью, который может быть применен в ресурсами ограниченных устройствах XR. ## Метод XR-NPE представляет собой микропроцессор с переменной точностью, разработанный на базе SIMD (Single Instruction, Multiple Data) для работы с расширенной реальностью. Оно поддерживает несколько форматов чисел, включая FP4, Posit (4,1), Posit (8,0) и Posit (16,1), позволяя выполнять вычисления с ultra-low bit precision. Разработанная Reconfigurable Mantissa Multiplication and Exponent processing Circuitry (RMMEC) уменьшает расход энергии в SIMD MAC compute engine с помощью selective power gating. Для минимизации потерь точности во время обучения используется quantization-aware training. ## Результаты XR-NPE достигает максимальной частоты работы 1.72 ГГц, с малой плотностью (0.016 мм²) и высокой арифметической плотностью (14 пДж на 28-нанометровую технологию CMOS). Это приводит к сокращению объема на 42%, энергопотреблению на 38% и повышению эффективности вычислений по сравнению с лучшими достижениями современных методов. На VIO-задачах XR-NPE показывает 23% большую энергоэффективность и 4% вышуую плотность вычислений по сравнению со существующими акселераторами. Проектный код для репродуцированности результатов доступен на GitHub: [стартовая ссылка]. ## Значимость XR-NPE может использоваться в различных XR-приложениях, таких как виртуальная и дополненная реальность, а также для задач компьютерного зрения. Это решение обеспечивает высокую эффективность, низкое потребление энергии и переменную точность для различных XR-задач. Благодаря своей гибкости и эффективности, XR-NPE может стать основой для создания следующих поколений устройств XR. ## Выводы XR-NPE доказывает свою эффективность как высокопроизводительный, энергоэффективный и переменно-точный микропроцессор для XR-задач. Он успешно уменьшает потребление энергии и увеличивает вычислительную плотность по сравнению с современными методами. Будущие исследования будут сосредоточены на улучшении точности и увеличени

Annotation:

This work proposes XR-NPE, a high-throughput Mixed-precision SIMD Neural Processing Engine, designed for extended reality (XR) perception workloads like visual inertial odometry (VIO), object classification, and eye gaze extraction. XR-NPE is first to support FP4, Posit (4,1), Posit (8,0), and Posit (16,1) formats, with layer adaptive hybrid-algorithmic implementation supporting ultra-low bit precision to significantly reduce memory bandwidth requirements, and accompanied by quantization-aware t...

ID: 2508.13049v1 cs.AR, cs.AI, cs.CV, eess.IV

arXiv PDF

📄 Privacy-Aware Detection of Fake Identity Documents: Methodology, Benchmark, and Improved Detection Methods (FakeIDet2)

2025-08-19

Авторы:

Javier Muñoz-Haro, Ruben Tolosana, Ruben Vera-Rodriguez, Aythami Morales, Julian Fierrez

## Контекст Открытый доступ в Интернет позволяет пользователям получать услуги, но при этом использовать фальшивые идентификационные документы (ID) становится все проще. Это создает серьезные угрозы безопасности и нужды в эффективных методах для их обнаружения. Использование реальных ID для обучения моделей представляет собой значительную проблему из-за чувствительности таких документов. Фонды реальных данных недоступны, и использование имитации часто приводит к неточности. Данное исследование фокусируется на развитии методов, которые позволят решать эту проблему с учетом конфиденциальности и эффективности. ## Метод Методология предложенного подхода основывается на разбиении изображений ID на патчи, что позволяет ограничить доступ к конфиденциальной информации. Для обучения и тестирования разработана новая база данных FakeIDet2-db, содержащая более 900 тысяч патчей из 2 000 ID-документов, полученных с различных устройств, условий света и высоты. Дополнительно, эксперименты проводятся с тремя физическими атаками: напечатанные, экранные и композитные фальшивые ID. Также предлагается новая модель FakeIDet2, которая гарантирует конфиденциальность данных во время обучения и применения. ## Результаты На базе FakeIDet2-db проводились эксперименты с новой моделью FakeIDet2, что позволило сравнить ее с другими популярными методами. Результаты показали, что FakeIDet2 превосходит конкуренты в обнаружении физических и синтетических атак, обеспечивая высокую точность и малую ошибку ложных срабатываний. База данных FakeIDet2-db позволила создать репрезентативную среду для проверки методов и даст возможность развития дальнейших исследований в этой области. ## Значимость Разработанный подход имеет широкие возможности для применения в системах удаленной верификации, которые широко используются в цифровых приложениях. Он обеспечивает улучшение безопасности, снижая риск подделок ID. База данных FakeIDet2-db открывает новые возможности для исследований в области систем безопасности и предотвращения мошенничества. Этот подход может иметь потенциал для распространения на другие сферы, где требуется проверка личности и обнаружение мошенничества. ## Выводы Наши результаты показывают, что FakeIDet2 является эффективным инструментом для обнаружения фальшивых ID. База данных FakeIDet2-db позволила продемонстрировать мощь этого подхода в реальных условиях. Мы планируем дальнейшее развитие модели, включая добавление новых атак и подходов к обучению. Будущие исследования также будут направлены на повышение точности и скорости для использования в реальных приложениях.

Annotation:

Remote user verification in Internet-based applications is becoming increasingly important nowadays. A popular scenario for it consists of submitting a picture of the user's Identity Document (ID) to a service platform, authenticating its veracity, and then granting access to the requested digital service. An ID is well-suited to verify the identity of an individual, since it is government issued, unique, and nontransferable. However, with recent advances in Artificial Intelligence (AI), attacke...

ID: 2508.11716v1 cs.CR, cs.AI, cs.CV, eess.IV

arXiv PDF