📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 AngularFuse: A Closer Look at Angle-based Perception for Spatial-Sensitive Multi-Modality Image Fusion

2025-10-16

Авторы:

Xiaopeng Liu, Yupei Lin, Sen Zhang, Xiao Wang, Yukai Shi, Liang Lin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Visible-infrared image fusion is crucial in key applications such as autonomous driving and nighttime surveillance. Its main goal is to integrate multimodal information to produce enhanced images that are better suited for downstream tasks. Although deep learning based fusion methods have made significant progress, mainstream unsupervised approaches still face serious challenges in practical applications. Existing methods mostly rely on manually designed loss functions to guide the fusion proces...

ID: 2510.12260v1 cs.CV, cs.LG, eess.IV

arXiv PDF

📄 YOLOv11-Litchi: Efficient Litchi Fruit Detection based on UAV-Captured Agricultural Imagery in Complex Orchard Environments

2025-10-15

Авторы:

Hongxing Peng, Haopei Xie, Weijia Lia, Huanai Liuc, Ximing Li

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Litchi is a high-value fruit, yet traditional manual selection methods are increasingly inadequate for modern production demands. Integrating UAV-based aerial imagery with deep learning offers a promising solution to enhance efficiency and reduce costs. This paper introduces YOLOv11-Litchi, a lightweight and robust detection model specifically designed for UAV-based litchi detection. Built upon the YOLOv11 framework, the proposed model addresses key challenges such as small target size, large mo...

ID: 2510.10141v1 cs.CV, cs.LG, eess.IV

arXiv PDF

📄 Unsupervised Transformer Pre-Training for Images: Self-Distillation, Mean Teachers, and Random Crops

2025-10-08

Авторы:

Mattia Scardecchia

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent advances in self-supervised learning (SSL) have made it possible to learn general-purpose visual features that capture both the high-level semantics and the fine-grained spatial structure of images. Most notably, the recent DINOv2 has established a new state of the art by surpassing weakly supervised methods (WSL) like OpenCLIP on most benchmarks. In this survey, we examine the core ideas behind its approach, multi-crop view augmentation and self-distillation with a mean teacher, and trac...

ID: 2510.03606v1 cs.CV, cs.LG, eess.IV

arXiv PDF

📄 A Statistical Method for Attack-Agnostic Adversarial Attack Detection with Compressive Sensing Comparison

2025-10-07

Авторы:

Chinthana Wimalasuriya, Spyros Tragoudas

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Adversarial attacks present a significant threat to modern machine learning systems. Yet, existing detection methods often lack the ability to detect unseen attacks or detect different attack types with a high level of accuracy. In this work, we propose a statistical approach that establishes a detection baseline before a neural network's deployment, enabling effective real-time adversarial detection. We generate a metric of adversarial presence by comparing the behavior of a compressed/uncompre...

ID: 2510.02707v1 cs.CR, cs.CV, cs.LG, eess.IV

arXiv PDF

📄 Nuclear Diffusion Models for Low-Rank Background Suppression in Videos

2025-09-27

Авторы:

Tristan S. W. Stevens, Oisín Nolan, Jean-Luc Robert, Ruud J. G. van Sloun

#### Контекст Оптимальное визуальное восприятие видео подверждается значительным воздействию нарушений качества, включая шум, помехи и фоновые артефакты. Эти эффекты сильно влияют на точность анализа и восстановления видео. Наиболее распространенным подходом для устранения таких помех являются методы робастных компонент главного признака (RPCA), которые строятся на априорных ожиданиях о спектре шума и фонового содержимого. Однако эти методы часто не справляются с разнообразием и сложностью реальных видеоданных. Таким образом, возникает необходимость развития более гибких и точных подходов, которые могут лучше адаптироваться к характеристикам видео. #### Метод Предложена новая архитектура Nuclear Diffusion, которая комбинирует моделирование временных зависимостей с помощью инструментов низкоранговой моделирования и глубоких генерируемых предположений с помощью моделей постериорного диффузионного распространения. Метод начинает с разложения входных данных в его низкоранговую и спарсовую составляющие с помощью RPCA. Далее, для уточнения временных зависимостей используется модель низкого ранга временного моделирования. Наконец, для более точного восстановления динамического содержимого введена модель постериорного диффузионного распространения, которая использует глубокие генерируемые предположения для повышения точности. Архитектура предназначена для того, чтобы объединить преимущества низкоранговых моделей с глубокими моделями, чтобы обеспечить высокую точность восстановления видео. #### Результаты Nuclear Diffusion был оценен на реальных видеоданных, в частности, на задаче клинического восстановления сигнала в газографических ультразвуковых снимках сердца (dehazing). Экспериментальные результаты показали, что Nuclear Diffusion превосходит традиционные методы RPCA в двух основных аспектах: улучшение контрастности (gCNR) и сохранение сигнала (KS-статистика). Это объясняется значительным улучшением восстановления динамического содержимого, полученным благодаря использованию глубокой модели постериорного диффузионного распространения. Таким образом, Nuclear Diffusion демонстрирует высокую эффективность в решении проблем нарушения качества видео в реальных условиях. #### Значимость Проложенный подход имеет широкую область применения, включая медицинское видео, системы автоматического вождения, анализ видеосигнала в реальном времени. Он предоставляет надежные преимущества по сравнению с существующими методами, включая улучшенную точность восстановления, более точное восстановление динамического содержимого, и лучшую устойчивость к различным

Annotation:

Video sequences often contain structured noise and background artifacts that obscure dynamic content, posing challenges for accurate analysis and restoration. Robust principal component methods address this by decomposing data into low-rank and sparse components. Still, the sparsity assumption often fails to capture the rich variability present in real video data. To overcome this limitation, a hybrid framework that integrates low-rank temporal modeling with diffusion posterior sampling is propo...

ID: 2509.20886v1 cs.CV, cs.LG, eess.IV

arXiv PDF

📄 Accurate Thyroid Cancer Classification using a Novel Binary Pattern Driven Local Discrete Cosine Transform Descriptor

2025-09-24

Авторы:

Saurabh Saini, Kapil Ahuja, Marc C. Steinbach, Thomas Wick

#### Контекст Тиреоидный рак является опасной заболеванием, требующим точного диагностического подхода. Особенностью данного рака является сложность выделения текстурных признаков из ультразвуковых изображений, из-за сложной анатомии щитовидной железы. Традиционные методы часто недостаточно точны и не подходят для автоматического классификации. В нашей работе мы разрабатываем новую систему компьютерной томографии (CAD) для точной классификации тиреоидного рака, с фокусом на эффективной фильтрации и выделении признаков. #### Метод Мы предлагаем новую методологию, которая объединяет несколько популярных методов выделения текстурных признаков. Основной дескриптор — Local Discrete Cosine Transform (LDCT), известный за высокую точность в выделении текстурных признаков в области, напоминающих текстуры. Для улучшения точности и нормализации сигнала мы используем еще один дескриптор — Improved Local Binary Pattern (ILBP), который известен своей высокой устойчивостью к шумам. Наша новая комбинированная методика, которую мы назвали Binary Pattern Driven Local Discrete Cosine Transform (BPD-LDCT), позволяет эффективно извлекать признаки и уменьшать шум в изображениях. Для классификации используется нелинейная SVM. #### Результаты Мы проверили нашу систему на двух публичных датасетах: TDID и AUITD. В первой стадии (фаза I), мы классифицировали тиреоидные ноды как благоприятные или неблагоприятные, получив температуры почти 100% на TDID и 97% на AUITD. Во второй стадии (фаза II), когда мы разделили малынки на TI-RADS (4) и TI-RADS (5), наша модель показала почти 100% точность на TDID и 99% на AUITD. Эти результаты подтверждают высокую точность системы в распознавании тиреоидного рака. #### Значимость Наша система может применяться в различных областях медицины, включая диагностику тиреоидного рака. Она предлагает не только высокую точность, но и высокую устойчивость к шумам, что делает ее привлекательной для клинического применения. Также, она может использоваться для улучшения диагностических процедур, уменьшая ошибки в ручной классификации. #### Выводы Мы показали, что наша BPD-LDCT методика эффективна для классификации тиреоидного рака. Мы планируем продолжить работу над улучшением модели, включая использование глубоких нейронных сетей и анализ дополнительных датасетов для повышения общей универсальности системы.

Annotation:

In this study, we develop a new CAD system for accurate thyroid cancer classification with emphasis on feature extraction. Prior studies have shown that thyroid texture is important for segregating the thyroid ultrasound images into different classes. Based upon our experience with breast cancer classification, we first conjuncture that the Discrete Cosine Transform (DCT) is the best descriptor for capturing textural features. Thyroid ultrasound images are particularly challenging as the gland i...

ID: 2509.16382v1 cs.CV, cs.LG, eess.IV, I.2.1; I.5.2

arXiv PDF

📄 DocIQ: A Benchmark Dataset and Feature Fusion Network for Document Image Quality Assessment

2025-09-24

Авторы:

Zhichao Ma, Fan Huang, Lu Zhao, Fengjun Guo, Guangtao Zhai, Xiongkuo Min

## Контекст Исследование документного изображения качества оценки (DIQA) является ключевым аспектом для различных приложений, таких как оптическое распознавание символов (OCR), восстановление документов и оценка систем обработки документов. Однако существуют ограничения в существующих данных и методах, которые могут привести к неточности в оценке качества. Таким образом, требуется новый подход для создания более точных и эффективных моделей оценки качества. Целью данного исследования является разработка нового широкомасштабного субъективного датасета DIQA-5000, а также разработка модели оценки, которая может обеспечить более точную оценку качества в ситуациях, где требуется сократить вычислительные затраты. ## Метод Для построения датасета DIQA-5000 были использованы 500 реальных документов, которые были изменены с использованием различных техник улучшения изображений. Каждое измененное изображение было оценено 15 субъектов по трем разным аспектам: общему качеству, четкости и фидлити красного цвета. Эти оценки были использованы для построения нового DIQA-двухмерной модели. Модель основывается на проектировании модуля Feature Fusion Network, который использует низкоуровневые и высокоуровневые визуальные признаки для оценки качества документа. Специальная архитектура Feature Fusion Network позволяет модели предсказывать распределения качества по каждому измерению, что позволяет ей более точно учитывать различные аспекты качества документа. ## Результаты Эксперименты были проведены на двух датасетах: DIQA-5000 и датасете, связанном с оценкой качества для OCR. В результатах показано, что модель Feature Fusion Network превосходит существующие модели оценки качества изображений по точности и эффективности. Особенно заметны улучшения в ситуациях, когда необходимо работать с низкорезольвентными изображениями, так как модель способна эффективно использовать документные шаблоны для сохранения качества оценки при уменьшении разрешения. ## Значимость Модель Feature Fusion Network может быть применена в различных приложениях, таких как OCR-системы, восстановление документов и оценка качества документов в реальных условиях. Она предлагает более высокую точность и эффективность по сравнению с традиционными моделями, что может существенно улучшить производительность в ситуациях, где требуется оценивать качество документов. Это также открывает новые возможности для будущих исследований в области оценки качества изображений в документах. ## Выводы В результате данного исследования был создан новый DIQA-датасет DIQA-5000, который предлагает широкую гамму реальных документов с различными искажениями. Также была разработана модель Feature Fusion Network, которая использует Feature Fusion Module

Annotation:

Document image quality assessment (DIQA) is an important component for various applications, including optical character recognition (OCR), document restoration, and the evaluation of document image processing systems. In this paper, we introduce a subjective DIQA dataset DIQA-5000. The DIQA-5000 dataset comprises 5,000 document images, generated by applying multiple document enhancement techniques to 500 real-world images with diverse distortions. Each enhanced image was rated by 15 subjects ac...

ID: 2509.17012v1 cs.CV, cs.LG, eess.IV

arXiv PDF

📄 Explainable AI for Accelerated Microstructure Imaging: A SHAP-Guided Protocol on the Connectome 2.0 scanner

2025-09-13

Авторы:

Quentin Uhl, Tommaso Pavan, Julianna Gerold, Kwok-Shing Chan, Yohan Jun, Shohei Fujita, Aneri Bhatt, Yixin Ma, Qiaochu Wang, Hong-Hsi Lee, Susie Y. Huang, Berkin Bilgic, Ileana Jelescu

## Контекст На протяжении многих лет развития диффузионной магнитной резонансной импедансной томографии (diffusion MRI), многие протоколы исследований, ориентированные на изучение нейронной сети (connectome), требуют долгих сканирований. Это ограничивает применение этих методов в клинической практике, где необходимы более быстрые и эффективные сканирования. Одной из причин этого ограничения является необходимость в многоканальном сканировании для получения точных параметров поведения воды в сером веществе. Для решения этой проблемы, авторы предлагают **Explainable AI for Accelerated Microstructure Imaging**, который использует гибридный подход, сочетающий данные и искусственный интеллект, для создания более эффективных протоколов сканирования. ## Метод Протокол **Connectome 2.0** предлагает решение для ускорения сканирования, сохранив точность параметров. Авторы использовали **SHAP (SHapley Additive exPlanations)**, метод европейской концепции, позволяющий выявить наиболее важные факторы, влияющие на результаты. В рамках этого проекта разработан фреймворк, использующий **guided recursive feature elimination (RFE)**, чтобы оптимизировать выбор признаков для сканирования. Этот подход позволил выбрать оптимальный набор из 15 признаков, обеспечивая максимальную точность с минимальным временем сканирования. Метод был валидирован в наборе во вращающемся зонде, позволяя изучить точность параметров, анатомический контраст и повторяемость результатов. ## Результаты В результате использования оптимизированного протокола, авторы получили параметры, которые были почти идентичны тем, что достигались при использовании полного протокола. Эталонные тесты показали, что новый протокол позволяет сохранить точность параметров с минимальным влиянием на исследование. Кроме того, он показал лучшую производительность по сравнению с другими стратегиями снижения длины сканирования, такими как теоретические или хитроумные схемы. Данные показали, что уменьшение длины сканирования не приводит к потере важности параметров или их эффективности. ## Значимость Данный подход может быть применен в различных областях, включая клинические исследования и нейронирование. Он позволяет сократить время сканирования, не теряя точности в измерении параметров, что может повысить эффективность диагностики. Благодаря использованию искусственного интеллекта, **Explainable AI for Accelerated Microstructure Imaging** предлагает новую модель для оптимизации протоколов сканирования, которая может быть использована в различных областях, где необходима быстрая и точная диагностика. ## Выводы **Explainable AI for Accelerated Microstructure Imaging** позволяет создавать более эффективные протоколы для исследования поведения воды в сером веществе. Этот подход уско

Annotation:

The diffusion MRI Neurite Exchange Imaging model offers a promising framework for probing gray matter microstructure by estimating parameters such as compartment sizes, diffusivities, and inter-compartmental water exchange time. However, existing protocols require long scan times. This study proposes a reduced acquisition scheme for the Connectome 2.0 scanner that preserves model accuracy while substantially shortening scan duration. We developed a data-driven framework using explainable artific...

ID: 2509.09513v1 physics.med-ph, cs.AI, cs.CV, cs.LG, eess.IV, J.3

arXiv PDF

📄 Near Real-Time Dust Aerosol Detection with 3D Convolutional Neural Networks on MODIS Data

2025-09-10

Авторы:

Caleb Gates, Patrick Moorhead, Jayden Ferguson, Omar Darwish, Conner Stallman, Pablo Rivas, Paapa Quansah

#### Контекст Область исследования связана с мониторингом аэрозолей в реальном времени, которая играет ключевую роль в устранении рисков для здоровья и обеспечении безопасности транспорта в условиях пылевых бурь. Несомненно, что пылевые бури являются серьезной проблемой, которая приводит к существенным последствиям для индивидуального здоровья, экономической активности и авиационной безопасности. Однако существуют технологические вызовы, связанные с быстрым обнаружением и определением структур пылевых зон на основе данных с сатиллетной сети MODIS (Moderate Resolution Imaging Spectroradiometer). Необходимость в реальном времени и точности в этой области стала мотивацией для разработки современных алгоритмов обработки изображений. #### Метод Методология основывается на использовании 3D конволюционных нейронных сетей для обнаружения пылевых аэрозолей на основе 36 банд данных MODIS. Эта сеть обучается на отдельных пикселях изображений, создавая при этом возможность определять между двумя типами облаков и поверхностными микрофеноменами. Для обработки информации, отсутствующей в некоторых пикселях, были применены простые методы нормализации и исправления пропусков. Область изображения, работающая с трехмерным входом, значительно повышает точность. Также был оптимизирован алгоритм обучения, что позволило значительно снизить время обучения (на 21 раз) и повысить производительность системы. #### Результаты На 17 независимых сценах данных MODIS, модель достигла точности приблизительно 0.92 и ошибки квадратичного среднего 0.014. Эксперименты показали, что модель обнаруживает пылевые аэрозоли с высокой точностью, особенно в ядрах пылевых масс. Были выявлены небольшие пропуски вдоль краев облаков, что может быть связано с ограничениями в разрешении изображений. Общий вывод показывает, что использование 3D конволюционных сетей, обученных на широких входных окнах, позволяет добиться высокой точности в определении пылевых зон. #### Значимость Инновационная технология может быть применена в различных областях, включая экологию, авиационное пространство, санитарную инженерию и землеустройство. Основным преимуществом является то, что модель обеспечивает быстрое и точное обнаружение пылевых зон, что позволяет уменьшить временные задержки и увеличить эффективность реагирования на эти явления. В крайней мере, модель может стать основой для развития более сложных алгоритмов, включая активность в сетях с внимательностью к деталям. #### Выводы На основе результатов можно сделать вывод, что модель 3D конволюционных нейронных сетей, работающая на базе MOD

Annotation:

Dust storms harm health and reduce visibility; quick detection from satellites is needed. We present a near real-time system that flags dust at the pixel level using multi-band images from NASA's Terra and Aqua (MODIS). A 3D convolutional network learns patterns across all 36 bands, plus split thermal bands, to separate dust from clouds and surface features. Simple normalization and local filling handle missing data. An improved version raises training speed by 21x and supports fast processing o...

ID: 2509.05887v1 cs.CV, cs.LG, eess.IV, 68T07, 86A32, I.2.6; I.5.4

arXiv PDF

📄 Improving OCR using internal document redundancy

2025-08-22

Авторы:

Diego Belzarena, Seginus Mowlavi, Aitor Artola, Camilo Mariño, Marina Gardella, Ignacio Ramírez, Antoine Tadros, Roy He, Natalia Bottaioli, Boshra Rajaei, Gregory Randall, Jean-Michel Morel

## Контекст Текущие системы OCR (Optical Character Recognition, зрительный распознаватель знаков) основываются на глубоких нейронных сетях, обученных большим количеством данных. Они достаточно эффективны в обнаруживающих задачах, однако при работе с некачественными документами сталкиваются с проблемами. Это особенно важно для документов с низким внутридоменным вариативностью, но высокой междоменной вариативностью, таких как 17-й век до 20-го века европейские газеты или Уругвайские военные архивы. В таком контексте существующие OCR-системы не вполне используют внутридокументную репликацию (redundancy), что может улучшить распознавание низкокачественных императивов. Данная работа предлагает метод улучшения OCR, основанный на группировании и редактировании геометрических характеристик текста. ## Метод Предлагаемый подход основывается на расширенной гауссовой смесевой модели (Extended Gaussian Mixture Model, EGMM). Ключевым отличием является алгоритм, который альтернативно применяет экспектационно-максимизационный (EM) метод и процесс реалингации кластеров (intra-cluster realignment). Это позволяет улучшить точность кластеризации, обнаруживать и корректировать ошибки OCR. Более того, для каждого кластера осуществляется статистическое тестирование нормальности, чтобы гарантировать высокую точность в результатах. Метод используется в неучитываемых режимах и не требует дополнительных данных для обучения. ## Результаты Результаты показали значительные улучшения в распознавании текста для специфичных архивов. Например, для Уругвайских военных документов из 17-го века и европейских газет 17-20 веков, где данные пострадали от старения и деградации, метод показал до 12% улучшений в сравнении с оригинальными OCR-системами. Эти результаты были получены на основе реальных документов в разных уровнях деградации, включая размытые и поврежденные тексты. Обнаружено, что внутридокументная репликация значительно повышает точность, особенно в случаях, когда данные значительно разрушены. ## Значимость Этот подход может применяться в различных областях, таких как хранение исторических документов, цифровая библиотека, архивирование новостной отчетности. Основные преимущества заключаются в улучшении точности распознавания, особенно для низкокачественных документов. Будущие работы будут направлены на решение проблем с многоязычными документами и повышению скорости обработки больших датасетов. ## Выводы Предложенный метод демонстрирует эффективность в улучшении распознавания низкокачественных документов с помощью использования внутридокументной репликации и расширенной гаус

Annotation:

Current OCR systems are based on deep learning models trained on large amounts of data. Although they have shown some ability to generalize to unseen data, especially in detection tasks, they can struggle with recognizing low-quality data. This is particularly evident for printed documents, where intra-domain data variability is typically low, but inter-domain data variability is high. In that context, current OCR methods do not fully exploit each document's redundancy. We propose an unsupervise...

ID: 2508.14557v1 cs.CV, cs.LG, eess.IV

arXiv PDF

Показано 11 - 20 из 23 записей