📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Platonic Transformers: A Solid Choice For Equivariance

2025-10-08

Авторы:

Mohammad Mohaiminul Islam, Rishabh Anand, David R. Wessels, Friso de Kruiff, Thijs P. Kuipers, Rex Ying, Clara I. Sánchez, Sharvaree Vadgama, Georg Bökman, Erik J. Bekkers

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

While widespread, Transformers lack inductive biases for geometric symmetries common in science and computer vision. Existing equivariant methods often sacrifice the efficiency and flexibility that make Transformers so effective through complex, computationally intensive designs. We introduce the Platonic Transformer to resolve this trade-off. By defining attention relative to reference frames from the Platonic solid symmetry groups, our method induces a principled weight-sharing scheme. This en...

ID: 2510.03511v1 cs.CV, cs.AI, cs.LG, eess.IV

arXiv PDF

📄 SPEGNet: Synergistic Perception-Guided Network for Camouflaged Object Detection

2025-10-08

Авторы:

Baber Jan, Saeed Anwar, Aiman H. El-Maleh, Abdul Jabbar Siddiqui, Abdul Bais

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Camouflaged object detection segments objects with intrinsic similarity and edge disruption. Current detection methods rely on accumulated complex components. Each approach adds components such as boundary modules, attention mechanisms, and multi-scale processors independently. This accumulation creates a computational burden without proportional gains. To manage this complexity, they process at reduced resolutions, eliminating fine details essential for camouflage. We present SPEGNet, addressin...

ID: 2510.04472v1 cs.CV, cs.AI, cs.LG, eess.IV

arXiv PDF

📄 A Statistical Method for Attack-Agnostic Adversarial Attack Detection with Compressive Sensing Comparison

2025-10-07

Авторы:

Chinthana Wimalasuriya, Spyros Tragoudas

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Adversarial attacks present a significant threat to modern machine learning systems. Yet, existing detection methods often lack the ability to detect unseen attacks or detect different attack types with a high level of accuracy. In this work, we propose a statistical approach that establishes a detection baseline before a neural network's deployment, enabling effective real-time adversarial detection. We generate a metric of adversarial presence by comparing the behavior of a compressed/uncompre...

ID: 2510.02707v1 cs.CR, cs.CV, cs.LG, eess.IV

arXiv PDF

📄 VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes

2025-10-02

Авторы:

Paul Gavrikov, Wei Lin, M. Jehanzeb Mirza, Soumya Jahagirdar, Muhammad Huzaifa, Sivan Doveh, Serena Yeung-Levy, James Glass, Hilde Kuehne

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Is basic visual understanding really solved in state-of-the-art VLMs? We present VisualOverload, a slightly different visual question answering (VQA) benchmark comprising 2,720 question-answer pairs, with privately held ground-truth responses. Unlike prior VQA datasets that typically focus on near global image understanding, VisualOverload challenges models to perform simple, knowledge-free vision tasks in densely populated (or, overloaded) scenes. Our dataset consists of high-resolution scans o...

ID: 2509.25339v2 cs.CV, cs.AI, cs.LG, eess.IV

arXiv PDF

📄 YOLO-Based Defect Detection for Metal Sheets

2025-10-02

Авторы:

Po-Heng Chou, Chun-Chi Wang, Wei-Lung Mao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In this paper, we propose a YOLO-based deep learning (DL) model for automatic defect detection to solve the time-consuming and labor-intensive tasks in industrial manufacturing. In our experiments, the images of metal sheets are used as the dataset for training the YOLO model to detect the defects on the surfaces and in the holes of metal sheets. However, the lack of metal sheet images significantly degrades the performance of detection accuracy. To address this issue, the ConSinGAN is used to g...

ID: 2509.25659v1 cs.CV, cs.AI, cs.LG, eess.IV, eess.SP, 68T45, 68T07, I.2.10; I.4.7; I.5.4

arXiv PDF

📄 LUQ: Layerwise Ultra-Low Bit Quantization for Multimodal Large Language Models

2025-10-01

Авторы:

Shubhang Bhatnagar, Andy Xu, Kar-Han Tan, Narendra Ahuja

#### Контекст Large Language Models (LLMs) с возможностями визуально-языковых задач (Vision-Language Tasks) превратились в ключевые средства для широкого круга приложений, включая визуальный ответ на вопросы (Visual Question Answering, VQA) и генерацию образов по текстовым подсказкам. Однако их масштабирование и развертывание часто сталкиваются с ограничениями в памяти и вычислительных ресурсах. Хотя методы постобучения кодирования (post-training quantization, PTQ) способны значительно сжать модели с 32-битной до 1-битной точности, сохраняя при этом почти те же показатели качества, для multimodal LLMs (MLLMs) эффективность таких методов остается мало изученной. Наша мотивация заключается в изучении эффективных методов кодирования для MLLMs, что позволит уменьшить их размер без значительного ухудшения качества. #### Метод Мы предлагаем новую методологию, названную **LUQ (Layerwise Ultra-Low Bit Quantization)**, которая лексически кодирует слои модели в зависимости от их устойчивости к ultra-low bit quantization. Для этого проводятся подробные анализы динамики и распределения промежуточных слоев модели, определяя те слои, которые могут лучше переносить низкобитное кодирование. Мы также используем смешанные входы (image-text) для повышения точности PTQ в ultra-low bit режиме. Наша архитектура LUQ выбирает слои, которые могут использовать ultra-low bit quantization, при этом применяя более высокую точность к более чувствительным слоям. #### Результаты Мы проводим эксперименты с LUQ на моделях LLaVA-1.5 и Qwen-2.5-VL на 9 VQA-benchmarks. Результаты показывают, что LUQ уменьшает память, используемую моделью, на 40% для LLaVA-1.5 и на 31% для Qwen-2.5-VL, сохраняя производительность на уровне менее 10% от оригинала на MME benchmark. Эти результаты демонстрируют эффективность LUQ в сокращении размера MLLMs без значительного потери качества. #### Значимость LUQ может быть применено в различных сценариях, где необходимо снизить ресурсоемкость работы моделей, такие как мобильные приложения, облачные сервисы и реальном времени задачи. Наш метод предоставляет значительные преимущества, такие как меньшее потребление ресурсов и сохранение высокого качества результатов. Мы уверены, что LUQ открывает новые перспективы для развития MLLMs, особенно в области визуально-языковых задач. #### Выводы Мы представили LUQ, первую стратегию layerwise ultra-low bit quantization для multimodal LLMs. Наши результаты показывают, что LUQ эффективно уменьшает размер моделей, которые используются в VQA, с минимальным ущербом качества. Мы планируем провести дополнительные исследования для расширения LUQ на другие модели и задачи, а также для улучшения ее устойчивости к различным входным данным.

Annotation:

Large Language Models (LLMs) with multimodal capabilities have revolutionized vision-language tasks, but their deployment often requires huge memory and computational resources. While post-training quantization (PTQ) has successfully compressed language models to as low as 1-bit precision without significant performance loss, its effectiveness for multimodal LLMs (MLLMs) remains relatively unexplored. In this paper, we present the first study on ultra-low bit (<4-bit) quantization for multimodal...

ID: 2509.23729v1 cs.CV, cs.AI, cs.LG, eess.IV

arXiv PDF

📄 Nuclear Diffusion Models for Low-Rank Background Suppression in Videos

2025-09-27

Авторы:

Tristan S. W. Stevens, Oisín Nolan, Jean-Luc Robert, Ruud J. G. van Sloun

#### Контекст Оптимальное визуальное восприятие видео подверждается значительным воздействию нарушений качества, включая шум, помехи и фоновые артефакты. Эти эффекты сильно влияют на точность анализа и восстановления видео. Наиболее распространенным подходом для устранения таких помех являются методы робастных компонент главного признака (RPCA), которые строятся на априорных ожиданиях о спектре шума и фонового содержимого. Однако эти методы часто не справляются с разнообразием и сложностью реальных видеоданных. Таким образом, возникает необходимость развития более гибких и точных подходов, которые могут лучше адаптироваться к характеристикам видео. #### Метод Предложена новая архитектура Nuclear Diffusion, которая комбинирует моделирование временных зависимостей с помощью инструментов низкоранговой моделирования и глубоких генерируемых предположений с помощью моделей постериорного диффузионного распространения. Метод начинает с разложения входных данных в его низкоранговую и спарсовую составляющие с помощью RPCA. Далее, для уточнения временных зависимостей используется модель низкого ранга временного моделирования. Наконец, для более точного восстановления динамического содержимого введена модель постериорного диффузионного распространения, которая использует глубокие генерируемые предположения для повышения точности. Архитектура предназначена для того, чтобы объединить преимущества низкоранговых моделей с глубокими моделями, чтобы обеспечить высокую точность восстановления видео. #### Результаты Nuclear Diffusion был оценен на реальных видеоданных, в частности, на задаче клинического восстановления сигнала в газографических ультразвуковых снимках сердца (dehazing). Экспериментальные результаты показали, что Nuclear Diffusion превосходит традиционные методы RPCA в двух основных аспектах: улучшение контрастности (gCNR) и сохранение сигнала (KS-статистика). Это объясняется значительным улучшением восстановления динамического содержимого, полученным благодаря использованию глубокой модели постериорного диффузионного распространения. Таким образом, Nuclear Diffusion демонстрирует высокую эффективность в решении проблем нарушения качества видео в реальных условиях. #### Значимость Проложенный подход имеет широкую область применения, включая медицинское видео, системы автоматического вождения, анализ видеосигнала в реальном времени. Он предоставляет надежные преимущества по сравнению с существующими методами, включая улучшенную точность восстановления, более точное восстановление динамического содержимого, и лучшую устойчивость к различным

Annotation:

Video sequences often contain structured noise and background artifacts that obscure dynamic content, posing challenges for accurate analysis and restoration. Robust principal component methods address this by decomposing data into low-rank and sparse components. Still, the sparsity assumption often fails to capture the rich variability present in real video data. To overcome this limitation, a hybrid framework that integrates low-rank temporal modeling with diffusion posterior sampling is propo...

ID: 2509.20886v1 cs.CV, cs.LG, eess.IV

arXiv PDF

📄 A Single Image Is All You Need: Zero-Shot Anomaly Localization Without Training Data

2025-09-25

Авторы:

Mehrdad Moradi, Shengzhe Chen, Hao Yan, Kamran Paynabar

#### Контекст Аномалий детектирование в изображениях широко используется в различных областях, включая производство, здравоохранение и безопасность. Обычно для этого требуется подготовленный набор тренировочных данных, на основе которого обучаются модели. Однако в реальной жизни часто возникают ситуации, когда исходных данных для обучения отсутствуют. Мы предлагаем метод, который способен детектировать аномалии в изображениях без предварительного обучения, используя только тестовое изображение. Наша модель, SSDnet, основывается на свойствах конvolutionных нейронных сетей и выступает в качестве уникального решения для такого "ноль-шота" сценария. #### Метод Мы предлагаем Single Shot Decomposition Network (SSDnet), который оперирует следующим принципом. Мы считаем, что в естественных изображениях присутствуют унифицированные текстуры и шаблоны, а аномалии выражаются как отклонения от этих шаблонов, например, в виде неестественных треков или пятен. SSDnet учитывает это, используя конvolutionные сети, чтобы восстановить исходное изображение только на основе своих внутренних свойств. Мы используем патч-базуую архитектуру, где изображение само представляется сети в качестве входа вместо шума, как в Deep Image Prior. Чтобы предотвратить простое обучение идентичности, мы применяем маскирование, смешивание патчей и небольшие добавления гауссовского шума. Также мы используем потерю внутреннего произведения для захвата структуры изображения за пределами верности пикселей. #### Результаты Мы провели эксперименты на двух высокочастотных датасетах: MVTec-AD и датасете тканей. SSDnet показал отличные результаты с AUROC 0.99 и AUPRC 0.60 на MVTec-AD и AUROC 0.98, AUPRC 0.67 на датасете тканей. Эти результаты значительно превосходят лучшие результаты других методов, особенно в условиях отсутствия тренировочных данных. Мы также проверили модель на изображениях с помехами и отсутствующими пикселями, подтвердив ее высокую устойчивость. #### Значимость Наш метод может применяться в областях, где данных для обучения отсутствуют, например, в ситуациях сбора данных после катастрофы или для детектирования аномалий в реальном времени. SSDnet обеспечивает высокую точность и гибкость без нужды в специальных тренировочных данных. Это делает его привлекательным для промышленных приложений, таких как оптическая инспекция, мониторинг производства и безопасность. #### Выводы Мы успешно продемонстрировали, что модель SSDnet может детектировать аномалии в изображениях без предварительного обучения. Наши выводы показывают, что модель достаточно мощная для применения в реальных сценариях. Мы планируем продолжать

Annotation:

Anomaly detection in images is typically addressed by learning from collections of training data or relying on reference samples. In many real-world scenarios, however, such training data may be unavailable, and only the test image itself is provided. We address this zero-shot setting by proposing a single-image anomaly localization method that leverages the inductive bias of convolutional neural networks, inspired by Deep Image Prior (DIP). Our method is named Single Shot Decomposition Network ...

ID: 2509.18354v1 cs.CV, cs.AI, cs.LG, eess.IV, 62H35, 68T07, 62M40, 68T45, I.2.6; I.2.10; I.4.6; I.4.8; I.5.1; I.5.4

arXiv PDF

📄 Accurate Thyroid Cancer Classification using a Novel Binary Pattern Driven Local Discrete Cosine Transform Descriptor

2025-09-24

Авторы:

Saurabh Saini, Kapil Ahuja, Marc C. Steinbach, Thomas Wick

#### Контекст Тиреоидный рак является опасной заболеванием, требующим точного диагностического подхода. Особенностью данного рака является сложность выделения текстурных признаков из ультразвуковых изображений, из-за сложной анатомии щитовидной железы. Традиционные методы часто недостаточно точны и не подходят для автоматического классификации. В нашей работе мы разрабатываем новую систему компьютерной томографии (CAD) для точной классификации тиреоидного рака, с фокусом на эффективной фильтрации и выделении признаков. #### Метод Мы предлагаем новую методологию, которая объединяет несколько популярных методов выделения текстурных признаков. Основной дескриптор — Local Discrete Cosine Transform (LDCT), известный за высокую точность в выделении текстурных признаков в области, напоминающих текстуры. Для улучшения точности и нормализации сигнала мы используем еще один дескриптор — Improved Local Binary Pattern (ILBP), который известен своей высокой устойчивостью к шумам. Наша новая комбинированная методика, которую мы назвали Binary Pattern Driven Local Discrete Cosine Transform (BPD-LDCT), позволяет эффективно извлекать признаки и уменьшать шум в изображениях. Для классификации используется нелинейная SVM. #### Результаты Мы проверили нашу систему на двух публичных датасетах: TDID и AUITD. В первой стадии (фаза I), мы классифицировали тиреоидные ноды как благоприятные или неблагоприятные, получив температуры почти 100% на TDID и 97% на AUITD. Во второй стадии (фаза II), когда мы разделили малынки на TI-RADS (4) и TI-RADS (5), наша модель показала почти 100% точность на TDID и 99% на AUITD. Эти результаты подтверждают высокую точность системы в распознавании тиреоидного рака. #### Значимость Наша система может применяться в различных областях медицины, включая диагностику тиреоидного рака. Она предлагает не только высокую точность, но и высокую устойчивость к шумам, что делает ее привлекательной для клинического применения. Также, она может использоваться для улучшения диагностических процедур, уменьшая ошибки в ручной классификации. #### Выводы Мы показали, что наша BPD-LDCT методика эффективна для классификации тиреоидного рака. Мы планируем продолжить работу над улучшением модели, включая использование глубоких нейронных сетей и анализ дополнительных датасетов для повышения общей универсальности системы.

Annotation:

In this study, we develop a new CAD system for accurate thyroid cancer classification with emphasis on feature extraction. Prior studies have shown that thyroid texture is important for segregating the thyroid ultrasound images into different classes. Based upon our experience with breast cancer classification, we first conjuncture that the Discrete Cosine Transform (DCT) is the best descriptor for capturing textural features. Thyroid ultrasound images are particularly challenging as the gland i...

ID: 2509.16382v1 cs.CV, cs.LG, eess.IV, I.2.1; I.5.2

arXiv PDF

📄 DocIQ: A Benchmark Dataset and Feature Fusion Network for Document Image Quality Assessment

2025-09-24

Авторы:

Zhichao Ma, Fan Huang, Lu Zhao, Fengjun Guo, Guangtao Zhai, Xiongkuo Min

## Контекст Исследование документного изображения качества оценки (DIQA) является ключевым аспектом для различных приложений, таких как оптическое распознавание символов (OCR), восстановление документов и оценка систем обработки документов. Однако существуют ограничения в существующих данных и методах, которые могут привести к неточности в оценке качества. Таким образом, требуется новый подход для создания более точных и эффективных моделей оценки качества. Целью данного исследования является разработка нового широкомасштабного субъективного датасета DIQA-5000, а также разработка модели оценки, которая может обеспечить более точную оценку качества в ситуациях, где требуется сократить вычислительные затраты. ## Метод Для построения датасета DIQA-5000 были использованы 500 реальных документов, которые были изменены с использованием различных техник улучшения изображений. Каждое измененное изображение было оценено 15 субъектов по трем разным аспектам: общему качеству, четкости и фидлити красного цвета. Эти оценки были использованы для построения нового DIQA-двухмерной модели. Модель основывается на проектировании модуля Feature Fusion Network, который использует низкоуровневые и высокоуровневые визуальные признаки для оценки качества документа. Специальная архитектура Feature Fusion Network позволяет модели предсказывать распределения качества по каждому измерению, что позволяет ей более точно учитывать различные аспекты качества документа. ## Результаты Эксперименты были проведены на двух датасетах: DIQA-5000 и датасете, связанном с оценкой качества для OCR. В результатах показано, что модель Feature Fusion Network превосходит существующие модели оценки качества изображений по точности и эффективности. Особенно заметны улучшения в ситуациях, когда необходимо работать с низкорезольвентными изображениями, так как модель способна эффективно использовать документные шаблоны для сохранения качества оценки при уменьшении разрешения. ## Значимость Модель Feature Fusion Network может быть применена в различных приложениях, таких как OCR-системы, восстановление документов и оценка качества документов в реальных условиях. Она предлагает более высокую точность и эффективность по сравнению с традиционными моделями, что может существенно улучшить производительность в ситуациях, где требуется оценивать качество документов. Это также открывает новые возможности для будущих исследований в области оценки качества изображений в документах. ## Выводы В результате данного исследования был создан новый DIQA-датасет DIQA-5000, который предлагает широкую гамму реальных документов с различными искажениями. Также была разработана модель Feature Fusion Network, которая использует Feature Fusion Module

Annotation:

Document image quality assessment (DIQA) is an important component for various applications, including optical character recognition (OCR), document restoration, and the evaluation of document image processing systems. In this paper, we introduce a subjective DIQA dataset DIQA-5000. The DIQA-5000 dataset comprises 5,000 document images, generated by applying multiple document enhancement techniques to 500 real-world images with diverse distortions. Each enhanced image was rated by 15 subjects ac...

ID: 2509.17012v1 cs.CV, cs.LG, eess.IV

arXiv PDF

Показано 31 - 40 из 56 записей