📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Label Uncertainty for Ultrasound Segmentation

2025-08-23

Авторы:

Malini Shivaram, Gautam Rajendrakumar Gare, Laura Hutchins, Jacob Duplantis, Thomas Deiss, Thales Nogueira Gomes, Thong Tran, Keyur H. Patel, Thomas H Fox, Amita Krishnan, Deva Ramanan, Bennett DeBoisblanc, Ricardo Rodriguez, John Galeotti

## Контекст Медицинская имагинг стал важной частью диагностики и лечения многих заболеваний. Одна из самых распространенных задач в этой области — сегментация областей интереса на имажах, таких как легочные ультразвуковые сканы (LUS). Однако существуют серьезные вызовы, связанные с тем, что эти задачи часто требуют интерпретации интервьювером, что приводит к несогласованности в аннотации данных. Например, в LUS часто встречаются области с значительной неоднозначностью, что делает задачу аннотации сложной даже для опытных клиников. Эта неоднозначность приводит к проблеме **label uncertainty**, которая влияет на качество обучения и моделирования AI. Мы предлагаем новый подход, который использует **per-pixel confidence values**, представленные экспертами во время аннотации, для точной моделирования этой неопределенности и улучшения сегментационных моделей. ## Метод Мы предлагаем **novel annotation protocol**, в котором клиники указывают не только лейблы, но и **confidence values** для каждого пикселя. Эти значения представляют собой уверенность клиников в том, что пиксель принадлежит той или иной категории. Мы используем эти показатели в тренировочном процессе AI-моделей вместо обычных лейблов. Наше решение включает в себя **training pipeline**, где алгоритмы обучаются на сгенерированных лейблах с учетом уверенности клиников. Мы также изучаем различные **thresholding approaches** для работы с этими лейблами, что позволяет контролировать точность во время обучения. Этот подход позволяет не только улучшить сегментацию, но и демонстрировать значительные положительные результаты на задачах клинического применения. ## Результаты Мы провели эксперименты на данных LUS, используя различные подходы к обработке уверенности в аннотациях. Наши результаты показывают, что **high confidence thresholds** (например, 60%) дают значительно лучшие результаты по сравнению с низкими порогами (например, 50%). Мы также демонстрируем, что модели, обученные на этих уверенных пикселях, не только показывают лучшую сегментацию, но и позволяют предсказать клинически важные параметры: **S/F oxygenation ratio**, классификацию изменений в S/F ratio и предсказание 30-дневного перепоступления пациентов в больницу. Эти результаты подтверждают, что **confidence-aware training** не только улучшает качество сегментации, но и позволяет моделям выполнять критичные задачи в медицинской практике. ## Значимость Наш подход может быть применен в различных областях медицинской имагинга, где неоднозначность в аннотации является общей проблемой. Это включает LUS, которая часто используется для оценки респираторных заболеваний. Особый потенциал виден в улучшении **downstream clinical tasks**, таких как оценка индекса S/F и прогнозирова

Annotation:

In medical imaging, inter-observer variability among radiologists often introduces label uncertainty, particularly in modalities where visual interpretation is subjective. Lung ultrasound (LUS) is a prime example-it frequently presents a mixture of highly ambiguous regions and clearly discernible structures, making consistent annotation challenging even for experienced clinicians. In this work, we introduce a novel approach to both labeling and training AI models using expert-supplied, per-pixel...

ID: 2508.15635v1 eess.IV, cs.AI, cs.CV, cs.LG, stat.ML

arXiv PDF

📄 3D Cardiac Anatomy Generation Using Mesh Latent Diffusion Models

2025-08-22

Авторы:

Jolanta Mozyrska, Marcel Beetz, Luke Melas-Kyriazi, Vicente Grau, Abhirup Banerjee, Alfonso Bueno-Orovio

#### Контекст Трёхмерные модели сердечной анатомии широко применяются в медицинских исследованиях, например, для виртуальных клинических испытаний, электромеханических симуляций и обучения паттернов машинного обучения. Однако существуют проблемы в создании разнообразных и реалистичных моделей сердечных анатомий, которые необходимы для точных индивидуализированных моделей. Недостаток данных и сложность моделирования сердечных форм приводят к ограниченности по существующим методам. В данном исследовании рассматривается новая подходная технология, основанная на Latent Diffusion Models (LDM), для генерации трёхмерных сетчаток (meshes) сердечных анатомий. #### Метод Для решения этой проблемы предложена новая LDM-архитектура — MeshLDM. Эта модель основывается на принципах diffusion models, но адаптирована для генерации 3D-сетчаток. MeshLDM использует методы глубокого обучения для привязки сетчаток к текстурным признакам, что позволяет создавать детальные и разнообразные модели. Использованные данные включают набор 3D-сетчаток сердечных анатомий, полученных из клинических данных пациентов с острым миокардиальным инфарктом. Эксперименты проводились на оценке качества моделей с помощью клинических и трёхмерных показателей. #### Результаты MeshLDM показал высокую точность в генерации сердечных систем. Модель хорошо повторяет различные фазы сердечного ритма — от релаксации до сжатия. Ключевой результат — разница в среднем размере моделей составила только 2.4% по сравнению с золотым стандартом. Этот результат указывает на то, что MeshLDM генерирует модели, которые имеют клинически важные меры и детали. Также проведено анализирование разнообразия генерируемых моделей, что подтвердило высокую диверсификацию в результатах. #### Значимость Этот подход имеет значительное значение в сфере искусственных сердечных моделей. Он может быть применён в таких областях, как виртуальные клинические испытания, моделирование электромеханических процессов и улучшение данных для машинного обучения. Улучшение точности и разнообразия моделей позволяет повысить качество индивидуализированных медицинских решений. MeshLDM также может способствовать созданию новых моделей для органов, где требуется высокая точность. #### Выводы В итоге, MeshLDM доказал свою эффективность в генерации трёхмерных моделей сердечных анатомий. Данный метод может быть распространён на другие области трёхмерного моделирования в медицине. Будущие исследования будут нацелены на расширение модели для других типов сердечных анатомий и интеграцию с другими методами машинного обучения для повышения точности и применения в реаль

Annotation:

Diffusion models have recently gained immense interest for their generative capabilities, specifically the high quality and diversity of the synthesized data. However, examples of their applications in 3D medical imaging are still scarce, especially in cardiology. Generating diverse realistic cardiac anatomies is crucial for applications such as in silico trials, electromechanical computer simulations, or data augmentations for machine learning models. In this work, we investigate the applicatio...

ID: 2508.14122v1 eess.IV, cs.CV, cs.LG, q-bio.TO

arXiv PDF

📄 Vision Transformers for Kidney Stone Image Classification: A Comparative Study with CNNs

2025-08-22

Авторы:

Ivan Reyes-Amezcua, Francisco Lopez-Tiro, Clement Larose, Andres Mendez-Vazquez, Gilberto Ochoa-Ruiz, Christian Daul

## Контекст Определение типа и размера каменной заложения в почках является ключевым этапом в персонализированном лечении больных почечным камнем и в предотвращении повторного возникновения этого заболевания. Однако этот процесс часто сталкивается с проблемами, такими как разнообразие видов камней и их форм, а также усложняется вариативностью импульсивных изображений, полученных при видеоэндоскопии. Несмотря на то, что нейронные сети типа CNN (Convolutional Neural Networks) доказали свою эффективность в задачах классификации изображений, они имеют ограниченную способность отслеживать длинные зависимости в изображениях. В свете этих проблем, цель данного исследования заключается в сравнительном анализе того, насколько новые модели Vision Transformers (ViTs) способны выполнять классификацию камней в почках, сравнивая их с существующими моделями на основе CNN. ## Метод Для решения проблемы классификации камней в почках были использованы два разных выборки данных: - **Ex vivo данные**: содержали изображения, полученные с использованием CCD-камеры и гибкого уретероскопа. - **Mixed-view данные**: включали изображения, сфотографированные с различных углов с использованием CCD-камеры. Модель Vision Transformer (ViT) была сравнивана с моделью ResNet50. Использование ViT-large модели, подготовленной на ImageNet-21k, позволило проводить эксперименты с распространенными изображениями. Для обучения и оценки производительности сетей использовались метрики, такие как точность (accuracy), F1-score, precision и recall. ## Результаты Результаты сравнительного тестирования показали значительные преимущества модели ViT по сравнению с CNN: - **В подвыборке Section patches from endoscopic images**: ViT-large достигло 95.2% точности и 95.1% F1-score, в то время как ResNet50 показал 64.5% и 59.3%, соответственно. - **В подвыборке Mixed-view от CCD-камеры**: ViT-large достиг 87.1% точности, в то время как ResNet50 показал 78.4%. Такие результаты указывают на то, что ViT модели превосходят CNN в области классификации камней в почках, особенно в условиях сложной визуальной среды. ## Значимость Результаты данного исследования имеют большое значение в следующих областях применения: - **Медицинская диагностика**: Значительное улучшение точности классификации камней в почках может положительно сказаться на точности диагностики и выборе лучшего лечения. - **Персонализированное лечение**: Улучшенная точность может привести к более эффективному управлению заболеванием и предотвращению повторного возникновения каменной заложения. - **Обработка изображений**: Модели ViT могут иметь более широкое применение в обработке изображений, включая другие медицинские и не только применения,

Annotation:

Kidney stone classification from endoscopic images is critical for personalized treatment and recurrence prevention. While convolutional neural networks (CNNs) have shown promise in this task, their limited ability to capture long-range dependencies can hinder performance under variable imaging conditions. This study presents a comparative analysis between Vision Transformers (ViTs) and CNN-based models, evaluating their performance on two ex vivo datasets comprising CCD camera and flexible uret...

ID: 2508.13461v2 cs.CV, cs.LG

arXiv PDF

📄 Accelerating Image Classification with Graph Convolutional Neural Networks using Voronoi Diagrams

2025-08-22

Авторы:

Mustafa Mohammadi Gharasuie, Luis Rueda

#### Контекст Изображения широко используются в различных областях, таких как медицина, спутниковая съемка, интернет-реклама и транспортная система. Однако анализ изображений часто требует высокого вычислительного билета, что затрудняет реализацию эвристических алгоритмов и затрату времени на моделирование. Одним из ключевых аспектов в обработке изображений является классификация изображений. Она заключается в присвоении каждого изображения определенного класса на основе его контента. Одним из самых популярных подходов к решению этой задачи является использование сверточных нейронных сетей (CNN). Однако, несмотря на их высокую точность, CNN расходятся в вычислительных ресурсах и могут сталкиваться с проблемами доступности в некоторых сценариях. Недавние развития в области графовых нейронных сетей (GCNs) предложили новый подход к обработке графовых данных. Наша исследовательская группа решила использовать GCNs для работы с изображениями, объединив их с диаграммами Вороного, чтобы улучшить эффективность процесса классификации. Этот подход позволяет лучше описывать изображения в терминах графов, чтобы улучшить скорость обработки и точность классификации. #### Метод Мы предлагаем новую модель, называемую Нормализованной Вороного Графовой Сверточной Сетью (NVGCN). Эта модель использует диаграмму Вороного для представления изображений в виде графов. На входе NVGCN получает изображение, преобразованное в граф, где пиксели или регионы представлены вершинами графа. Затем граф упрощается с помощью Delaunay-триангуляции, чтобы создать более простой представления. NVGCN использует нормализованное взвешивание для вычисления весов узлов в графе, чтобы повысить точность классификации и сократить время вычислений. Этот подход имеет дополнительные преимущества по сравнению с существующими моделями CNN, так как он может быстрее обрабатывать сложные сцены и типы классов. #### Результаты Мы проверили нашу модель на нескольких задачах классификации изображений, в том числе CIFAR-10, CIFAR-100, и ImageNet. Для сравнения, мы использовали стандартные показатели точности классификации и времени работы. Наши результаты показали, что NVGCN превосходит CNN в точности классификации, особенно в сложных сценариях и задачах классификации сетчатых данных. Благодаря использованию диаграмм Вороного, NVGCN может быстрее выполнять графовые операции, что улучшает время обучения и классификации. Например, в задаче классификации ImageNet NVGCN показала значительное улучшение в скорости классификации, относительно CNN, без потери

Annotation:

Recent advances in image classification have been significantly propelled by the integration of Graph Convolutional Networks (GCNs), offering a novel paradigm for handling complex data structures. This study introduces an innovative framework that employs GCNs in conjunction with Voronoi diagrams to peform image classification, leveraging their exceptional capability to model relational data. Unlike conventional convolutional neural networks, our approach utilizes a graph-based representation of...

ID: 2508.14218v1 cs.CV, cs.LG

arXiv PDF

📄 HandCraft: Dynamic Sign Generation for Synthetic Data Augmentation

2025-08-22

Авторы:

Gaston Gustavo Rios

## Контекст Sign Language Recognition (SLR) — ключевая задача в области робототехники, искусственного интеллекта и телерика. Однако она сталкивается с значительными проблемами, связанными с недостатком высококачественных данных для обучения. Ограниченность данных снижает точность моделей и приводит к их неполному пониманию сложных жестов и комбинаций. Это ограничивает возможности применения SLR в реальной жизни, особенно в сферах, где точность критична, таких как здравоохранение, образование и связь. Этот труд рассматривает проблему недостатка данных и предлагает новую подходящую модель динамического знаками генерации для улучшения тренировочных данных в SLR. ## Метод Методология предлагаемой модели основывается на технологии CMLPe, которая обеспечивает эффективную генерацию динамических знаков в реальном времени. Модель работает с методом синтетической моделирования жестов, синтезируя качественные данные для разнообразия и улучшения тренировочных данных. Она интегрирует архитектуру Transformer для распознавания сигналов и обеспечивает высокую точность, даже при ограниченных ресурсах. Это новый подход, который предлагает легковесный и эффективный классификатор для решения проблемы недостатка данных в SLR. ## Результаты Эксперименты проводились на двух сенсорных датасетах, LSFB и DiSPLaY, с использованием классификаторов Mamba-SL и Transformer-SL. Результаты показали, что синтетическая модель данных не только улучшает точность распознавания, но и повышает устойчивость моделей к тому, что изменения в данных. Напротив, использование синтетических данных вместе с другими методами повышает точность распознавания даже в идеальных случаях. Например, на датасете LSFB, модель достигла 98,5% точности, что является новым рекордом. ## Значимость Предлагаемая модель имеет широкое применение в SLR, где удобство и эффективность ключевые. Она может применяться для создания высокоточных систем распознавания знаков в разных сферах, включая образование, здравоохранение и сетевые интерфейсы. Модель предлагает новые горизонты в синтетическом моделировании знаков, снижая затраты и усилия на сбор и отбор данных. Будущие исследования будут ориентированы на улучшение модели, увеличение её масштабируемости и её применение в других языках знаков. ## Выводы Предложенная модель HandCraft демонстрирует совершенно новый подход к синтетическому знакованию для улучшения SLR. Она доказывает, что динамические знаки могут быть эффективно генерированы с помощью CMLPe, чтобы решить проблему недостатка данных. Наша работа демонстрирует, что модель является полезной для различных областей и может быть ис

Annotation:

Sign Language Recognition (SLR) models face significant performance limitations due to insufficient training data availability. In this article, we address the challenge of limited data in SLR by introducing a novel and lightweight sign generation model based on CMLPe. This model, coupled with a synthetic data pretraining approach, consistently improves recognition accuracy, establishing new state-of-the-art results for the LSFB and DiSPLaY datasets using our Mamba-SL and Transformer-SL classifi...

ID: 2508.14345v1 cs.CV, cs.LG

arXiv PDF

📄 Improving OCR using internal document redundancy

2025-08-22

Авторы:

Diego Belzarena, Seginus Mowlavi, Aitor Artola, Camilo Mariño, Marina Gardella, Ignacio Ramírez, Antoine Tadros, Roy He, Natalia Bottaioli, Boshra Rajaei, Gregory Randall, Jean-Michel Morel

## Контекст Текущие системы OCR (Optical Character Recognition, зрительный распознаватель знаков) основываются на глубоких нейронных сетях, обученных большим количеством данных. Они достаточно эффективны в обнаруживающих задачах, однако при работе с некачественными документами сталкиваются с проблемами. Это особенно важно для документов с низким внутридоменным вариативностью, но высокой междоменной вариативностью, таких как 17-й век до 20-го века европейские газеты или Уругвайские военные архивы. В таком контексте существующие OCR-системы не вполне используют внутридокументную репликацию (redundancy), что может улучшить распознавание низкокачественных императивов. Данная работа предлагает метод улучшения OCR, основанный на группировании и редактировании геометрических характеристик текста. ## Метод Предлагаемый подход основывается на расширенной гауссовой смесевой модели (Extended Gaussian Mixture Model, EGMM). Ключевым отличием является алгоритм, который альтернативно применяет экспектационно-максимизационный (EM) метод и процесс реалингации кластеров (intra-cluster realignment). Это позволяет улучшить точность кластеризации, обнаруживать и корректировать ошибки OCR. Более того, для каждого кластера осуществляется статистическое тестирование нормальности, чтобы гарантировать высокую точность в результатах. Метод используется в неучитываемых режимах и не требует дополнительных данных для обучения. ## Результаты Результаты показали значительные улучшения в распознавании текста для специфичных архивов. Например, для Уругвайских военных документов из 17-го века и европейских газет 17-20 веков, где данные пострадали от старения и деградации, метод показал до 12% улучшений в сравнении с оригинальными OCR-системами. Эти результаты были получены на основе реальных документов в разных уровнях деградации, включая размытые и поврежденные тексты. Обнаружено, что внутридокументная репликация значительно повышает точность, особенно в случаях, когда данные значительно разрушены. ## Значимость Этот подход может применяться в различных областях, таких как хранение исторических документов, цифровая библиотека, архивирование новостной отчетности. Основные преимущества заключаются в улучшении точности распознавания, особенно для низкокачественных документов. Будущие работы будут направлены на решение проблем с многоязычными документами и повышению скорости обработки больших датасетов. ## Выводы Предложенный метод демонстрирует эффективность в улучшении распознавания низкокачественных документов с помощью использования внутридокументной репликации и расширенной гаус

Annotation:

Current OCR systems are based on deep learning models trained on large amounts of data. Although they have shown some ability to generalize to unseen data, especially in detection tasks, they can struggle with recognizing low-quality data. This is particularly evident for printed documents, where intra-domain data variability is typically low, but inter-domain data variability is high. In that context, current OCR methods do not fully exploit each document's redundancy. We propose an unsupervise...

ID: 2508.14557v1 cs.CV, cs.LG, eess.IV

arXiv PDF

📄 ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine

2025-08-22

Авторы:

Junying Chen, Zhenyang Cai, Zhiheng Liu, Yunjin Yang, Rongsheng Wang, Qingying Xiao, Xiangyi Feng, Zhan Su, Jing Guo, Xiang Wan, Guangjun Yu, Haizhou Li, Benyou Wang

#### Контекст Классические знания о традиционной китайской медицине (TCM), основанные на глубокой теоретической базе, весьма ценны для понимания и корректного применения этого направления в лечении. Однако существуют две основные проблемы: отсутствие достаточного количества высококачественных данных для обучения и высокая многомодальность TCM, включающей в себя такие сенсорные модели, как видение, слух, осязание и даже сенсорное восприятие пульса. Традиционные трансформации текста не могут успешно решить эти задачи. Из-за этого LLMs (large language models), несмотря на их успех в других областях, пока не применимы для решения проблем в области TCM. Мы предлагаем ShizhenGPT - первый мультимодальный LLM, разработанный специально для решения проблем в области Традиционной китайской медицины. #### Метод ShizhenGPT разрабатывается на основе предварительной обученной модели LLMs, которая получила многомодальные данные, включая текстовые данные, изображения, аудио и даже физиологические сигналы. Мы сформировали одну из крупнейших коллекций данных в сфере Традиционной китайской медицины, состоящую из 100 ГБ текстовых данных и 200 ГБ мультимодальных данных. Данные включают 1,2 миллиона изображений, 200 часов аудио и физиологические сигналы. Модель ShizhenGPT была обучена на этих данных с использованием предварительной обученной модели LLMs и инструментами обучения с помощью инструкций. Это позволило модели не только получать глубокие знания о Традиционной китайской медицине, но также производить мультимодальный анализ. #### Результаты Мы проверили ShizhenGPT на крупнейших национальных экзаменах по квалификации в области Традиционной китайской медицины. Также был создан визуальный бенчмарк для оценки визуального распознавания и диагностики лекарственных средств. Эксперименты показали, что ShizhenGPT оказалась выигрышной в сравнении с соревнующимися моделями различных масштабов и даже с более крупными моделями, которые имеют доступ к большим ресурсам. Особенно важно отметить, что ShizhenGPT проявила лучшую способность к визуальному распознаванию в TCM, включая распознавание медикаментов по их визуальным свойствам, и демонстрирует гармоничное восприятие данных в разных модальностях, таких как звук, пульс, запах и визуальные сигналы. #### Значимость Мы видим широкие возможности применения ShizhenGPT в области Традиционной китайской медицины. Эта модель может использоваться в области диагностики, лечения, учебных программ и проектах по изучению Традиционной китайской медицины. Широкий спектр модальностей, которые модель может об

Annotation:

Despite the success of large language models (LLMs) in various domains, their potential in Traditional Chinese Medicine (TCM) remains largely underexplored due to two critical barriers: (1) the scarcity of high-quality TCM data and (2) the inherently multimodal nature of TCM diagnostics, which involve looking, listening, smelling, and pulse-taking. These sensory-rich modalities are beyond the scope of conventional LLMs. To address these challenges, we present ShizhenGPT, the first multimodal LLM...

ID: 2508.14706v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 Automated Cervical Cancer Detection through Visual Inspection with Acetic Acid in Resource-Poor Settings with Lightweight Deep Learning Models Deployed on an Android Device

2025-08-21

Авторы:

Leander Melroy Maben, Keerthana Prasad, Shyamala Guruvare, Vidya Kudva, P C Siddalingaswamy

#### Контекст Кожный рак является одной из самых распространенных форм рака в женской популяции и приводит к большому числу заболеваний и смертей в низкоингредиентных и среднеингредиентных странах, несмотря на то, что имеет предсказуемую и достаточно простую терапию. Опытные исследования показали, что профилактические меры, включающие в себя публичные скрининговые программы, могут значительно снизить частоту и поводы для смерти от кожного рака. Несмотря на доступность различных тестов, визуальная инспекция с применением якорного кислота (VIA) является наиболее бюджетным и простым в применении в средствах борьбы с раком в низкоингредиентных регионах. VIA требует вмешательства квалифицированного медиком и является подлежащим субъективному осмотру. Автоматизация VIA с помощью искусственного интеллекта может устранить эту субъективность и позволить расширить применение скрининга менее квалифицированным медицинским работникам. В настоящей работе описывается легковесное нейросетевое решение, которое использует EfficientDet-Lite3 для обнаружения регионов интереса (ROI) и модель MobileNet-V2 для классификации, включенных в систему, работающую на андроид-устройстве. Эта система предназначена для эксплуатации в удаленных областях и предоставляет результаты в режиме реального времени, не требуя высококвалифицированных специалистов, специальных лабораторий или высокоскоростного интернета. #### Метод Авторы предлагают сочетание двух нейросетевых моделей, работающих вместе для решения задачи автоматизации VIA. EfficientDet-Lite3 используется для выделения регионов интереса (ROI) на изображениях, полученных в ходе процедуры VIA. Для классификации этих регионов используется модель MobileNet-V2, обученная на многочисленных примерах, которая определяет присутствие раковых симптомов. Архитектура системы разработана с учетом требований низкоингредиентных регионов, чтобы обеспечить быструю и эффективную обработку на устройствах с ограниченными ресурсами. Для обучения и оценки модели использовались данные, собранные в ходе скрининговых программ VIA. Эксперименты проводились на наборе данных, включающем изображения с различными уровнями сложности и различными степенями выраженности раковых заболеваний. #### Результаты На тестовом наборе данных модель демонстрирует высокую точность (92.31%), высокую чувствительность (98.24%) и специфичность (88.37%). Эти показатели подтверждают то, что система может применяться в удаленных медицинских услугах, не требуя высококвалифицированных специалистов. Кроме того, модель работает быстро, что позволяет использовать е

Annotation:

Cervical cancer is among the most commonly occurring cancer among women and claims a huge number of lives in low and middle-income countries despite being relatively easy to treat. Several studies have shown that public screening programs can bring down cervical cancer incidence and mortality rates significantly. While several screening tests are available, visual inspection with acetic acid (VIA) presents itself as the most viable option for low-resource settings due to the affordability and si...

ID: 2508.13253v1 eess.IV, cs.CV, cs.LG, 68T07, 92C55, 68T45, I.4.9; J.3; I.2.10; I.2.6

arXiv PDF

📄 CLoE: Curriculum Learning on Endoscopic Images for Robust MES Classification

2025-08-21

Авторы:

Zeynep Ozdemir, Hacer Yalim Keles, Omer Ozgur Tanriover

#### Контекст Оценка степени заболевания язвенной колитиса (UC) с помощью эндоскопических изображений является ключевым элементом в диагностике и контроле заболевания. Одним из наиболее часто используемых масштабов для оценки степени воспаления является Mayo Endoscopic Subscore (MES). Тем не менее, классификация по MES сталкивается с рядовыми трудностей, включая неточности в метках, вызванные интер-операторской различием, и алгоритмическими проблемами, связанными с ординальной природой метода. Для решения этих проблем мы предлагаем CLoE — модель, основанную на учебе по группировке, которая учитывает не только неопределенность меток, но и ординальную структуру системы оценки. #### Метод CLoE использует простой учителя, оценивающий надежность меток на основе легковесной модели, обученной на данных Boston Bowel Preparation Scale (BBPS). Эта модель строит приоритетную очередность образов, от "чистых" (понятных) до "грязных" (шумных). Эта очередность используется для создания курсивного обучения, где проще образы обрабатываются первыми, а сложные — позднее. Для улучшения устойчивости к шумам вводится инновационная аугментация ResizeMix, которая объединяет две изображения в одно, заставляя сеть изучить области, отличающиеся по степени разрешения и детализации. Модель поддерживает использование двух архитектур: сверточных сетей (ConvNeXt-Tiny) и трансформеров. #### Результаты Проведенные эксперименты на двух наборах данных — LIMUC и HyperKvasir — показали, что CLoE превосходит существующие подходы. Например, ConvNeXt-Tiny с CLoE достигает до 82.5% точности и QWK (Quadratic Weighted Kappa) 0.894 на LIMUC с минимальными затратами ресурсов. Эти результаты подтверждают эффективность CLoE в обработке шумных меток и улучшении классификации ординальных классов. #### Значимость CLoE может быть использована в различных областях, где требуется классификация под разными условиями шума в метках или при ординальной природе данных. Ее применение может повысить точность диагностики в медицине, а также в других областях, где имеются шумные метки или неоднородные данные. Значительным преимуществом является уменьшение времени обучения и увеличение точности без необходимости использовать дорогие модели. #### Выводы CLoE демонстрирует успешное использование курсивного обучения для значительного повышения точности работы моделей в задачах классификации с шумовыми метками. Будущие исследования будут посвящены расширению применения CLoE к другим ситуациям, включая несвязанные задачи, и изучению возможности улучшения методов регуляризации и аугментации.

Annotation:

Estimating disease severity from endoscopic images is essential in assessing ulcerative colitis, where the Mayo Endoscopic Subscore (MES) is widely used to grade inflammation. However, MES classification remains challenging due to label noise from inter-observer variability and the ordinal nature of the score, which standard models often ignore. We propose CLoE, a curriculum learning framework that accounts for both label reliability and ordinal structure. Image quality, estimated via a lightwei...

ID: 2508.13280v1 cs.CV, cs.LG

arXiv PDF

📄 DAASH: A Meta-Attack Framework for Synthesizing Effective and Stealthy Adversarial Examples

2025-08-21

Авторы:

Abdullah Al Nomaan Nafi, Habibur Rahaman, Zafaryab Haider, Tanzim Mahfuz, Fnu Suya, Swarup Bhunia, Prabuddha Chakraborty

## Контекст Объектом исследования являются атаки на нейронные сети в белом ящике с применением норм-ограниченных примеров. Известно, что многие существующие методы генерирования таких примеров недостаточно эффективны и не соответствуют человеческому восприятию. Это приводит к проблемам в эффективности атак и человеческому восприятию. Целью данного исследования является разработка метода, который бы способствовал созданию эффективных и понятных для человека примеров, а также предоставил бы новую модель для тестирования устойчивости нейронных сетей. ## Метод Авторы предлагают DAASH — разработку мета-атаки, основанной на стратегическом сочетании нескольких норм-ограниченных методов. Метод работает в многоэтапном режиме, где каждый этап агрегирует кандидаты от нескольких базовых атак с использованием адаптивных весов. При этом применяется новая мета-функция потерь, которая динамически стимулирует соотношение между уровнем минимизации классификационной ошибки и визуальной дисторсии. Это позволяет DAASH адаптироваться к особенностям каждой стадии и оптимизировать результат. ## Результаты Для оценки эффективности DAASH проводились эксперименты на Adversarially Trained Models на синтетичных данных CIFAR-10, CIFAR-100 и ImageNet. Результаты показали, что DAASH значительно превосходит состояние технологии, измеряемой по уровню успешности атак и визуальной качеству. Так, на CIFAR-10 и CIFAR-100 DAASH демонстрирует увеличение успешности атаки до 20.63%, при этом показатели SSIM, LPIPS и FID улучшаются на 11%, 0.015 и 5.7 соответственно. Это демонстрирует лучшую совместимость с человеческим восприятием и эффективность в атаке. ## Значимость Результаты DAASH широко могут применяться в сферах тестирования устойчивости нейронных сетей, а также в разработке защитных методов. За счет использования нового подхода в генерации примеров, DAASH позволяет сократить время на разработку новых методов атаки, а также повысить уровень достоверности экспериментов. Это может стать важным инструментом для развития теоретических и практических аспектов систем безопасности. ## Выводы DAASH — первый мета-атака, который значительно улучшает качество генерируемых примеров и их эффективность в условиях адаптивных защитных методов. Будущие исследования могут направляться на расширение многоуровневой модели, а также применение данного подхода к другим задачам, таким как медицинские изображения и распознавание речи.

Annotation:

Numerous techniques have been proposed for generating adversarial examples in white-box settings under strict Lp-norm constraints. However, such norm-bounded examples often fail to align well with human perception, and only recently have a few methods begun specifically exploring perceptually aligned adversarial examples. Moreover, it remains unclear whether insights from Lp-constrained attacks can be effectively leveraged to improve perceptual efficacy. In this paper, we introduce DAASH, a full...

ID: 2508.13309v1 cs.CV, cs.LG

arXiv PDF

1
2
72
73
74
75
76
83
84

Показано 731 - 740 из 835 записей