📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Spectral and Rhythm Feature Performance Evaluation for Category and Class Level Audio Classification with Deep Convolutional Neural Networks

2025-09-11

Авторы:

Friedrich Wolf-Monheim

## Контекст Аудиоданные широко используются в различных областях, таких как музыка, речь и среды. Одним из основных задач было решение классификации аудиозаписей по категориям и классам. Для этого применяются различные методы, включая сверточные нейронные сети (CNNs). Однако существуют различия в качестве и точности классификации в зависимости от выбранных функций. Распространенные функции включают mel-scaled spectrograms, MFCC, cyclic tempograms и др. Чтобы определить, какие функции показывают лучший результат, необходимо провести подробный анализ их результатов с использованием CNN. ## Метод Для анализа был использован диапазон функций, включая mel-scaled spectrograms, MFCC, cyclic tempograms и CQT chromagrams. Эти функции были использованы для построения многоканальных изображений в виде входных данных для сверточной нейронной сети. Набор данных ESC-50, содержащий 2000 записей, использовался для тестирования. Оценивались метрики точности, полнота, реколл и F1-меру. CNN была обучена в рамках энд-то-энд-подхода, чтобы определить качество классификации по категориям и классам. ## Результаты По результатам экспериментов, mel-scaled spectrograms и MFCC показали лучший результат в качестве классификации по категориям и классам. Оба показали высокую точность и F1-меру. MFCC лучше всего показались для классификации по классам, в то время как spectrograms оказались эффективными в категоризации. Остальные функции (cyclic tempograms, CQT chromagrams) показали нижнее качество, заметно уступив лидерам. ## Значимость Эти результаты имеют большую значимость для применения CNN в аудиоклассификации. Функции, эффективны в этой работе, могут стать предпочтительными для классификации в различных областях, таких как музыка, речь и среды. Особенно важно использовать MFCC для классификации по классам, так как они показали лучшие результаты. Это может улучшить качество и точность автоматических систем классификации звука. ## Выводы В итоге, методы mel-scaled spectrograms и MFCC оказались наиболее эффективными для классификации аудиоданных по категориям и классам с использованием CNN. В будущем можно расширить исследования, включив дополнительные данные и алгоритмы, чтобы улучшить качество классификации и расширить представление о данных.

Annotation:

Next to decision tree and k-nearest neighbours algorithms deep convolutional neural networks (CNNs) are widely used to classify audio data in many domains like music, speech or environmental sounds. To train a specific CNN various spectral and rhythm features like mel-scaled spectrograms, mel-frequency cepstral coefficients (MFCC), cyclic tempograms, short-time Fourier transform (STFT) chromagrams, constant-Q transform (CQT) chromagrams and chroma energy normalized statistics (CENS) chromagrams ...

ID: 2509.07756v1 cs.SD, cs.AI, cs.CV, cs.LG, eess.AS

arXiv PDF

📄 Missing Fine Details in Images: Last Seen in High Frequencies

2025-09-10

Авторы:

Tejaswini Medi, Hsien-Yi Wang, Arianna Rampini, Margret Keuper

Раздел **Контекст** ------------------------------ ### Область исследования и мотивация Область исследования сосредотачивается на развитии систем, которые могут генерировать высококачественные и реалистичные изображения. Несмотря на успехы в области глубокого обучения, существуют значимые проблемы в сохранении тонких деталей и характеристик в генерируемых изображениях. В частности, большинство текущих моделей склонны потерять высокочастотную информацию, что приводит к сглаживанию и отсутствию реалистичных текстур. Это явление становится особенно заметным при генерации текстурных изображений, где неточности в высоких частотных компонентах могут повлиять на визуальный впечатление. Наша мотивация заключается в разработке метода, который может эффективно оптимизировать высокочастотные компоненты, сохранив глобальную структуру и реалистичность. ## **Метод** ------------------------------ ### Описание методологии Мы предлагаем **Wavelet-Based Frequency-Aware Variational Autoencoder (FA-VAE)**, новая архитектура, которая использует техники wavelet-анализа для разделения изображений на низкочастотные и высокочастотные компоненты. Фаза выделения формирует представление в виде глобальной и локальной структуры, что позволяет модели сосредотачиваться на тонких деталях без ущерба глобальной структуре. Мы также предлагаем новую функцию потерь, которая оптимизирует как низкочастотные, так и высокочастотные компоненты. Этот подход позволяет избежать сглаживания, которое часто встречается в традиционных VAE. Мы также используем подход с менее значительным переобучением, чтобы избежать ошибок в генерации. ### Технические решения и архитектура Наша модель состоит из двух основных модулей: **Wavelet Transform Module (WTM)** и **Frequency-Aware Decoder (FAD)**. WTM выделяет высокочастотные компоненты, которые затем обрабатываются FAD. Для обучения мы используем **Frequency-Aware Loss (FAL)**, который минимизирует ошибки как в низких, так и в высоких частотах. Мы также используем генеративную модель второго этапа, которая интегрирует наши полученные высокочастотные представления в существующую модель генерации изображений. ## **Результаты** ------------------------------ ### Описание экспериментов Мы провели эксперименты с использованием различных датасетов, включая текстурные изображения и лица. Мы сравнивали нашу модель с тремя популярными VAE-моделями, которые используются в современных генеративных моделях. Мы измеряли **PSNR** (Peak Signal-to-Noise Ratio), **SSIM** (Structural Similarity Index) и **LPIPS** (Learned Perceptual Image Patch Similarity) для оценки качества. Наши результаты показали, что FA-VAE превосходит существующие модели во всех метриках, особенно в области высокочастотных деталей. Мы также проверили

Annotation:

Latent generative models have shown remarkable progress in high-fidelity image synthesis, typically using a two-stage training process that involves compressing images into latent embeddings via learned tokenizers in the first stage. The quality of generation strongly depends on how expressive and well-optimized these latent embeddings are. While various methods have been proposed to learn effective latent representations, generated images often lack realism, particularly in textured regions wit...

ID: 2509.05441v2 cs.CV, cs.LG

arXiv PDF

📄 Near Real-Time Dust Aerosol Detection with 3D Convolutional Neural Networks on MODIS Data

2025-09-10

Авторы:

Caleb Gates, Patrick Moorhead, Jayden Ferguson, Omar Darwish, Conner Stallman, Pablo Rivas, Paapa Quansah

#### Контекст Область исследования связана с мониторингом аэрозолей в реальном времени, которая играет ключевую роль в устранении рисков для здоровья и обеспечении безопасности транспорта в условиях пылевых бурь. Несомненно, что пылевые бури являются серьезной проблемой, которая приводит к существенным последствиям для индивидуального здоровья, экономической активности и авиационной безопасности. Однако существуют технологические вызовы, связанные с быстрым обнаружением и определением структур пылевых зон на основе данных с сатиллетной сети MODIS (Moderate Resolution Imaging Spectroradiometer). Необходимость в реальном времени и точности в этой области стала мотивацией для разработки современных алгоритмов обработки изображений. #### Метод Методология основывается на использовании 3D конволюционных нейронных сетей для обнаружения пылевых аэрозолей на основе 36 банд данных MODIS. Эта сеть обучается на отдельных пикселях изображений, создавая при этом возможность определять между двумя типами облаков и поверхностными микрофеноменами. Для обработки информации, отсутствующей в некоторых пикселях, были применены простые методы нормализации и исправления пропусков. Область изображения, работающая с трехмерным входом, значительно повышает точность. Также был оптимизирован алгоритм обучения, что позволило значительно снизить время обучения (на 21 раз) и повысить производительность системы. #### Результаты На 17 независимых сценах данных MODIS, модель достигла точности приблизительно 0.92 и ошибки квадратичного среднего 0.014. Эксперименты показали, что модель обнаруживает пылевые аэрозоли с высокой точностью, особенно в ядрах пылевых масс. Были выявлены небольшие пропуски вдоль краев облаков, что может быть связано с ограничениями в разрешении изображений. Общий вывод показывает, что использование 3D конволюционных сетей, обученных на широких входных окнах, позволяет добиться высокой точности в определении пылевых зон. #### Значимость Инновационная технология может быть применена в различных областях, включая экологию, авиационное пространство, санитарную инженерию и землеустройство. Основным преимуществом является то, что модель обеспечивает быстрое и точное обнаружение пылевых зон, что позволяет уменьшить временные задержки и увеличить эффективность реагирования на эти явления. В крайней мере, модель может стать основой для развития более сложных алгоритмов, включая активность в сетях с внимательностью к деталям. #### Выводы На основе результатов можно сделать вывод, что модель 3D конволюционных нейронных сетей, работающая на базе MOD

Annotation:

Dust storms harm health and reduce visibility; quick detection from satellites is needed. We present a near real-time system that flags dust at the pixel level using multi-band images from NASA's Terra and Aqua (MODIS). A 3D convolutional network learns patterns across all 36 bands, plus split thermal bands, to separate dust from clouds and surface features. Simple normalization and local filling handle missing data. An improved version raises training speed by 21x and supports fast processing o...

ID: 2509.05887v1 cs.CV, cs.LG, eess.IV, 68T07, 86A32, I.2.6; I.5.4

arXiv PDF

📄 Imagining Alternatives: Towards High-Resolution 3D Counterfactual Medical Image Generation via Language Guidance

2025-09-10

Авторы:

Mohamed Mohamed, Brennan Nichyporuk, Douglas L. Arnold, Tal Arbel

#### Контекст Визуальные-языковые модели показали впечатляющие возможности генерировать 2D-изображения в различных условиях, но это возможно в большей степени благодаря имеющимся подготовленным моделям-основам. Однако в 3D-домене подобные модели очень ограничены, что ограничивает потенциал визуально-языковых моделей в генерировании высококачественных 3D-изображений. Это особенно важно в медицинской области, где требуется точное трехмерное моделирование, например, для исследования нервной системы. Несмотря на важность этих задач, пока не было достигнуто значительного прогресса в создании 3D-систем, которые бы могли генерировать индивидуальные медицинские изображения на основе естественного языка. Такие модели позволяли бы, например, исследовать здоровье мозга с разными медицинскими условиями или симулировать прогрессирование заболеваний. Наша работа сделала основной шаг к реализации этой цели, разрабатывая фреймворк для 3D-генерирования высококачественных 3D-изображений, нацеленных на синтезированных пациентов, используя свободную форму естественного языка. #### Метод Мы создали фреймворк, который расширяет современные 3D-диффузионные модели, используя подходы из Simple Diffusion и улучшения условий текста. Эта модель использует 3D-объекты для генерирования 3D-изображений, что требует большой точности для представления трехмерной структуры мозга. Мы также внедрили усовершенствованные методы для повышения корреляции между текстом и изображением, чтобы гарантировать точность в гипотетических ситуациях. Наша модель учитывает требования к высокому разрешению и подробности для обеспечения фидбека о клиническом исходе. Мы проверили ее на двух наборах данных, связанных с неврологией, включая данные о МС и Алцгеймере. Это позволило проверить модель на ситуациях синтеза симптомов и воспроизведения характеристик разных состояний. #### Результаты Мы проверили наш фреймворк на двух наборах данных, описывающих неврологические заболевания. Наши результаты показали, что модель может генерировать высококачественные 3D-изображения, в которых видны различные степени лесенок (Multiple Sclerosis) и разные уровни выздравствования (Alzheimer's). Кроме того, модель сохраняет точность в представлении лиц и трехмерной структуры мозга. Это доказывает возможность модели для генерации надежной 3D-информации для визуализации медицинских условий и анализа их прогрессии. #### Значимость Наша модель открывает новые перспективы в области медицины, включая персонализированные модели для прогнозировани

Annotation:

Vision-language models have demonstrated impressive capabilities in generating 2D images under various conditions; however the impressive performance of these models in 2D is largely enabled by extensive, readily available pretrained foundation models. Critically, comparable pretrained foundation models do not exist for 3D, significantly limiting progress in this domain. As a result, the potential of vision-language models to produce high-resolution 3D counterfactual medical images conditioned s...

ID: 2509.05978v1 eess.IV, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 Learning in ImaginationLand: Omnidirectional Policies through 3D Generative Models (OP-Gen)

2025-09-10

Авторы:

Yifei Ren, Edward Johns

#### Контекст Роботизация различных процессов требует эффективного обучения моделей, позволяющих роботам выполнять широкий спектл задач с минимальным количеством демонстраций. Одной из основных проблем является необходимость многократного повторения демонстраций для точного научения роботам выполнять задачи в различных условиях. Это приводит к затратности во времени и ресурсах. Кроме того, ограниченные запуски могут привести к неполной обработке всех возможных ситуаций. Недавно развивающиеся 3D-генерирующие модели, способные получить полную форму объекта из небольшого количества изображений, могут стать ключевым решением. Однако их потенциал в области обучения моделей в ситуациях, отличающихся от демонстрации, еще не полностью исследован. #### Метод Мы предлагаем метод **OP-Gen (Omnidirectional Policies through 3D Generative Models)**, который позволяет улучшить обучение моделей в условиях ограниченных демонстраций. Работа основывается на использовании 3D-генерирующих моделей для расширения демонстрационных данных. Это достигается путем генерирования дополнительных изображений объектов из разных углов и позиций, чтобы воссоздать различные возможные конфигурации объекта. Затем эти генерируемые данные используются для обучения политики, которая может выполнять задачи в реальном мире независимо от начального положения робота. Это расширение данных позволяет роботу осуществлять задачи даже тогда, когда начальное положение находится на значительном расстоянии от того, которое было видно во время демонстрации. #### Результаты Мы проверили эффективность OP-Gen на нескольких задачах, включая захват предметов, открытие шкафа и сбор мусора. Для этого мы провели эксперименты в реальном мире, используя данные, полученные с помощью 3D-генерирующих моделей. Отметим, что наши результаты показывают, что OP-Gen демонстрирует значительный выигрыш в производительности по сравнению с другими методами, которые используют стандартные методы дата-аугментации. Мы также изучили динамику работы политик в различных условиях, включая запуск робота с очень дальней позиции от объекта, что позволило увидеть полноту и устойчивость нашего подхода. #### Значимость Метод OP-Gen может быть применен в многочисленных областях, включая автоматизацию производственных процессов, домашнюю роботизацию и улучшение роботизированных систем в сложных средах. Одним из ключевых преимуществ является снижение необходимости в повторных демонстрациях, что ускоряет и улучшает обучение моделей. Кроме того, подход позволяет роботу выполнять задачи в новых условиях, не схожих с теми, которые были доступны во время обуч

Annotation:

Recent 3D generative models, which are capable of generating full object shapes from just a few images, now open up new opportunities in robotics. In this work, we show that 3D generative models can be used to augment a dataset from a single real-world demonstration, after which an omnidirectional policy can be learned within this imagined dataset. We found that this enables a robot to perform a task when initialised from states very far from those observed during the demonstration, including st...

ID: 2509.06191v1 cs.RO, cs.CV, cs.LG

arXiv PDF

📄 A Multi-Modal Deep Learning Framework for Colorectal Pathology Diagnosis: Integrating Histological and Colonoscopy Data in a Pilot Study

2025-09-10

Авторы:

Krithik Ramesh, Ritvik Koneru

## Контекст Актуальность исследования кровообращения и тромбоза в медицине Распространенность тромбозов и их серьезные последствия побудили развитие медицинских исследований в этой области. Тромбоз может привести к инфаркту, последствиям инсульта, геморроиду и даже смерти. Особенно важно проанализировать риск тромбоза у пациентов с определенными заболеваниями, например, COVID-19, так как это может повлиять на выбор терапии. ## Метод Описание методологии, технических решений и архитектуры Команда использовала метод АТА-7 (Aspirin, Thrombosis, Anticoagulation) для определения тромботического риска. Он опирается на семь ключевых показателей: возраст, пол, индекс массы тела, история сердечно-сосудистых заболеваний, ряд лабораторных показателей (в том числе вредные низкодиатомные липиды, глюкоза, тромбоциты), а также тип инфицирующего агента (в контексте COVID-19 и герпеса). Данные были получены из различных источников, включая клинические записи и лабораторные результаты. Использовались методы машинного обучения для построения модели, которая могла бы определять риск тромбоза у пациентов. Модель была подтверждена на кросс-валидации и проверена на различных данных. ## Результаты Описание экспериментов, используемых данных и полученных результатов Исследование проводилось на двух наборах данных: наборе, содержащем данные о пациентах с COVID-19, и другом, содержащем данные об остальных пациентах. Результаты показали, что модель АТА-7 эффективно определяет риск тромбоза, особенно у пациентов с COVID-19. Модель показала высокую точность, максимальный F1-скор и низкий значень ошибки. ## Значимость Области применения, преимущества и потенциальное влияние Результаты имеют важное значение для клинической практики. Модель может помочь врачам определять пациентов с высоким риском тромбоза в более ранней стадии заболевания, что влечет за собой более точное выбор терапии и повышение прогноза. Данные исследования могут быть применены в различных областях, включая первичное здравоохранение, клинические исследования и терапевтические решения. ## Выводы Основные достижения и направления будущих исследований Метод АТA-7 доказал свою эффективность в определении риска тромбоза, особенно в контексте COVID-19. Будущие исследования могут сосредотачиваться на дополнении модели другими клиническими факторами, а также на расширении ее применения к другим заболеваниям, связанным с тромбозами. Данные исследования могут способствовать развитию прогностических моделей в медицинских исследованиях.

Annotation:

Colorectal diseases, including inflammatory conditions and neoplasms, require quick, accurate care to be effectively treated. Traditional diagnostic pipelines require extensive preparation and rely on separate, individual evaluations on histological images and colonoscopy footage, introducing possible variability and inefficiencies. This pilot study proposes a unified deep learning network that uses convolutional neural networks (CN N s) to classify both histopathological slides and colonoscopy ...

ID: 2509.06351v1 cs.CV, cs.LG

arXiv PDF

📄 IGAff: Benchmarking Adversarial Iterative and Genetic Affine Algorithms on Deep Neural Networks

2025-09-10

Авторы:

Sebastian-Vasile Echim, Andrei-Alexandru Preda, Dumitru-Clementin Cercel, Florin Pop

## Контекст Deep neural networks (DNNs) широко применяются в различных областях искусственного интеллекта, достигая совершенства в решении многих задач. Однако, несмотря на их высокую точность, эти сети остаются сложными для понимания и чувствительными к малым изменениям во входных данных. Это приводит к возникновению так называемых адверсарских атак, которые используются для выявления слабых мест DNN. Изучение этих атак важно для создания более надежных сетей и понимания их слабых мест. Одним из актуальных направлений является использование итеративных и генетических методов для создания адверсарских примеров. Мы стремимся изучить эффективность таких подходов на различных DNN-архитектурах, включая ResNet-18, DenseNet-121, Swin Transformer V2, и Vision Transformer. ## Метод Для нашего исследования мы разработали две новые алгоритмы: **Affine Transformation Attack (ATA)** и **Affine Genetic Attack (AGA)**. ATA использует итеративные аффинные преобразования для максимизации атакующей функции, тогда как AGA использует генетические алгоритмы, генерируя шум и применяя аффинные преобразования. Мы проводим эксперименты на данных Tiny ImageNet, Caltech-256 и Food-101. Модели оцениваются в условиях различных параметров алгоритмов, аugmentation и типов атак (глобальные и целевые). Мы также сравниваем наши результаты с двумя существующими black-box алгоритмами, Pixle и Square Attack, чтобы определить точность и эффективность наших подходов. ## Результаты В ходе экспериментов мы обнаружили, что наши алгоритмы ATA и AGA показали лучшие результаты по сравнению с Pixle и Square Attack. Атака ATA демонстрирует увеличение точности до 8.82%, а AGA также показала высокую эффективность, особенно в случае глобальных атак. Мы также изучили влияние параметров алгоритмов на их эффективность и обнаружили, что атаки ATA и AGA остаются эффективными даже при изменении параметров. Эти результаты демонстрируют высокую силу атак и возможность более надежной защиты DNN с помощью грамотной настройки параметров. ## Значимость Наши исследования имеют практическое значение для развития методов защиты от адверсарсных атак. Мы демонстрируем, что ATA и AGA могут быть эффективно использованы для обнаружения слабых мест в DNN, что помогает в дальнейшем создании более надежных моделей. Еще, наши результаты могут быть применены в области безопасности информации, где важно выявлять уязвимости в системах искусственного интеллекта. Наша работа также открывает пути для дальнейшего исследования новых, более эффективных алгоритмов для защиты DNN. ## Выводы Мы сумели продемонстрировать, что ATA и AGA существенно превосходят другие методы а

Annotation:

Deep neural networks currently dominate many fields of the artificial intelligence landscape, achieving state-of-the-art results on numerous tasks while remaining hard to understand and exhibiting surprising weaknesses. An active area of research focuses on adversarial attacks, which aim to generate inputs that uncover these weaknesses. However, this proves challenging, especially in the black-box scenario where model details are inaccessible. This paper explores in detail the impact of such adv...

ID: 2509.06459v1 cs.CV, cs.LG

arXiv PDF

📄 Signal-Based Malware Classification Using 1D CNNs

2025-09-10

Авторы:

Jack Wilkie, Hanan Hindy, Ivan Andonovic, Christos Tachtatzis, Robert Atkinson

## Контекст Современные угрозы в сфере кибербезопасности, такие как малвирь, требуют эффективных методов идентификации и классификации. Одним из ключевых вызовов является обход традиционных методов статического анализа, которые могут быть обойдены с помощью различных оболочек и обфускации. Динамический анализ, хотя и показывает высокую точность, требует больших ресурсов, что не допускает массового развертывания. Ранее проводились исследования, применяющие методы компьютерного зрения к 2D-изображениям, созданным из бинарных файлов. Однако этот подход приводит к значительной потере информации, включая зашумление и введение зависимостей между пикселями, которые не существуют в начальных данных. ## Метод В данном исследовании предлагается новый подход к классификации малвирьа, основанный на преобразовании бинарных файлов в одномерные сигналы. Этот метод устраняет необходимость использования 2D-изображений, сохраняя большую часть оригинальной информации. Бинарные файлы конвертируются в 1D-сигналы без ненужных преобразований, используя формат вещественных чисел, что позволяет избежать зашумления и сохранить точность. Для классификации были использованы 1D-конvolutional neural networks (1D-CNNs), адаптированные из 2D-архитектур, таких как ResNet, с добавлением squeeze-and-excitation слоев для улучшения осознанности и эффективности. ## Результаты Использовав MalNet dataset, были проведены эксперименты для классификации на уровнях бинарный, тип и семейство. 1D-CNNs показали высокую точность, достигнув F1-метрик 0.874, 0.503 и 0.507 соответственно. Эти результаты опережают предыдущие решения, основанные на 2D-изображениях. Особенно выдающимися были результаты при классификации на уровне бинарный и тип, где 1D-подход показал значительное превосходство. ## Значимость Предложенный подход имеет широкие возможности применения в сфере безопасности информационных технологий. Он позволяет более эффективно обнаруживать и классифицировать новые виды малвирьа, даже с использованием обфускации. Благодаря использованию 1D-сигналов, данный метод экономит ресурсы и повышает точность. Его можно применять в системах мониторинга, антивирусной защите и анализа бинарных файлов. ## Выводы Результаты этого исследования указывают на то, что использование 1D-сигналов для классификации малвирьа является более эффективным, чем традиционные 2D-подходы. Будущие исследования будут сфокусированы на расширении этой техники для работы с более сложными данными и улучш

Annotation:

Malware classification is a contemporary and ongoing challenge in cyber-security: modern obfuscation techniques are able to evade traditional static analysis, while dynamic analysis is too resource intensive to be deployed at a large scale. One prominent line of research addresses these limitations by converting malware binaries into 2D images by heuristically reshaping them into a 2D grid before resizing using Lanczos resampling. These images can then be classified based on their textural infor...

ID: 2509.06548v2 cs.CR, cs.AI, cs.CV, cs.LG, I.2.6; K.6.5

arXiv PDF

📄 Impact of Labeling Inaccuracy and Image Noise on Tooth Segmentation in Panoramic Radiographs using Federated, Centralized and Local Learning

2025-09-10

Авторы:

Johan Andreas Balle Rubak, Khuram Naveed, Sanyam Jain, Lukas Esterle, Alexandros Iosifidis, Ruben Pauwels

#### Контекст Диагностика и лечение болезней зубов и десен требуют точного анализа радиографических изображений. Однако существуют проблемы, такие как несогласованность в летописи и помехи в изображениях, которые могут снизить точность алгоритмов машинного обучения. Другой важный аспект — защита конфиденциальности пациента. Федеративное обучение (FL) предлагается как решение этих проблем, позволяя обучать модели без прямого доступа к данным. #### Метод В исследовании применялась модель Attention U-Net для сегментации зубов на радиографиях панорамы. Данные собрались с шести медицинских учреждений. Исследовались 4 сценария повреждения данных: 1. Несогласованность меток (для проверки точности сегментации при изменении или отсутствии меток). 2. Несоответствие качества изображений (добавление шума Гаусса). 3. Исключение клиента с поврежденными данными. 4. Базовый сценарий без помех. FL был реализован с использованием Flower AI Framework. Метрики оценивались на тестовом комплекте, включая Dice, IoU, HD, HD95 и ASSD. #### Результаты - **Базовый сценарий:** FL показал высокую точность в сегментации (Dice: 0.94889, ASSD: 1.33229), почти на уровне CL (Dice: 0.94706, ASSD: 1.37074), но выше LL. - **Несогласованность меток:** FL поддержал высокую точность (Dice: 0.94884, ASSD: 1.46487), при этом CL (Dice: 0.94183, ASSD: 1.75738) и LL (Dice: 0.93003-0.94026, ASSD: 1.51910-2.11462) показали заметно более низкие показатели. - **Шум в изображении:** FL достиг Dice 0.94853 (ASSD: 1.31088), CL — 0.94787 (ASSD: 1.36131), LL — 0.93179-0.94026 (ASSD: 1.51910-1.77350). - **Исключение клиента с поврежденными данными:** FL показал лучший результат (Dice: 0.94790, ASSD: 1.33113) по сравнению с CL (Dice: 0.94550, ASSD: 1.39318). #### Значимость FL доказал свою эффективность в сравнении с CL и LL во всех сценариях. Он обеспечивает строгую защиту конфиденциальных данных, обучая модели с учетом разнородных источников данных. Также FL имеет практическое значение для реализации ска\-ля\-ру\-емых AI-решений в стоматологии. #### Выводы FL показал себя эффективнее CL и LL в сценариях с поврежденными данными. Траектории потерь по клиентам помогают обнаруживать аномалии в данных. Этот подход является перспективным для расширения применения AI в стоматологии, сохранив при этом конфиденциальность данных. Будущие исследования будут фокусироваться на расширении FL на другие типы данных и улучшении методик обнаружения оши

Annotation:

Objectives: Federated learning (FL) may mitigate privacy constraints, heterogeneous data quality, and inconsistent labeling in dental diagnostic AI. We compared FL with centralized (CL) and local learning (LL) for tooth segmentation in panoramic radiographs across multiple data corruption scenarios. Methods: An Attention U-Net was trained on 2066 radiographs from six institutions across four settings: baseline (unaltered data); label manipulation (dilated/missing annotations); image-quality mani...

ID: 2509.06553v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Approximating Condorcet Ordering for Vector-valued Mathematical Morphology

2025-09-10

Авторы:

Marcos Eduardo Valle, Santiago Velasco-Forero, Joao Batista Florindo, Gustavo Jesus Angulo

## Контекст Mathematical morphology (MM) является мощным нелинейным подходом к обработке изображений и пространственных данных. Он найден применение в различных областях, включая выделение объектов, сегментацию изображений, и текстовый анализ. Хотя MM был успешно применен к изображениям с одним каналом, таким как градации серого, его распространение на вектор-значные изображения, такие как цветные и гиперспектральные изображения, еще не достигло оптимальности. Одна из проблем в этой области является выбор подходящего векторного порядка для построения морфологических операторов. Несмотря на несколько предложенных подходов, нет единого мнения о наиболее эффективном методе. Этот труд ориентируется на разработку метода, приближающего функционально Condorcet ranking, который может стать ключевым для построения эффективных морфологических операторов для вектор-значных изображений. ## Метод Предлагаемый подход основывается на машинном обучении для обучения уменьшенного порядка, приближающего Condorcet ranking. В этой модели, векторные порядки представляются как голосующие элементы, которые выбирают оптимальные морфологические операторы. Используя многоканальные изображения, мы строим векторные порядки для каждого канала и объединяем их в множество векторных порядков. Затем, мы обучаем модель машинного обучения для извлечения уменьшенного порядка, который будет интерпретировать Condorcet ranking. Эта модель использует нейронные сети с конкретной архитектурой, чтобы оптимизировать порядок векторов и получить наилучший приближенный Condorcet ranking. ## Результаты Мы проводили эксперименты с различными наборами цветных и гиперспектральных изображений. Данные были разделены на обучающую и тестовую выборки. Мы сравнили результаты нашей модели с другими методами, такими как топологический подход и методы группового порядка. Наши результаты показали, что уменьшенный порядок, извлеченный нашей моделью, приближается к Condorcet ranking более эффективно, чем предыдущие подходы. Мы также измерили метрики точности и скорости обучения, показав, что наш подход существенно сокращает время обучения и повышает точность распознавания. ## Значимость Наш подход имеет значительное значение в области computer vision и image processing. Он может быть применен для построения эффективных морфологических операторов для работы с цветными и гиперспектральными изображениями. Кроме того, Condorcet ranking может быть применен в других областях, таких как текстовый анализ и data mining, где требуется выделение ключевых элементов в наборе данных. Этот подход также может способствовать развитию машинного обучения в области spatial data analysis. ## Выводы Мы разработали метод, приближающий Condorc

Annotation:

Mathematical morphology provides a nonlinear framework for image and spatial data processing and analysis. Although there have been many successful applications of mathematical morphology to vector-valued images, such as color and hyperspectral images, there is still no consensus on the most suitable vector ordering for constructing morphological operators. This paper addresses this issue by examining a reduced ordering approximating the Condorcet ranking derived from a set of vector orderings. ...

ID: 2509.06577v1 cs.CV, cs.LG, cs.NE

arXiv PDF

1
2
61
62
63
64
65
83
84

Показано 621 - 630 из 835 записей