📚 Саммари научных статей из arXiv

Найдено 277 результатов по запросу 'cs.LG, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Robustifying Diffusion-Denoised Smoothing Against Covariate Shift

2025-09-17

Авторы:

Ali Hedayatnia, Mostafa Tavassolipour, Babak Nadjar Araabi, Abdol-Hossein Vahabie

#### Контекст Рандомизированная сглаживающая (randomized smoothing) является востребованным подходом для достижения сертифицированной устойчивости к атакам типа $l_2$-адверсарные погрешности. Одной из самых эффективных реализаций этого подхода является метод Diffusion Denoised Smoothing (DDS), где предобученная модель денойзера на базе диффузионного процесса используется для улучшения устойчивости. Несмотря на свои достижения, DDS страдает от недостатков, в Particular, covariate shift, который возникает из-за неточного приближения добавленного шума в процессе денойзинга. Этот фактор становится причиной потери качества сглаженного классификатора. Мы рассматриваем эту проблему и предлагаем новую архитектуру, нацеленную на ее устранение. #### Метод В нашем методе мы предлагаем использовать адверсарный функционал, направленный на улучшение результатов подхода DDS. Функционал ориентирован на точный Обучение базового классификатора для минимизации потерь, связанных со сдвигом ковариатности, внедренным моделью денойзинга. Основополагающим элементом является наше понимание влияния добавленного шума на сглаживающий процесс. Мы разработали алгоритм, который обучает базовый классификатор с учетом этого сдвига, что позволяет повысить устойчивость к $l_2$-адверсарным погрешностям. Наша архитектура включает в себя многоуровневую адаптацию модели денойзинга и базового классификатора, обеспечивая более точное соответствие реальных условий. #### Результаты Мы проверили нашу модель на трех классических бенчмарках: MNIST, CIFAR-10 и ImageNet. Использовались данные с различными уровнями шума и адверсарных погрешностей. Отчет по экспериментам показал, что наш подход существенно повышает устойчивость к $l_2$-адверсарным погрешностям, достигая новых рекордов в сертифицированной точности. В целом, мы показали, что наш метод обеспечивает более высокое качество сглаженных классификаторов по сравнению с текущими лидерами в области randomized smoothing. #### Значимость Наш метод может быть применен в сферах, где необходима устойчивость к адверсарным угрозам, таких как безопасность информационных систем, медицинский интеллектуальный анализ и автоматизация производственных процессов. Одним из основных преимуществ является устранение проблемы сдвига ковариатности, которая грандиозно повышает эффективность DDS. Наши результаты не только улучшают текущие рекорды, но и открывают новые пути для дальнейшего исследования в области сглаживания и устойчивости к адверсарным затруднениям. #### Выводы Мы представили новы

Annotation:

Randomized smoothing is a well-established method for achieving certified robustness against l2-adversarial perturbations. By incorporating a denoiser before the base classifier, pretrained classifiers can be seamlessly integrated into randomized smoothing without significant performance degradation. Among existing methods, Diffusion Denoised Smoothing - where a pretrained denoising diffusion model serves as the denoiser - has produced state-of-the-art results. However, we show that employing a ...

ID: 2509.10913v1 cs.LG, cs.CV

arXiv PDF

📄 Data-Efficient Ensemble Weather Forecasting with Diffusion Models

2025-09-17

Авторы:

Kevin Valencia, Ziyang Liu, Justin Cui

## Контекст Область моделирования метеорологических процессов широко используется в климатических исследованиях, агрономии, энергетике и других сферах. Нейронные сети, особенно те, которые основываются на авторегрессионных методах, стали популярными в этой области. Однако их применение сталкивается с проблемами, такими как высокая сложность вычислений, ограниченность данных и высокая стоимость их получения. Наряду с этим, подходите сложностью становится актуальной задача обеспечения высокого качества прогнозов с минимальным потреблением ресурсов. Это побудило исследователей исследовать диффузионные модели, которые могут быть эффективными в обучении с ограниченным объемом данных. ## Метод Методология, рассмотренная в работе, основывается на диффузионных моделях, которые тренируются с использованием авторегрессионного подхода. Изучалось влияние стратификации данных и стратегий выбора данных на качество прогнозов. Использовалась архитектура модели Diffusion Model, которая обучалась на стратифицированных выборках метеорологических данных. Также были проведены эксперименты для сравнения полученных результатов с полностью обученной моделью. Это позволило оценить эффективность различных стратегий выбора данных. ## Результаты На основе проведенных экспериментов были получены заметные результаты. Уменьшение объема обучающих данных до 20% не привело к существенному снижению качества прогнозов в сравнении с полностью обученной моделью. Также было продемонстрировано, что стратифицированная выборка данных позволяет достичь более высокого качества прогнозов по сравнению с случайным выбором данных. Это открыло новые возможности для эффективного обучения моделей даже при ограниченных ресурсах, что может быть критически важно в области прогнозирования погоды. ## Значимость Предложенный подход может быть применен в различных областях прогнозирования, где данные ограничены или дорогостоящи. Это может включать такие сферы, как климатические модели, энергетика и сельское хозяйство. Использование диффузионных моделей с стратификацией данных может улучшить качество прогнозов, сократить расходы на вычисления и дать возможность более эффективного использования ресурсов. Это также мотивирует дальнейшие исследования в области адаптивных стратегий выбора данных, которые могут повысить еще больше качество и точность моделей. ## Выводы Результаты показали, что диффузионные модели могут быть эффективными даже при уменьшении объема обучающих данных. На основе проведенных экспериментов, стратифицированная выборка данных показала себя как эффективный подход к обучению моделей с ограниченным рес

Annotation:

Although numerical weather forecasting methods have dominated the field, recent advances in deep learning methods, such as diffusion models, have shown promise in ensemble weather forecasting. However, such models are typically autoregressive and are thus computationally expensive. This is a challenge in climate science, where data can be limited, costly, or difficult to work with. In this work, we explore the impact of curated data selection on these autoregressive diffusion models. We evaluate...

ID: 2509.11047v1 cs.LG, cs.CV

arXiv PDF

📄 SelectMix: Enhancing Label Noise Robustness through Targeted Sample Mixing

2025-09-17

Авторы:

Qiuhao Liu, Ling Li, Yao Lu, Qi Xuan, Zhaowei Zhu, Jiaheng Wei

## Контекст Обучение глубоких нейронных сетей с шумными метками остается вызовом в области машинного обучения. Шумные метки мешают сетям выучивать правильные представления, что приводит к ухудшению их общей и переобученной модели. Хотя методы, такие как Mixup, показали свою эффективность в улучшении общей и робастной модели, они часто применяются без достаточного учета того, какие выборки следует смешивать и как. Это приводит к нежелательному продолжению шумных сигналов в обучении. Мотивация для разработки SelectMix заключается в создании более учётной стратегии смешивания, которая бы учитывала характерные шумные метки и создавала более точные супервайзинг-сигналы. ## Метод SelectMix — это фреймворк, основанный на конфиденциальном гиданте, который предназначен для улучшения устойчивости к шумным меткам. Он работает в двух этапах: (1) **Идентификация неточных выборок:** Используя кросс-валидацию K-fold, SelectMix определяет выборки с неуверенными метками или амбигуами. (2) **Учётное смешивание выборок:** Эти выборки смешиваются с выборками с высоким уровнем уверенности из их классов. Выборки смешиваются используя **мягкие метки** — комбинацию всех классов, участвующих в смешении. Это позволяет создавать более точные сигналы обучения, которые более полно соответствуют смешанным выборкам. ## Результаты SelectMix протестирован на множестве синтетических и реальных датасетов, включая MNIST, Fashion-MNIST, CIFAR-10, CIFAR-100, CIFAR-N и Clothing1M. Эксперименты показали, что SelectMix намного превосходит существующие методы, такие как Mixup, в ситуациях, когда данные имеют шумные метки. Также было проведено теоретическое анализирование, подтвердив, что SelectMix лучше адаптируется к шумным меткам и обеспечивает более стабильное обучение сетей. ## Значимость SelectMix может применяться в ситуациях, где данные имеют высокий шум в метках, например, в обработке изображений, текстов или звука. Он предоставляет более точные супервайзинг-сигналы, что приводит к улучшенной общей и робастной модели. В перспективе, SelectMix может быть использован в сценариях, где данные собираются из недостоверных источников, таких как сенсоры или гугл-формы, что делает его значимым для реального мира. ## Выводы SelectMix показал свою эффективность в обучении глубоких нейронных сетей в условиях шумных меток. Он предоставил новый подход к смешиванию выборок, который учитывает характерные шумные сигналы и позволяет создавать более точные сигналы обучения. Будущие исследования будут направлены на расширение SelectMix к другим типам данных и его

Annotation:

Deep neural networks tend to memorize noisy labels, severely degrading their generalization performance. Although Mixup has demonstrated effectiveness in improving generalization and robustness, existing Mixup-based methods typically perform indiscriminate mixing without principled guidance on sample selection and mixing strategy, inadvertently propagating noisy supervision. To overcome these limitations, we propose SelectMix, a confidence-guided mixing framework explicitly tailored for noisy la...

ID: 2509.11265v1 cs.LG, cs.CV, stat.ML

arXiv PDF

📄 PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits

2025-09-17

Авторы:

Loka Li, Wong Yu Kang, Minghao Fu, Guangyi Chen, Zhenhao Chen, Gongxu Luo, Yuewen Sun, Salman Khan, Peter Spirtes, Kun Zhang

## Контекст Область исследования, связанная с пониманием человеческих поведенческих характеристик, играет ключевую роль в многих технологических и научных направлениях, включая человеко-компьютерное взаимодействие, компьютерные науки и персонифицированные системы AI. Однако существующие ресурсы часто ограничиваются одной модальностью данных, не давая возможности полного понимания характеров и их взаимосвязей. Мотивация для создания PersonaX заключается в необходимости создания широкомасштабных мультимодальных данных, которые объединяют текстовые описания поведенческих черт, фасциальные атрибуты и биографические данные. Это позволит раскрыть новые возможности для анализа личности и связей между модальностями. ## Метод PersonaX состоит из двух подвыборок: CelebPersona (9444 публичных фигур) и AthlePersona (4181 профессиональных спортсменов). Для каждого объекта включено 3-х модельное описание поведенческих черт, полученное с помощью трёх высокоэффективных текстовых LLMs. Данные также включают изображения лиц и структурированные биографические данные. Для анализа используется два подхода: (1) верхнеуровневый обобщенный анализ поведенческих черт через статистические тесты, (2) новая CRL-фреймворк, который обеспечивает теоретическое гарантированное идентифицирование в мультимодальных данных. ## Результаты Исследования выполнялись на двух уровнях. В первом случае выделены high-level trait scores и проведены статистические тесты для оценки связей между модальностями. Во втором случае CRL-фреймворк был применен к реальным данным, демонстрируя точность и эффективность в установлении связей в мультимодальной среде. Эксперименты подтвердили ряд теоретических выводов и применимость CRL к реальным задачам. ## Значимость PersonaX предлагает новый подход к анализу поведенческих характеристик через мультимодальный подход. Он может быть использован в различных приложениях, включая личностные модели в AI, компьютерное зрение и социальные науки. Его основные преимущества заключаются в неограниченных возможностях для исследований связей между модальностями и в креативных решениях для компьютерного зрения и личностных моделей. ## Выводы PersonaX устанавливает новый подход к мультимодальному анализу личностных черт через LLMs. Он объединяет структурированные и неструктурированные данные, давая новую модель для анализа поведенческих черт. Будущие исследования будут направлены на повышение точности и сложности моделей, включая использование более высокой степени интеграции текстовых моделей и изоб

Annotation:

Understanding human behavior traits is central to applications in human-computer interaction, computational social science, and personalized AI systems. Such understanding often requires integrating multiple modalities to capture nuanced patterns and relationships. However, existing resources rarely provide datasets that combine behavioral descriptors with complementary modalities such as facial attributes and biographical information. To address this gap, we present PersonaX, a curated collecti...

ID: 2509.11362v1 cs.LG, cs.CV

arXiv PDF

📄 DRAG: Data Reconstruction Attack using Guided Diffusion

2025-09-17

Авторы:

Wa-Kin Lei, Jun-Cheng Chen, Shang-Tse Chen

#### Контекст С момента возникновения больших фундаментальных моделей, разделённое выполнение (SI) возникло как одна из популярных моделей для развёртывания моделей между устройствами на границе и облачными серверами. Она решает проблемы конфиденциальности данных и вычислительных затрат. Несмотря на то, что ранее были разработаны методы по реконструкции данных, они ограничивались мелкими классификационными моделями, в то время как риски для больших фундаментальных моделей в рамках SI были мало изучены. Данная работа предлагает новый метод реконструкции данных, основанный на руководственной диффузии, который использует богатую предварительную знания, заложенную в глубоко предварительно обученную модели глубокой диффузии. Этот подход использует итеративную реконструкцию в рамках полученных образов, позволяя воссоздать высококачественные изображения, аналогичные исходным, из своих промежуточных представлений (IR). #### Метод Метод DRAG основывается на руководственной диффузии, которая использует предварительно обученную модель глубокой диффузии. Эта модель включает богатые предварительные знания, позволяющие восстанавливать высококачественные изображения. Метод DRAG выполняет итеративную реконструкцию промежуточных представлений (IR), используя эту модель. Результатом являются изображения, которые тесно похожи на исходные. Эта методика позволяет улучшить качество реконструкции в сравнении с другими методами. Архитектура основана на диффузионных методах, которые позволяют получить результат, который может быть использован для оценки конфиденциальности данных. #### Результаты Для проверки DRAG были проведены несколько экспериментов, используя различные изображения и промежуточные представления. Результаты показали, что DRAG показывает высокую точность в реконструкции данных, превосходя другие методы. Эксперименты демонстрируют, что DRAG в значительной степени существенно превышает текущие методы по точности и качеству реконструированных образов. Это демонстрирует значительный более высокий уровень реконструкции, что свидетельствует о важности развития более надежных методов защиты данных в ситуациях SI. #### Значимость Результаты DRAG могут быть применены в различных областях, включая защиту конфиденциальности данных, где требуется восстановление изображений. Также, это может быть применено в области развития безопасности в развёртывании моделей в средах SI. Данный подход предоставляет преимущества, такие как улучшенное качество реконструкции, а также повышение эффективности и конфиденциальности. Потенциальное влияние заключается

Annotation:

With the rise of large foundation models, split inference (SI) has emerged as a popular computational paradigm for deploying models across lightweight edge devices and cloud servers, addressing data privacy and computational cost concerns. However, most existing data reconstruction attacks have focused on smaller CNN classification models, leaving the privacy risks of foundation models in SI settings largely unexplored. To address this gap, we propose a novel data reconstruction attack based on ...

ID: 2509.11724v1 cs.LG, cs.CV

arXiv PDF

📄 FedDAF: Federated Domain Adaptation Using Model Functional Distance

2025-09-17

Авторы:

Mrinmay Sen, Ankita Das, Sidhant Nair, C Krishna Mohan

#### Контекст Федеративное обучение (FL) является методом искусственного интеллекта, который позволяет нескольким устройствам обучать модель независимо, делимыми только выходными данными. Однако в некоторых ситуациях модель обучается в одном окружении (исходном), но используется в другом (целевом), при этом данные в этих окружениях могут отличаться (domain shift). Дополнительно, в целевом окружении может быть ограниченное количество отмеченных данных. Эти ограничения становятся проблемами для многих существующих методов федеративного обучения, которые часто не уделяют должного внимания совмещению этих двух проблем. #### Метод FedDAF (Federated Domain Adaptation Using Model Functional Distance) — это новый метод, который адресует две основные проблемы в FedDA: domain shift и ограниченность меток в данных целевого клиента. Он использует сходство между локальными моделями целевого и исходных клиентов, оценивая "модельное функциональное расстояние" на основе их минимальных градиентов, вычисленных в целевых данных. Эта мера позволяет выбирать информацию из исходных моделей, которая наиболее полезна для целевого клиента, даже при ограниченных данных. Агрегация исходных моделей происходит с помощью простого среднего в серверной части. Для построения глобальной модели включена новая методика определения угла между градиентами моделей, используя нормализацию Гомперца. #### Результаты FedDAF был протестирован на реальных данных, включая CIFAR-10-C, CIFAR-100-C и FMNIST-C. На этих данных FedDAF показал значительные улучшения в достижении тестовой точности по сравнению с существующими федеративными, локальными и FDA-методами. Например, в сценарии с преобладанием domain shifts FedDAF получил до 10% выигрыша в точности. Эти результаты подтверждают эффективность подхода в решении проблем использования моделей в незнакомых окружениях с ограниченными данными. #### Значимость FedDAF может применяться в сценариях, где необходимо обучать модели в одном окружении, но использовать их в других, например, в медицине, автоматизации и мобильных приложениях. Его основное преимущество — удачное решение проблемы domain shift в сочетании с ограниченным меткованным данным. Благодаря этому, FedDAF показал себя как более гибкий и эффективный подход по сравнению с существующими методами. #### Выводы FedDAF показал значительные улучшения в FedDA, ставшими возможными благодаря новой функциональной метрике. Будущие исследования будут нацелены на расширение этого подхода для обучения на более глубоких моделях и для применения в задачах, где высокая точность критична. Это может включать такие области, как диагностика заболеваний и анализ текста.

Annotation:

Federated Domain Adaptation (FDA) is a federated learning (FL) approach that improves model performance at the target client by collaborating with source clients while preserving data privacy. FDA faces two primary challenges: domain shifts between source and target data and limited labeled data at the target. Most existing FDA methods focus on domain shifts, assuming ample target data, yet often neglect the combined challenges of both domain shifts and data scarcity. Moreover, approaches that a...

ID: 2509.11819v1 cs.LG, cs.CV, 68W15, 68T05, 90C25, I.2.6; I.5.1; C.2.4

arXiv PDF

📄 LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World Scenarios

2025-09-16

Авторы:

Jiahao Chen, Zhiyuan Huang, Yurou Liu, Bing Su

#### Контекст Long-tailed learning широко применяется в реальных сценариях, где выборки выстраиваются в имперфектные распределения. Long-Tailed Semi-Supervised Learning (LTSSL) позволяет повысить эффективность обучения за счет использования большого объема необъективных данных. Однако, существующие методы обучения LTSSL часто обучаются с нуля, что приводит к проблемам, таким как оверфиттинг и недостоверные псевдометки. В этом контексте возникает потребность в методах, которые могут повысить качество обучения, особенно в условиях неоднородных данных. #### Метод Мы предлагаем LoFT (Long-Tailed Fine-Tuning), расширяющий LTSSL в парадигму переноса базовых моделей. Наш алгоритм основывается на фине-тюнинге предобученных моделей с помощью параметр-эффективных методов. Мы используем прототипы и адаптируемные методы, чтобы улучшить генерацию псевдометок и уменьшить ошибки в имперфектных распределениях. Для улучшения устойчивости в пространстве данных, мы предложили LoFT-OW (Long-Tailed Fine-Tuning under Open-World), который решает проблему выявления выходных данных из распределения. #### Результаты Мы проводим эксперименты на нескольких задачах, включая CIFAR-10-LT и ImageNet-LT. Мы сравниваем наш метод с тремя основными подходами LTSSL. Используя только 1% от необъективных данных, LoFT показывает значительное улучшение в производительности по сравнению с предыдущими подходами. Особенно выдающимися результатами LoFT показывает при открытом мире сценариях, где OOD-данные присутствуют в обучающей выборке. #### Значимость Метод LoFT широко применим в сценариях, где данные имеют неоднородные распределения и существует необходимость в улучшении качества обучения. Он позволяет увеличить устойчивость моделей к искажениям и улучшить их применение в реальном мире. Благодаря параметр-эффективному применению, LoFT экономит ресурсы и показывает высокую эффективность, даже в условиях недостатка данных. #### Выводы Мы представили LoFT, новый подход к LTSSL, который способен улучшить точность и устойчивость моделей в условиях необъективных данных. Наши результаты показывают, что LoFT превосходит предшествующие методы в обучении на небольших объемах данных. В будущем, мы планируем расширить LoFT для работы с более сложными распределениями и объективными данными.

Annotation:

Long-tailed learning has garnered increasing attention due to its wide applicability in real-world scenarios. Among existing approaches, Long-Tailed Semi-Supervised Learning (LTSSL) has emerged as an effective solution by incorporating a large amount of unlabeled data into the imbalanced labeled dataset. However, most prior LTSSL methods are designed to train models from scratch, which often leads to issues such as overconfidence and low-quality pseudo-labels. To address these challenges, we ext...

ID: 2509.09926v1 cs.LG, cs.CV

arXiv PDF

📄 Value bounds and Convergence Analysis for Averages of LRP attributions

2025-09-13

Авторы:

Alexander Binder, Nastaran Takmil-Homayouni, Urun Dogan

## Контекст Value-based attribution methods, такие как LRP (Layer-wise Relevance Propagation), широко применяются для понимания решений нейронных сетей. Однако существуют проблемы в их численных свойствах, включая изменчивость и нестандартность атрибуционных карт. Эти проблемы становятся важными при использовании нескольких типов аugmentation для тестовых данных, что может привести к нерешенным дисперсиям в атрибуционных оценках. Мы рассматриваем типичные методы LRP, такие как LRP-beta и LRP-epsilon, и исследуем их численные свойства, стремясь обеспечить лучшую понимаемость и надежность результатов. ## Метод Мы представляем методы LRP как произведение модифицированных градиентных матриц, что приводит к аналогии с матричной мультипликацией в рамках цепного правила дифференцирования. Данный подход позволяет проанализировать сингулярные значения и получить компонентно-определенные оценки для значений атрибуционных карт. Эти оценки используются для построения множителей, которые управляют тем, насколько быстро средние значения атрибуций приближаются к средним атрибуций в пределе по всем возможным данным. Мы применяем этот подход к LRP-beta и LRP-epsilon, включая свои модификации. ## Результаты Мы проводим эксперименты на множестве моделей и данных, включая MNIST и CIFAR-10, чтобы проверить нашу теоретическую модель. Мы получили компонентно-определенные оценки для значений атрибуционных карт, которые позволяют вывести множители для гарантий точности и сходимости. Эти результаты показывают, что LRP-beta имеет более стабильные свойства в сравнении с LRP-epsilon и другими типами методов LRP. Мы также проверили эффект модификаций LRP на результаты. ## Значимость Результаты имеют практическую значимость для сценариев, где несколько типов аugmentation применяются к индивидуальным тестовым образам, а также для Smoothgrad-типа методов атрибуции. Наш анализ показывает, что константы управляющие сходимостью для LRP-beta не зависят от норм весов, что делает эти методы более надежными для сценариев, где нормы весов могут быть высокими. Наши результаты также могут облегчить понимание и нормирование атрибуционных карт в нейронных сетях. ## Выводы Наша работа дает математически точное понимание численных свойств LRP-beta и других типов LRP. Мы показали, как модификации LRP влияют на стойкость и надежность атрибуционных методов в различных сценариях. Будущие исследования будут сфокусированы на расширении этого подхода к другим методам атрибуции и исследовании его влияния на многошарпные архитектуры нейронных сетей.

Annotation:

We analyze numerical properties of Layer-wise relevance propagation (LRP)-type attribution methods by representing them as a product of modified gradient matrices. This representation creates an analogy to matrix multiplications of Jacobi-matrices which arise from the chain rule of differentiation. In order to shed light on the distribution of attribution values, we derive upper bounds for singular values. Furthermore we derive component-wise bounds for attribution map values. As a main result, ...

ID: 2509.08963v1 cs.LG, cs.CV

arXiv PDF

📄 Breaking the Statistical Similarity Trap in Extreme Convection Detection

2025-09-13

Авторы:

Md Tanveer Hossain Munim

## Контекст Оценка глубоких нейронных моделей для прогнозирования метеорологических процессов чрезвычайной гроздности сталкивается с "Статистической Трапой Сходства" (Statistical Similarity Trap). Этот эффект возникает из-за чрезмерного скоррелированного прогноза с реальными данными, где модели, даже имеющие высокую статистическую точность, не замечают редких, но высокоэффективных событий. Эта проблема критична для прогнозов развития гроздности, так как опасные события часто вызываются редкими воздушными эффектами, которые модели не всегда успешно предсказывают. Этот мотив привел к развитию новых подходов для более точных и оперативных прогнозов. ## Метод Методология основывается на разработке нового фреймворка, названного DART (Dual Architecture for Regression Tasks). Основой DART является двухдескодерная архитектура, которая разделяет прогнозы на две части: общую статистическую структуру и редкие, высокоэффективные события. Для улучшения точности используется физиологически обоснованное переобучение (physically-motivated oversampling) и task-specific loss functions, которые способствуют предсказанию редких событий. Архитектура также включает в себя быструю обработку данных и независимость от определенной метеорологической модели, что обеспечивает ее широкое применение в различных условиях. ## Результаты В экспериментах DART был протестирован на нескольких датасетах, включающих реальные метеорологические данные и имитационные модели. На определенном наборе данных DART показал значительные улучшения в детектировании редких событий: например, в сравнении с базовыми моделями, которые показывали высокое статистическое совпадение, но не выявляли редких событий, DART улучшил CSI (Critical Success Index) до значения 0.273 с биасом 2.52, в то время как базовые модели имели биас до 6.72. Эти результаты подтверждают необходимость DART для точного выявления редких, но важных событий. ## Значимость Фреймворк DART может применяться в различных метеорологических задачах, в том числе в анализе течений воздуха, повышении точности прогноза сильных гроз и других чрезвычайных метеорологических событий. Он выделяет новые возможности для более точного и оперативного прогнозирования, что может способствовать улучшению принятия решений в области погодной подготовки. Данный подход также имеет потенциал для оптимизации работы систем автоматических прогнозов и мониторинга в реальном времени. ## Выводы Результаты показывают, что DART значительно повышает точность прогноза редких событий в метеорологии. Несмотря на сложность задачи, DART доказал свою эффективность и гибкость в различных сценариях. Будущие работы будут сконцентрирова

Annotation:

Current evaluation metrics for deep learning weather models create a "Statistical Similarity Trap", rewarding blurry predictions while missing rare, high-impact events. We provide quantitative evidence of this trap, showing sophisticated baselines achieve 97.9% correlation yet 0.00 CSI for dangerous convection detection. We introduce DART (Dual Architecture for Regression Tasks), a framework addressing the challenge of transforming coarse atmospheric forecasts into high-resolution satellite brig...

ID: 2509.09195v1 cs.LG, cs.CV, 68T07, 86A10, I.2.6; J.2

arXiv PDF

📄 Benchmarking Vision Transformers and CNNs for Thermal Photovoltaic Fault Detection with Explainable AI Validation

2025-09-12

Авторы:

Serra Aksoy

#### Контекст Автоматическая мониторингная система для тепловых фотоэлементов (PV) является важной задачей в области энергетики, поскольку становится все более необходимой для обеспечения надежной работы энергетической инфраструктуры. Однако существуют серьезные проблемы, связанные с нехваткой понимания моделей искусственного интеллекта при принятии решений о фотоэлементных дефектаах. Это сделано сложнее системным разрывом между высокой точностью моделей, активно используемых для обнаружения ошибок, и невозможностью гарантировать, что выводы моделей соответствуют физическим принципам. Этот рост беспокоит техников и экспертов в области энергетики, которые нуждаются в доказательстве того, что модели могут быть доверенными. #### Метод Данное исследование проводит сравнительный анализ виджетных нейронных сетей (ResNet-18, EfficientNet-B0) и трансформеров (ViT-Tiny, Swin-Tiny) для обнаружения дефектов на тепловых фотоэлементах. Используется метод XRAI (eXplainable Saliency Interpretation) для проверки того, что модели выводят решения, соответствующие термодинамическим принципам. Для тестирования использованы 20 000 изображений тепловых камер, которые содержат образцы обычного функционирования и 11 категорий дефектов. Это первое исследование, проводящее подробное сравнение CNN с трансформерами для теплов обнаружения дефектов и использующее физически обоснованный подход к интерпретации моделей. #### Результаты В результатах эксперимента Swin Transformer показал лучший результат в обнаружении дефектов с бинарной точностью 94% и многоклассовой точностью 73%. Кроме того, XRAI анализ показал, что модели, особенно Swin Transformer, успешно выделяют важные термодинамические признаки, такие как: местные горячие точки для дефектов клетки, линейные термодинамические пути для дефектов диодов и термодинамические границы для затенения вегетации. Однако показана значительная разница в поведении моделей для разных категорий дефектов. Так, для электрических дефектов F1-меру достигают >0.90, в то время как для экологических факторов, таких как загрязнение, оценки F1-меры ниже 0.33, что свидетельствует о существующих ограничениях, связанных с разрешением изображений тепловых камер. #### Значимость Результаты исследования имеют важное значение в нескольких областях применения. Во-первых, они предоставляют новый подход к валидации AI-решений в сфере энергетики, который может повысить уверенность экспертов в использовании моделей для автоматизированного мониторинга. Во-вторых, они подкрепляют роль трансформеров в области те

Annotation:

Artificial intelligence deployment for automated photovoltaic (PV) monitoring faces interpretability barriers that limit adoption in energy infrastructure applications. While deep learning achieves high accuracy in thermal fault detection, validation that model decisions align with thermal physics principles remains lacking, creating deployment hesitancy where understanding model reasoning is critical. This study provides a systematic comparison of convolutional neural networks (ResNet-18, Effic...

ID: 2509.07039v1 cs.LG, cs.CV

arXiv PDF

1
2
19
20
21
22
23
27
28

Показано 201 - 210 из 277 записей