📚 Саммари научных статей из arXiv

Найдено 125 результатов по запросу 'cs.LG, cs.AI, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SACA: Selective Attention-Based Clustering Algorithm

2025-08-27

Авторы:

Meysam Shirdel Bilehsavar, Razieh Ghaedi, Samira Seyed Taheri, Xinqi Fan, Christian O'Reilly

## Контекст Кластеризация — это важный аспект машинного обучения, применяемый в различных областях, включая медицину, финансы и анализ данных. Один из наиболее популярных подходов — density-based clustering, основанный на идее идентификации кластеров в высокодобростных регионах, в то время как низкодобростные определяются как шум. Однако, пользовательские параметры, требуемые для этих алгоритмов, часто требуют дополнительного доменного знания, что может усложнить процесс оптимизации. В этой области возникает необходимость в алгоритмах, которые бы minimizes the need for user-defined parameters и обеспечили бы эффективный и доступный подход к кластеризации. ## Метод SACA (Selective Attention-Based Clustering Algorithm) является инновационным подходом к кластеризации, использующим концепцию селективного внимания. Алгоритм исходит от принципа, что можно сформировать предварительную структуру кластеров без требования пользовательских параметров. Если необходимость в настройке возникает, SACA предлагает простую интерпретацию единственного интегерового параметра, который упрощает процесс оптимизации. Алгоритм фильтрует самые слабые точки, образует начальную структуру кластеров, а затем включает исключенные точки в конечную модель. Таким образом, SACA обеспечивает гибкость и удобство в использовании. ## Результаты Проведенные эксперименты показали, что SACA показывает высокую устойчивость и эффективность в кластеризации различных данных. Использовались различные наборы данных, включая синтетические и реальные. Оценивалось качество кластеризации, а также производительность алгоритма. Результаты показали, что SACA не только обеспечивает высокое качество кластеров, но и значительно упрощает процесс настройки, что делает его привлекательным вариантом для действительных задач кластеризации. ## Значимость SACA может быть применен в различных областях, таких как биоинформатика, анализ данных, а также в области интеллектуального анализа данных. Основное преимущество SACA заключается в его универсальности и простоте использования. Алгоритм может снизить затраты на оптимизацию и упростить решение задач, что делает его привлекательным для специалистов в области анализа данных. ## Выводы SACA представляет собой прорыв в области кластеризации на основе динамических параметров. Он обеспечивает детерминированность и простоту в настройке, что делает его эффективным и доступным для различных задач кластеризации. В дальнейшем, будут проводиться дополнительные эксперименты и исследования, чтобы подтвердить эффективность SACA в реальных задачах и расширить его применение в различных областях.

Annotation:

Clustering algorithms are widely used in various applications, with density-based methods such as Density-Based Spatial Clustering of Applications with Noise (DBSCAN) being particularly prominent. These algorithms identify clusters in high-density regions while treating sparser areas as noise. However, reliance on user-defined parameters often poses optimization challenges that require domain expertise. This paper presents a novel density-based clustering method inspired by the concept of select...

ID: 2508.17150v1 cs.LG, cs.AI, cs.CV, I.2; I.5

arXiv PDF

📄 Robustness Feature Adapter for Efficient Adversarial Training

2025-08-27

Авторы:

Quanwei Wu, Jun Guo, Wei Wang, Yi Wang

## Контекст Робастность моделей глубокого обучения к атакам адверсарных примеров является ключевым аспектом в создании надежных моделей. Одним из самых эффективных методов для улучшения робастности является адверсарный тренинг (Adversarial Training, AT). Однако, при его применении к большим моделям сложности вычислений растут существенно, что делает применение AT как-то ограниченным. Более того, AT также страдает от robust overfitting, когда модель слишком адаптируется к конкретным атакам и не может генерировать общую робастность. Эта статья адресует эти проблемы, предлагая новую адаптер-базуютую модель для эффективного AT, которая работает непосредственно в пространстве признаков. Такой подход стремится улучшить качество внутреннего цикла обучения и уменьшить эффект robust overfitting, увеличив при этом общую эффективность обучения и устойчивость к новым атакам. ## Метод Метод представляет собой adapter-based approach, который работает в пространстве признаков, а не на уровне выпуклых оптимизаций, как в стандартном AT. Адаптеры регулируют feature space для повышения точности и эффективности обучения. Особенностью нового подхода является его возможность использовать в различных бэкбоне-архитектурах без значительных изменений. Он решает проблему robust overfitting, используя adaptive feature space regulation. Это позволяет модели генерировать более устойчивую к новым атакам робастность. Для реализации этого адаптеры работают как на уровне фич, так и на уровне потоков данных, что обеспечивает более эффективную интеграцию в многослойные модели. ## Результаты Результаты экспериментов показали, что новый подход эффективно работает в разных архитектурах, таких как ResNet и ViT. В отличии от стандартного AT, который может страдать robust overfitting, новый адаптер уменьшает этот эффект и улучшает внутреннее согласованность обучения. Эксперименты показали, что модели обладают улучшенной робастностью к новым атакам и сохраняют высокую точность на clean data. Это улучшение в робастности позволяет увеличить эффективность обучения и снизить вычислительные затраты. В различных наборах данных и сценариях атак, результаты показали, что адаптер может эффективно регулировать робастность моделей, не требуя значительных изменений в архитектуре. ## Значимость Результаты этого исследования могут быть применены в различных областях, таких как безопасность информационных систем, медицинские приложения и финансовые модели. Из-за высокой эффективности и уменьшения robust overfitting, этот подход можно использовать для построения моделей, которые не только высоко точны, но и устойчивы к новым атакам. Такое применение может существенно повысить надежность и робастность моделей глубокого обучения в реальных сит

Annotation:

Adversarial training (AT) with projected gradient descent is the most popular method to improve model robustness under adversarial attacks. However, computational overheads become prohibitively large when AT is applied to large backbone models. AT is also known to have the issue of robust overfitting. This paper contributes to solving both problems simultaneously towards building more trustworthy foundation models. In particular, we propose a new adapter-based approach for efficient AT directly ...

ID: 2508.17680v1 cs.LG, cs.AI, cs.CV, I.2.6

arXiv PDF

📄 AQ-PCDSys: An Adaptive Quantized Planetary Crater Detection System for Autonomous Space Exploration

2025-08-27

Авторы:

Aditri Paul, Archan Paul

## Контекст Планетарные исследования требуют надежных систем реального времени для оценки окружающей среды, поддержки навигации и избежания опасностей. Однако реализация таких систем на ресурсно-ограниченных компьютерных системах, используемых в космических операциях, представляет собой значительную сложность. Большая часть существующих систем построена на глубоких нейронных сетях, которые требуют высокой мощности вычислений и памяти. Это ограничивает их применение в космических миссиях. Работа предлагает новую архитектуру **AQ-PCDSys**, которая призвана решить эти проблемы, обеспечивая высокую точность и эффективность в реальном времени на устройствах с ограниченными ресурсами. ## Метод AQ-PCDSys основывается на синергетическом использовании **Quantized Neural Network (QNN)** и **Adaptive Multi-Sensor Fusion (AMF)**. QNN-архитектура оптимизирована для малогабаритного исполнения и минимальной задержки выполнения, чтобы подходить к реальному времени. Адаптивная мульти-сенсорная фусажировка (AMF), в свою очередь, использует **Adaptive Weighing Mechanism (AWM)**, чтобы присваивать более высокий вес сенсорной модели, которая более подходит для текущих условий планеты. Для обеспечения гибкости в работе с разными размерами кратеров, AQ-PCDSys включает **Multi-Scale Detection Heads**. Это весьма гибкая система, которая может адаптироваться к разным планетарным окружениям. ## Результаты Использовав данные с NASA's LRO (Lunar Reconnaissance Orbiter) и других источников, авторы проверили AQ-PCDSys на выявлении кратеров различных размеров. Оценка показала, что QNN-архитектура позволяет получить высокую точность при минимальной задержке выполнения. Также **AMF** добавил значительный прирост в устойчивость системы в условиях планетарных ландшафтов. Эти результаты подтверждают, что AQ-PCDSys может быть успешно использована в реальных космических операциях. ## Значимость AQ-PCDSys может быть применена в различной космической оборудовании для поддержки навигации, избежания опасностей и выполнения съемок планетарных ландшафтов. Ее важность заключается в том, что она обеспечивает высокую точность исполнения, минимальную задержку и высокую устойчивость к разным планетарным ландшафтам. Это может уже сейчас стать основой для новых космических решений, таких как продвинутые системы самостоятельной навигации и сбора данных на планетах. ## Выводы Работа представляет **AQ-PCDSys**, новую систему для реального времени, нацеленную на решение проблемы выявления кратеров на планетах. Она объединяет QNN с AMF, чтобы обеспечить эффективность, гибкость и точность. Будущие исследовани

Annotation:

Autonomous planetary exploration missions are critically dependent on real-time, accurate environmental perception for navigation and hazard avoidance. However, deploying deep learning models on the resource-constrained computational hardware of planetary exploration platforms remains a significant challenge. This paper introduces the Adaptive Quantized Planetary Crater Detection System (AQ-PCDSys), a novel framework specifically engineered for real-time, onboard deployment in the computationall...

ID: 2508.18025v1 cs.LG, cs.AI, cs.CV, cs.ET, cs.SY, eess.SY, 68T07(2020), 68T45(2020), 68T10(2020), 90C90(2020), I.2.10; I.2.6; I.2.9; J.2

arXiv PDF

📄 STAS: Spatio-Temporal Adaptive Computation Time for Spiking Transformers

2025-08-22

Авторы:

Donghwa Kang, Doohyun Kim, Sang-Ki Ko, Jinkyu Lee, Brent ByungHoon Kang, Hyeongboo Baek

## Контекст На протяжении последних десятилетий, специально разработанные спикерные нейронные сети (Spiking Neural Networks, SNNs) приобрели важное место в искусственном интеллекте благодаря их энергоэффективности по сравнению с артифициальными нейронными сетями (ANNs). Однако они страдают от высокой задержки и значительного вычислительного накладного расхода, порождаемого своей многоэтапной работой. Несмотря на то, что различные методы динамического вычисления были предложены для уменьшения задержек и расхода, некоторые из них остались неустойчивыми в различных условиях работы. В то же время, статические архитектуры динамического вычисления, несмотря на их потенциал, не могут решить проблему. Кроме того, применение подхода с адаптивным вычислительным временем (Adaptive Computation Time, ACT) к спикерным видюхам-трансформерам (Vision Transformers, ViTs) сталкивается с двумя главными проблемами: нарушением предварительного условия изоморфного времени и статической архитектурой, не приспособленной к этим принципам. STAS (Spatio-Temporal Adaptive computation time for Spiking Transformers) предлагается как решение этих проблем, сочетая статическую архитектуру с динамическим вычислительным политикой. ## Метод STAS предлагает интегрированный модуль разделения волновых патчей (Integrated Spike Patch Splitting, I-SPS), который устанавливает темпоральную стабильность за счет создания единой постановки входных данных. Эта стабильность в свою очередь позволяет использовать адаптивный спикерный самоприслушивающийся модуль (Adaptive Spiking Self-Attention, A-SSA), который выполняет приемущество в двухмерной оптимизации токенов по пространственному и временному осям. Эта гибкость в вычислениях позволяет сократить затраты на вычислительные ресурсы без потери точности. Метод STAS был реализован в различных спикерных трансформерных архитектурах и проверен на таких датасетах, как CIFAR-10, CIFAR-100 и ImageNet. ## Результаты Эксперименты показали, что STAS существенно уменьшает энергозатраты в сравнении с состоянием технологии (SOTA), сокращая ее на 45.9% на CIFAR-10, 43.8% на CIFAR-100 и 30.1% на ImageNet. Это улучшение сочетается с повышением точности распознавания изображений. Таким образом, STAS демонстрирует ключевое преимущество в сочетании эффективности и точности, что делает его привлекательным для применения в спикерных сетях. ## Значимость Помимо энергоэффективности, STAS имеет широкие перспективы применения в задачах визуального распознавания, передачи речи, обработки естественного языка и других областях, где энергоэффективность и высокая точность играют ключевую роль. Благодаря своему универсальному подходу, STAS может быть успешно использован в раз

Annotation:

Spiking neural networks (SNNs) offer energy efficiency over artificial neural networks (ANNs) but suffer from high latency and computational overhead due to their multi-timestep operational nature. While various dynamic computation methods have been developed to mitigate this by targeting spatial, temporal, or architecture-specific redundancies, they remain fragmented. While the principles of adaptive computation time (ACT) offer a robust foundation for a unified approach, its application to SNN...

ID: 2508.14138v1 cs.LG, cs.AI, cs.CV, cs.NE

arXiv PDF

📄 Organ-Agents: Virtual Human Physiology Simulator via LLMs

2025-08-22

Авторы:

Rihao Chang, He Jiao, Weizhi Nie, Honglin Guo, Keliang Xie, Zhenhua Wu, Lina Zhao, Yunpeng Bai, Yongtao Ma, Lanjun Wang, Yuting Su, Xi Gao, Weijie Wang, Nicu Sebe, Bruno Lepri, Bingwei Sun

#### Контекст Прогресс в области больших языковых моделей (LLMs) открыл новые возможности для моделирования сложных физиологических систем. Однако существуют проблемы в точности, эффективности и воспроизводимости таких моделей, особенно при анализе многосистемных феноменов. Эти ограничения приводят к затруднению использования таких моделей в клинических решениях, таких как моделирование органов, симуляция терапии и выявление патологичных процессов. Данные проблемы мотивируют развитие моделей, которые обеспечат высокую точность, универсальность и возможность проведения интерпретируемых экспериментов в критической медицинской практике. #### Метод Мы предлагаем Organ-Agents — распределенную систему, основанную на multi-agent framework, где каждый agent представляет собой отдельную систему органа (например, сердечно-сосудистая, печеночная и т.д.). Модели реализуются на базе LLMs и тренируются с помощью наборов данных системных временных рядов, полученных из реальных клинических источников. Методология включает в себя предобучение на тренировочных данных (supervised fine-tuning), а затем улучшение поведения во время работы с помощью reinforcement-guided coordination. Данная стратегия позволяет координировать агенты динамически, применяя ошибочное исправление и выбор динамических спецификаций. Наши данные включают анонимные данные 7,134 пациентов с сепсисом и 7,895 контрольных случаев, покрывающие 9 систем органов и 125 переменных. #### Результаты Мы проводили тщательную оценку Organ-Agents на 4,509 отложенных пациентов, получив высокую точность с показателями MSE <0.16 для каждой системы. Для внешней валидации использовались данные 22,689 пациентов с критической ситуацией, собранных в двух клинических центрах. Мы обнаружили небольшую задержку в поведении модели при распространении различных данных, при этом уровень точности оставался высоким. Особое внимание уделено воспроизведению критических многосистемных событий, таких как гипотензия и гипоксия, с точностью во временной и фазовой прогрессии. Мы также провели сотрудничество с 15 критических заболеваний специалистов, которые оценили модели по интерпретируемости и физиологической достоверности (средние оценки 3.9 и 3.7 в шкале Likert). Наконец, Organ-Agents позволяет проводить анализ историй болезни в условиях альтернативных стратегий терапии, позволяя прогнозировать показатели здоровья и APACHE II. #### Значимость Предложенная модель может применяться в критической медицине для моделирования органов, симуляции терапии и тестирования гипотез. Она обеспечивает высокую точность воспроизведения физиологических про

Annotation:

Recent advances in large language models (LLMs) have enabled new possibilities in simulating complex physiological systems. We introduce Organ-Agents, a multi-agent framework that simulates human physiology via LLM-driven agents. Each Simulator models a specific system (e.g., cardiovascular, renal, immune). Training consists of supervised fine-tuning on system-specific time-series data, followed by reinforcement-guided coordination using dynamic reference selection and error correction. We curat...

ID: 2508.14357v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 A Shift in Perspective on Causality in Domain Generalization

2025-08-20

Авторы:

Damian Machlanski, Stephanie Riley, Edward Moroshko, Kurt Butler, Panagiotis Dimitrakopoulos, Thomas Melistas, Akchunya Chanchal, Steven McDonagh, Ricardo Silva, Sotirios A. Tsaftaris

## Контекст Область исследования доменной общеприменимости (Domain Generalization, DG) направлена на развитие моделей, которые могут обучаться на одном домене и справляться с неизвестными доменами. Однако современные модели часто не могут обеспечить стабильную интерпретацию и выносливость в подобных ситуациях. Этот феномен становится еще более актуальным в контексте распространенных теорий о том, что выборка признаков, связанных с причинным подходом, может дополнить обучение и улучшить предсказательную мощь моделей. Несмотря на это, теории логического связывания причин и следствий вызывают вопросы относительно их эффективности в стабильной общеприменимости. Мотивацией для данного исследования является проблема неоднозначной роли причинных моделей в обеспечении выносливости и интерпретируемости результатов, что приводит к необходимости предложить более четкую модель. ## Метод Для достижения целей исследования была применена интерактивная научная методология, которая включала: (1) анализ и реконструкцию теоретических предпосылок, связанных с причинными моделями в DG; (2) разработка и тестирование алгоритмов для оценки различных моделей причинно-следственных связей в контексте многодоменных задач; (3) эмпирический анализ результатов, основанный на расширенном наборе данных, включающих как стандартные, так и новые бенчмарки DG. Это позволило проверить гипотезу о том, как различные причинные модели влияют на общеприменимость. ## Результаты Исследование показало, что причинные модели могут способствовать общеприменимости, но не всегда стабильно. Эксперименты проведены на нескольких DG-бенчмарках, включая CIFAR-10-C и VLCS. Было обнаружено, что некоторые модели причинно-следственных связей могут улучшать предсказания в некоторых случаях, но при этом могут вызывать ложные срабатывания или нестабильность при переходе между доменами. Результаты также показали, что другие модели, ориентированные исключительно на признаки без причинных моделей, могут быть эффективнее в некоторых случаях. ## Значимость Результаты данного исследования могут быть применены в различных сферах, где существуют проблемы с общеприменимостью моделей, например, в медицине, робототехнике, интернет-технологиях, а также в других областях, где модели должны устойчиво работать в различных условиях. Преимущества нового подхода заключаются в том, что он предлагает более гибкую и точную модель для выбора причинных моделей в зависимости от конкретной задачи и домена. Это может привести к более высокому уровню интерпретируемости и устойчивости моделей в задачах многодоменной общеприменимости. ## Выводы

Annotation:

The promise that causal modelling can lead to robust AI generalization has been challenged in recent work on domain generalization (DG) benchmarks. We revisit the claims of the causality and DG literature, reconciling apparent contradictions and advocating for a more nuanced theory of the role of causality in generalization. We also provide an interactive demo at https://chai-uk.github.io/ukairs25-causal-predictors/.

ID: 2508.12798v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 ENA: Efficient N-dimensional Attention

2025-08-19

Авторы:

Yibo Zhong

#### Контекст Современные модели глубокого обучения сталкиваются с вызовами при работе с данными высокого порядка (например, 1D-ND), такими как видео, звук или сложные структуры данных. Традиционные трансформеры, хотя очень эффективны для линейных последовательностей, неэффективны при работе с высокопорядковыми данными из-за высокой стоимости вычислений и памяти. Это приводит к необходимости разработки более эффективных архитектур, которые могут эффективно обрабатывать высокопорядковые данные. Этот рабочей группой предлагается ENA (Efficient N-dimensional Attention) — архитектура, которая комбинирует линейную рекуррентную сеть с высокопорядковым скольжением окнами (SWA) для моделирования высокопорядковых данных. Целью работы является изучение и эффективное решение проблем моделирования высокопорядковых последовательностей, которые требуют высокой производительности и малого потребления ресурсов. #### Метод Работа основывается на двух ключевых элементах: **сканировании** и **аттенции-гибридных моделях**. Сканирование — это подход, который использует линейные модели для последовательного сканирования данных по осям. Однако, как показано в теории и практике, этот подход оказался ограниченным в своих возможностях. Вместо этого, работа рассматривает аттенцион-гибридные модели, в которых линейная рекуррентная сеть комбинируется с модифицированной аттенцией для моделирования высокопорядковых данных. Особое внимание уделено **типам аттенции**, в том числе **tiled high-order sliding window attention (SWA)**, которая представляет собой модификацию скольжения окнами для высокопорядковых данных. Архитектура ENA представляет собой синергетическую комбинацию этих двух компонентов, которая обеспечивает эффективность в теории и в практике. #### Результаты Для оценки эффективности ENA проведены несколько экспериментов на различных наборах данных 1D-ND. Использовались различные модели для сравнения, включая трансформеры и другие аттенцион-гибридные модели. Результаты показали, что ENA превосходит трансформеры и другие архитектуры по точности и эффективности вычислений. Ключевым результатом является то, что **tiled high-order sliding window attention (SWA)** оказалась очень эффективной как в теории, так и в практике. Эта модель демонстрирует превосходную скорость обучения и работы на высокопорядковых последовательностях, что делает её привлекательной для задач, требующих моделирования длинных последовательностей. #### Значимость ENA предлагает расширение линейных рекуррентных моделей за счёт сочетания линейного взвешивания и высокопорядкового скольжения окнами. Эта модель может быть применена в различных областях, таких как

Annotation:

Efficient modeling of long sequences of high-order data requires a more efficient architecture than Transformer. In this paper, we investigate two key aspects of extending linear recurrent models, especially those originally designed for language modeling, to high-order data (1D to ND): scanning strategies and attention-hybrid architectures. Empirical results suggest that scanning provides limited benefits, while attention-hybrid models yield promising results. Focusing on the latter, we further...

ID: 2508.11921v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 On the Complexity-Faithfulness Trade-off of Gradient-Based Explanations

2025-08-16

Авторы:

Amir Mehrpanah, Matteo Gamba, Kevin Smith, Hossein Azizpour

#### Контекст Визуальные задачи, такие как обработка изображений и классификация, часто основываются на ReLU-сетях, известных своим высоким эффективностью и точностью. Однако эти сети обладают сильными переходами, которые могут привести к тому, что их предсказания зависят от отдельных пикселей или небольших наборов данных. Это вызывает проблемы для градиентно-основанных методов объяснения, таких как Grad-CAM, которые часто отдают шумные и неточные результаты. Недостаточная четкость и надежность таких методов ограничивают их применение в реальных задачах. Наша мотивация заключается в том, чтобы разработать более прозрачные и точные методы объяснения, которые могут быть эффективно использованы в сложных задачах машинного обучения. #### Метод Мы предлагаем универсальный спектральный подход для анализа и измерения точности и достоверности градиентных методов объяснения. Наше решение построено на двух основных компонентах. Во-первых, мы разрабатываем методы для измерения "высокочастотного содержания" в выходных данных сети, которые часто становятся причиной шума в градиентных методах. Во-вторых, мы вводим квантифицированную меру того, как подходы, такие как Grad-CAM, могут изменять логику сети при попытке улучшить их читаемость. Это позволяет нам формально определить "explanation gap" — разницу между настоящими причинами предсказания и тому, что мы видим в объяснении. #### Результаты Мы проводили эксперименты на нескольких датасетах, включая CIFAR-10 и ImageNet. Используя нашу модель, мы смогли точно определить и измерить "explanation gap" для различных методов объяснения. Наши результаты показали, что существующие методы, такие как Grad-CAM, могут существенно деформировать выводы, когда они стараются уменьшить шум. Мы также проанализировали как различные архитектурные решения, такие как различные виды нормализации и аугментаций, влияют на точность и достоверность объяснений. #### Значимость Наша работа имеет значительное значение для нескольких областей, включая обучение с подкреплением, медицинскую информатику и многоязычные модели. Методы, разработанные в этой статье, могут помочь уменьшить неточности в объяснениях, улучшить надежность моделей в задачах, требующих высокой точности, и обеспечить более прозрачную интеракцию с моделями. Это может привести к повышению доверия пользователей к моделям и их расширенному применению в критичных областях. #### Выводы Мы установили, что существует естественный трейдоф между читаемостью и точностью объяснений, и мы предложили способы измерить и регулировать этот трейдоф. Наш подход может быть расширен для исследования других ас

Annotation:

ReLU networks, while prevalent for visual data, have sharp transitions, sometimes relying on individual pixels for predictions, making vanilla gradient-based explanations noisy and difficult to interpret. Existing methods, such as GradCAM, smooth these explanations by producing surrogate models at the cost of faithfulness. We introduce a unifying spectral framework to systematically analyze and quantify smoothness, faithfulness, and their trade-off in explanations. Using this framework, we quant...

ID: 2508.10490v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 On Spectral Properties of Gradient-based Explanation Methods

2025-08-16

Авторы:

Amir Mehrpanah, Erik Englesson, Hossein Azizpour

## Контекст Глубокие нейронные сети (ДНС) позволяют решать сложные задачи анализа данных, но их поведение часто остается непонятным. Это возражает обратную сторону их мощи — недостаток прозрачности и уязвимость к ошибкам. Чтобы увеличить надежность результатов ДНС, необходимо понять, почему они приходят к определенным выводам. В этой области важным направлением является развитие методов объяснения (explanation methods), которые помогают понять, как ДНС приходят к своим решениям. Однако существуют проблемы надежности и последовательности результатов этих методов. Одним из основных причин является недостаточное формализм, что приводит к несостоятельности в анализе. Наша работа направлена на устранение этого недостатка, используя новые математические подходы, чтобы дать обоснованные и последовательные ответы на вопросы о поведении глубоких нейронных сетей. ## Метод Мы применяем новые формализмы, основанные на проблемах градиентных методов объяснения, чтобы проанализировать их поведение. Наша методология основывается на двух главных подходах: (i) **проблема градиента в качестве основы интерпретации** и (ii) **проблема спектральных свойств полученных результатов**. Мы исследуем, как использование градиентов в методах объяснения влияет на результат и какие спектральные свойства могут быть получены в результате этого использования. Мы также рассматриваем различные методы, такие как **SmoothGrad**, которые вводят дополнительные параметры в процессе объяснения. Наша архитектура позволяет связать все эти приемы с помощью нового градиентно-спектрального формализма, чтобы уточнить и улучшить понимание результатов. ## Результаты Мы проводим многочисленные эксперименты с различными методами объяснения, включая **SmoothGrad** и другие, с различными наборами гиперпараметров. Мы используем разных типов данных и глубоких нейронных сетей, чтобы проверить наши теоретические выводы. Наши результаты показывают, что методы, основанные на градиентах, имеют часто встречающуюся **градиентно-спектральную биаз**. Мы также показываем, что **сквадратный градиент** и **погрешность ввода** — основные факторы, которые влияют на результат. Кроме того, мы выявляем, что корректный выбор **параметров упряжения (perturbation)** в методах, таких как SmoothGrad, может привести к непоследовательности результатов. Мы предлагаем два новых метода, чтобы устранить эти проблемы: (i) механизм для определения **стандартной гиперпараметра упряжения** и (ii) **агрегационный метод SpectralLens**, который позволяет улучшить полученные результаты и дать более последовательные объяснения. ## Значимость Наши резуль

Annotation:

Understanding the behavior of deep networks is crucial to increase our confidence in their results. Despite an extensive body of work for explaining their predictions, researchers have faced reliability issues, which can be attributed to insufficient formalism. In our research, we adopt novel probabilistic and spectral perspectives to formally analyze explanation methods. Our study reveals a pervasive spectral bias stemming from the use of gradient, and sheds light on some common design choices ...

ID: 2508.10595v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Towards High-Order Mean Flow Generative Models: Feasibility, Expressivity, and Provably Efficient Criteria

2025-08-13

Авторы:

Yang Cao, Yubin Chen, Zhao Song, Jiahao Zhang

## Контекст Generative моделирование является ключевым направлением в искусственном интеллекте, нацеленным на создание реалистичных генерируемых данных. Одним из актуальных подходов является Flow Matching, который используется для генерирования высококачественных данных. Одна из проблем этого подхода заключается в том, что он часто требует многошаговых процедур для точного сэмплинга, что растягивает время и сложность вычислений. Другая проблема заключается в ограниченной выразительности существующих моделей. Эти проблемы мотивируют развитие моделей, которые обладают более богатыми динамическими свойствами и эффективным сэмплингом. ## Метод В данной работе предлагается расширение MeanFlow, называемое Second-Order MeanFlow. Он включает средние ускорение поля в объектив генеративной модели. Для доказательства физической и теоретической стабильности Second-Order MeanFlow используется аналогия с первоначальным MeanFlow. Для оценки выразительности применяется метод анализа сложности алгоритмов, а именно, анализ циркуляционной сложности. Чтобы обеспечить эффективность, используются аппроксимации аттенционных операций, чья точность доказана с помощью теоретических рассуждений. ## Результаты Проведенные эксперименты показали, что Second-Order MeanFlow позволяет достичь более высокой выразительности и эффективности по сравнению с первоначальным MeanFlow. Эксперименты проводились на различных наборах данных, таких как MNIST и CIFAR-10. Результаты показали, что модель не только эффективнее в сэмплировании, но и обладает более богатыми динамическими свойствами. Это позволяет генерировать более реалистичные данные и увеличивает скорость вычислений. ## Значимость Выделенные результаты могут быть применены в различных областях, включая генерирование текста, изображений и звука. Высокая эффективность модели позволяет использовать ее в реальном времени приложениях, таких как генерирование реалистичных изображений в мобильных приложениях. Богатые динамические свойства Second-Order MeanFlow открывают новые возможности в моделировании сложных систем, таких как климатические процессы или динамика товаров на рынке. ## Выводы В результате проведенного исследования доказана возможность развития точных и выразительных генерирования данных с помощью Second-Order MeanFlow. Однако, необходимо продолжить развитие этого подхода для решения более широкой класса задач, включая генерирование в реальном времени и моделирование сложных систем. Будущие исследования будут направлены на улучшение точности аппроксимации аттенционных операций и расширение модели для работы с более большими и сложными наборами данных.

Annotation:

Generative modelling has seen significant advances through simulation-free paradigms such as Flow Matching, and in particular, the MeanFlow framework, which replaces instantaneous velocity fields with average velocities to enable efficient single-step sampling. In this work, we introduce a theoretical study on Second-Order MeanFlow, a novel extension that incorporates average acceleration fields into the MeanFlow objective. We first establish the feasibility of our approach by proving that the a...

ID: 2508.07102v1 cs.LG, cs.AI, cs.CV

arXiv PDF

1
2
10
11
12
13

Показано 111 - 120 из 125 записей