📚 Саммари научных статей из arXiv

Найдено 2901 результатов по запросу 'cs.LG, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Stabilizing Long-term Multi-turn Reinforcement Learning with Gated Rewards

2025-08-16

Авторы:

Zetian Sun, Dongfang Li, Zhuoen Chen, Yuhuai Qin, Baotian Hu

Тема: Stabilizing Long-term Multi-turn Reinforcement Learning with Gated Rewards ## Контекст Длиннострочные задачи в reinforcement learning (RL) часто сталкиваются с проблемой разреженности вознаграждений. Такие задачи требуют многократного взаимодействия с системой, прежде чем достичь целей. Существующие методы формирования наград либо не способны определять полезные непосредственные награды, либо вводят избыточные предположения или требуют подробной декомпозиции задачи. Это приводит к несоответствию между непосредственными наградами и долгосрочными целями, что может привести к ошибкам в формировании политик. Другой подход, основанный на верификации, использует шагающие критики для формирования наград, но даже здесь могут возникнуть проблемы с гибридностью между непосредственными наградами и долгосрочными целями. Мы сосредоточились на области программного обеспечения (SWE), где многократное взаимодействие и верификация играют ключевую роль. Целью нашего исследования является стабилизация многократных задач RL через более эффективное формирование наград. ## Метод Мы предлагаем SWE-oriented RL Framework, который объединяет несколько ключевых компонентов: поддержку многократного взаимодействия, тонкую настройку ре wards, а также интеграцию с docker-based execution. Для решения проблемы разреженности наград мы предлагаем Gated Reward Accumulation (G-RA), метод, который ограничивает формирование непосредственных наград, пока долгосрочная награда не достигнет заданного порога. Это позволяет избежать быстрого изменения поведения агента и обеспечить стабильное оптимизационное поведение. Мы также предоставляем гибкую архитектуру для настройки наград, что позволяет адаптировать решение к разным задачам в SWE. ## Результаты Мы проверили G-RA на двух реалистичных SWE-задачах: Verified и kBench. Результаты показали, что метод G-RA существенно улучшил процент успешных завершений задач: с 47.6% до 93.8% для Verified и с 22.0% до 86.0% для kBench. Также обнаружено, что выполнение политик стало более стабильным, не испытывая деградации, что характерно для разреженных наград. Эти результаты свидетельствуют о том, что G-RA успешно решает проблему разреженности наград, обеспечивая более стабильное и эффективное оптимизационное поведение. ## Значимость Наш подход может быть применен в различных SWE-задачах, где требуется многократное взаимодействие и верификация. Он предоставляет значительные преимущества по сравнению с традиционными методами, такими как улучшенная стабильность политик, увеличенные успешные завершения задач и сниженная вероятность ошибок. Этот подход также открывает новые возможности для применения RL в слож

Annotation:

Reward sparsity in long-horizon reinforcement learning (RL) tasks remains a significant challenge, while existing outcome-based reward shaping struggles to define meaningful immediate rewards without introducing bias or requiring explicit task decomposition. Alternatively, verification-based reward shaping uses stepwise critics, but misalignment between immediate rewards and long-term objectives can lead to reward hacking and suboptimal policies. In this work, we address this problem in the cont...

ID: 2508.10548v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 FreeGAD: A Training-Free yet Effective Approach for Graph Anomaly Detection

2025-08-16

Авторы:

Yunfeng Zhao, Yixin Liu, Shiyuan Li, Qingfeng Chen, Yu Zheng, Shirui Pan

## Контекст Графовая аномалия (Graph Anomaly Detection, GAD) является ключевым заданием, связанным с идентификацией узлов, отклоняющихся от главной тенденции в графе. Оно находит применение в сферах, таких как социальные сети, электронная коммерция, а также в обнаружении мошенничества и террористических угроз. Несмотря на прогрессы в глубоком обучении, существующие подходы часто страдают от высоких затрат на развертывание, ограниченной масштабируемости и требованием к длительному обучению. Это ставит дополнительные требования к эффективности и скорости работы систем GAD. Неожиданным получилось то, что тренировочный этап в глубоких GAD-методах не всегда является ключом к высокому качеству обнаружения аномалий. Данное исследование стремится развить более эффективный, универсальный и масштабируемый подход без необходимости обучения. ## Метод FreeGAD предлагает новую методологию без тренировки, которая основывается на аффинти-гейтед резолюшн энкодер и статистическом подходе к вычислению аномальных скоров. Графический компонент Affinity-Gated Residual Encoder (AGRE) кодирует высококачественные, глубокие свойства узлов в пространстве векторов. Далее, с помощью анкорных узлов (anchor nodes), которые выступают как псевдо-нормальные и аномальные навыки, FreeGAD вычисляет расстояние при помощи аномальных скоров. Эти скоры определяются как статистические отклонения от нормальных значений, генерируемых графом. Таким образом, FreeGAD использует нейросетевую архитектуру с богатым семантическим представлением, которая не требует тренировки, но обеспечивает высокую точность и масштабируемость. ## Результаты Эксперименты проводились на нескольких высококачественных датасетах из различных сфер (сетей, транзакций, детекции мошенничества). Были сравнены результаты FreeGAD с ключевыми GAD-методами, которые требуют тренировки. FreeGAD не только показал лучшую точность обнаружения аномалий, но и продемонстрировал намного вышу масштабируемость и эффективность. Так, на датасете Amazon, FreeGAD достиг 94,2% точности в обнаружении аномалий, что значительно превосходит другие подходы, в то же время избавляясь от требований к тренировке и ресурсоемкости. ## Значимость Предложенный подход FreeGAD может быть применен в различных областях, включая социальные сети, транзакционные системы и обнаружение мошенничества. Он предлагает значительные преимущества перед тренировочными GAD-методами, в том числе повышенную скорость развертывания, экономию ресурсов и увеличенную масштабируемость. Особенно важно, что FreeGAD может применяться в реальном в

Annotation:

Graph Anomaly Detection (GAD) aims to identify nodes that deviate from the majority within a graph, playing a crucial role in applications such as social networks and e-commerce. Despite the current advancements in deep learning-based GAD, existing approaches often suffer from high deployment costs and poor scalability due to their complex and resource-intensive training processes. Surprisingly, our empirical findings suggest that the training phase of deep GAD methods, commonly perceived as cru...

ID: 2508.10594v1 cs.LG, cs.AI

arXiv PDF

📄 On Spectral Properties of Gradient-based Explanation Methods

2025-08-16

Авторы:

Amir Mehrpanah, Erik Englesson, Hossein Azizpour

## Контекст Глубокие нейронные сети (ДНС) позволяют решать сложные задачи анализа данных, но их поведение часто остается непонятным. Это возражает обратную сторону их мощи — недостаток прозрачности и уязвимость к ошибкам. Чтобы увеличить надежность результатов ДНС, необходимо понять, почему они приходят к определенным выводам. В этой области важным направлением является развитие методов объяснения (explanation methods), которые помогают понять, как ДНС приходят к своим решениям. Однако существуют проблемы надежности и последовательности результатов этих методов. Одним из основных причин является недостаточное формализм, что приводит к несостоятельности в анализе. Наша работа направлена на устранение этого недостатка, используя новые математические подходы, чтобы дать обоснованные и последовательные ответы на вопросы о поведении глубоких нейронных сетей. ## Метод Мы применяем новые формализмы, основанные на проблемах градиентных методов объяснения, чтобы проанализировать их поведение. Наша методология основывается на двух главных подходах: (i) **проблема градиента в качестве основы интерпретации** и (ii) **проблема спектральных свойств полученных результатов**. Мы исследуем, как использование градиентов в методах объяснения влияет на результат и какие спектральные свойства могут быть получены в результате этого использования. Мы также рассматриваем различные методы, такие как **SmoothGrad**, которые вводят дополнительные параметры в процессе объяснения. Наша архитектура позволяет связать все эти приемы с помощью нового градиентно-спектрального формализма, чтобы уточнить и улучшить понимание результатов. ## Результаты Мы проводим многочисленные эксперименты с различными методами объяснения, включая **SmoothGrad** и другие, с различными наборами гиперпараметров. Мы используем разных типов данных и глубоких нейронных сетей, чтобы проверить наши теоретические выводы. Наши результаты показывают, что методы, основанные на градиентах, имеют часто встречающуюся **градиентно-спектральную биаз**. Мы также показываем, что **сквадратный градиент** и **погрешность ввода** — основные факторы, которые влияют на результат. Кроме того, мы выявляем, что корректный выбор **параметров упряжения (perturbation)** в методах, таких как SmoothGrad, может привести к непоследовательности результатов. Мы предлагаем два новых метода, чтобы устранить эти проблемы: (i) механизм для определения **стандартной гиперпараметра упряжения** и (ii) **агрегационный метод SpectralLens**, который позволяет улучшить полученные результаты и дать более последовательные объяснения. ## Значимость Наши резуль

Annotation:

Understanding the behavior of deep networks is crucial to increase our confidence in their results. Despite an extensive body of work for explaining their predictions, researchers have faced reliability issues, which can be attributed to insufficient formalism. In our research, we adopt novel probabilistic and spectral perspectives to formally analyze explanation methods. Our study reveals a pervasive spectral bias stemming from the use of gradient, and sheds light on some common design choices ...

ID: 2508.10595v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 SPHENIC: Topology-Informed Multi-View Clustering for Spatial Transcriptomics

2025-08-16

Авторы:

Chenkai Guo, Yikai Zhu, Jing Yangum, Renxiang Guan, Por Lip Yee, Guangdun Peng, Dayu Hu

## Контекст Spatial transcriptomics (ST) обеспечивает экзотические возможности для исследования клеточных подпелиолей, обнаружения генов и молекулярных механизмов, взаимодействующих с разных типов клеток в различных регионах ткани. Однако существуют сложности в точном разделении клеток на подпелиолы и в определении динамических связей между ними. Несмотря на то, что многие методы существуют для кластеризации в ST в поиске этих связей, они часто сталкиваются с проблемами, такими как неоднозначность в топологических сигналах и неэффективность в моделировании спациальных структур. Поэтому, целью нашей работы является разработка нового метода, который бы позволил лучше интегрировать топологические подходы и спациальные модели в процессе кластеризации ST. ## Метод Мы предлагаем **SPHENIC (Spatial Persistent Homology Enhanced Neighborhood Integrative Clustering)**, который новое подход к кластеризации в ST. SPHENIC использует **топологические особенности**, чтобы обеспечить более стабильное учитывание основных структур клеточных подпелиолей. Для улучшения качества спациальных моделей, мы разработали **Spatial Constraint and Distribution Optimization Module (SCDOM)**. Этот модуль улучшает похожесть между эмбеддингами клеток и их соседними клетками в пространстве, а также уменьшает похожесть с несуществующими клеточными соседями. Это позволяет создать более структурированные и кластеризуемые спациальные эмбеддинги. ## Результаты Мы провели эксперименты на 14 бенчмарк-образцах ST, включая 10 тысяч клеток, чтобы оценить производительность SPHENIC. Результаты показали, что наш метод показывает значительные преимущества над текущими стандартными методами кластеризации ST. Мы получили значительные улучшения в метриках F1-score, NMI и ARI, которые показывают 3.31%-6.54% лучшую точность по сравнению с лучшими альтернативными моделями. Эти результаты доказывают, что SPHENIC лучше моделирует топологические и спациальные структуры, что приводит к более классифицируемым и точным результатам кластеризации. ## Значимость Наш метод SPHENIC имеет широкое применение в области спациальной транскриптомики, включая геномное исследование, разработку новых лекарств и обнаружение молекулярных сигналов. Метод предоставляет более точные и разделяемые спациальные модели, которые позволяют лучше увидеть связи между разными клетками и подпелиолами. Это может привести к новым революционным открытиям в медицинских и биологических науках. Будущие исследования будут направлены на расширение SPHENIC для более сложных данных и интеграцию со сложными сетями моделей. ## Выводы Мы представили SPHENIC, новый метод кластер

Annotation:

By incorporating spatial location information, spatial-transcriptomics clustering yields more comprehensive insights into cell subpopulation identification. Despite recent progress, existing methods have at least two limitations: (i) topological learning typically considers only representations of individual cells or their interaction graphs; however, spatial transcriptomic profiles are often noisy, making these approaches vulnerable to low-quality topological signals, and (ii) insufficient mode...

ID: 2508.10646v1 cs.LG, cs.AI

arXiv PDF

📄 REFN: A Reinforcement-Learning-From-Network Framework against 1-day/n-day Exploitations

2025-08-16

Авторы:

Tianlong Yu, Lihong Liu, Ziyi Zhou, Fudu Xing, Kailong Wang, Yang Yang

#### Контекст В последние годы широко развернутые сетевые устройства становятся признаком вредоносных атак, включая 1-дневные и n-дневные уязвимости. Эти уязвимости возникают из-за масштабируемости и сложности устранения дефектов в программном обеспечении. Традиционные методы защиты, такие как локальное обновление программного обеспечения и сетевой фильтрации, не могут справиться с ростом угроз в сети. Они имеют ограниченную масштабируемость, вызывают проблемы совместимости и требуют ручного вмешательства при развертывании. Обнаружение и устранение уязвимостей требуют продвинутых алгоритмов. Это главная мотивация для разработки REFN (Reinforcement Learning From Network), разработанного для устранения этих проблем. #### Метод REFN — это фреймворк, основанный на усовершенствованном лингвистическом моделировании, в котором внедряется агент, основанный на обучении с подкреплением (Reinforcement Learning). Основной инновацией является использование крупных лингвистических моделей для автоматического генерирования сетевых фильтров. Эти модели обучаются на основе онлайнных сетевых наград, а не на руководстве человеческим опытом. Это позволяет достичь высокой масштабируемости и специфичности для различных устройств. Для обеспечения совместимости используется решение, называемое Online Agentic Validation, которое предотвращает ошибки в выводе моделей. Архитектура REFN включает в себя три ключевых модуля: 1) Agentic RAG-based Knowledge Distillation (расширение знаний модели), 2) RL From VNF Pipeline (перевод языкового контекста в сетевые действия), 3) Online Agentic Validation (проверка вывода моделей). #### Результаты Вычислительные эксперименты проводились на основе 22 семейных 1-дневных и n-дневных уязвимостей. REFN показал высокую точность (21.1% выше, чем существующие алгоритмы) и эффективность (Mean Time To Patch — 3.65 часов). Это исследование также продемонстрировало высокую масштабируемость REFN, работающую на 10 000 устройств. Отчет о результатах показывает, что REFN эффективно устраняет уязвимости и обеспечивает устойчивую защиту в реальных условиях. #### Значимость REFN может быть применен в сетевых устройствах для быстрого обнаружения и устранения уязвимостей в 1-дневном или n-дневном хронологическом диапазоне. Он предлагает высокую масштабируемость, совместимость и низкую задержку в обработке. Это снижает риски для пользователей и повышает безопасность сетевых устройств. REFN обеспечивает экономичность и устойчивость, устраняя трудности в ручной проверке обновлений. #### Выводы REFN успешно справляется с тремя основными проблемами: расширение знаний моде

Annotation:

The exploitation of 1 day or n day vulnerabilities poses severe threats to networked devices due to massive deployment scales and delayed patching (average Mean Time To Patch exceeds 60 days). Existing defenses, including host based patching and network based filtering, are inadequate due to limited scalability across diverse devices, compatibility issues especially with embedded or legacy systems, and error prone deployment process (manual patch validation). To address these issues, we introduc...

ID: 2508.10701v1 cs.LG, cs.AI

arXiv PDF

📄 Electromagnetic Simulations of Antennas on GPUs for Machine Learning Applications

2025-08-16

Авторы:

Murat Temiz, Vemund Bakken

## Контекст Одной из главных проблем в разработке антенн является высокая сложность эмиссионных симуляций, которая требует высокой вычислительной мощности. Эти симуляции являются критически важными для оптимизации и проектирования антенн, особенно при использовании методов машинного обучения для достижения оптимальных решений. Однако, ограниченные вычислительные ресурсы и высокая сложность симуляций становятся барьером для эффективного использования машинного обучения в области проектирования антенн. Этот факт подчеркивает необходимость развития более эффективных инструментов для эмиссионных симуляций, которые могут обеспечить высокую вычислительную эффективность и быстрое получение результатов. ## Метод В рамках этого исследования разработана архитектура симуляционного фреймворка, основанного на open-source EM simulation software gprMax, и полностью ориентированного на GPU. Фреймворк использует параллельное вычисление на GPU для моделирования антенн с различными параметрами. Это позволяет эффективно сгенерировать большой объем данных, необходимый для обучения машинного обучения. Кроме того, проведено сравнение результатов симуляций с результатами, полученными с помощью коммерческого EM simulation software, чтобы проверить точность и надежность разработанного фреймворка. ## Результаты В ходе экспериментов были произведены симуляции микрострип-антенн с различными параметрами. Было подтверждено, что разработанный GPU-ориентированный фреймворк позволяет эффективно сгенерировать данные для обучения машинного обучения, сократив время вычислений в разы по сравнению с традиционными CPU-решениями. Также было установлено, что при правильном уровне разрешения симуляции, open-source EM software может давать результаты, которые соответствуют результатам коммерческого software. Это показывает, что GPU-симуляции могут быть использованы для эффективного проектирования и оптимизации антенн. ## Значимость Разработанный фреймворк имеет широкое применение в области проектирования и оптимизации антенн, а также в области машинного обучения, где требуется большой объем данных для обучения. Использование GPU для эмиссионных симуляций позволяет существенно сократить время разработки и повысить точность результатов. Это является ключевым преимуществом для широкого круга применений, включая телекоммуникации, радиологию и другие области, где антенны играют ключевую роль. ## Выводы Результаты исследования показывают, что GPU-симуляции эмиссионных симуляций могут существенно ускорить процесс разработки и оптимизации антенн. Открытый фреймворк gprMax может быть использован для проведения эффективных симуля

Annotation:

This study proposes an antenna simulation framework powered by graphics processing units (GPUs) based on an open-source electromagnetic (EM) simulation software (gprMax) for machine learning applications of antenna design and optimization. Furthermore, it compares the simulation results with those obtained through commercial EM software. The proposed software framework for machine learning and surrogate model applications will produce antenna data sets consisting of a large number of antenna sim...

ID: 2508.10713v1 cs.LG, cs.AI

arXiv PDF

📄 APFL: Analytic Personalized Federated Learning via Dual-Stream Least Squares

2025-08-16

Авторы:

Kejia Fan, Jianheng Tang, Zhirui Yang, Feijiang Han, Jiaxu Li, Run He, Yajiang Huang, Anfeng Liu, Houbing Herbert Song, Yunhuai Liu, Huiping Zhuang

## Контекст Personalized Federated Learning (PFL) является важной областью исследований в машинном обучении, нацеленной на создание персонализированных моделей для каждого клиента с привлечением к этому процессу совместного обучения. Однако существующие PFL-методы часто не могут справиться с проблемой не-IID данных, которая сильно повлияет на общую точность модели и ее персонализацию. Эта проблема становится особенно актуальной при работе с данными, характеризующимися сильным разрывом в распределении между клиентами. В этой работе мы предлагаем новый подход, называемый Analytic Personalized Federated Learning (APFL), который использует двухпоточный метод least squares для решения этой проблемы. ## Метод Метод APFL основывается на использовании фронт-енда на основе фундаментальной модели для извлечения признаков. Далее, процесс формирования модели делится на две части: глобальную общую структуру, основанную на shared primary stream, и локальную модель, специально для каждого клиента, разработанную на основе dedicated refinement stream. Значительная часть работы посвящена разработке аналитического подхода к решению проблемы не-IID данных. Благодаря этому, APFL обладает идеальным свойством робастности при различной степени не-IID распределения данных, что позволяет получить модели, которые достаточно термотологичны и идентичны даже при сильных различиях в распределении данных. ## Результаты Мы провели эксперименты на нескольких датасетах, включая MNIST, CIFAR-10, CINIC-10 и FEMNIST, чтобы проверить эффективность нашего подхода. Наши результаты показали, что APFL превосходит существующие базовые модели на холке 1.10%-15.45% в точности. Эти результаты демонстрируют эффективность нашего подхода в обеспечении персонализации моделей, даже при серьезных не-IID распределениях. ## Значимость Важность нашего работы заключается в том, что APFL может быть применен в различных приложениях, где необходимо обеспечить конфиденциальность и модельные мощности, не теряя точности. Это может быть широко применено в сферах, таких как медицина, финансовые услуги, искусственный интеллект, а также в ситуациях, где данные клиентов имеют сильно различное распределение. Благодаря своему уникальному подходу, APFL позволяет повысить производительность и сделать решения более гибкими и устойчивыми в условиях сильного разрыва данных. ## Выводы Предложенный APFL-подход доказал свою эффективность в решении проблемы не-IID данных в PFL. Мы планируем продолжить работу, улучшая модель, чтобы добиться еще большей гибкости и работы в реальных условиях. Будущие исследования будут направлены на расширение APFL для более сложных случаев не-IID данных и исследования новых аналитических моделей для персо

Annotation:

Personalized Federated Learning (PFL) has presented a significant challenge to deliver personalized models to individual clients through collaborative training. Existing PFL methods are often vulnerable to non-IID data, which severely hinders collective generalization and then compromises the subsequent personalization efforts. In this paper, to address this non-IID issue in PFL, we propose an Analytic Personalized Federated Learning (APFL) approach via dual-stream least squares. In our APFL, we...

ID: 2508.10732v1 cs.LG, cs.AI

arXiv PDF

📄 Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

2025-08-16

Авторы:

Zhipeng Chen, Xiaobo Qin, Youbin Wu, Yue Ling, Qinghao Ye, Wayne Xin Zhao, Guang Shi

## Контекст Область исследования сосредоточена на Reinforcement Learning with Verifiable Rewards (RLVR), который использует Pass@1 в качестве награды. Однако это подход сталкивается с проблемой достижения баланса между эксплорированием и эксплойтингом, что приводит к затухающему интересу к поиску новых решений и схождению к локальному оптимуму. Выбор подходящей метрики награды является ключевым для решения этой проблемы. Хотя Pass@k часто используется в оценке, его взаимосвязь с возможностью эксплорирования в RLVR остается недостаточно исследована. Мотивация исследования заключается в поиске решения этой проблемы и оптимизации политик поведения моделей с помощью более эффективных наградных метрик. ## Метод Исследование основывается на использовании Pass@k в качестве награды для обучения политики модели (Pass@k Training). Методология включает в себя аналитическую модель для вывода преимуществ Pass@k Training, что позволяет эффективно настраивать поведение модели. Реализация включает использование глубоких нейронных сетей для оценки возможности эксплорения. Анализ показывает, что Pass@k Training не только улучшает эксплорнацию, но и способствует более эффективному использованию локальных оптималов. Данный подход также рассматривается как применимость проектирования функций выгоды в RLVR. ## Результаты Эксперименты проводились на различных данных с разным уровнем сложности. Использовались модели с различным числом классов и размеров. Увеличение Pass@k в качестве награды позволило улучшить показатели эксплорейтинга и получить более сбалансированные решения. Отчет о результатах включал метрики, такие как F1-score и Pass@k, что позволило показать, как улучшение Pass@k влияет на эффективность политики модели. Результаты показали, что Pass@k Training приводит к более разумному балансу между эксплорной и эксплойтинговой стратегией. ## Значимость Полученные результаты имеют широкие применения в области глубокого обучения, в частности для large language models (LLMs). Этот подход позволяет улучшить не только эксплорейтинг, но и эксплойтинг, что делает поведение модели более универсальным. Известны преимущества Pass@k Training, в том числе улучшение разрешения сложных задач и уменьшение утечки информации во время обучения. В будущем можно рассмотреть проектирование более усовершенствованных функций выгоды, которые могут дать еще более эффективные результаты в RLVR и задачах связанных с ним. ## Выводы Основной достижением является установление того, что Pass@k Training может эффективно сбалансировать exploration и exploitation в RLVR. Также было показано, что этот подход может применяться к различным моделям и задачам. Будущими направлениями исследований является развитие более сложных функций выгоды

Annotation:

Reinforcement learning with verifiable rewards (RLVR), which typically adopts Pass@1 as the reward, has faced the issues in balancing exploration and exploitation, causing policies to prefer conservative actions, converging to a local optimum. Identifying an appropriate reward metric is therefore crucial. Regarding the prior work, although Pass@k has been used in evaluation, its connection to LLM exploration ability in RLVR remains largely overlooked. To investigate this, we first use Pass@k as ...

ID: 2508.10751v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Natively Trainable Sparse Attention for Hierarchical Point Cloud Datasets

2025-08-16

Авторы:

Nicolas Lapautre, Maria Marchenko, Carlos Miguel Patiño, Xin Zhou

## Контекст Область исследования — обработка данных высокой размерности, в частности точечных облаков (point cloud datasets), которые широко используются в физических науках. Одной из основных проблем при обработке таких данных является высокая размерность изображений и объем данных, что приводит к вычислительным затруднениям. Классические модели трансформеров страдают от квадратичного скалянга (quadratic scaling) в механизме ансамбля (attention mechanism), что ограничивает их эффективность при работе с большими данными. Задача исследования — сузить квадратичную сложность за счет применения нормализованного механизма упрощения (Native Sparse Attention, NSA), который позволяет сократить число вычислений и увеличить репертуар модели. Выбор темы связан с целью улучшить модели трансформеров для обработки больших данных в физических науках. ## Метод Методология исследования основывается на комбинации двух основных концепций: Erwin-архитектуры и Native Sparse Attention (NSA). Основная идея заключается в адаптации NSA для обработки не-последовательных данных, таких как точечные облака. Архитектура Erwin предназначена для эффективной обработки таких данных, и NSA позволяет уменьшить сложность за счет работы только с важной частью данных. Для реализации использовались библиотеки PyTorch и Haiku, что позволило реализовать новый модельный тип. Данные для экспериментов были извлечены из трех физических научных наборов: моделирование вселенной (cosmology), динамика молекул (molecular dynamics) и моделирование давления в воздухе (air pressure modeling). Эти наборы данных были выбраны из-за их сложности и важности в приложениях физических наук. ## Результаты На основе экспериментов было показано, что модифицированная модель Erwin с NSA-механизмом показала результаты, которые впечатляют по своей эффективности и точности. Модель наблюдалась на нескольких датасетах, а результаты были сравнены с оригинальной моделью Erwin. На датасете cosmology, например, модель показала значительное увеличение скорости обработки, сохранив точность. Также была проведена репликация результатов из оригинальной работы по Erwin, что подтвердила правильность реализации. Эти результаты показали, что NSA-механизм позволяет модифицированную Erwin-модель использовать для обработки больших данных с высокой эффективностью. ## Значимость Полученные результаты имеют значительное значение для применений в физических науках, таких как моделирование крупных систем, анализ реакций и моделирование воздушных сред. Эффективность модели NSA-Erwin позволяет работать с большими объемами данных с меньшими вычислительными затратами, что значительно повышает скорость и эффективность исследований. Также NSA может быть применен в других областях, где треб

Annotation:

Unlocking the potential of transformers on datasets of large physical systems depends on overcoming the quadratic scaling of the attention mechanism. This work explores combining the Erwin architecture with the Native Sparse Attention (NSA) mechanism to improve the efficiency and receptive field of transformer models for large-scale physical systems, addressing the challenge of quadratic attention complexity. We adapt the NSA mechanism for non-sequential data, implement the Erwin NSA model, and ...

ID: 2508.10758v1 cs.LG, cs.AI

arXiv PDF

📄 Enhancing Fairness in Autoencoders for Node-Level Graph Anomaly Detection

2025-08-16

Авторы:

Shouju Wang, Yuchen Song, Sheng'en Li, Dongmian Zou

## Контекст Графовая ананомальная детекция (Graph Anomaly Detection, GAD) широко применяется в различных областях, включая мониторинг сетей, безопасность интернета и мошенничество. Несмотря на то, что графовые нейронные сети (GNN) оказались эффективными для решения задач GAD, они могут сохранять и даже усиливать биазы, присущие обучающим данным. Эти биазы могут приводить к уравновешиванию результатов и несправедливости, особенно для групп, которые немного представленны в данных. До сих пор большинство работ по фейренесу фокусировались на задачах классификации, в то время как задача GAD обычно основывается на автокодировщиках, что делает существующие подходы нецелесообразными. Мы стремимся создать фреймворк, который повысит уровень справедливости в автокодировщиках GAD без ущерба для графовой ананомальной детекции. ## Метод Мы предлагаем **DECAF-GAD**, фреймворк, основанный на структурной кауальной модели (Structural Causal Model, SCM). Эта модель используется для дисентроповки чувствительных атрибутов из представлений, полученных с помощью автокодировщика. Мы также разработали специальную архитектуру автокодировщика, которая интегрирует fairness-guided loss function для выравнивания результатов. Модель DECAF-GAD способна уменьшить уравновешивание биаз в графе, не ухудшая производительность задачи GAD. Для оценки модели мы использовали как синтетические, так и реальные данные, включая такие высококачественные графы, как Cora и Citeseer. ## Результаты Мы провели многочисленные эксперименты для сравнения DECAF-GAD с существующими методами GAD. Результаты показали, что DECAF-GAD достигает конкурентной производительности в задаче GAD, например в достоверности и рекультурации аномалий, при этом показывая значительное улучшение метрик справедливости. На синтетических данных, наполненных специальными биазами, DECAF-GAD значительно снизил уравновешивание по отношению к нечувствительным атрибутам. Тем самым, он доказал улучшение справедливости без ущерба для точности детекции. ## Значимость DECAF-GAD может быть применен в широком спектре задач, таких как безопасность сетей, мониторинг транзакций и мошенничество. Его основное преимущество заключается в том, что он может эффективно уменьшать уравновешивание биаз в дорогостоящих и сложных графных данных, не ухудшая производительность. Это делает его привлекательным для приложений, где справедливость критична, таких как мониторинг медицинских данных и финансовых операций. Наш подход может иметь значительное влияние, способствуя развитию справедливых и эффективных методов GAD в графовых сетях. ## Вы

Annotation:

Graph anomaly detection (GAD) has become an increasingly important task across various domains. With the rapid development of graph neural networks (GNNs), GAD methods have achieved significant performance improvements. However, fairness considerations in GAD remain largely underexplored. Indeed, GNN-based GAD models can inherit and amplify biases present in training data, potentially leading to unfair outcomes. While existing efforts have focused on developing fair GNNs, most approaches target ...

ID: 2508.10785v1 cs.LG, cs.AI, stat.ML

arXiv PDF

1
2
265
266
267
268
269
290
291

Показано 2661 - 2670 из 2901 записей