📚 Саммари научных статей из arXiv

Найдено 2901 результатов по запросу 'cs.LG, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 A Vision-Language Pre-training Model-Guided Approach for Mitigating Backdoor Attacks in Federated Learning

2025-08-16

Авторы:

Keke Gai, Dongjue Wang, Jing Yu, Liehuang Zhu, Qi Wu

## Контекст Современные федеративные системы обучения сталкиваются с возрастающей угрозой загрязнения моделей с помощью вредоносных атак типа "бэкдор". Эти атаки внедряют в модель порождающие доверие к нейтивным объектам или действиям вредоносные субъекты, находящиеся в клиентских сетях. Традиционные методы защиты основываются на предположении, что данные клиентов являются хомогенными или что доступен чистый серверный набор данных. Однако в реальных условиях такие предположения часто не выполняются, что приводит к эффективности защиты сомнительности. Главной целью этой работы является развитие метода, который мог бы позволить обучать модели в условиях Non-IID данных, сохраняя высокую эффективность и защиту от вредоносных вмешательств. ## Метод Модель CLIP-Fed использует предварительно обученную модель CLIP (Contrastive Language-Image Pre-training), которая предлагает мощные возможности zero-shot learning для определения классов с помощью визуальных и текстовых признаков. Разработанная фреймворм подразделяется на две основные стратегии: **pre-aggregation defense** и **post-aggregation defense**. Прежде чем выполнять обучение на клиентских моделях, CLIP-Fed использует генеративный подход, основанный на multimodal language model, для расширения серверного набора данных. Это позволяет увеличить контекст и уменьшить влияние данных, внедренных с помощью "бэкдоров". Затем, в процессе обучения серверной модели, CLIP-Fed использует prototype contrastive loss и Kullback-Leibler divergence для выравнивания классов и устранения корреляции между триггером и целевыми метками. ## Результаты Эксперименты проводились на датасетах CIFAR-10 и CIFAR-10-LT. Метрики, использованные для оценки эффективности защиты, включали Attack Success Rate (ASR) и Model Accuracy (MA). В сравнении с другими текущими методами, CLIP-Fed достиг параметров ASR в 2.03% на CIFAR-10 и 1.35% на CIFAR-10-LT, что является значительным удовлетворением. Метрика MA также повысилась до 7.92% на CIFAR-10 и 0.48% на CIFAR-10-LT. Эти результаты показали, что CLIP-Fed может эффективно защитить модель от бэкдор-атак, даже в ситуациях Non-IID, не ухудшая основные параметры обучения. ## Значимость CLIP-Fed может быть применено в ситуациях, где клиенты используют Non-IID данные, но требуют высокой эффективности и безопасности моделей. Например, в системах с большим числом клиентов, таких как IoT-сети или медицинские приложения, где защита от вредоносных атак критична. CLIP-Fed предлагает преимущества в увеличении силы защиты, уменьшении атаки и улучшении основных метрик модели. Будущие исследования будут ориентированы на повышение универсальности модели и ее применение в адаптивном защитном фреймворке

Annotation:

Existing backdoor defense methods in Federated Learning (FL) rely on the assumption of homogeneous client data distributions or the availability of a clean serve dataset, which limits the practicality and effectiveness. Defending against backdoor attacks under heterogeneous client data distributions while preserving model performance remains a significant challenge. In this paper, we propose a FL backdoor defense framework named CLIP-Fed, which leverages the zero-shot learning capabilities of vi...

ID: 2508.10315v1 cs.LG, cs.AI

arXiv PDF

📄 Welfare-Centric Clustering

2025-08-16

Авторы:

Claire Jie Zhang, Seyed A. Esmaeili, Jamie Morgenstern

## Контекст Fair clustering, традиционно, стремился обеспечить справедливое представление групп или равномерную распределенность групп по кластерам. Однако Dickerson et al. (2025) показали, что эти подходы могут привести к нежелательным и неожиданным результатам. В отличие от них, программы welfare-centric clustering моделируют групповые удовлетворенности на основе расстояний и пропорционального представления. Эта мотивация исходит от необходимости создания методов, которые бы учитывали не только расстояния, но и целевые ценности для групп. Наша работа призвана развить эти идеи, предлагая новые алгоритмы и теоретические гарантии по формализации и решению проблем справедливого кластеризации. ## Метод Мы предлагаем новые модели для welfare-centric clustering, основанные на двух оптимизационных целях: Rawlsian (Egalitarian) и Utilitarian. Методы основываются на произвольной геометрии кластеров, что дает гибкость в учете различных аспектов в формировании кластеров. Для обоих целей мы предлагаем алгоритмы с оптимальными или приближенными решениями, включающими графовые алгоритмы и линейное программирование. Эти алгоритмы развиваются в рамках общей архитектуры, которая обеспечивает сбалансированное учете динамических и статических факторов. ## Результаты Мы проводили эксперименты на нескольких реальных датасетах, включая те, которые использовались в предыдущих работах по справедливому кластеризации. Методы, основанные на welfare-centric clustering, показали существенную выгоду по сравнению с базовыми подходами. В частности, один из алгоритмов предложенных нами показал лучшие результаты в терминах пропорционального представления и равномерности распределения. Эти результаты были подтверждены теоретическими гарантиями и высокой точностью в реальных условиях. ## Значимость Welfare-centric clustering может быть применен в различных областях, таких как распределение ресурсов, моделирование социальных сетей или принятие решений в сфере здравоохранения. Наш подход предлагает более гибкие и справедливые способы анализа и кластеризации данных, учитывая конкретные цели и удовлетворенность групп. Это может привести к оценкам, которые лучше отражают реальные ценности и необходимости в реальном мире. Это имеет потенциал для изменения того, как мы принимаем решения в сферах, где групповые заинтересованности имеют большое значение. ## Выводы Наша работа демонстрирует, что welfare-centric clustering может предложить новый подход к справедливому кластеризации, основываясь на моделировании групповых удовлетворенностей. Мы продвигаем теоретические гарантии и эффективные алгоритмы, которые позволяют о

Annotation:

Fair clustering has traditionally focused on ensuring equitable group representation or equalizing group-specific clustering costs. However, Dickerson et al. (2025) recently showed that these fairness notions may yield undesirable or unintuitive clustering outcomes and advocated for a welfare-centric clustering approach that models the utilities of the groups. In this work, we model group utilities based on both distances and proportional representation and formalize two optimization objectives ...

ID: 2508.10345v1 cs.LG, cs.AI, cs.CY, cs.DS

arXiv PDF

📄 eMamba: Efficient Acceleration Framework for Mamba Models in Edge Computing

2025-08-16

Авторы:

Jiyong Kim, Jaeho Lee, Jiahao Lin, Alish Kanani, Miao Sun, Umit Y. Ogras, Jaehyun Park

## Контекст Современные машинное обучение и глубокие нейронные сети получили широкое распространение за счет высокой точности решения различных задач, включая задачи работы с последовательными данными. Однако, применение таких моделей в реальном времени на ресурс-ограниченных устройствах, таких как экраны и мобильные телефоны, ограничено из-за высокого вычислительного возраста и большого объема данных. Недавно развиваются архитектуры State Space Models (SSM), предлагающие более эффективные алгоритмы для обработки последовательных данных. Одной из таких моделей является Mamba, которая обеспечивает высокую точность с меньшими вычислительными затратами по сравнению с современными моделями типа Transformer. Несмотря на эти преимущества, существуют нетрадиционные hardware acceleration frameworks, оптимизированные для развертывания Mamba в ресурс-ограниченных средах, что становится ключевым мотивом для разработки eMamba. ## Метод eMamba представляет собой комплексный фреймворк для оптимизации Mamba-моделей на экранных устройствах. Он решает проблему высокого вычислительного возраста, заменив тяжелые нормализационные слои на легкие альтернативы, ориентированные на железо. Для оптимизации дорогостоящих операций, таких как SiLU-активация и экспоненциальные функции, eMamba применяет приближения, адаптированные к специфике приложений. Для того, чтобы добиться максимальной эффективности, eMamba использует Approximation-Aware Neural Architecture Search (AANAS) для приближения и адаптирования нейросетевых моделей. Этот подход позволяет тюнить модели, учитывая ограничения ресурсов, и повышать точность и производительность. ## Результаты eMamba проверен на трех датасетах: Fashion-MNIST, CIFAR-10 и MARS (открытая трассировка по локализации поз). Он достиг той же точности, что и современные модели, но с 1.63-19.9 раз меньшим числом параметров. Также eMamba продемонстрировал устойчивость к задачам с текстовыми данными, показав стабильную perplexity на WikiText2 датасете при различных длинах последовательностей. Также была произведена оптимизация eMamba на FPGA (AMD ZCU102) и ASIC с использованием технологии GF 22 nm. Эксперименты показали значительные повышения производительности и энергоэффективности: от 4.95-5.62 раз меньшей задержки, от 2.22-9.95 раз вышей пропускной способности и 4.77 раз меньшего объема с 9.84 раз меньшим энергопотреблением по сравнению с базовыми решениями. ## Значимость eMamba имеет широкое применение в ресурс-ограниченных средах, таких как мобильные устройства и IoT-устройства. Его особенностью является увеличение эффективности и снижение потребления энергии, что делает его привлекательным для приложений в реальном времени, таких как потоковое

Annotation:

State Space Model (SSM)-based machine learning architectures have recently gained significant attention for processing sequential data. Mamba, a recent sequence-to-sequence SSM, offers competitive accuracy with superior computational efficiency compared to state-of-the-art transformer models. While this advantage makes Mamba particularly promising for resource-constrained edge devices, no hardware acceleration frameworks are currently optimized for deploying it in such environments. This paper p...

ID: 2508.10370v1 cs.LG, cs.AI

arXiv PDF

📄 Unpacking the Implicit Norm Dynamics of Sharpness-Aware Minimization in Tensorized Models

2025-08-16

Авторы:

Tianxiao Cao, Kyohei Atarashi, Hisashi Kashima

## Контекст Sharpness-Aware Minimization (SAM) — это мощный метод оптимизации, показавший себя эффективным в улучшении общей постановки нейросетей с высоким параметрическим объемом. Однако, хотя SAM был протестирован в простых двухслойных моделях, его поведение в более сложных многослойных или тензоризованных моделях остается недостаточно изученным. Это мотивирует необходимость подробного изучения SAM в таких контекстах. Также, есть необходимость разработать более эффективные методы, которые могут улучшить SAM или предоставить альтернативные решения с меньшими вычислительными затратами. ## Метод Мы используем свойство групповой нормы в тензоризованных моделях для разбора динамики норм в SAM. Определяем понятие **Norm Deviation** как мера неоднородности норм между ядрами модели. Опираясь на анализ градиентного потока, мы проанализировали, как SAM управляет этой неоднородностью. Мы показали, что SAM эффективно контролирует этот показатель, опираясь на ковариацию между нормами ядер и их градиентными величинами. Исходя из этих результатов, мы предложили новую методику, **Deviation-Aware Scaling (DAS)**, которая адаптивно управляет нормами ядер в зависимости от данных. ## Результаты Мы проверили DAS на нескольких типах задач, включая задачу заполнения тензоров, тренировку с шумом, моделирование и параметрическую оптимизацию. Наши эксперименты показали, что DAS не только демонстрирует результаты, которые конкурентны с SAM, но и показывает лучшую стойкость при изменении данных и моделей. Благодаря использованию DAS, мы добились этих результатов с меньшей нагрузкой на вычисления. ## Значимость Метод DAS может быть применен в различных областях, таких как моделирование, компрессия моделей и параметрическая оптимизация. Он предлагает значительные преимущества по сравнению с SAM, в том числе уменьшение вычислительной нагрузки и улучшенная стойкость к данным. Эти достижения открывают новые пути к более эффективному использованию SAM в реальных задачах. ## Выводы Мы показали, что SAM эффективно контролирует неоднородность норм в тензоризованных моделях с помощью ковариации норм и градиентов. На этой основе мы предложили DAS, который эффективно реализует эту регуляризацию. Наши результаты показывают, что DAS может стать значительным шагом в улучшении SAM. Будущие работы будут направлены на расширение DAS для более сложных моделей и задач.

Annotation:

Sharpness-Aware Minimization (SAM) has been proven to be an effective optimization technique for improving generalization in overparameterized models. While prior works have explored the implicit regularization of SAM in simple two-core scale-invariant settings, its behavior in more general tensorized or scale-invariant models remains underexplored. In this work, we leverage scale-invariance to analyze the norm dynamics of SAM in general tensorized models. We introduce the notion of \emph{Norm D...

ID: 2508.10435v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 RealAC: A Domain-Agnostic Framework for Realistic and Actionable Counterfactual Explanations

2025-08-16

Авторы:

Asiful Arefeen, Shovito Barua Soumma, Hassan Ghasemzadeh

## Контекст Область исследования сосредоточена на создании удобоваримых и практичных методов генерации каузальных объяснений для моделей машинного обучения. Такие объяснения позволяют пользователю понять причины моделируемых решений, описывая небольшие изменения входных данных, которые могут изменить модельное предсказание. Однако существующие подходы часто строго ограничиваются доменом, явно используя знания о специфике данных, что приводит к ограниченной общительности таких методов. Для повышения доступности и переносимости необходимо создать методы, которые автоматически учитывали бы взаимосвязи между признаками и были применимы к разным областям. Более того, многие имеющиеся системы не учитывают потребности пользователей в гибкости, таких как предпочтения по отношению к неизменяемым атрибутам. Это способствует созданию контрфактических объяснений, которые могут быть непригодными для действий или не реалистичными. Таким образом, в поиске решения этих проблем авторы предлагают создать доменно-независимую систему, которая бы улучшала сбалансированность между реалистичностью и действительностью контрфактических объяснений. ## Метод Разработанный подход, названный RealAC (Realistic and Actionable Counterfactuals), является доменно-независимым фреймворком, который автоматически сохраняет сложные взаимосвязи между признаками без необходимости явного добавления доменной информации. Технический механизм основывается на методах оптимизации, которые согласовывают распределения признаков между фактическим и контрфактическим примерами. Одним из ключевых моментов является возможность пользователя устанавливать "замороженные" признаки, которые не должны изменяться в процессе оптимизации, чтобы учесть ситуации, когда пользователь не может или не желает менять определенные атрибуты. Такой подход обеспечивает более реалистичную и практичную генерацию контрфактических объяснений, учитывающих затруднения пользователей. ## Результаты В работе приводится оценка RealAC на синтетических и реальных данных. Использованы метрики, оценивающие степень реалистичности и действительности контрфактических объяснений. Например, использовались "causal edge score", "dependency preservation score" и "IM1 realism metric". Результаты показали, что RealAC превосходит современные алгоритмы по этим метрикам, обеспечивая более высокий баланс между реалистичностью и действительностью. Также проведено сравнение с LLM-базными методами генерации контрфактических объяснений, в результате чего RealAC показал лучшие результаты. ## Значимость Разработанная система RealAC может быть применена в различных областях, где в

Annotation:

Counterfactual explanations provide human-understandable reasoning for AI-made decisions by describing minimal changes to input features that would alter a model's prediction. To be truly useful in practice, such explanations must be realistic and feasible -- they should respect both the underlying data distribution and user-defined feasibility constraints. Existing approaches often enforce inter-feature dependencies through rigid, hand-crafted constraints or domain-specific knowledge, which lim...

ID: 2508.10455v1 cs.LG, cs.AI

arXiv PDF

📄 X-Node: Self-Explanation is All We Need

2025-08-16

Авторы:

Prajit Sengupta, Islem Rekik

## Контекст Графовые нейронные сети (GNN) показали выдающиеся результаты в задачах классификации в областях компьютерного зрения и медико-медицинских изображений, обнаруживая структурные зависимости в данных. Однако их решения часто остаются непонятными, что снижает доверие к их применению в критически важных клинических задачах. Недостаток интерпретируемости в существующих GNN-решениях ограничивает их распространение в сферах, где необходима понимаемая интерпретация решений. Мы предлагаем X-Node, новую само-объясняющуюся модель GNN, в которой каждый узел самостоятельно формирует свое объяснение в процессе классификации. ## Метод X-Node использует структурированный контекстный вектор для каждого узла, содержащий ключевые признаки: степень узла, центральность, кластеризация, вклад функциональных признаков и согласования между функциональными и тегами узла. Эти признаки вычисляются с помощью локальной топологии. Далее, этот вектор передается в Reasoner — легковесный модуль, который формирует компактный вектор объяснения. Этот вектор выполняет три функции: (1) восстановление локального представления узла для улучшения достоверности модели, (2) генерация естественно-языковых объяснений с помощью предварительно обученных глубоких моделей текстов (например, Grok или Gemini), и (3) улучшение обучения GNN с помощью "текстовой инъекции" — внедрения объяснений в процесс массажа сообщений. Мы тестировали X-Node на двух наборах данных, полученных из MedMNIST и MorphoMNIST, в сочетании с GCN, GAT и GIN. ## Результаты Наши эксперименты показали, что X-Node привносит дополнительную подробность в понимание решений GNN без существенного снижения точности классификации. Он успешно формирует локальные объяснения для каждого узла, включая качественные и естественно-языковые пояснения. Кроме того, X-Node сохраняет точность классификации, демонстрируя ее на уровне стандартных GNN-моделей, но при этом предоставляя понятные причины своих решений на уровне каждого узла. ## Значимость X-Node может применяться в клинических задачах, где необходима интерпретируемая классификация, таких как диагностика заболеваний на основе медицинских изображений или анализ структурных данных. Модель предоставляет понятные причины своих решений, что увеличивает доверие к ней в критически важных задачах. Благодаря своему само-объясняющемуся подходу, X-Node может стать основой для развития интерпретируемых GNN-моделей в медицинских и других приложениях. ## Выводы Мы представили X-Node — новую само-объясняющуюся модель GNN, которая формирует понятные объяс

Annotation:

Graph neural networks (GNNs) have achieved state-of-the-art results in computer vision and medical image classification tasks by capturing structural dependencies across data instances. However, their decision-making remains largely opaque, limiting their trustworthiness in high-stakes clinical applications where interpretability is essential. Existing explainability techniques for GNNs are typically post-hoc and global, offering limited insight into individual node decisions or local reasoning....

ID: 2508.10461v1 cs.LG, cs.AI

arXiv PDF

📄 Pinet: Optimizing hard-constrained neural networks with orthogonal projection layers

2025-08-16

Авторы:

Panagiotis D. Grontas, Antonio Terpin, Efe C. Balta, Raffaello D'Andrea, John Lygeros

#### Контекст Исследование сосредоточено на решении задач оптимизации в рамках нейронных сетей с жесткими ограничениями. Существующие подходы часто сталкиваются с проблемами точности, эффективности и надежности в обработке таких задач. Это приводит к необходимости применения специальных методов и сложных алгоритмов, что увеличивает время вычислений и уменьшает удобство использования. Мотивация заключается в создании простого, эффективного и универсального метода, который мог бы быстро решать такие задачи с высоким качеством решения и низким временем работы. #### Метод Предложенный подход, $\Pi$net, основывается на использовании ортогональных проекционных слоев для обеспечения точности и надежности проекций. Метод использует операторное разделение для реализации проекционных операций в прямом проходе и имплицитную функцию для вычисления производных в обратном проходе. Эта архитектура позволяет обеспечить высокую скорость работы и устойчивость к ошибкам при решении задач оптимизации с жесткими ограничениями. #### Результаты Проведенные эксперименты показывают, что $\Pi$net превосходит состояние техники в нескольких аспектах. Он работает быстрее традиционных методов при решении отдельных задач и значительно быстрее при обработке батчей задач. Также $\Pi$net показал высокую точность решений и устойчивость к настройке гиперпараметров. Такой подход демонстрирует значительные выгоды в скорости и качестве решений, особенно при работе с параметрическими задачами оптимизации. #### Значимость Применение $\Pi$net может быть интересно для многих областей, где требуется решение задач с жесткими ограничениями, например, в мобильном машинном обучении, автономных системах, а также в других областях, где требуется быстрое и точное решение оптимизационных задач. Его преимущества включают высокую скорость решения, эффективность и устойчивость к настройке. #### Выводы В результате исследований был разработан $\Pi$net - мощный метод для решения задач оптимизации с жесткими ограничениями в нейронных сетях. Он демонстрирует высокую эффективность, точность и устойчивость в решении различных задач. Будущие исследования будут сфокусированы на расширении возможностей $\Pi$net для других типов нейронных сетей и задач, а также на повышении его универсальности и адаптивности.

Annotation:

We introduce an output layer for neural networks that ensures satisfaction of convex constraints. Our approach, $\Pi$net, leverages operator splitting for rapid and reliable projections in the forward pass, and the implicit function theorem for backpropagation. We deploy $\Pi$net as a feasible-by-design optimization proxy for parametric constrained optimization problems and obtain modest-accuracy solutions faster than traditional solvers when solving a single problem, and significantly faster fo...

ID: 2508.10480v1 cs.LG, cs.AI, math.OC

arXiv PDF

📄 On the Complexity-Faithfulness Trade-off of Gradient-Based Explanations

2025-08-16

Авторы:

Amir Mehrpanah, Matteo Gamba, Kevin Smith, Hossein Azizpour

#### Контекст Визуальные задачи, такие как обработка изображений и классификация, часто основываются на ReLU-сетях, известных своим высоким эффективностью и точностью. Однако эти сети обладают сильными переходами, которые могут привести к тому, что их предсказания зависят от отдельных пикселей или небольших наборов данных. Это вызывает проблемы для градиентно-основанных методов объяснения, таких как Grad-CAM, которые часто отдают шумные и неточные результаты. Недостаточная четкость и надежность таких методов ограничивают их применение в реальных задачах. Наша мотивация заключается в том, чтобы разработать более прозрачные и точные методы объяснения, которые могут быть эффективно использованы в сложных задачах машинного обучения. #### Метод Мы предлагаем универсальный спектральный подход для анализа и измерения точности и достоверности градиентных методов объяснения. Наше решение построено на двух основных компонентах. Во-первых, мы разрабатываем методы для измерения "высокочастотного содержания" в выходных данных сети, которые часто становятся причиной шума в градиентных методах. Во-вторых, мы вводим квантифицированную меру того, как подходы, такие как Grad-CAM, могут изменять логику сети при попытке улучшить их читаемость. Это позволяет нам формально определить "explanation gap" — разницу между настоящими причинами предсказания и тому, что мы видим в объяснении. #### Результаты Мы проводили эксперименты на нескольких датасетах, включая CIFAR-10 и ImageNet. Используя нашу модель, мы смогли точно определить и измерить "explanation gap" для различных методов объяснения. Наши результаты показали, что существующие методы, такие как Grad-CAM, могут существенно деформировать выводы, когда они стараются уменьшить шум. Мы также проанализировали как различные архитектурные решения, такие как различные виды нормализации и аугментаций, влияют на точность и достоверность объяснений. #### Значимость Наша работа имеет значительное значение для нескольких областей, включая обучение с подкреплением, медицинскую информатику и многоязычные модели. Методы, разработанные в этой статье, могут помочь уменьшить неточности в объяснениях, улучшить надежность моделей в задачах, требующих высокой точности, и обеспечить более прозрачную интеракцию с моделями. Это может привести к повышению доверия пользователей к моделям и их расширенному применению в критичных областях. #### Выводы Мы установили, что существует естественный трейдоф между читаемостью и точностью объяснений, и мы предложили способы измерить и регулировать этот трейдоф. Наш подход может быть расширен для исследования других ас

Annotation:

ReLU networks, while prevalent for visual data, have sharp transitions, sometimes relying on individual pixels for predictions, making vanilla gradient-based explanations noisy and difficult to interpret. Existing methods, such as GradCAM, smooth these explanations by producing surrogate models at the cost of faithfulness. We introduce a unifying spectral framework to systematically analyze and quantify smoothness, faithfulness, and their trade-off in explanations. Using this framework, we quant...

ID: 2508.10490v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Contrastive ECOC: Learning Output Codes for Adversarial Defense

2025-08-16

Авторы:

Che-Yu Chou, Hung-Hsuan Chen

#### Контекст Многоклассовая классификация широко используется в различных областях, включая здравоохранение, обработку естественного языка и анализ изображений. Одним из ключевых аспектов этой задачи является эффективное представление классов. Однотензорное (one-hot) представление широко применяется, но не всегда является оптимальным с точки зрения точности и устойчивости к атакам. Ошибки в кодировании могут привести к понижению качества моделей, особенно в условиях атак типа адверсарь (adversarial). Ошибка в кодировании (ECOC) — это метод для многоклассовой классификации, в котором каждый класс сопоставляется с уникальным кодировочным словом (codeword). Ручное или случайное построение кодировочных словарей требует больших усилий и может привести к суб-оптимальным результатам, не пригодным для адаптации к конкретным данным. Мотивация заключается в автоматизации процесса построения кодировочных словарей через методы машинного обучения, чтобы повысить устойчивость к атакам и улучшить обобщающие способности моделей. #### Метод Методология, предлагаемая в статье, основывается на подходе контрастного обучения (contrastive learning), который адаптирует кодировочные словари к конкретным данным. Авторы предлагают три модели: **Contrastive ECOC**, **Contrastive ECOC with Class-Specific Prototypes** и **Contrastive ECOC with Data Augmentation**. В этих моделях codebook автоматически формируется на основе данных, позволяя приспособиться к характеристикам данных. Архитектура моделей включает нейронные сети, которые обучаются минимизировать контрастные потери (contrastive losses), чтобы обеспечить максимальную различимость между классами. Это позволяет создавать codebooks, которые лучше подстраиваются под конкретную задачу классификации. #### Результаты Авторы проводили эксперименты на четырёх данных: MNIST, Fashion-MNIST, CIFAR-10 и CIFAR-100. Оценивались способности моделей к устойчивости против адверсарских атак, включая FGSM, PGD и CW. Результаты показали, что Contrastive ECOC существенно превосходит две базовые модели: метод максимального выбора (max-margin ECOC) и автоматический ECOC (AutoECOC). Модели Contrastive ECOC показали высокую точность и устойчивость к атакам, что демонстрирует их эффективность в применении к различным задачам и атакам. Эти результаты подтверждают значительный потенциал автоматически избавляющихся от ручного кодирования, что может увеличить эффективность и устойчивость в многоклассовой классификации. #### Значимость Предложенные модели имеют широкое применение в области многоклассовой классификации, в том числе в задачах, требующих высокой устойчивости к атакам, например, в безопасности и защите данных. Эти модели демонстрируют преимущества перед

Annotation:

Although one-hot encoding is commonly used for multiclass classification, it is not always the most effective encoding mechanism. Error Correcting Output Codes (ECOC) address multiclass classification by mapping each class to a unique codeword used as a label. Traditional ECOC methods rely on manually designed or randomly generated codebooks, which are labor-intensive and may yield suboptimal, dataset-agnostic results. This paper introduces three models for automated codebook learning based on c...

ID: 2508.10491v1 cs.LG, cs.AI, cs.IT, math.IT

arXiv PDF

📄 A Unified Multi-Agent Framework for Universal Multimodal Understanding and Generation

2025-08-16

Авторы:

Jiulin Li, Ping Huang, Yexin Li, Shuo Chen, Juewen Hu, Ye Tian

## Контекст В мире современных технологий возрастает необходимость в системах, способных обрабатывать и генерировать мультимодальные данные, такие как текст, изображения, аудио и видео. Однако существующие подходы часто ограничены своей модульностью и способностью работы с несколькими видами данных одновременно. Это приводит к узкому кругу применения и сложностям в сценариях, требующих универсального понимания и генерации мультимодальных данных. Эта проблема напрягает разработчиков, которые стремятся к гибкости, модульности и эффективности. Мы предлагаем MAGUS, модульный фреймворк для решения этих проблем. ## Метод MAGUS основывается на двух уровнях: **Cognition** (понимание) и **Deliberation** (решающее решение). В первом этапе используется многоагентная модель, где каждый агент имеет свою роль: Perceiver (понимающий), Planner (планировочный) и Reflector (отзывчивый). Они сотрудничают в рамках общего текстового пространства для выполнения задач понимания и планирования. Во втором этапе применяется метод Growth-Aware Search, который размышляет над генерацией и расширением результатов с помощью мультимодальных моделей генерации. Этот подход позволяет объединить лучшие свойства различных моделей без необходимости совместной обучения. ## Результаты Для оценки эффективности MAGUS проводились эксперименты на нескольких бенчмарках, в том числе для генерации изображений, видео и аудио, а также для задач кросс-модального контроля. На MME-бенчмарке MAGUS показал результат, превосходящий современные аналоги, в том числе модель GPT-4o. Эти результаты подтверждают высокую точность понимания и генерации в различных модальных областях, а также скорость работы и эффективность, что делает фреймворк привлекательным для практического применения. ## Значимость MAGUS может применяться в самых различных сферах, включая медиа, образование, коммерческие приложения и искусственный интеллект. Он демонстрирует практические преимущества, такие как простота интеграции, модульность и производительность. Это может привести к развитию новых мультимодальных приложений, которые требуют универсальной модели понимания и генерации. Будущие исследования будут сконцентрированы на улучшении методов генерации и расширении функциональных возможностей фреймворка. ## Выводы MAGUS представляет собой мощный фреймворк для универсального понимания и генерации мультимодальных данных. Он продемонстрировал высокую эффективность на различных задачах и модальностях, показав преимущества перед современными подходами. Дальнейшие исследования будут направлены на улучшение гибкости и масштабируемости, а также на из

Annotation:

Real-world multimodal applications often require any-to-any capabilities, enabling both understanding and generation across modalities including text, image, audio, and video. However, integrating the strengths of autoregressive language models (LLMs) for reasoning and diffusion models for high-fidelity generation remains challenging. Existing approaches rely on rigid pipelines or tightly coupled architectures, limiting flexibility and scalability. We propose MAGUS (Multi-Agent Guided Unified Mu...

ID: 2508.10494v1 cs.LG, cs.AI, cs.MA

arXiv PDF

1
2
264
265
266
267
268
290
291

Показано 2651 - 2660 из 2901 записей