📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Beyond Rebalancing: Benchmarking Binary Classifiers Under Class Imbalance Without Rebalancing Techniques

2025-09-11

Авторы:

Ali Nawaz, Amir Ahmad, Shehroz S. Khan

## Контекст Class imbalance является серьезной проблемой в обучении с учителем, особенно в критических областях, таких как медицинская диагностика и обнаружение аномалий. В таких ситуациях меньшинству класса, значится малое количество примеров, что существенно сказывается на качестве классификации. Несмотря на то, что многочисленные исследования сосредоточились на ребалансировочных методах, меньше внимания уделялось изучению поведения бинарных классификаторов в условиях неравновждности классов, когда такие методы не применяются. Цель нашего исследования — оценить поведение бинарных классификаторов "как есть", без применения техник ребалансировки, чтобы определить их настоящую силу и разброс. ## Метод Мы использовали систематический подход для оценки поведения различных бинарных классификаторов в условиях разной степени неравновждности классов. Для этого мы проводили эксперименты на обоих реальных и синтетических данных, включая сценарии одношота и февшота (одно или несколько примеров меньшинству классу). Также мы использовали синтетические данные с различными уровнями сложности делизионных границ, чтобы создать условия, близкие к реальным. Для сравнения мы включили не только традиционные методы классификации, но и технологии уменьшения выборки (undersampling), увеличения выборки (oversampling) и методы одноклассовой классификации (OCC). ## Результаты Наши эксперименты показали, что уменьшение размера меньшинству класса существенно ухудшает качество классификации для большинства традиционных классификаторов. Однако модели с высоким порогом обучения, такие как TabPFN и бустинг-базированные пакеты, оказались более устойчивыми к неравновждности и показали лучшую общую производительность. Объяснение этому можно найти в их более высокой генерализируемости и внедрении внутренних механизмов ребалансировки. Также мы выявили, что сложные данные, такие как те, что имеют сложные границы разделения, проявляются в условиях неравновждности классов еще сильнее. Эти находки подкрепляются исследованиями графических методов и метриками оценки. ## Значимость Наше исследование имеет значительное значение для выбора классификаторов в условиях неравновждности классов. Оно демонстрирует, что некоторые модели могут превосходить другие в трудных условиях без необходимости применения ребалансировочных техник. Это может иметь практическое значение в областях, где создание больших обучающих выборок для меньшинств классов сложно или невозможно. Кроме того, наши результаты могут способствовать развитию новых подходов к обучению с учителем

Annotation:

Class imbalance poses a significant challenge to supervised classification, particularly in critical domains like medical diagnostics and anomaly detection where minority class instances are rare. While numerous studies have explored rebalancing techniques to address this issue, less attention has been given to evaluating the performance of binary classifiers under imbalance when no such techniques are applied. Therefore, the goal of this study is to assess the performance of binary classifiers ...

ID: 2509.07605v1 cs.LG, cs.AI, cs.IT, math.IT

arXiv PDF

📄 Tackling Federated Unlearning as a Parameter Estimation Problem

2025-08-28

Авторы:

Antonio Balordi, Lorenzo Manini, Fabio Stella, Alessio Merlo

## Контекст Современные технологии сталкиваются с вопросами защиты персональных данных и соблюдения законодательства в области конфиденциальности. Например, законы GDPR и CCPA требуют, чтобы организации эффективно удаляли личные данные по запросу пользователей. Эта проблема особенно актуальна в рамках **Federated Learning**, где данные остаются на клиентских устройствах, что создает сложности в полной переобучении моделей. **Federated Unlearning** — это новая область исследований, стремящаяся разработать методы эффективного удаления данных из моделей без полной переустановки. Наша работа ставит задачу оптимизировать процесс удаления данных, снизив потребность в ресурсах и сохранив высокую точность модели. ## Метод Мы предлагаем **метод моделирования удаления данных как задачи оценки параметров**. Наш подход основывается на **теории информации** и использует **второй порядок гессианских информаций** для идентификации параметров, наиболее восприимчивых к удаляемым данным. Это позволяет ограничить актуальность удаления только определенным клиентом или категории данных. Далее, мы применяем **федеративное периодическое обучение** для минимального восстановления модели. Наша техника является **модельно-независимой** и не требует доступа к неагрегированным данным клиентов после инциальной агрегации. Основная идея заключается в том, чтобы эффективно забывать данные, не теряя в качестве модели. ## Результаты Мы проводили эксперименты на нескольких **benchmark-датасетах** (таких как CIFAR-10 и CIFAR-100), использовав **методы машинного обучения**, такие как глубокие нейронные сети. Наши результаты показывают, что: 1. **Удаление данных**: Успешность стороннего теста возврата данных (Membership Inference Attack, MIA) приближается к случайному значению, что указывает на эффективность удаления. 2. **Точность**: Точность модели после удаления данных остается высокой, приблизительно 0,9 в сравнении с переобученной моделью. 3. **Эффективность**: Наш метод экономит до 90% ресурсов по сравнении с полным переобучением. 4. **Безопасность**: Мы проверили нашу технику в условиях **targeted backdoor attack** и продемонстрировали ее эффективность в безопасном восстановлении модели после атаки. ## Значимость Наш подход имеет **широкие области применения**, включая банковское и медицинское приложения, где требуется строгая защита конфиденциальных данных. Он обеспечивает: 1. **Повышение безопасности**: Удаление данных происходит без необходимости доступа к неагрегированным данным клиентов. 2. **Эффективность**: Минимальное время обучения по сравнении с полной переустановкой. 3. **Кросс-прилож

Annotation:

Privacy regulations require the erasure of data from deep learning models. This is a significant challenge that is amplified in Federated Learning, where data remains on clients, making full retraining or coordinated updates often infeasible. This work introduces an efficient Federated Unlearning framework based on information theory, modeling leakage as a parameter estimation problem. Our method uses second-order Hessian information to identify and selectively reset only the parameters most sen...

ID: 2508.19065v1 cs.LG, cs.AI, cs.IT, math.IT

arXiv PDF

📄 Contrastive ECOC: Learning Output Codes for Adversarial Defense

2025-08-16

Авторы:

Che-Yu Chou, Hung-Hsuan Chen

#### Контекст Многоклассовая классификация широко используется в различных областях, включая здравоохранение, обработку естественного языка и анализ изображений. Одним из ключевых аспектов этой задачи является эффективное представление классов. Однотензорное (one-hot) представление широко применяется, но не всегда является оптимальным с точки зрения точности и устойчивости к атакам. Ошибки в кодировании могут привести к понижению качества моделей, особенно в условиях атак типа адверсарь (adversarial). Ошибка в кодировании (ECOC) — это метод для многоклассовой классификации, в котором каждый класс сопоставляется с уникальным кодировочным словом (codeword). Ручное или случайное построение кодировочных словарей требует больших усилий и может привести к суб-оптимальным результатам, не пригодным для адаптации к конкретным данным. Мотивация заключается в автоматизации процесса построения кодировочных словарей через методы машинного обучения, чтобы повысить устойчивость к атакам и улучшить обобщающие способности моделей. #### Метод Методология, предлагаемая в статье, основывается на подходе контрастного обучения (contrastive learning), который адаптирует кодировочные словари к конкретным данным. Авторы предлагают три модели: **Contrastive ECOC**, **Contrastive ECOC with Class-Specific Prototypes** и **Contrastive ECOC with Data Augmentation**. В этих моделях codebook автоматически формируется на основе данных, позволяя приспособиться к характеристикам данных. Архитектура моделей включает нейронные сети, которые обучаются минимизировать контрастные потери (contrastive losses), чтобы обеспечить максимальную различимость между классами. Это позволяет создавать codebooks, которые лучше подстраиваются под конкретную задачу классификации. #### Результаты Авторы проводили эксперименты на четырёх данных: MNIST, Fashion-MNIST, CIFAR-10 и CIFAR-100. Оценивались способности моделей к устойчивости против адверсарских атак, включая FGSM, PGD и CW. Результаты показали, что Contrastive ECOC существенно превосходит две базовые модели: метод максимального выбора (max-margin ECOC) и автоматический ECOC (AutoECOC). Модели Contrastive ECOC показали высокую точность и устойчивость к атакам, что демонстрирует их эффективность в применении к различным задачам и атакам. Эти результаты подтверждают значительный потенциал автоматически избавляющихся от ручного кодирования, что может увеличить эффективность и устойчивость в многоклассовой классификации. #### Значимость Предложенные модели имеют широкое применение в области многоклассовой классификации, в том числе в задачах, требующих высокой устойчивости к атакам, например, в безопасности и защите данных. Эти модели демонстрируют преимущества перед

Annotation:

Although one-hot encoding is commonly used for multiclass classification, it is not always the most effective encoding mechanism. Error Correcting Output Codes (ECOC) address multiclass classification by mapping each class to a unique codeword used as a label. Traditional ECOC methods rely on manually designed or randomly generated codebooks, which are labor-intensive and may yield suboptimal, dataset-agnostic results. This paper introduces three models for automated codebook learning based on c...

ID: 2508.10491v1 cs.LG, cs.AI, cs.IT, math.IT

arXiv PDF

📄 Multi-head Transformers Provably Learn Symbolic Multi-step Reasoning via Gradient Descent

2025-08-13

Авторы:

Tong Yang, Yu Huang, Yingbin Liang, Yuejie Chi

## Контекст Статья рассматривает многошаговый символический рассуждений и их реализацию в контексте трансформеров. Она выделяет проблему недостаточного понимания механизмов, позволяющих трансформерам решать такие задачи. Известно, что трансформеры эффективно работают в авторегрессионных моделях, но теоретическая поддержка их успеха в задачах многошагового рассуждения остается недостаточно изучена. Особое внимание уделяется проблемам путеискания в деревьях, в том числе логике решения задач в формате "путь от цели к корню" и "путь от корня к цели". ## Метод Авторы используют многошаговые трансформеры с авторегрессией для решения задач путеискания в деревьях. Основной акцент ставится на двухфазном подходе: вывод пути от цели к корню и его обратное преобразование в путь от корня к цели. Анализ основывается на динамике градиентного оптимизационного процесса. Моделирование проводится в условиях заданного количества слоёв и аттенционных голов. Изучаются взаимодействия между аттенционными головами и их способность решать задачи структурированными подходами. ## Результаты Выполнены эксперименты с различными моделями в задачах путеискания. Для однослойных трансформеров получены теоретические гарантии на успех решения задач символического рассуждения с обучением и общедоступностью решений для неизвестных деревьев. Особое внимание уделено процессу специализации аттенционных голов в различных этапах задачи. Проведены исследования обучения одношаговых и двухшаговых процедур, показавших, что даже глубокие трансформеры могут решать задачи с помощью простых шагов. ## Значимость Результаты статьи имеют значимость для области машинного обучения, а именно для изучения способов решения сложных задач с помощью трансформеров. Они открывают пути для использования многошаговых моделей в задачах автоматического решения задач, включая путеискание в деревьях и поиск алгоритмических решений. Это демонстрирует возможность трансформеров решать задачи, которые традиционно требуют более глубоких архитектур. ## Выводы Основные достижения статьи заключаются в доказательстве возможности решения многошаговых задач символического рассуждения с помощью трансформеров. Доказана специализация аттенционных голов в различных фазах решения задач. Будущие исследования будут сконцентрированы на углублении теоретических анализов и расширении моделей для решения более сложных задач многошагового рассуждения.

Annotation:

Transformers have demonstrated remarkable capabilities in multi-step reasoning tasks. However, understandings of the underlying mechanisms by which they acquire these abilities through training remain limited, particularly from a theoretical standpoint. This work investigates how transformers learn to solve symbolic multi-step reasoning problems through chain-of-thought processes, focusing on path-finding in trees. We analyze two intertwined tasks: a backward reasoning task, where the model outp...

ID: 2508.08222v1 cs.LG, cs.AI, cs.IT, math.IT, math.OC, stat.ML

arXiv PDF

Показано 11 - 14 из 14 записей