📚 Саммари научных статей из arXiv

Найдено 277 результатов по запросу 'cs.LG, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 GCond: Gradient Conflict Resolution via Accumulation-based Stabilization for Large-Scale Multi-Task Learning

2025-09-11

Авторы:

Evgeny Alves Limarenko, Anastasiia Alexandrovna Studenikina

## Контекст В области многозадачного обучения (Multi-Task Learning, MTL) существуют значительные вызовы, в том числе конфликт градиентов (gradient conflict), когда разные задачи делают свой вклад в обучение с разными темпами и направлениями. Это приводит к неэффективному обучению и повышению потребления ресурсов. Традиционные методы, такие как PCGrad, CAGrad и GradNorm, показали эффективность в меньших моделях, но требуют высокой вычислительной сложности, что ограничивает их применение в современных больших моделях и трансформерах. Наша мотивация заключается в разработке метода, устраняющего этот конфликт с меньшим расходом ресурсов, чтобы расширить границы применения многозадачного обучения в масштабных моделях. ## Метод Мы предлагаем Gradient Conductor (GCond), новый метод для решения конфликта градиентов. GCond сочетает принципы PCGrad с техникой аккумуляции градиентов и адаптивным механизмом арбитража. Это позволяет эффективно решать конфликты градиентов, сохраняя высокую эффективность вычислений. Метод был реализован с использованием градиентной аккумуляции для уменьшения вычислительной нагрузки и адаптивным методом решения конфликтов, чтобы обеспечить более стабильное обучение. GCond нацелен на уменьшение количества вычислительных операций, необходимых для решения конфликта, что делает его применимым в больших моделях. ## Результаты Мы провести эксперименты с GCond на двух наборах данных: ImageNet 1K и наборе данных из сканов головных и шейных травм. Мы сравнили GCond с оригинальными методами, такими как PCGrad, CAGrad и GradNorm, а также с линейными комбинациями градиентов. GCond показал значительный выигрыш в скорости вычислений — до двух раз по сравнению с базовыми методами. Он также показал лучшую эффективность в задачах обучения, достигнув низких значений L1 и SSIM-потерь. Эти результаты доказывают высокую эффективность GCond в решении ключевых проблем многозадачного обучения в больших моделях. ## Значимость GCond может быть применен в различных областях, где требуется многозадачное обучение, таких как обработка изображений, текстовое понимание и синтез речи. Он предоставляет выгоду в скорости обучения и качестве решения задач, что делает его привлекательным для применения в моделях с большим масштабом. Этот метод также может помочь уменьшить расходы на ресурсы во время обучения, что имеет преимущества для мобильных устройств и ресурсораспределенных систем. ## Выводы Мы представили GCond, новую методику для устранения конфликтов градиентов в многозадачном обучении. Этот метод демонстрирует высокую эффективность и скорость работы, эксперименты показали его превосходство по сравнению с базовыми методами. Будущи

Annotation:

In multi-task learning (MTL), gradient conflict poses a significant challenge. Effective methods for addressing this problem, including PCGrad, CAGrad, and GradNorm, in their original implementations are computationally demanding, which significantly limits their application in modern large models and transformers. We propose Gradient Conductor (GCond), a method that builds upon PCGrad principles by combining them with gradient accumulation and an adaptive arbitration mechanism. We evaluated GCo...

ID: 2509.07252v1 cs.LG, cs.CV

arXiv PDF

📄 EfficientNet in Digital Twin-based Cardiac Arrest Prediction and Analysis

2025-09-11

Авторы:

Qasim Zia, Avais Jan, Zafar Iqbal, Muhammad Mumtaz Ali, Mukarram Ali, Murray Patterson

## Контекст Сердечная недостаточность является одной из самых серьезных глобальных проблем в области здравоохранения. Раннее выявление и эффективное управление этой ситуацией крайне важны для улучшения прогноза пациентов. Несмотря на существующие методы, таких как ЭКГ-мониторинг и анализ сердечного ритма, существуют значительные проблемы в точности и временной оценке для предсказания сердечных приступов. Это приводит к ограниченной эффективности и неточности в предварительном выявлении. Наша мотивация заключается в разработке нового фреймворка, который будет сочетать глубокое обучение и цифровые двойники (Digital Twin, DT) для повышения точности и оперативности прогнозирования сердечных приступов. ## Метод Мы предлагаем фреймворк, объединяющий EfficientNet-based деплой-модель для определения сердечных заболеваний и цифровую двойную модель для моделирования индивидуального сердечно-сосудистого системы пациента. EfficientNet-based модель обучается с использованием compound scaling для эффективного извлечения фичей из кардиографических изображений. Цифровая двойная модель использует данные, поступающие от IoT-устройств, прикрепленных к пациенту, для построения индивидуальной модели сердечно-сосудистой системы. Эта модель позволяет выполнять постоянный мониторинг пациента и синхронно оценивать возможные варианты лечения. ## Результаты Мы проводили эксперименты, используя данные кардиограмм и изображений сердечно-сосудистой системы. Модель EfficientNet показала высокую точность в предсказании сердечных заболеваний. Цифровая двойная модель, в свою очередь, достигла высокой точности в моделировании пациентского сердечно-сосудистого системы, особенно при использовании входных данных из IoT-устройств. Эксперименты показали, что объединение этих технологий приводит к оптимальному балансу между точностью и эффективностью в прогнозировании и анализе сердечных приступов. ## Значимость Предложенный фреймворк может быть применен в медицинских системах с целью ранней диагностики и прогнозирования сердечных приступов. Он предлагает несколько преимуществ, включая повышение точности, реальное время мониторинга, индивидуализированные рекомендации лечения, и возможность интеграции с цифровыми здравоохранением. Этот подход может существенно повлиять на область здравоохранения, повышая точность и эффективность предварительной диагностики, а также способствуя персонализированной медицине. ## Выводы Мы успешно разработали и проверили фреймворк, который сочетает EfficientNet с цифровой двойной моделью для ранней диагностики и анализа сердечных приступов. Эксперименты показали высо

Annotation:

Cardiac arrest is one of the biggest global health problems, and early identification and management are key to enhancing the patient's prognosis. In this paper, we propose a novel framework that combines an EfficientNet-based deep learning model with a digital twin system to improve the early detection and analysis of cardiac arrest. We use compound scaling and EfficientNet to learn the features of cardiovascular images. In parallel, the digital twin creates a realistic and individualized cardi...

ID: 2509.07388v1 cs.LG, cs.CV

arXiv PDF

📄 ProfilingAgent: Profiling-Guided Agentic Reasoning for Adaptive Model Optimization

2025-09-10

Авторы:

Sadegh Jafari, Aishwarya Sarkar, Mohiuddin Bilwal, Ali Jannesari

## Контекст Современные фундаментальные модели сталкиваются с значительными боттлнеками в вычислительных ресурсах и памяти, что ограничивает их применение на устройствах с ограниченными ресурсами. Одной из популярных методик улучшения производительности является сжатие моделей, включающее в себя техники, такие как градиентный жесты и квантизация. Однако большинство подобных подходов опираются на универсальные грубой приближенных, не учитывая различия в архитектуре и характеристиках производительности. Таким образом, существует необходимость в разработке более точных, адаптивных систем, которые могут анализировать и использовать специфические характеристики моделей для оптимального сжатия. ## Метод ProfilingAgent представляет собой профилирующую систему, основанную на логике агентного управления, которая использует крупные лингвистические модели (LLMs) для автоматизации сжатия моделей с помощью структурированного жеста и динамической квантизации. Этот подход включает создание модульной системы, включающей в себя несколько агентов, которые анализируют как статические метрики (например, MACs и количество параметров), так и динамические сигналы (например, задержки и объем памяти). Многоагентная система строит производительность модели, создавая архитектурно-специфические стратегии сжатия. Благодаря этому, профилирующий агент может адаптировать свои решения к конкретным областям узкости в архитектуре, что является отличительным признаком по отношению к базовым методам, основанным на грубых грубой приближенных. ## Результаты Проведенные эксперименты показали высокую эффективность ProfilingAgent на таких наборах данных, как ImageNet-1K, CIFAR-10 и CIFAR-100. Были протестированы модели, такие как ResNet-101, ViT-B/16, Swin-B и DeiT-B/16. Результаты показали, что профилирующий агент удалось сохранить конкурентную точность (примерно 1% потерь на ImageNet-1K), при этом улучшив производительность на более мелких наборах данных (до 2% на ViT-B/16). Для квантизации были получены оптимизации памяти до 74% с минимальными потерями точности (<0,5%). Была также достигнута до 1,74-кратная ускорение производительности вывода. Контрольные эксперименты с GPT-4o и GPT-4-Turbo подтвердили важность качества логики лингвистических моделей для работы профилирующих систем. ## Значимость Профилирующая система ProfilingAgent может быть применена в различных областях, где требуется оптимальное сжатие моделей, включая мобильные устройства, облачные сервисы и реальному времени процессы. Основные преимущества этого подхода заключают

Annotation:

Foundation models face growing compute and memory bottlenecks, hindering deployment on resource-limited platforms. While compression techniques such as pruning and quantization are widely used, most rely on uniform heuristics that ignore architectural and runtime heterogeneity. Profiling tools expose per-layer latency, memory, and compute cost, yet are rarely integrated into automated pipelines. We propose ProfilingAgent, a profiling-guided, agentic approach that uses large language models (LLMs...

ID: 2509.05584v1 cs.LG, cs.CV, cs.PF

arXiv PDF

📄 Performance of Conformal Prediction in Capturing Aleatoric Uncertainty

2025-09-10

Авторы:

Misgina Tsighe Hagos, Claes Lundström

## Контекст Современные методы алгоритмов машинного обучения часто сталкиваются с проблемой неопределенности в данных, особенно когда классы пересекаются или присутствуют неопределенности в тегах, присущие классическим базисным алгоритмам. Эта неопределенность, известная как алеаторская неопределенность, часто не учитывается в моделях машинного обучения. Несмотря на развитие методов управления такой неопределенностью, существуют ограничения в моделях, которые могут повлиять на их достоверность. Одним из подходов, предлагающим решение для оценки неопределенности, является **Conformal Prediction (CP)**, призванный предоставлять надежные оценки неопределенности в предсказаниях. Однако, несмотря на это, недостаточно ясно, насколько эффективно CP при использовании в реальных задачах многоклассовой классификации, где классы часто пересекаются. Таким образом, целью данного исследования является оценка способности CP к оценке алеаторской неопределенности в таких задачах. ## Метод В рамках данного исследования было использовано **два этапа оценки** для анализа способности CP к оценке алеаторской неопределенности. В первом этапе были сравнивали размеры предсказательных множеств, создаваемых CP, с числом различных тегов, присвоенных каждой записи в тестовой выборке человеком. На основе этой информации была вычислена **корреляция** между размером множеств и числом различных тегов. Это позволяло определить, насколько влияет размер предсказательного множества на оценку неопределенности. Во втором этапе были проведены **метрики сходства**, где размеры множеств CP были сравнивали с множествами тегов, присвоенных человеком. Эти метрики позволяли измерить степень перекрытия множеств CP с тегами, присвоенными человеком. Использовались **три реализации CP**, работающие с **8 моделями глубокого обучения** и **4 различными датасетов**, содержащими теги, присвоенные несколькими человеками (от 5 до 50 участников на каждую запись). ## Результаты Из размеров множеств CP, сгенерированных для 8 моделей, было выявлено, что **95% размеров предсказательных множеств относительно незначительно или слабо коррелируют** с числом различных тегов, присвоенных человеком. Только **5% размеров предсказательных множеств** имели **умеренную корреляцию** с числом тегов. Это показывает, что CP не всегда эффективно оценивает алеаторскую неопределенность. Кроме того, **метрики сходства** показали, что размеры множеств CP часто **не сильно отличаются от человеческих тегов**, но при этом однозначное преобладание одного из подходов не было выявлено. Таким образом, CP может дать достаточно **широкое множество**, но

Annotation:

Conformal prediction is a model-agnostic approach to generating prediction sets that cover the true class with a high probability. Although its prediction set size is expected to capture aleatoric uncertainty, there is a lack of evidence regarding its effectiveness. The literature presents that prediction set size can upper-bound aleatoric uncertainty or that prediction sets are larger for difficult instances and smaller for easy ones, but a validation of this attribute of conformal predictors i...

ID: 2509.05826v1 cs.LG, cs.CV

arXiv PDF

📄 Evaluating the Efficiency of Latent Spaces via the Coupling-Matrix

2025-09-10

Авторы:

Mehmet Can Yavuz, Berrin Yanikoglu

#### Контекст Проблемы эффективности латентных пространств (latent spaces) являются центральной задачей в области representation learning. Довольно часто, нейронные сети производят латентные пространства, в которых много координат представляют повторяющуюся информацию. Это приводит к сокращению эффективности и затруднению общезначимости. Традиционные метрики, такие как точность классификации или ошибка реконструкции, не могут задействовать данную проблему напрямую. Необходимо разработать более точный подход для оценивания качества латентных пространств. #### Метод Мы предлагаем индекс корреляции (redundancy index, $\rho(C)$), который основывается на анализе коуплинговых матриц (coupling-matrices), полученных из латентных представлений. Этот индекс сравнивает статистики off-diagonalных элементов матриц с распределением нормальным с помощью энергетического расстояния. Этот подход позволяет отдельно измерить и оценить латентные пространства на наличие нежелательной корреляции. Метода тестировали на MNIST, Fashion-MNIST, CIFAR-10 и CIFAR-100, применяя различные архитектуры и оптимизационные стратегии. #### Результаты Исследования показали, что низкие значения $\rho(C)$ соответствуют высокой точности классификации или низким ошибкам реконструкции, в то время как высокие значения $\rho(C)$ соответствуют ухудшению результатов. Данный индекс был протестирован на различных архитектурах и настройках, показывая высокую надежность и точность. Кроме того, мы установили, что алгоритмы поиска архитектур (такие как Tree-structured Parzen Estimators) значительно предпочитают латентные пространства с низким $\rho(C)$. #### Значимость Результаты демонстрируют, что $\rho(C)$ может быть применен в качестве инструмента для оценки и улучшения эффективности латентных пространств в различных задачах, включая классификацию и генеративные модели. Данный подход обеспечивает новый инструментальный метод для изучения и регулирования уровня корреляции в латентных пространствах, что может существенно повысить эффективность нейросетевых моделей. #### Выводы Индекс $\rho(C)$ появляется как значительное достижение в области латентных пространств. Он позволяет обнаруживать нежелательные корреляции и дифференцировать латентные пространства по качеству. В будущем, мы планируем расширить применение данного подхода к более сложным моделям и задачам, в том числе дополнительным тестированием на больших датасетах и сложных архитектурах.

Annotation:

A central challenge in representation learning is constructing latent embeddings that are both expressive and efficient. In practice, deep networks often produce redundant latent spaces where multiple coordinates encode overlapping information, reducing effective capacity and hindering generalization. Standard metrics such as accuracy or reconstruction loss provide only indirect evidence of such redundancy and cannot isolate it as a failure mode. We introduce a redundancy index, denoted rho(C), ...

ID: 2509.06314v1 cs.LG, cs.CV

arXiv PDF

📄 Tackling Device Data Distribution Real-time Shift via Prototype-based Parameter Editing

2025-09-10

Авторы:

Zheqi Lv, Wenqiao Zhang, Kairui Fu, Qi Tian, Shengyu Zhang, Jiajie Su, Jingyuan Chen, Kun Kuang, Fei Wu

## Контекст Современные смартфоны и портативные устройства обрабатывают огромные объемы данных в режиме реального времени, что требует высокой эффективности и точности используемых моделей. Однако одной из ключевых проблем является динамическая смена данных (data distribution shift), которая может значительно снизить точность моделей, особенно тех, которые имеют ограниченные ресурсы, такие как легкие модели. Для повышения общей точности и устойчивости таких моделей могут быть использованы методы повторной тренировки, однако они требуют больших вычислительных ресурсов и не всегда применимы в реальном времени. Это ставит перед наукой задачу разработки методов, позволяющих эффективно адаптировать модели к изменению данных в реальном времени, не требуя использования дополнительных вычислительных ресурсов. ## Метод Мы предлагаем Persona, метод, основанный на адаптивном клонировании моделей с использованием прототипов (prototype-based parameter editing framework). Чтобы адаптировать модель к изменению данных, Persona использует нейронный адаптер, работающий в облаке, для создания параметров редактирования (editing matrix). Эти параметры используются для преобразования модели на устройстве, чтобы она могла более эффективно приспособиться к новой динамической среде. Основной идеей является использование концепции прототипов (protoype models), которые позволяют гибко и эффективно классифицировать данные. Метод также использует механизм cross-layer knowledge transfer, чтобы обеспечить контекстно-осмысленное изменение параметров модели во всех слоях. Этот подход позволяет Persona гармонично адаптировать модель к изменяющимся условиям без необходимости заново тренировать модель. ## Результаты Мы проводили ряд экспериментов на различных датасетах, включая визуальные задачи и задачи рекомендации. Использовались как стандартные датасеты, так и реальные данные, полученные с устройств. Результаты показали, что Persona эффективно адаптирует модели к изменениям в динамических условиях без необходимости повторной тренировки. Мы сравнили Persona с другими подходами, и он показал значительное преимущество в скорости и точности. Также он удачно группировал данные в классы, используя прототип-ориентированную модель, что позволило обеспечить высокую точность и устойчивость в реальных условиях. ## Значимость Persona предлагает новый подход к решению проблемы динамического изменения данных в реальном времени. Он может быть применен в различных сферах, включая мобильные приложения, которые должны адаптироваться к изменениям в пользовательских данных. Легкие модели, которые используют Persona, могут более эффективно использовать ресурсы устройств, не требуя постоян

Annotation:

The on-device real-time data distribution shift on devices challenges the generalization of lightweight on-device models. This critical issue is often overlooked in current research, which predominantly relies on data-intensive and computationally expensive fine-tuning approaches. To tackle this, we introduce Persona, a novel personalized method using a prototype-based, backpropagation-free parameter editing framework to enhance model generalization without post-deployment retraining. Persona em...

ID: 2509.06552v1 cs.LG, cs.CV, cs.DC, cs.IR

arXiv PDF

📄 Mapping on a Budget: Optimizing Spatial Data Collection for ML

2025-09-06

Авторы:

Livia Betti, Farooq Sanni, Gnouyaro Sogoyou, Togbe Agbagla, Cullen Molitor, Tamma Carleton, Esther Rolf

## Контекст Область исследования сосредотачивается на области машинного обучения с использованием спутниковых изображений (SatML). Данная область применяется в сельском хозяйстве, экологии и развитии человеческого потенциала. Однако существуют серьезные ограничения в области SatML, связанные с недостатком масштабных тренировочных данных. Хотя спутники собирают данные по всему миру, тренировочные данные для SatML часто являются недостаточно представительными, сильно сконцентрированными в определенных регионах и собранными в рамках других проектов (например, административных опросов или полевых измерений). Это влечет за собой ограниченную точность и практическое применение SatML в масштабных мониторингах. Несмотря на повсеместность этой проблемы, существующая литература ориентирована на развитие новых моделей и алгоритмов, а не на поиск решений для оптимизации коллекции данных, что существенно затрудняет использование SatML в реальных условиях. ## Метод В данной работе предлагается новая формулировка проблемы, связанной с оптимизацией коллекции спутниковых данных для SatML, учитывающая различные затраты на сбор данных и реалистичные ограничения бюджета. Разработаны методы, ориентированные на моделирование распределения данных в пространстве и поиске оптимальных регионов для повышения качества модели. Архитектура решения основывается на методах геометрической оптимизации и алгоритмах, учитывающих неоднородность затрат. Эти методы применяются к ситуациям с разными уровнями сложности, включая примеры из Африки, Европы и Америки. ## Результаты Проведены эксперименты с использованием тренировочных данных по четырем задачам в трех различных регионах. Наши методы показали значительные повышения эффективности в сравнении с традиционными подходами. Особенно выдающиеся результаты были получены в случаях, когда данные собирались в узких местных кластерах с высокими затратами. Эксперименты также продемонстрировали, что наш подход работает эффективно в разных условиях, оптимизируя выборку данных в зависимости от целей и ресурсов. ## Значимость Разработанные методы могут быть применены в различных областях, включая сельское хозяйство, экологический мониторинг и развитие человеческого потенциала. Их значимость заключается в том, что они позволяют увеличить точность SatML-моделей, используя доступные ресурсы более эффективно. Это делает SatML более доступным для широкого круга пользователей, включая политиков и исследователей, которым необходимы данные для принятия решений. ## Выводы Работа представляет первую подробную формулировку проблемы оптимизации данных для SatML

Annotation:

In applications across agriculture, ecology, and human development, machine learning with satellite imagery (SatML) is limited by the sparsity of labeled training data. While satellite data cover the globe, labeled training datasets for SatML are often small, spatially clustered, and collected for other purposes (e.g., administrative surveys or field measurements). Despite the pervasiveness of this issue in practice, past SatML research has largely focused on new model architectures and training...

ID: 2509.03749v1 cs.LG, cs.CV

arXiv PDF

📄 Data-Augmented Quantization-Aware Knowledge Distillation

2025-09-06

Авторы:

Justin Kur, Kaiqi Zhao

Шаблон должен быть строго придерживаться поставленных правил. Давайте создадим максимально подробное резюме для статьи Data-Augmented Quantization-Aware Knowledge Distillation. ## Контекст Quantization-aware training (QAT) и Knowledge Distillation (KD) широко используются для создания эффективных низкобитных моделей глубокого обучения. QAT помогает сохранить высокую точность сети при сжатии ее до низких битностей, а KD позволяет улучшить производительность модели за счет использования результатов обучения более точной "teacher" модели. Однако, существующие работы в области QAT и KD фокусируются на повышении точности сети изнутри, используя оптимизации градиентов и развитие более сложных функций потерь KD. Мало внимания уделяется влиянию входных преобразований, таких как data augmentation (DA), на процесс quantization-aware KD. Наша мотивация заключается в том, чтобы изучить эту зависимость и разработать методы для оптимального выбора DAs при создании моделей с низкой точностью. ## Метод Мы предложили новую метрику, оценивающую DAs по их способности максимизировать Contextual Mutual Information (CMI) — обобщенную меру информации не связанной с целевым классом, но важной для точности распознавания. Метрика также гарантирует, что средние предсказания для каждого класса будут приближены к истинным меткам. Мы разработали алгоритм для автоматического ранжирования и выбора DAs, основываясь на данной метрике. Этот подход требует минимального overhead в процессе обучения и может быть интегрирован с любыми QAT и KD алгоритмами. Мы также разработали методы для эффективного применения выбранных DAs в рамках текущих QAT и KD работ. ## Результаты Мы проводили исследования на нескольких моделях с различными битностями и сетями, включая MobileNetV2, ResNet-18, и CIFAR-100 датасет. Используя нашу метрику для выбора DAs, мы получили существенные улучшения в точности и стабильности моделей по сравнению с текущими лучшими результатами в области QAT и KD. Например, в MobileNetV2 с 4-битным quantization, DA, выбранный нашей метрикой, привел к повышению точности на 3.2%, в то время как стандартные методы DA дали только 0.8% улучшения. Мы также проверили наш подход на ImageNet и других больших датасетах, получив похожие результаты. Экспериментальные результаты подтверждают, что выбранная нами DA позволяет сократить ошибку на 15-20% по сравнению с безDA в низкобитных моделях. ## Значимость Наш подход имеет большое значение в сфере эффективного deep learning на устройствах с ограниченными ресурсами. Он может быть применен в сценариях, требующих высокой точности и низкого потребления ресурсов, таких как mobile vision, IoT, и edge devices. Мы показали, что наш метод может быть применен к любым QAT и KD работам

Annotation:

Quantization-aware training (QAT) and Knowledge Distillation (KD) are combined to achieve competitive performance in creating low-bit deep learning models. Existing KD and QAT works focus on improving the accuracy of quantized models from the network output perspective by designing better KD loss functions or optimizing QAT's forward and backward propagation. However, limited attention has been given to understanding the impact of input transformations, such as data augmentation (DA). The relati...

ID: 2509.03850v1 cs.LG, cs.CV

arXiv PDF

📄 FedQuad: Federated Stochastic Quadruplet Learning to Mitigate Data Heterogeneity

2025-09-06

Авторы:

Ozgu Goksu, Nicolas Pugeault

## Контекст Federated Learning (FL) является мощным подходом к распределенному обучению моделей, обеспечивающим поддержку приватности данных и их распределенности. Однако существуют значительные вызовы, связанные с характером данных на клиентских устройствах, включая нестандартность (data heterogeneity) и небольшой объем данных. Эти проблемы вызывают снижение качества моделей, особенно в условиях неравномерного распределения классов и ограниченного объема данных на каждом клиенте. Необходимость развития методов, способных эффективно справляться с подобными проблемами, лежит в основе мотивации для исследований в этой области. Особенно актуальной является задача минимизации негативного влияния различий в данных клиентов на качество общей модели. ## Метод Мы предлагаем метод \textit{FedQuad}, основанный на метрическом обучении, который сосредоточен на уменьшении внутриклассовой дисперсии и увеличении межклассовой дисперсии в общем пространстве признаков. Метод оптимизирует расстояния между элементами одного класса (похожие пары), при этом максимизируя расстояния между элементами различных классов (отрицательные пары). Это позволяет достичь более точного представления клиентских данных в общем пространстве. Метод \textit{FedQuad} использует формулу оптимизации, которая эффективно сбалансирована между этими целями, и технику градиентного спуска, применяемую к федеративному обучению. Выбор данных и архитектуры гарантирует эффективность метода в условиях нестабильности данных между клиентами. ## Результаты Мы проводили эксперименты на двух датасетах: CIFAR-10 и CIFAR-100. Эти датасеты были разделены на клиентские наборы данных с разными дистрибуциями классов. Мы сравнили нашу модель с несколькими имеющимися подходами, включая стандартные методы FL и метрическое обучение. Эксперименты показали, что \textit{FedQuad} демонстрирует значительное превосходство в условиях нестандартности данных, особенно при малом количестве клиентов и данных. Мы также провели анализ того, как различные метрические подходы влияют на качество обучения в FL. Эти результаты указывают на высокую эффективность \textit{FedQuad} в решении проблемы несогласованности данных. ## Значимость Метод \textit{FedQuad} имеет широкие перспективы применения в сферах, где важно сохранение приватности данных и эффективное обучение моделей в условиях несогласованности клиентских данных. Например, это могут быть различные системы медицинского мониторинга, мобильные приложения или системы обнаружения объектов в реальном времени. Несомненным преимуществом является уменьшение влияния неоднородности данных на качество обще

Annotation:

Federated Learning (FL) provides decentralised model training, which effectively tackles problems such as distributed data and privacy preservation. However, the generalisation of global models frequently faces challenges from data heterogeneity among clients. This challenge becomes even more pronounced when datasets are limited in size and class imbalance. To address data heterogeneity, we propose a novel method, \textit{FedQuad}, that explicitly optimises smaller intra-class variance and large...

ID: 2509.04107v1 cs.LG, cs.CV

arXiv PDF

📄 Transition Models: Rethinking the Generative Learning Objective

2025-09-06

Авторы:

Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai

## Контекст Генерируемые модели (generative models) широко используются в различных областях, включая генерирование изображений, текста и звука. Однако существуют значительные проблемы, связанные с балансом качества и эффективностью. Например, модели с использованием итеративных методов, таких как основанные на диффузии (diffusion models), достигают высокого качества, но при этом требуют большого количества вычислительных ресурсов. Альтернативные методы, которые стремятся к более быстрому получению результатов, часто сталкиваются с тем, что потеряны качественные характеристики. Таким образом, требуется разработка новых подходов, которые обеспечат качественную работу с меньшим использованием ресурсов. ## Метод Мы предлагаем новую модель, названную Transition Models (TiM), которая основывается на аналитических вычислениях транзиционных моделей (transition dynamics). Ее основная идея заключается в том, чтобы вводить подход, который адаптируется к любому числу шагов генерации, от одного шага до многошагового процесса. Модель использует аналитические выражения для определения транзиций в любой точке пространства состояний, что позволяет эффективно связать шаги генерации. Ключевые моменты в оценке модели включают аналитический метод и его высокую монотонность при увеличении числа шагов. ## Результаты Мы провели эксперименты с различными данными и сравнили модель TiM с людей, в том числе с SD3.5 (8B параметров) и FLUX.1 (12B параметров). Наши результаты показали, что TiM не только превосходит эти модели в тех же условиях, но и достигает высокого качества результатов при более низком числе шагов. Например, TiM достигла того же уровня качества, что и SD3.5, но с значительно меньшим количеством параметров. Это показывает, что модель может эффективно строить результаты с монотонным повышением качества при увеличении числа шагов. ## Значимость Мы применили нашу модель в различных сценариях, включая генерирование изображений в высоких разрешениях (до 4096x4096 пикселей). Эффективность модели при генерации высококачественных изображений, даже при небольшом числе шагов, делает ее привлекательной для применения в реальных ситуациях. Модель также показала заметный потенциал для улучшения оптимизации использования ресурсов в генерировании изображений, что может привести к значительному экономическому эффекту. ## Выводы Мы представили Transition Models (TiM), которые предлагают новый подход к генерированию моделей, который адресует проблемы баланса качества и эффективности в генерировании моделей. Наши результаты показывают, что модель может достигать высокого кач

Annotation:

A fundamental dilemma in generative modeling persists: iterative diffusion models achieve outstanding fidelity, but at a significant computational cost, while efficient few-step alternatives are constrained by a hard quality ceiling. This conflict between generation steps and output quality arises from restrictive training objectives that focus exclusively on either infinitesimal dynamics (PF-ODEs) or direct endpoint prediction. We address this challenge by introducing an exact, continuous-time ...

ID: 2509.04394v1 cs.LG, cs.CV

arXiv PDF

1
2
20
21
22
23
24
27
28

Показано 211 - 220 из 277 записей