📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня

📄 A Generalized Information Bottleneck Theory of Deep Learning

2025-10-02

Авторы:

Charles Westphal, Stephen Hailes, Mirco Musolesi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The Information Bottleneck (IB) principle offers a compelling theoretical framework to understand how neural networks (NNs) learn. However, its practical utility has been constrained by unresolved theoretical ambiguities and significant challenges in accurate estimation. In this paper, we present a \textit{Generalized Information Bottleneck (GIB)} framework that reformulates the original IB principle through the lens of synergy, i.e., the information obtainable only through joint processing of f...

ID: 2509.26327v1 cs.LG, cs.IT, math.IT

arXiv PDF

📄 Probabilistic and nonlinear compressive sensing

2025-09-20

Авторы:

Lukas Silvester Barth, Paulo von Petersenn

## Контекст Область исследования связана с компрессивной оценкой и нелинейными моделями в алгоритмах сжатия. Традиционные подходы к компрессивной оценке основываются на методах линейной алгебры и статистической оценки. Однако, нелинейные модели, такие как нейронные сети, представляют особый интерес в связи с их мощностью и гибкостью при решении сложных задач. В данной работе рассматривается проблема реконструкции сигнала с помощью нелинейных моделей, которую не удается решить с помощью линейных методов. Целью является разработка эффективного метода реконструкции сигнала с нелинейными ограничениями, который может быть применен в различных областях, включая звукозапись, изображение и машинное обучение. ## Метод Данная работа предлагает новый подход к решению проблемы компрессивной оценки с использованием нелинейных моделей. Метод основывается на реформулировании задачи в виде проблемы оптимизации, где функционал оптимизации представляется в виде нелинейного и простого выражения. Авторы предлагают использовать метод градиентного спуска для решения этой проблемы. Для обеспечения эффективности алгоритма рассматривается использование специального структурированного сетчатого слоя в нейронных сетях. Это позволяет эффективно использовать информацию о структуре данных и ускорить расчеты. Также в работе используется метод стохастического градиента, который позволяет уменьшить время вычислений и улучшить точность решения. ## Результаты Авторы проводят эксперименты с различными видами сигналов и сетевыми моделями. На основе этих экспериментов доказывается, что предложенный подход позволяет достичь значительно большей точности реконструкции сигнала в сравнении с традиционными методами. Также проводится сравнительный анализ с другими нелинейными методами, включая IHT и Lasso. Результаты показывают, что предложенный подход значительно быстрее и точнее. Использование специальной структуры слоя и стохастического градиента позволяет эффективно использовать ресурсы вычислений и достичь лучших результатов. ## Значимость Результаты данной работы имеют применимость в различных областях, таких как звукозапись, обработка изображений, машинное обучение и другие. Эффективность метода демонстрируется на разных видах сигналов и моделях, что делает его универсальным для разных задач. Благодаря использованию нелинейных моделей, данный подход позволяет решать задачи, которые были раньше недоступны для линейных методов. Это открывает новые возможности в области сжатия и обработки данных. ## Выводы В ходе работы был разработан эффективный метод реконструкци

Annotation:

We present a smooth probabilistic reformulation of $\ell_0$ regularized regression that does not require Monte Carlo sampling and allows for the computation of exact gradients, facilitating rapid convergence to local optima of the best subset selection problem. The method drastically improves convergence speed compared to similar Monte Carlo based approaches. Furthermore, we empirically demonstrate that it outperforms compressive sensing algorithms such as IHT and (Relaxed-) Lasso across a wide ...

ID: 2509.15060v1 cs.LG, cs.IT, math.IT, math.ST, stat.CO, stat.ML, stat.TH, 94A20, 94A13, 94A12, 94A08, 94-08, 94-04, 68T07, 68P30, G.3; E.4; I.2; I.2.6; I.5.5

arXiv PDF

📄 Long-time dynamics and universality of nonconvex gradient descent

2025-09-17

Авторы:

Qiyang Han

## Контекст В теории обучения с учителем, одной из основных задач является понимание динамики алгоритмов оптимизации при решении задач регрессии. Несойка линейных и нелинейных моделей, таких как модели с одной индексной структурой, используются для исследования процесса расширения и вывода. Однако, неоднородные модели, такие как нелинейные неконвексные модели, представляют собой более сложную область, поскольку они могут не иметь глобального минимума и подвергаться влиянию локальных эффектов. Это способствует неоднородной динамике градиентного спуска в таких моделях. На протяжении многих лет, специалисты стремились к полному пониманию динамики градиентного спуска в нелинейных моделях, особенно в ситуациях, когда размерность выборки становится очень велика. Эта проблема имеет решаемость в глобальном масштабе, однако в течение десятилетий оставалась недостижимой. Наша работа уделяет особое внимание спецификам градиентного спуска в ситуации, когда масштаб выборки становится очень большой. ## Метод Мы разработали универсальную методологию для характеризации динамики градиентного спуска в моделях с одной индексной структурой в ситуации большого масштаба. Наш подход основывается на использовании теории статистических моделей и заключается в изучении взаимосвязи между динамическими системами и статистическими моделями. Мы предлагаем новую методологию, которая позволяет отслеживать динамику градиентного спуска во времени и объяснять ее состояние. Это основывается на системе двух скалярных уравнений, позволяющих отслеживать динамику градиентного спуска в течение большого числа итераций. Мы также используем теорию гросса для интерпретации динамики и оценки результатов. Эта методология позволяет рассматривать общие классы моделей и данных, а также предоставляет средства для моделирования и анализа динамики градиентного спуска в реальных задачах. ## Результаты Мы провели эксперименты с различными наборами данных и моделями. Наши результаты показывают, что градиентный спуск в моделях с одной индексной структурой показывает динамику, которая может быть точно описана с помощью предложенной методологии. Мы демонстрируем, что градиентный спуск устойчив к различным видам данных и возможностям инициализации. Мы также установили, что динамика градиентного спуска в некоторых ситуациях может быть успешно моделирована с помощью теории статистических моделей, что позволяет получить адекватные оценки во время экспериментов. Наши результаты подтверждают, что методология может быть широко

Annotation:

This paper develops a general approach to characterize the long-time trajectory behavior of nonconvex gradient descent in generalized single-index models in the large aspect ratio regime. In this regime, we show that for each iteration the gradient descent iterate concentrates around a deterministic vector called the `Gaussian theoretical gradient descent', whose dynamics can be tracked by a state evolution system of two recursive equations for two scalars. Our concentration guarantees hold univ...

ID: 2509.11426v1 cs.LG, cs.IT, math.IT, math.OC, math.ST, stat.ML, stat.TH

arXiv PDF

📄 Cost-Free Personalization via Information-Geometric Projection in Bayesian Federated Learning

2025-09-16

Авторы:

Nour Jamoussi, Giuseppe Serra, Photios A. Stavrou, Marios Kountouris

## Контекст Байесовская федеративная обучение (BFL) — это метод, который объединяет моделирование неопределенности с децентрализованным обучением. Он позволяет создавать персонализированные и надёжные модели, даже при существующей неоднородности данных и требованиях к приватности. Несмотря на его перспективы, существующие подходы часто ограничиваются методами типа Markov Chain Monte Carlo (MCMC) или вариационной инференции, которые могут быть ресурсоёмкими и не всегда эффективны в условиях высокой степени локальной неоднородности данных. Одной из основных проблем является то, что традиционные подходы недостаточно эффективно адаптируются к индивидуальным особенностям каждого пользователя. Мотивация для данного исследования заключается в разработке метода, который бы сделал BFL более эффективным в терминах персонализации, при этом сохраняя необходимую универсальность. ## Метод Предлагаемый подход основывается на информационно-геометрической проекции для персонализации в параметрической BFL. Основная идея заключается в том, чтобы проецировать глобальную модель на ближайшую окрестность локальной модели пользователя. Это позволяет достичь оптимального баланса между глобальной общностью и локальной специфичностью. Метод основывается на понятии "барицентра" на статистической матрице, что позволяет получать закрытые решения без дополнительных вычислительных затрат. Для реализации используется оптимизатор Improved Variational Online Newton (IVON). Данная проекционная модель расширяется для работы с различными схемами свёртки в BFL. ## Результаты Проведенные эксперименты подтверждали эффективность подхода в условиях сильно неоднородных данных. Использовались данные, разделённые на независимые подмножества, чтобы тестировать локальную специфичность и глобальную общность модели. Результаты показали, что метод достигает более высокого уровня персонализации в сравнении с базовыми методами, при этом сохраняя низкую вычислительную нагрузку. Данные эксперименты подтверждают, что предлагаемый подход может эффективно применяться в сценариях, где требуется быстрая адаптация модели к индивидуальным данным пользователей. ## Значимость Предлагаемый подход может быть применён в различных областях, таких как мобильные сети, интернет вещей, медицина, и другие, где требуется высокая персонализация моделей в условиях неоднородных данных. Одним из преимуществ является минимальный компьютерный overhead, что делает этот подход привлекательным для реализации в реальном времени. Более того, данный подход может способствовать улучшению надежности и эффективности без дополнительных затрат на сбо

Annotation:

Bayesian Federated Learning (BFL) combines uncertainty modeling with decentralized training, enabling the development of personalized and reliable models under data heterogeneity and privacy constraints. Existing approaches typically rely on Markov Chain Monte Carlo (MCMC) sampling or variational inference, often incorporating personalization mechanisms to better adapt to local data distributions. In this work, we propose an information-geometric projection framework for personalization in param...

ID: 2509.10132v1 cs.LG, cs.IT, cs.NI, math.IT

arXiv PDF

📄 Federated Multi-Agent Reinforcement Learning for Privacy-Preserving and Energy-Aware Resource Management in 6G Edge Networks

2025-09-16

Авторы:

Francisco Javier Esono Nkulu Andong, Qi Min

#### Контекст 6G-сети предполагают достижение ультравысоких скоростей, низкой задержки и высокой эффективности использования ресурсов в условиях критических ограничений по приватности, мобильности и энергопотреблению. Однако существующие системы управления ресурсами не всегда успешно решают эти задачи, особенно в условиях динамически изменяющихся сетевых сред. Это приводит к необходимости разработки новых подходов, которые могли бы обеспечить эффективное управление ресурсами без подрыва безопасности и принимая во внимание специфику 6G-сетей. #### Метод Предлагаемый образец исследования предлагает Federated Multi-Agent Reinforcement Learning (Fed-MARL), в котором каждый агент использует Deep Recurrent Q-Network (DRQN) для обучения децентрализованных политик по оффлоадингу задач, доступу к спектру и адаптации CPU-энергии. Данные для обучения агентов собираются из локальных наблюдений, таких как длина очереди, энергопотребление и мобильность устройств. Для обеспечения приватности вводится протокол защиты данных на основе эллиптического ключа Diffie-Hellman. Задача управления ресурсами представлена в виде Partially Observable Multi-Agent Markov Decision Process (POMMDP), с мультиобъективным функционалом поиска, который учитывает такие показатели, как задержка, энергоэффективность, спектральная эффективность, справедливость и надежность. #### Результаты Работа представлена в виде экспериментов на моделировании сетей 6G с различными сценариями работы. Для обучения использовались симуляционные данные, полученные в результате работы с несколькими агентами, которые обучаются в среде Fed-MARL. Результаты показали, что Fed-MARL показал лучшие результаты по таким показателям, как успешность выполнения задач, задержка, энергоэффективность и справедливость, в сравнении с централизованным MARL и традиционными методами. Это доказывает высокую эффективность Fed-MARL в условиях ресурсно-ограниченных 6G-сетей. #### Значимость Предложенный подход может быть применен в различных сценариях 6G, включая умные города, интеллектуальные промышленные сети, а также в системы транспорта. Он обеспечивает высокую эффективность управления ресурсами, сохраняет приватность данных и обладает хорошей масштабируемостью. Благодаря этим преимуществам, Fed-MARL может стать новым стандартом для энергоэффективного и приватного управления ресурсами в 6G-сетях. #### Выводы Выводы показывают, что Fed-MARL является эффективным подходом для решения задач управления ресурсами в 6G-сетях. В дальнейших исследованиях планируется расширить подход, включив дополнительные факторы, такие как ин

Annotation:

As sixth-generation (6G) networks move toward ultra-dense, intelligent edge environments, efficient resource management under stringent privacy, mobility, and energy constraints becomes critical. This paper introduces a novel Federated Multi-Agent Reinforcement Learning (Fed-MARL) framework that incorporates cross-layer orchestration of both the MAC layer and application layer for energy-efficient, privacy-preserving, and real-time resource management across heterogeneous edge devices. Each agen...

ID: 2509.10163v1 cs.LG, cs.IT, math.IT

arXiv PDF

📄 Vendi Information Gain for Active Learning and its Application to Ecology

2025-09-16

Авторы:

Quan Nguyen, Adji Bousso Dieng

## Контекст В последние десятилетия мониторинг биодиверсии стал ключевым аспектом экологических исследований. Одним из основных задач в этой области является идентификация видов в кадрах, захваченных на камерных ловушках. Это задача требует значительных ресурсов, так как необходимо отметить большое количество изображений вручную. Активное обучение (active learning) — методология машинного обучения, которая позволяет выбирать самые полезные данные для маркировки, существенно сокращая число необходимых для обучения изображений. Традиционные подходы к активному обучению фокусируются на отдельных предсказаниях модели, не учитывая общую неопределенность в данных. Мы предлагаем новый подход, Vendi Information Gain (VIG), который ориентирован на выбор данных, способных максимально влиять на общую неопределенность в данных для повышения качества модели и ее устойчивости. ## Метод Методология Vendi Information Gain основывается на измерении информативности кадров в целом, а не на отдельных предсказаниях модели. Мы используем меру неопределенности, которая включает в себя обработку всего набора данных, чтобы определить кадры, которые способны наиболее эффективно повысить точность модели в целом. В нашей архитектуре мы используем специальные математические методы для оценки диверсии в данных, чтобы убедиться, что каждая выборка добавляет новую информацию. Мы также внедрили методы для эффективного выбора данных в батчах, чтобы повысить производительность алгоритма. ## Результаты Мы провели эксперименты на датасете Snapshot Serengeti, который содержит тысячи кадров с различных животных. Мы сравнили нашу методику Vendi Information Gain с тремя стандартными подходами к активному обучению. Наши результаты показали, что Vendi Information Gain требует значительно меньшего объема данных для достижения высокой точности. Например, для достижения 75% точности в предсказаниях, он использовал только 3% из всех данных, в то время как другие методы требовали более 10%. Даже при использовании 10% данных, Vendi Information Gain повысил точность на 12% по сравнению с другими методами. Мы также проверили, что наш подход собирает более разнообразные данные, что повышает общую надежность модели. ## Значимость Результаты наших исследований демонстрируют широкую применимость Vendi Information Gain за пределами экологических исследований. В данном случае мы показали, что наш подход может значительно улучшить процесс мониторинга биодиверсии в условиях нехватки маркированных данных. Это не только экономит ресурсы, но и повышает точность моделей. Мы также выделяем возможность применения этого метода в других областях, где требуется выбор максимально полезных данных с минимальными затратами

Annotation:

While monitoring biodiversity through camera traps has become an important endeavor for ecological research, identifying species in the captured image data remains a major bottleneck due to limited labeling resources. Active learning -- a machine learning paradigm that selects the most informative data to label and train a predictive model -- offers a promising solution, but typically focuses on uncertainty in the individual predictions without considering uncertainty across the entire dataset. ...

ID: 2509.10390v2 cs.LG, cs.IT, math.IT, q-bio.PE

arXiv PDF

📄 Perfectly-Private Analog Secure Aggregation in Federated Learning

2025-09-12

Авторы:

Delio Jaramillo-Velez, Charul Rajput, Ragnar Freij-Hollanti, Camilla Hollanti, Alexandre Graell i Amat

## Контекст В области федеративного обучения, несколько сторон обучают модели локально и делятся своими параметрами с центральным сервером, который агрегирует их, чтобы обновить глобальную модель. Одной из основных проблем этого процесса является риск вытекающего из локальных моделей может повлечь за собой разглашение конфиденциальных данных. Чтобы сделать агрегацию безопаснее, предложены методы, основанные на защищенной агрегации (secure aggregation), использующие методы многопартийной вычислительной математики. Однако, полная защита приватности может быть достигнута только при качественных маскировании локальных моделей перед отправкой на агрегацию. Для нормальных данных, это проблематично, так как на реальных значениях нельзя применить меру, которая бы не пострадала при маскировании. Одним из подходов является перевод данных в конечное поле (finite field), но это приводит к проблемам со сдвигом точности и сложностями с масштабами данных. Эта статья предлагает новый подход к защите параметров агрегации в федеративном обучении, используя тур (torus) вместо конечных полей, чтобы обеспечить точность и защиту приватности. ## Метод Метод, предложенный в статье, заключается в использовании тура (torus) в качестве базисной плоскости для маскирования локальных моделей. Torus обеспечивает полную приватность локальных данных, так как он работает с единообразным распределением объектов на туре. Это позволяет избежать вытекающих из локальных параметров данных, которые могут разглашаться во время агрегации. Метод также использует логику модулярного арифметики, но в отличие от конечных полей использует тур, который может нормализовывать данные разных масштабов без особых ухудшений точности. Этот подход позволяет обеспечить защиту приватности, не ухудшая качество модели в федеративном обучение. ## Результаты Для экспериментов были использованы данные, аналогичные тем, которые могут использоваться при обучении моделей в федеративном обучении. Для агрегации были выбраны методы, основанные как на конечных полях, так и на туре. Результаты показали, что метод, основанный на туре, позволяет поддерживать точность модели примерно на уровне без защиты приватности, но с меньшим риском вытекающих данных. В случае с конечным полем, были замечены существенные ухудшения точности модели, а также недостаточное удовлетворение требований к приватности. Таким образом, тур-базисный подход демонстрирует лучшую точность и более безопасный метод агрегации в сравнении с конечным полем. ## Значимость Предложенный подход может быть применен в широких областях, где требуется обучение моделей в федеративном реж

Annotation:

In federated learning, multiple parties train models locally and share their parameters with a central server, which aggregates them to update a global model. To address the risk of exposing sensitive data through local models, secure aggregation via secure multiparty computation has been proposed to enhance privacy. At the same time, perfect privacy can only be achieved by a uniform distribution of the masked local models to be aggregated. This raises a problem when working with real valued dat...

ID: 2509.08683v1 cs.LG, cs.IT, math.IT, 68P30

arXiv PDF

📄 On optimal solutions of classical and sliced Wasserstein GANs with non-Gaussian data

2025-09-10

Авторы:

Yu-Jui Huang, Hsin-Hua Shen, Yu-Chih Huang, Wan-Yi Lin, Shih-Chun Lin

## Контекст Генерирующая аддитивная сеть (GAN) представляет собой модель, которая призвана аппроксимировать неизвестную распределение с помощью параметрической нейронной сети (NN). GANы найдены в таких областях как подкрепленное обучение, неполностью супервизированное обучение и задачи компьютерного зрения. Однако, выбор параметров GANов часто требует экземплярного поиска, а только несколько методов могут быть обоснованы теоретически как оптимальными. Одним из перспективных вариантов GANов является Wasserstein GAN (WGAN). Ранее, работы по оптимальным параметрам WGAN ограничивались линейно-квадратично-гауссовым (LQG) случаем, где NN является линейной, а данные являются гауссовыми. В данной работе, мы исследуем характеристики оптимальных WGAN параметров за пределами LQG сценария. Мы получаем закрытые формулы для оптимальных параметров в одномерном WGAN, где NN имеет нелинейные активационные функции и данные являются негауссовыми. Для расширения этого к высокомерных WGAN, мы применяем фреймворк sliced Wasserstein и заменяем ограничения на маргинальные распределения проецированных данных ограничением на совокупное распределение оригинальных (непроецированных) данных. Мы доказываем, что линейный генератор может быть асимптотически оптимальным для sliced WGAN с негауссовыми данными. Эмпирические исследования показывают, что наши закрытые формулы WGAN параметров оказываются хорошо сходимыми с данными под различными распределениями, в том числе нормальным и лапласианским. Более того, наше решение для sliced WGAN достигает той же эффективности, с меньшими вычислительными затратами, чем решение на основе главных компонент (r-PCA). ## Метод Мы применяем теоретические и математические методы для оптимизации WGAN параметров. Наш алгоритм базируется на разработке закрытых формул для оптимальных WGAN параметров в одномерной ситуации с нелинейными активационными функциями и негауссовыми данными. Для расширения этого решения к высокомерным WGAN, мы применяем фреймворк sliced Wasserstein. Этот фреймворк позволяет заменить ограничения на маргинальные распределения проецированных данных на ограничение на совокупное распределение оригинальных данных. Для доказательства оптимальности линейного генератора в sliced WGAN, мы применяем анализ асимптотических свойств и показываем, что он приводит к меньшим вычислительным затратам по сравнению с р-PCA решением. Мы также проводим эмпирические исследования для проверки нашего алгоритма с данными под различными распределениями. ## Результаты Мы проводим эксперименты с данными под различными распределениями, в том числе нормальным и лапласианским. Наши закрытые формулы WGAN параметров показыва

Annotation:

The generative adversarial network (GAN) aims to approximate an unknown distribution via a parameterized neural network (NN). While GANs have been widely applied in reinforcement and semisupervised learning as well as computer vision tasks, selecting their parameters often needs an exhaustive search and only a few selection methods can be proved to be theoretically optimal. One of the most promising GAN variants is the Wasserstein GAN (WGAN). Prior work on optimal parameters for WGAN is limited ...

ID: 2509.06505v1 cs.LG, cs.IT, math.IT, stat.ML

arXiv PDF

📄 Fundamental bounds on efficiency-confidence trade-off for transductive conformal prediction

2025-09-09

Авторы:

Arash Behboodi, Alvaro H. C. Correia, Fabio Valerio Massoli, Christos Louizos

## Контекст **Transductive conformal prediction (TCP)** — это метод, который предназначен для адресации проблем целостного предсказания с неопределенностью. В TCP необходимо построить набор предсказаний, который включит истинные значения для всех тестовых данных с заданной долей уверенности (confidence level). Такой подход актуален для задач, где необходимо учитывать не только точность предсказаний, но и их объем. Наличие некоторой неопределенности в данных, такой как разнообразие или нестандартность, порождает трудности в построении эффективных и надежных предсказаний. Это создает мотивацию для изучения оптимальных алгоритмов и теоретических ограничений, регулирующих эту область. ## Метод **Методология** в TCP основывается на применении методов нейросетевого обучения, основанных на теории вероятности. Чтобы построить набор предсказаний, используется метод параметрической оценки, где в качестве весов выступают вероятности тестовых объектов входить в предсказание. Обучение происходит с использованием многоклассовых классификаторов, которые оценивают вероятность того, что точка относится к определенному классу. **Архитектура** включает несколько слоев нейронных сетей, которые обрабатывают входные данные и выдают вероятности для каждого тестового объекта. Модель обучается на множестве обучающих данных, используя методы градиентного спуска. Итоговая модель используется для построения набора предсказаний с учетом заданного уровня уверенности. ## Результаты В результате экспериментов, проводимых на стандартных датасетах, показано, что улучшение уверенности (увеличение доли включенных в набор предсказаний истинных значений) приводит к значительному росту размера набора предсказаний. Это усиливается при наличии сильной неопределенности в данных. Использованные данные включали как синтетические наборы, так и реальные данные, чтобы проверить гипотезы об эффекте неопределенности. Основным полученным результатом является теоретическая демонстрация, что для всех нетривиальных уровней уверенности существует строгая теоретическая граница, определяющая рост размера предсказаний. Эта граница зависит от характеристик данных, таких как их неопределенность и дисперсия в условных вероятностях. ## Значимость **Применения** метода TCP находятся в различных областях, таких как медицинские диагностические системы, прогнозирование поведения пользователей в интернет-платформах и рекомендательные системы. Основные **преимущества** заключаются в улучшенной надежности предсказаний, когда требуется учесть нестандартность данных. Это может привести к более точным решениям в сложных ситуациях

Annotation:

Transductive conformal prediction addresses the simultaneous prediction for multiple data points. Given a desired confidence level, the objective is to construct a prediction set that includes the true outcomes with the prescribed confidence. We demonstrate a fundamental trade-off between confidence and efficiency in transductive methods, where efficiency is measured by the size of the prediction sets. Specifically, we derive a strict finite-sample bound showing that any non-trivial confidence l...

ID: 2509.04631v1 cs.LG, cs.IT, math.IT, stat.ML, 94A15, 62G10, 68T01

arXiv PDF

📄 Federated learning over physical channels: adaptive algorithms with near-optimal guarantees

2025-09-06

Авторы:

Rui Zhang, Wenlong Mou

## Контекст Federated learning (FL) представляет собой метод машинного обучения, в котором модели обучаются независимо на клиентских устройствах, а затем обученные модели объединяются для повышения общей точности. Одной из основных проблем FL является высокая стоимость обмена данными между клиентами и сервером, что может стать ограничивающим фактором для развития системы. Физические каналы предлагают альтернативу традиционным методам обмена данными, позволяя передавать информацию с помощью аппаратных средств, таких как сигналы радиочастот. Однако технические ограничения устройств и шум в каналах могут сказаться на качестве обучения. Мотивацией для данного исследования является развитие эффективных адаптивных методов FL, которые учитывают ограничения физических каналов и шумы в стохастических градиентах. ## Метод Для решения приведенных выше проблем, предлагается новый класс адаптивных алгоритмов federated stochastic gradient descent (SGD), которые могут использоваться в рамках физических каналов. Эти алгоритмы адаптируются к уровню шума в стохастических градиентах и принимают во внимание ограничения аппаратных устройств. Архитектура метода основывается на существующих алгоритмах FL с добавлением адаптивных мер, таких как автоматическое регулирование скорости обучения и увеличение точности сигналов. Метод также использует специальные методы кодирования и декодирования, позволяющие компенсировать шум в канале и обеспечить более эффективный обмен данными. ## Результаты Эксперименты проводились на симуляционных данных с различными глубинными нейронными сетями, включая ResNet и MobileNet. Набор данных состоял из различных машинно-обучаемых задач, таких как обработка изображений и текста. Результаты показали, что адаптивные алгоритмы FL, разработанные в рамках этой работы, показали значительные улучшения в скорости обучения и точности в сравнении с традиционными методами FL. Были получены теоретические гарантии на сходимость алгоритмов, демонстрирующие их эффективность в условиях ограниченных физических каналов и шума. ## Значимость Разработанные алгоритмы могут быть применены в различных сценариях, где FL используется для обработки данных в реальном времени, например, в системах мониторинга и контроля, в сетях смарт-городов или в области здравоохранения. Одним из основных преимуществ является сокращение затрат на обмен данными, что может привести к более эффективному использованию ресурсов. Будущие исследования будут сосредоточены на улучшении эффективности методов в условиях высокого шума и изменений в канальных условиях, а также на расширении применений FL в раз

Annotation:

In federated learning, communication cost can be significantly reduced by transmitting the information over the air through physical channels. In this paper, we propose a new class of adaptive federated stochastic gradient descent (SGD) algorithms that can be implemented over physical channels, taking into account both channel noise and hardware constraints. We establish theoretical guarantees for the proposed algorithms, demonstrating convergence rates that are adaptive to the stochastic gradie...

ID: 2509.02538v1 cs.LG, cs.IT, eess.SP, math.IT, stat.ML

arXiv PDF

Показано 31 - 40 из 58 записей