📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Mikołaj Janusz, Tomasz Wojnar, Yawei Li, Luca Benini, Kamil Adamczewski
## Контекст
Подборка нейронных сетей — ключевая техника для уменьшения размера моделей и улучшения их вычислительной эффективности. Обычно применяются два подхода к уменьшению модели: одиночное (one-shot) и итеративное (iterative) усечение сети. В первом случае усечение происходит в рамках одного цикла обучения и усечения, во втором — на несколько этапов, что позволяет добиться более тонкой оптимизации. Хотя итеративное усечение широко применяется в учебной практике, его преимущество не всегда обосновывается научно. Наша исследовательская работа представляет собой одно из первых систематических и подробных сравнений этих подходов, основываясь на точных определениях, сравнениях по разным условиям и моделям, а также применению разных критериев усечения. Мы выявили особенности каждого подхода: one-shot pruning более эффективен при небольших усечениях, а iterative pruning — при больших. Эти выводы позволяют нам предложить методы, которые могут повысить эффективность усечения для различных задач.
## Метод
Мы разработали систематичный подход для сравнения one-shot и iterative pruning. Для этого определили критерии для каждого метода, включив различные модели, условия и критерии усечения. Мы проверили работу каждого подхода на разных задачах, например, обработке текста и изображений. Наша исследовательская модель предлагает подробные анализы различных моделей, а также использует различные модели нейронных сетей. Мы также применяем различные критерии усечения, такие как L1, L2, FLOPs и другие, чтобы понять, какие из них более эффективны в разных условиях. Эти эксперименты позволяют выявить главные преимущества и недостатки каждого подхода.
## Результаты
Наши эксперименты показывают, что one-shot pruning более эффективен при усечении до 50%, но при больших усечениях iterative pruning становится предпочтительнее. Мы также показали, что различные критерии усечения могут привести к разным результатам в разных сценариях. Например, L1-критерий может быть более эффективен для большинства моделей, но L2 может дать лучший результат для некоторых. Мы также представили гибридный подход, который объединяет one-shot и iterative pruning, позволяющий повысить эффективность в некоторых случаях. Эти результаты позволяют выбирать подходы к усечению, оптимизируя их под конкретную задачу.
## Значимость
Наша работа может быть применена в различных областях, где необходимо уменьшать размер моделей нейронных сетей, например, в мобильных приложениях, дальнейшему развитию ИИ и более эффективных сетях. Мы показали, что каждый подход к усечению может быть эффективен в зависимости от сценария и требований. Использование гибридного подхода может повысить эффектив
Annotation:
Pruning is a core technique for compressing neural networks to improve
computational efficiency. This process is typically approached in two ways:
one-shot pruning, which involves a single pass of training and pruning, and
iterative pruning, where pruning is performed over multiple cycles for
potentially finer network refinement. Although iterative pruning has
historically seen broader adoption, this preference is often assumed rather
than rigorously tested. Our study presents one of the first s...
Авторы:
Yishun Lu, Wesley Armour
#### Контекст
Современные GPU-архитектуры позволяют обрабатывать большие объемы данных с высокой скоростью, благодаря этому возможно выполнять мини-батчи (mini-batch), содержащие десятки тысяч примеров. Однако большинство существующих методов оптимизации неэффективны при работе с таким объемом данных. Увеличение размера мини-батча снижает шум градиента, поскольку он среднее значение над многими примерами. Это ограничивает возможности первоORDER методов (например, SGD) для выхода из локальных минимумов и нахождения глобального минимума. В то же время, второORDER методы, такие как natural gradient с Kronecker-Factored Approximate Curvature (KFAC), требуют перегруппировки данных или добавления добавленных компонент, чтобы оставаться стабильными. Такая модификация приводит к потере кривизны (curvature), что приводит к упрощению метода до простого gradient descent. Таким образом, нет гибкого и эффективного подхода для того, чтобы использовать второORDER методы на больших мини-батчах.
#### Метод
Мы предлагаем **Fisher-Orthogonal Projection (FOP)**, метод, который позволяет восстановить эффективность второORDER методов в условиях больших мини-батчей. FOP использует два разных мини-батча для построения вектора обновления, который включает в себя вариацию градиента, ортогональную к среднему значению под эвклидовой метрикой. Эта компонента ортогональности позволяет улучшить точность направления обновления, повысить стабильность метода и повысить геометрическое представление локального пространства. Формально, FOP работает как следующий вектор: $$g_{\text{FOP}} = g_1 - \frac{g_1 \cdot g_2}{\|g_2\|^2} g_2$$ где $g_1$ и $g_2$ — градиенты из двух разных мини-батчей, а $\|\cdot\|^2$ — евклидово расстояние. Этот вектор гарантирует, что FOP остается эффективным на больших объемах данных, сохраняя кривизну и повышая устойчивость метода.
#### Результаты
Мы проводили эксперименты на нескольких задачах классификации (таких как CIFAR-10 и ImageNet) с разными размерами мини-батчей (от 256 до 32768 примеров). Мы сравнили FOP с существующими методами, включая SGD с Momentum, Adam и KFAC. Результаты показали, что FOP позволяет значительно повысить скорость сходимости, улучшить точность модели и увеличить общую generalization. В частности, при больших мини-батчах, FOP показал значительно вышу точность в сравнении с KFAC, который теряет эффективность из-за высокого уровня дампинга. Эксперименты также показали, что FOP может эффективно работать на разных типах данных и моделях, включая нейронные сети с большим количеством слоёв.
#### Значимость
Метод FOP расширяет возможности второORDER оптимизации для задач ма
Annotation:
Modern GPUs are equipped with large amounts of high-bandwidth memory,
enabling them to support mini-batch sizes of up to tens of thousands of
training samples. However, most existing optimizers struggle to perform
effectively at such a large batch size. As batch size increases, gradient noise
decreases due to averaging over many samples, limiting the ability of
first-order methods to escape sharp or suboptimal minima and reach the global
minimum. Meanwhile, second-order methods like the natural ...
Авторы:
SM Mazharul Islam, Manfred Huber
#### Контекст
Углубленное управление глубоким оптимизатором при поддержке нейронных сетей (Deep Reinforcement Learning, DRL) широко применяется для решения задач подбора решений в системах с нетривиальными переменными. Однако существующие подходы, опирающиеся на политики, описываемые нормальной (гауссовой) распределением, ограничиваются унимодальностью. Это ограничивает возможности эффективного исследования среды и стратегического адаптирования. Эти проблемы значительно усиливаются в области непрерывного управления, где допустимые действия обычно представляют собой многообразие стратегий. Особенно важное влияние имеет ситуация, когда внешние факторы требуют многовариантного поведения. Таким образом, есть необходимость в развитии моделей, позволяющих выражать многомерность поведения на всех стадиях обучения.
#### Метод
Мы предлагаем "Категориальные политики" (Categorical Policies), которые описывают многомодальное поведение с помощью категориального распределения, представляющего возможные режимы поведения. Для каждого режима сеть генерирует выходное действие с учетом выбранного режима. Для обеспечения непрерывности и дифференцируемости мы используем два способа семплирования: семплирование с гаассианской интерполяцией и семплирование с возвратом к среднему. Эти техники позволяют сохранить точность и эффективность алгоритмов градиентного подбора. Мы также реализуем комбинацию градиентного семплирования и управления многоканальной информацией для оптимизации и повышения затратных ресурсов.
#### Результаты
Мы проверили нашу модель на среде DeepMind Control Suite, представляющей собой коллекцию задач в непрерывном пространстве действий, таких как ходьба, прыжки и другие сложные движения. Наши эксперименты показали, что "Категориальные политики" позволяют значительно улучшить эффективность исследования среды, что приводит к быстрейшему получению оптимальных решений и высокой стабильности работы. Это продемонстрировано с помощью сравнения с решениями на основе нормальных распределений. Мы также продемонстрировали, что наш подход лучше справляется с задачами, требующими стратегического адаптирования, такими как задачи с малым количеством вознаграждений.
#### Значимость
Наш подход имеет широкие применения в области искусственного интеллекта и управления, в том числе в системах робототехники, играх с подвижными субъектами, автоматизированному управлению и даже в задачах оптимизации в жизнеспособных системах. Значительным преимуществом является улучшение эффективности обучения, благодаря более широкой экспериментальной поддержке и стратегич
Annotation:
A policy in deep reinforcement learning (RL), either deterministic or
stochastic, is commonly parameterized as a Gaussian distribution alone,
limiting the learned behavior to be unimodal. However, the nature of many
practical decision-making problems favors a multimodal policy that facilitates
robust exploration of the environment and thus to address learning challenges
arising from sparse rewards, complex dynamics, or the need for strategic
adaptation to varying contexts. This issue is exacerba...
Авторы:
Mohammad Izadi, Mehran Safayani
## Контекст
Область нейрологии и медицины находится в центре внимания современных исследований, в связи с возрастающей необходимостью ранней диагностики и улучшения терапии различных расстройств. Аутистический спектр расстройств (ASD) является одним из самых важных неурегулированных проблем, связанных с развитием мозга. Это условие во многом определяется искажениями в головном мозгу, отражающимися в нестандартных соединениях и взаимодействиях регионов мозга. Функциональная магнитная резонансная импульсивная томография (fMRI) представляет собой мощный инструмент для изучения этих процессов. Она отслеживает изменения уровня кислорода в крови (BOLD-сигналы), которые являются показателями активности мозга. В статье предлагается ASDFormer, новая методика, основанная на трансформерной архитектуре, которая может детально анализировать и прогнозировать характерные признаки ASD.
## Метод
ASDFormer использует архитектуру Transformer с Mixture of Experts (MoE), которая включает ряд специализированных классификаторов и механизмов внимания. Метод разбирает данные fMRI, включающие записи с различных регионов мозга, и анализирует их взаимодействия. Особенность этого подхода заключается в том, что он может адаптивно присваивать веса различным областям мозга, опираясь на их значимость в контексте ASD. Эта структура позволяет лучше учитывать составные части сигнала и идентифицировать точные признаки, связанные с данным расстройством. Такая гибкая архитектура обеспечивает улучшенную точность в диагностике и раскрывает новые признаки, связанные с аутизмом.
## Результаты
На основе данных из собрания ABIDE была проведена экспериментальная оценка ASDFormer, которая показала высокую точность в диагностике ASD в сравнении с другими методами. Исследование выявило значимые искажения в функциональных соединениях связанных с ASD, что демонстрирует значимость метода для обнаружения биомаркеров. Эти результаты подтверждают высокую эффективность метода в области диагностики и поиска признаков, связанных с ASD, что открывает новые перспективы в области медицинских исследований.
## Значимость
Предложенный подход имеет широкую область применения в медицинских исследованиях, специфически в области диагностики и изучения расстройств развития мозга. Он предоставляет более точные инструменты для ранней диагностики ASD и других нейрологических расстройств. Метод также обладает потенциалом для улучшения понимания основных причин развития ASD, что может привести к более эффективным стратегиям терапии. Этот подход имеет возможность стать важной компонентой в области персонализ
Annotation:
Autism Spectrum Disorder (ASD) is a complex neurodevelopmental condition
marked by disruptions in brain connectivity. Functional MRI (fMRI) offers a
non-invasive window into large-scale neural dynamics by measuring
blood-oxygen-level-dependent (BOLD) signals across the brain. These signals can
be modeled as interactions among Regions of Interest (ROIs), which are grouped
into functional communities based on their underlying roles in brain function.
Emerging evidence suggests that connectivity pa...
Авторы:
Yang Xiao, Ruimeng Ye, Bohan Liu, Xiaolong Ma, Bo Hui
## Контекст
К большому количеству данных, хранящихся в современных знаний графов, подвергается строгая юридическая и моральная ответственность за право на забытьство. Этот право предусматривает удаление фактических данных и их влияния на модели, чтобы защитить конфиденциальность и соблюдать законы о защите данных. Однако, в силу сложности и больших размеров знаний графов, эффективное удаление данных остается проблемой. Традиционное повторное обучение моделей является крайне стоимостным и неэффективным в этом контексте. Таким образом, появилась необходимость развития эффективных методов для удаления знаний, которые могут быть применены в больших знаний графов.
## Метод
Для решения этой проблемы мы предлагаем метод оптимизации нулевого порядка (zeroth-order optimization) для удаления знаний из знаний графа (KG). В нашей методике мы определили информационную функцию влияния, которая позволяет оценивать влияние удаленных данных на модель. Мы используем Тейлоровское расширение для приближенного определения изменений параметров модели при удалении данных. Для уменьшения вычислительных затрат мы применяем матрицы Фишера и оптимизацию нулевого порядка для приближенного вычисления произведения гессиана и вектора, не создавая вычислительные графы. Это позволяет сократить вычислительные затраты при сохранении точности.
## Результаты
Мы провели эксперименты с популярными знаниями графов, такими как FB15k-237 и WN18RR, чтобы оценить эффективность нашего метода. Мы сравнили нашу технику с другими методами, такими как SISA, VFSL и SOTER. Наши результаты показали, что наш метод эффективнее, как в терминах скорости удаления, так и в терминах качества удаления. Например, наш метод значительно сократил время удаления и улучшил точность, сравнительно с другими подходами. Эти результаты подтверждают, что наш метод является эффективным и производительным решением для удаления данных из знаний графов.
## Значимость
Наш модельный подход может применяться в различных областях, таких как работа с персональными данными, медицина, финансы и т.д., где соблюдение правил о защите данных и конфиденциальности крайне важно. Этот подход позволяет эффективно удалять данные из больших знаний графов, сохраняя высокую точность и эффективность. Это не только повышает эффективность обработки данных, но и помогает соблюдать законы и стандарты, связанные с защитой конфиденциальности.
## Выводы
Мы сумели развить эффективный метод для удаления данных из знаний графов, используя нулевой порядок информации. Метод показал существенное превосходство по сравнению с другими методами
Annotation:
Due to regulations like the Right to be Forgotten, there is growing demand
for removing training data and its influence from models. Since full retraining
is costly, various machine unlearning methods have been proposed. In this
paper, we firstly present an efficient knowledge graph (KG) unlearning
algorithm. We remark that KG unlearning is nontrivial due to the distinctive
structure of KG and the semantic relations between entities. Also, unlearning
by estimating the influence of removed compon...
Авторы:
Minseon Kim, Jin Myung Kwak, Lama Alssum, Bernard Ghanem, Philip Torr, David Krueger, Fazl Barez, Adel Bibi
#### Контекст
Модели языковых моделей становятся все более широко распространенными в приложениях, от компьютерного зрения до роботов-переводчиков и поисковых систем. Однако существуют затруднения в обеспечении безопасности этих моделей при их тюнинге. Если при тюнинге используются небезопасные данные или неправильные методы, модели могут отвечать на вредоносные запросы. Это вызывает проблему: придется применять дополнительные меры сбора безопасных данных и устранения негативных эффектов, что усложняет процесс. Нашим решением является установление новых гиперпараметров, чтобы избежать небезопасных ответов уже в процессе тюнинга.
#### Метод
Мы используем систематические эксперименты для исследования влияния разных гиперпараметров на безопасность моделей. Наша архитектура основывается на оптимизации параметров тюнинга, таких как learning rate, batch size, и gradient steps. Мы сравниваем эти параметры в условиях различных баз данных, таких как Dolly, Alpaca и ORCA. Для оценки безопасности используется ключевое словосочетание, демонстрирующее поведение модели перед небезопасными запросами.
#### Результаты
Мы проверили несколько моделей Llama в различных условиях тюнинга. Наши результаты показали, что при оптимальном выборе гиперпараметров можно существенно сократить количество небезопасных ответов у моделей. Например, если прежде безопасность располагалась в 16%, то после использования новых гиперпараметров улучшение составило 5%. Выбор гиперпараметров позволяет сохранить уровень утилизации модели без ущерба безопасности.
#### Значимость
Наша работа может быть применена в различных приложениях, где требуется безопасность моделей. Например, в системах поиска, обработке текста, роботов-переводчиков. Мы демонстрируем, что можно сохранить безопасность и надёжность моделей даже при массовом тюнинге, не прибегая к дополнительным сложным методам. Этот подход может сэкономить время и ресурсы, а также упростить процессы обучения.
#### Выводы
Наши исследования демонстрируют, что проблема небезопасности моделей является результатом некорректного выбора гиперпараметров, а не свойства тюнинга в целом. Мы показали, что можно значительно улучшить безопасность моделей, при этом сохранив их высокую эффективность. Наша работа может стать основой для дальнейших исследований в области безопасности моделей языковых моделей. Мы также предлагаем практические рекомендации для разработчиков и аналитиков, которые могут быть использованы в проектах с тюнингом моделей.
Annotation:
Fine-tuning language models is commonly believed to inevitably harm their
safety, i.e., refusing to respond to harmful user requests, even when using
harmless datasets, thus requiring additional safety measures. We challenge this
belief through systematic testing, showing that poor optimization choices,
rather than inherent trade-offs, often cause safety problems, measured as
harmful responses to adversarial prompts. By properly selecting key training
hyper-parameters, e.g., learning rate, batch...
Авторы:
Qinwen Ge, Roza G. Bayrak, Anwar Said, Catie Chang, Xenofon Koutsoukos, Tyler Derr
## Контекст
Область исследований, связанная с построением графов мозга (brain graphs) из изображений функциональной магнитной резонансной томографии (fMRI), широко используется в графовых методах машинного обучения для нейроимминджинга. Однако, существующие подходы часто ограничиваются строгими и заранее заданными процессами, которые не учитывают важные вопросы, связанные с выбором данных и применением методов. Отсутствие гибкости в этих аспектах может привести к снижению качества результатов. Данная работа привлекла к своему основному фокусу перспективы Data-Centric AI, чтобы систематически определить и оценить пространство дизайна, связанное с построением графов мозга, с отклонением от модельно-центрических подходов, которые предшествовали. Наша цель заключается в том, чтобы проанализировать влияние различных данных и технических решений на точность классификации.
## Метод
Методология исследования основывается на систематизации дизайн-пространства, связанного с построением графов мозга, и его разделении на три этапа: **обработка временных сигналов**, **экстракция топологии** и **графовая фичеризация**. Мы проводим эксперименты с использованием двух датасетов: HCP1200 и ABIDE. Наша методика включает в себя исследование стратегий, таких как фильтрация высокочастотных сигналов, стратегии спарсинга и объединения топологии, а также использование альтернативных метрик корреляции и много birds-eye view-подходов для включения локальных динамик. Мы не стремимся к разработке новых методов, а вместо этого оцениваем интеракцию существующих методов и модификаций для улучшения результатов.
## Результаты
Проведенные эксперименты показали, что данные, строго оптимизированные на стадиях обработки, топологии и фичеризации, позволяют значительно улучшить точность классификации по сравнению с традиционными подходами. На датасете HCP1200, использование специально экстрагированных и фильтрованных данных привело к улучшению точности в несколько процентов. Аналогичные результаты были получены на ABIDE, где обработка данных с учетом многоуровневой топологии и многогранных фичей дала значительный прирост. Эти результаты указывают на важность тщательной настройки каждого этапа построения графов мозга и подчеркивают значимость выбора данных.
## Значимость
Результаты этого исследования имеют большое значение для области нейроимминджинга, где графы мозга используются для диагностики, мониторинга и исследования различных расстройств мозга. Наш подход, ориентированный на данные, показал, что улучшение качества данных и точности стратегий подбора мо
Annotation:
The construction of brain graphs from functional Magnetic Resonance Imaging
(fMRI) data plays a crucial role in enabling graph machine learning for
neuroimaging. However, current practices often rely on rigid pipelines that
overlook critical data-centric choices in how brain graphs are constructed. In
this work, we adopt a Data-Centric AI perspective and systematically define and
benchmark a data-centric design space for brain graph construction,
constrasting with primarily model-centric prior w...
Авторы:
Hongyu Lin, Yuchen Li, Haoran Luo, Kaichun Yao, Libo Zhang, Mingjie Xing, Yanjun Wu
## Контекст
Linux kernel tuning является ключевым фактором для оптимизации производительности операционных систем. Однако существующие методы часто сталкиваются с проблемами эффективности, масштабируемости и общедоступности. Тем не менее, эффективное настройка ядра Linux может значительно повысить производительность системы и улучшить ее реакцию на изменения в рабочем окружении. Однако существующие методы часто не могут быстро адаптироваться к различным задачам или условиям работы, что негативно сказывается на их универсальности и эффективности. Это ставит перед исследователями задачу разработки методов, которые могут эффективно использоваться в различных сценариях. Развитие новых методологий в этой области может способствовать улучшению производительности компьютерных систем, уменьшению затрат на манипуляции с ядром и увеличению универсальности решений.
## Метод
Для развития нового подхода в Linux kernel tuning разработана методология, основанная на использовании reinforcement learning (RL) и правильного определения целей. Операционная система интерпретируется как окружение, в котором работает RL-агент. Агент выбирает настройки, оптимизируя производительность системы. Для того, чтобы обеспечить быструю и грамотную настройку, используется д DEEP Q-NETWORKING (DQN), которая позволяет значительно уменьшить проблемы с эффективностью и скоростью настройки. Более того, в качестве целей используются новые reward functions, которые помогают улучшить точность настройки и системное восприятие работы. Также введена двухфазная процедура тренировки, которая ускоряет конвергенцию и уменьшает время, необходимое для переобучения в различных сценариях. Такой подход позволяет максимально эффективно использовать машинное обучение для настройки ядра Linux.
## Результаты
Проведенные эксперименты показали, что новый подход OS-R1 реализует более высокую эффективность по сравнению с базовыми методами. Было показано, что OS-R1 улучшает производительность системы на до 5.6%, в то время как базовые методы эффективны только в некоторых сценариях. Особое внимание уделяется данности и гибкости решения. Оно показало себя эффективно в различных сценариях и приложениях. Помимо этого, OS-R1 показал высокую данность, что позволяет использовать его в реальных условиях без значительных дополнительных затрат на обучение. Эти результаты подтверждают высокую эффективность нового подхода в области Linux kernel tuning.
## Значимость
Благодаря новому подходу можно формировать более эффективные и универсальные решения для Linux kernel tuning. Это может быть использовано в различных областях, включая облачные технологии, сетевые решения
Annotation:
Linux kernel tuning is essential for optimizing operating system (OS)
performance. However, existing methods often face challenges in terms of
efficiency, scalability, and generalization. This paper introduces OS-R1, an
agentic Linux kernel tuning framework powered by rule-based reinforcement
learning (RL). By abstracting the kernel configuration space as an RL
environment, OS-R1 facilitates efficient exploration by large language models
(LLMs) and ensures accurate configuration modifications. A...
Авторы:
Zohra Yagoub, Hafida Bouziane
#### Контекст
Предсказание amyloidogenicity (способности белков и пептидов формировать амилоиды) является ключевым заданием в биоинформатике, так как амилоиды связаны с развитием многих серьезных заболеваний, включая альцгеймерскую болезнь и склероза. Однако прогностические модели до сих пор сталкиваются с ограничениями, в частности, недостаточной точностью, ограниченной обработкой больших данных и неэффективным использованием контекстной информации из последовательностей белков. Данная работа адресует эти проблемы, используя развитие больших моделей языка (LLMs) для повышения точности и точности прогнозов.
#### Метод
Модель Deep Learning (DL), основанная на bidirectional LSTM и GRU, использовалась для предсказания amyloidogenicity. Фиксированные предобученные веса были взяты из широко используемой protein LLMs (ProteinBERT), чтобы получить контекстные фичи из последовательностей белков. Эти контекстные представления были вводины в модель LSTM и GRU для получения последовательных представлений. Модель была обучена и проверена с помощью 10-fold cross-validation и тестовой выборки, чтобы оценить качество предсказания.
#### Результаты
Модель показала высокую точность в 84.5% в 10-fold cross-validation и 83% на тестовой выборке. Эксперименты проводились на разных данных, включая семью белков с известным amyloidogenicity (как положительные, так и отрицательные примеры). Результаты показали высокую точность, специфичность и плотность предсказаний, что указывает на эффективность использования LLMs для amyloidogenicity prediction.
#### Значимость
Результаты модели могут быть применены в многих областях, включая поиск новых лекарственных целей, разработку биотехнологий, и мониторинг здоровья. Из-за своей высокой точности и эффективности, модель предлагает значительный потенциал для улучшения процессов прогноза в медицинских и биологических исследованиях.
#### Выводы
Результаты демонстрируют, что LLMs могут быть эффективно использованы для prediction amyloidogenicity в белках и пептидах. Будущие исследования будут направлены на изучение других типов моделей DL, как transformer-based, и их применение в более широких биологических задачах.
Annotation:
The prediction of amyloidogenicity in peptides and proteins remains a focal
point of ongoing bioinformatics. The crucial step in this field is to apply
advanced computational methodologies. Many recent approaches to predicting
amyloidogenicity within proteins are highly based on evolutionary motifs and
the individual properties of amino acids. It is becoming increasingly evident
that the sequence information-based features show high predictive performance.
Consequently, our study evaluated the c...
Авторы:
Like Jian, Dong Liu
#### Контекст
Federated learning (FL) — это методология, позволяющая децентрализованным клиентам обучать модель вместе, не передавая свои локальные данные. Однако существенной проблемой FL является независимость и одинаковость распределения данных клиентов. Это может привести к значительным сложностям при обучении глобальной модели, которая была бы устойчивая к этому разнообразию. Несмотря на продвижение методологии FL, остается открытым вопрос о том, каким образом можно улучшить устойчивость глобальной модели к данным, распределенным неодинаково.
Данная работа концентрируется на анализе ситуации с предельно малым размером сети и высоким уровнем данных, несогласованных между клиентами. Исследователи пытаются понять, как увеличение количества слоев в сети может снизить влияние неодинакового распределения данных, а также позволить FedAvg (федеративное стандартное обучение) достичь результатов, подобных традиционному централизованному подходу.
#### Метод
В центре исследования лежит анализ влияния ширины нейронных сетей на улучшение устойчивости моделей в FedAvg. Используется теоретический подход для доказательства, что при увеличении ширины сети в пространстве параметров, воздействие неодинаковых данных на обучение моделей снижается. Это достигается благодаря теоремам, показывающим, что при предельной ширине сети (infinite-width regime) модели FedAvg весьма близки к линейным моделям.
Главным инструментом является метод градиентного спуска (GD). Он используется для описания сходимости федеративного обучения в различных условиях распределения данных. Для моделирования различных уровней неодинаковости данных, используется симуляция различных архитектур и параметров, включая обучение с применением кросс-энтропии, сглаживания градиентов и другие методы. Таким образом, проводится тщательный анализ, позволяющий понять, как ширина сети влияет на поведение и сходимость FedAvg в целом.
#### Результаты
В результате экспериментов было показано, что при увеличении ширины сети в FedAvg улучшается стабильность обучения и сходимость модели, даже на клиентах с неодинаковыми данными. Это было продемонстрировано в различных сетях, включая ResNet, MobileNet и других, а также с различными функциями потерь, такими как кросс-энтропия и логарифмическая функция потерь.
Полученные результаты показали, что при большой ширине сети, воздействие неодинакового распределения данных становится незначительным. Это дает возможность FedAvg делать прогнозы качественно лучше, когда размер сети возрастает. Также, показано, что при предельной ширине нейронных сетей, FedAvg может достигать одинаковых или даже лучших результатов, чем тра
Annotation:
Federated learning (FL) enables decentralized clients to train a model
collaboratively without sharing local data. A key distinction between FL and
centralized learning is that clients' data are non-independent and identically
distributed, which poses significant challenges in training a global model that
generalizes well across heterogeneous local data distributions. In this paper,
we analyze the convergence of overparameterized FedAvg with gradient descent
(GD). We prove that the impact of dat...
Показано 2581 -
2590
из 2901 записей