📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 DDoS Attacks in Cloud Computing: Detection and Prevention

2025-08-21

Авторы:

Zain Ahmad, Musab Ahmad, Bilal Ahmad

## Контекст В настоящее время DDoS (Distributed Denial of Service) атаки являются одним из самых распространенных и вредных типов атак в области кибербезопасности. Они направлены на то, чтобы перегрузить ресурсы целевой системы, чтобы сделать её недоступной для пользователей. Эти атаки могут причинить значительный вред организациям и индивидуальным пользователям, приводя к потерям в доходах, ухудшению репутации и даже к отказу в обслуживании. С течением времени, DDoS-атаки становятся все более сложными и частыми, что создаёт сложности в их обнаружении и минимизации. Особенно угрожают они облачным вычислениям, где масштабные ресурсы могут быть использованы для осуществления атак. Данное исследование анализирует различные типы DDoS-атак, такие как volumetric, protocol и application layer attacks, чтобы понять их характеристики, последствия и потенциальные цели. ## Метод Для изучения DDoS-атак и их обнаружения и минимизации использована систематическая методология. Обзор существующих методов обнаружения, таких как packet filtering, intrusion detection systems (IDS) и машинное обучение, был проведён, чтобы определить их эффективность и ограничения. Также было изучено использование таких методов защиты, как firewalls, rate limiting и сложные механизмы, такие как CPP и ELD. Архитектура исследования включает в себя этапы сбора данных о DDoS-атаках, анализа их природы и характеристик, а также оценки технологий защиты. Эта работа также включает в себя эксперименты с различными методами и алгоритмами, чтобы определить наиболее эффективные подходы к обнаружению и предотвращению DDoS-атак в различных условиях. ## Результаты В ходе исследования были проведены эксперименты с различными методами обнаружения DDoS-атак, включая machine learning-based approaches и packet filtering. Полученные результаты показали, что machine learning-based approaches, такие как логические модели и сети нончелл, демонстрируют более высокую точность в детектировании атак, в том числе volumetric и protocol attacks. Тем не менее, они могут иметь ограничения в обработке больших объёмов данных в реальном времени. Методы, такие как rate limiting и firewalls, были оценены на их эффективность в минимизации воздействия DDoS-атак. Было также обнаружено, что сложные механизмы, такие как CPP и ELD, могут оказаться эффективными в защите от более сложных атак, но они требуют больше ресурсов и могут быть сложнее в реализации. ## Значимость Результаты исследования могут быть применены в различных областях, включая облачные вычисления, банковские системы, здравоохранение и другие сектора, где DDoS-атаки могут причинить значительный вред. Данная работа предоставляет подробный обзор существующих мето

Annotation:

DDoS attacks are one of the most prevalent and harmful cybersecurity threats faced by organizations and individuals today. In recent years, the complexity and frequency of DDoS attacks have increased significantly, making it challenging to detect and mitigate them effectively. The study analyzes various types of DDoS attacks, including volumetric, protocol, and application layer attacks, and discusses the characteristics, impact, and potential targets of each type. It also examines the existing ...

ID: 2508.13522v1 cs.DC, cs.AI, cs.CR

arXiv PDF

📄 Verify Distributed Deep Learning Model Implementation Refinement with Iterative Relation Inference

2025-08-15

Авторы:

Zhanghan Wang, Ding Ding, Hang Zhu, Haibin Lin, Aurojit Panda

**Резюме** В современной AI распределенное обучение и интерпретация моделей стали неотъемлемой частью работы с большими моделями, которые превышают возможности единичного GPU. Однако распределенные реализации моделей часто приводят к багам, когда выходные данные распределенной модели отличаются от своей последовательной версии. Это может привести к ошибкам в приложениях, использующих эти модели. В статье предлагается метод для статического выявления таких ошибок с помощью проверки модельного рефинейма — то есть, можно ли восстановить выходы последовательной модели из выходов распределенной. Реализованный в GraphGuard, этот подход использует итеративную переписываемость для доказательства рефинейма модели. Он протестирован на таких моделях, как GPT и Llama-3, и показал свою эффективность в больших развертываниях. Более того, метод предоставляет детальный анализ, который помогает локализовать ошибки. Это значительно облегчает диагностику и улучшение распределенных моделей.

Annotation:

Distributed machine learning training and inference is common today because today's large models require more memory and compute than can be provided by a single GPU. Distributed models are generally produced by programmers who take a sequential model specification and apply several distribution strategies to distribute state and computation across GPUs. Unfortunately, bugs can be introduced in the process, and a distributed model implementation's outputs might differ from the sequential model's...

ID: 2508.09505v1 cs.DC, cs.AI

arXiv PDF

📄 FlashCommunication V2: Bit Splitting and Spike Reserving for Any Bit Communication

2025-08-09

Авторы:

Qingyuan Li, Bo Zhang, Hui Kang, Tianhao Xu, Yulei Qian, Yuchen Xie, Lin Ma

#### Аннотация В последнее время появилась критическая проблема в распределенной обучении и развертывании больших языковых моделей (LLM): блокировки в обмене данными. FlashCommunication V2 предлагает новую парадигму для эффективного передачи данных между GPU-устройствами при любых битовых разрядах. Решение основывается на двух новых подходах: бит-разделении и зарезервировании изменчивых значений (spike reserving). Бит-разделение декомпозирует нестандартные разряды в базовые единицы, что обеспечивает совместимость с хардваром и позволяет передавать данные в любых битовых разрядах. Зарезервирование изменчивых значений сохраняет крайние значения (минимумы и максимумы) в виде чисел с плавающей точкой, уменьшая динамический диапазон чисел и позволяя достичь работы с 2-битным сжатием при приемлемых потерях. Эта модель значительно повышает гибкость и эффективность использования ресурсов в системах коммуникации. Тщательное сочетание программного и аппаратного конструирования позволило достичь высокой производительности и снижения накладных расходов на NVLink- и PCIe-архитектурах, получив до 3.2$\times$ ускорения в AllReduce и 2$\times$ в All2All-передачах.

Annotation:

Nowadays, communication bottlenecks have emerged as a critical challenge in the distributed training and deployment of large language models (LLMs). This paper introduces FlashCommunication V2, a novel communication paradigm enabling efficient cross-GPU transmission at arbitrary bit widths. Its core innovations lie in the proposed bit splitting and spike reserving techniques, which address the challenges of low-bit quantization. Bit splitting decomposes irregular bit widths into basic units, ens...

ID: 2508.03760v1 cs.DC, cs.AI

arXiv PDF

📄 SelectiveShield: Lightweight Hybrid Defense Against Gradient Leakage in Federated Learning

2025-08-09

Авторы:

Borui Li, Li Yan, Jianmin Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Federated Learning (FL) является передовым подходом к коллаборативному обучению моделей на децентрализованных данных, который позволяет сохранять конфиденциальность данных на клиентских устройствах. Однако FL незащищен от рисков, связанных с **gradient leakage attacks**, которые могут позволить злоумышленникам восстановить чувствительную информацию о данных пользователей на основе градиентов, передаваемых в процессе обучения. Традиционные методы защиты, такие как **differential privacy (DP)** и **homomorphic encryption (HE)**, часто вводят значительный компромисс между конфиденциальностью, качеством модели и вычислительными затратами. Этот компромисс становится особенно критичным в **heterogeneous environments**, где данные клиентов неидентичны (non-IID), а возможности устройств различаются. Проблематика заключается в необходимости разработки метода, который бы обеспечил высокую конфиденциальность, сохраняя при этом высокую эффективность модели и умеренные вычислительные накладные расходы. Кроме того, важно учитывать требования **personalization**, где клиенты могут иметь уникальные локальные нужды, которые не должны быть скомпрометированы в процессе глобального обучения. Настоящие методы защиты часто недостаточно адаптивны к различиям между клиентами, что может привести к неэффективности защиты или ухудшению производительности модели. Таким образом, существует актуальная необходимость в разработке гибридного подхода, который мог бы комбинировать преимущества разных методов защиты, с учетом разнообразия данных и возможностей клиентов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают **SelectiveShield**, легковесный гибридный фреймворк защиты, который интегрирует **selective homomorphic encryption** и **differential privacy** для защиты от gradient leakage. Основная идея заключается в адаптивном выборе параметров, которые требуют защиты, на основе **Fisher information**. 1. **Локальная квантификация чувствительности:** Каждый клиент вычисляет **Fisher information** для своих локальных данных, чтобы определить чувствительность параметров модели. Эта информация используется для определения критических параметров, которые требуют защиты. 2. **Коллаборативный протокол согласования:** Клиенты согласовываются по отношению к набору критических параметров, которые будут защищены с помощью **homomorphic encryption**. Это позволяет сократить вычислительные затраты, защищая только наиболее важные параметры. 3. **Локальное хранение уникальных параметров:** Параметры, которые важны только для конкретного клиента, хранятся локально, что позволяет поддерживать **personalization** без риска утечки информации. 4. **Адаптивное применение DP:** Остальные некритические параметры защищаются с помощью **differential privacy noise**, который применяется адаптивно в зависимости от контекста. Этот подход позволяет обеспечить баланс между конфиденциальностью, качеством модели и вычислительной эффективностью, а также поддерживает **scalability** в реальных системах FL. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на различных датасетах, включая non-IID данные, для оценки эффективности **SelectiveShield** по сравнению с существующими методами. - **Данные:** Использовались датасеты с различным уровнем разнообразия данных клиентов. - **Метрики:** Оценивались **model utility** (точность модели), **privacy leakage** (уровень утечки градиентов), и **computational overhead** (вычислительные затраты). - **Результаты:** SelectiveShield демонстрирует значительное снижение риска утечки градиентов в сравнении с методами, основанными только на DP или HE. Он также показывает сохранение высокого качества модели, даже при высокой неидентичности данных клиентов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SelectiveShield имеет широкое применение в реальных сценариях FL, где клиенты могут иметь разнообразные данные и ограниченные вычислительные ресурсы. Он предлагает: - **Персонализацию:** Локальное хранение уникальных параметров поддерживает индивидуальные потребности клиентов. - **Масштабируемость:** Легковесная архитектура позволяет эффективно использовать метод в системах с ограниченными ресурсами. - **Применимость в реальном мире:** Метод может быть интегрирован в существующие системы FL для повышения конфиденциальности без значительного увеличения вычислительных затрат. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SelectiveShield представляет собой эффективное решение для защиты от gradient leakage в FL, которое сочетает в себе преимущества homomorphic encryption и differential privacy. Будущие исследования могут фокусироваться на дальнейшем улучшении адаптивности метода для более сложных сценариев и расширении его применимости к другим типам моделей и данных.

Annotation:

Federated Learning (FL) enables collaborative model training on decentralized data but remains vulnerable to gradient leakage attacks that can reconstruct sensitive user information. Existing defense mechanisms, such as differential privacy (DP) and homomorphic encryption (HE), often introduce a trade-off between privacy, model utility, and system overhead, a challenge that is exacerbated in heterogeneous environments with non-IID data and varying client capabilities. To address these limitation...

ID: 2508.04265v1 cs.DC, cs.AI, cs.CR

arXiv PDF

📄 Tesserae: Scalable Placement Policies for Deep Learning Workloads

2025-08-09

Авторы:

Song Bian, Saurabh Agarwal, Md. Tareq Mahmood, Shivaram Venkataraman

## КОНТЕКСТ И ПРОБЛЕМАТИКА Обучение моделей глубокого обучения (DL) является ключевой рабочей нагрузкой в современных центрах обработки данных (DC). Эффективное использование ресурсов является краеугольной задачей для планировщиков кластеров DL. Однако существующие методы поиска решений для размещения задач в кластере сталкиваются с значительными ограничениями. Кластерные планировщики DL обычно используют политики размещения для определения того, где задания будут выполняться в кластере. Тем не менее, существующие политики размещения либо основываются на ад-хок методах (ad-hoc heuristics), либо интегрируются в виде ограничений в сложные оптимизационные задачи. Такие подходы могут приводить либо к подвыборке (suboptimal performance), либо к неэффективному масштабированию (poor scalability). Главная проблема состоит в том, что традиционные политики размещения не справляются с высокой динамикой и сложностью DL-кластеров, что приводит к чрезмерной нагрузке и неэффективному использованию ресурсов, таких как GPU. Кроме того, миграция задач (job migration) между узлами кластера может приводить к дополнительным накладным расходам (overheads), что ухудшает общую производительность. Таким образом, необходим новый подход, который мог бы обеспечить более эффективное распределение ресурсов и уменьшить накладные расходы на миграцию задач. ## ПРЕДЛОЖЕННЫЙ МЕТОД В работе предлагается методология Tesserae, которая использует новые политики размещения для решения проблемы миграции задач и оптимизации использования GPU в кластере. Основная идея заключается в том, чтобы формализовать многие ограничения размещения как проблемы графового сопоставления (graph matching problems). Это позволяет разработать политики, которые минимизируют накладные расходы на миграцию задач и оптимизируют упаковку задач (job packing). Tesserae включает в себя два основных компонента: графовое моделирование задач и оптимизация размещения. Графы используются для представления зависимостей и ограничений между задачами и ресурсами в кластере. Затем, на основе этого представления, применяется алгоритм графового сопоставления для определения оптимальных мест размещения задач. Это позволяет уменьшить количество необходимых перемещений задач между узлами и, следовательно, снизить накладные расходы. Кроме того, Tesserae интегрирует эти политики в рамках гибкой и масштабируемой архитектуры планировщика. Эта архитектура поддерживает динамическое изменение ресурсов и позволяет эффективно адаптироваться к различным рабочим нагрузкам. Это обеспечивает высокую производительность и масштабируемость, что является ключевым достижением этого подхода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Tesserae были проведены различные эксперименты, использующие реальные рабочие нагрузки DL. Данные для экспериментов были получены из крупномасштабных кластеров GPU, которые используются для обучения DL-моделей. Эксперименты проводились на разных размерах кластеров, от небольших до крупных, для оценки масштабируемости Tesserae. Результаты показали, что Tesserae улучшает среднее время выполнения задач (JCT, Job Completion Time) до 1.62 раза по сравнению с существующими планировщиками. Кроме того, Tesserae уменьшает общее время выполнения всех задач (Makespan) до 1.15 раза. Эти результаты демонстрируют высокую эффективность и масштабируемость предлагаемого подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Tesserae имеет широкое применение в области управления ресурсами в DL-кластерах. Он может быть использован для оптимизации работы крупных дата-центров, где обучение DL-моделей является одной из ключевых рабочих нагрузок. Преимущества Tesserae включают в себя уменьшение времени выполнения задач, снижение накладных расходов на миграцию задач, и повышение общей производительности кластера. Кроме того, Tesserae может быть применен в облачных вычислениях, где эффективное использование ресурсов является критическим фактором для экономичности и производительности. Потенциальное влияние Tesserae заключается в том, что он может существенно улучшить эффективность использования GPU и других ресурсов в кластерах, что может привести к существенным экономиям времени и ресурсов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основными достижениями Tesserae являются улучшение среднего времени выполнения задач и общего времени выполнения всех задач, а также повышение масштабируемости планировщика. Будущие исследования могут фокусироваться на дальнейшей оптимизации алгоритмов графового сопоставления и расширении применимости Tesserae к другим типам ресурсов, таких как TPU или FPGA, а также на интеграции с более сложными DL-рабочими нагрузками.

Annotation:

Training deep learning (DL) models has become a dominant workload in data-centers and improving resource utilization is a key goal of DL cluster schedulers. In order to do this, schedulers typically incorporate placement policies that govern where jobs are placed on the cluster. Existing placement policies are either designed as ad-hoc heuristics or incorporated as constraints within a complex optimization problem and thus either suffer from suboptimal performance or poor scalability. Our key in...

ID: 2508.04953v1 cs.DC, cs.AI

arXiv PDF

📄 Block: Balancing Load in LLM Serving with Context, Knowledge and Predictive Scheduling

2025-08-06

Авторы:

Wei Da, Evangelia Kalyvianaki

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы крупные языковые модели (LLM) стали краеугольным камнем в области искусственного интеллекта, находя применение в таких областях, как обработка естественного языка, машинное обучение и автоматизированный перевод. Однако эффективная служба этих моделей зачастую сталкивается с проблемами, связанными с балансировкой нагрузки и оптимизацией распределения ресурсов. Традиционные системы обслуживания моделей часто полагаются на монолитные и эвристические планировщики задач, которые могут быть неэффективными в условиях изменяющихся нагрузок и разнообразных конфигураций оборудования. Эти системы, как правило, не учитывают контекстуальную информацию, такую как конфигурации хостов, длина ответов и производительность аппаратного обеспечения, что приводит к неравномерному распределению нагрузки и увеличению задержек. В этом контексте необходимость разработки новой системы, способной справляться с данными вызовами, становится более актуальной. Настоящее исследование направлено на преодоление этих ограничений путем разработки системы, способной более точно предсказывать и балансировать нагрузку на основе контекстной информации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи представляют Block — распределенную систему планирования, которая оптимизирует балансировку нагрузки и автоматическое распределение ресурсов в рамках обслуживания крупными языковыми моделями. Block отличается от традиционных решений тем, что является полностью распределенной, без сохранения состояния и использует предсказательные методы для планирования задач. Система использует детерминированные и предсказуемые характеристики вывода LLM, такие как конфигурация хостов, длина ответов и производительность аппаратного обеспечения, для принятия решений на основе точно предсказанных метрик. Архитектура Block позволяет обеспечить низкие накладные расходы, надежность и масштабируемость, что делает ее более эффективной по сравнению с монолитными системами. Система учитывает контекстную информацию из входящих запросов, что позволяет более точно управлять распределением нагрузки и повышать производительность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности системы Block были проведены эксперименты на кластере из 12 GPU. Результаты показали, что Block значительно превышает производительность эвристических планировщиков, увеличивая вместимость обслуживания до 16,7% и снижая задержку на уровне P99 до 49,5%. Эти показатели остаются стабильными при различных моделях, нагрузках и конфигурациях оборудования. Эксперименты также подтвердили, что использование контекстуальной информации для предсказательного планирования позволяет более эффективно распределять ресурсы и снижать задержки, что является значительным улучшением по сравнению с традиционными системами. Открытый исходный код и данные позволяют другим исследователям и разработчикам воспроизвести результаты и адаптировать систему под свои нужды. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Block имеет широкий диапазон практического применения, особенно в областях, где требуется эффективное обслуживание крупными языковыми моделями. Система может быть использована в облачных сервисах, центрах обработки данных и других инфраструктурах, где необходима оптимизация распределения ресурсов и снижение задержек. Основные преимущества Block включают в себя высокую масштабируемость, надежность и способность адаптироваться к изменяющимся условиям нагрузки. Потенциальное влияние системы заключается в значительном улучшении качества обслуживания, что может привести к более быстрому и эффективному выполнению задач, связанных с обработкой естественного языка и другими сложными вычислениями. Благодаря открытости кода, Block может стать основой для дальнейших исследований и разработок в области распределенных систем планирования. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование продемонстрировало, что использование контекстуальной информации и предсказательных методов в распределенных системах планирования может значительно улучшить производительность обслуживания крупными языковыми моделями. Основные достижения Block включают повышение вместимости обслуживания и снижение задержек, что делает систему более эффективной по сравнению с традиционными подходами. В будущем авторы планируют расширить функциональность Block, добавив поддержку более широкого спектра моделей и конфигураций. Также рассматривается возможность интеграции с другими системами управления ресурсами для повышения общей эффективности и надежности. Дальнейшие исследования могут быть направлены на изучение влияния различных типов контекстуальной информации на производительность системы и разработку новых алгоритмов планирования.

Annotation:

This paper presents Block, a distributed scheduling framework designed to optimize load balancing and auto-provisioning across instances in large language model serving frameworks by leveraging contextual information from incoming requests. Unlike popular model serving systems that rely on monolithic and heuristic task schedulers, Block operates as a fully distributed, stateless, and predictive scheduling system to achieve low overhead, reliability, and scalability. It leverages the deterministi...

ID: 2508.03611v1 cs.DC, cs.AI

arXiv PDF

Показано 81 - 86 из 86 записей