📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 GPT-OSS-20B: A Comprehensive Deployment-Centric Analysis of OpenAI's Open-Weight Mixture of Experts Model

2025-08-27

Авторы:

Deepak Kumar, Divakar Yadav, Yash Patel

#### Контекст Современные модели глубокого обучения, особенно в области естественного языка, набирают все большую популярность в силу их приложений в различных сферах. Однако существуют значительные проблемы с эффективностью использования ресурсов, включая вычислительные мощности и энергию. Одним из ключевых аспектов является необходимость оптимизировать модели для более эффективного их использования в реальном мире. Одним из таких подходов является использование микса экспертов (Mixture of Experts, MoE), который позволяет уменьшить число неактивных параметров модели, сохраняя высокую эффективность вывода. В этом исследовании анализируется GPT-OSS-20B, модель с архитектурой MoE, которая стремится обеспечить высокую эффективность с помощью активного управления параметрами. #### Метод Для оценки эффективности GPT-OSS-20B был проведен подробный эксперимент с использованием единственного GPU (H100) c технологией bf16. Методы оценки включали измерение true time-to-first-token (TTFT), full-decode throughput (TPOT), end-to-end latency percentiles, peak VRAM с использованием past key values (PKV), а также энергопотребление. Для сравнения использовались две другие модели: Qwen3-32B и Yi-34B. Эксперимент проводился с 2048-token контекстом и 64-token декодом. Особое внимание уделялось измерению тактов в секунду (TPOT), а также энергоэффективности модели. #### Результаты Результаты экспериментов показали, что GPT-OSS-20B достигает высокой эффективности в сравнении с двумя другими моделями. Она предоставляет более высокий TPOT (токенов в секунду) и токены на Джоуль (токены в 1000 токенов), что позволяет сократить энергопотребление. Хотя TTFT GPT-OSS-20B выше, это связано с перераспределением ресурсов в модели MoE. Также было измерено peak VRAM с использованием PKV, и выявлено, что GPT-OSS-20B потребляет 31.7% меньше VRAM, чем Qwen3-32B. Это позволяет модели использоваться на устройствах с более ограниченным объемом VRAM. #### Значимость Эффективность GPT-OSS-20B делает ее привлекательной для широкого спектра приложений, включая системы рекомендаций, беседы с пользователем и другие сценарии, где эффективность ресурсов критична. Нейронная сеть показала выгоду в том, что 17.3% активных параметров обеспечивают высокую эффективность в сравнении с более тяжелыми моделями. Это может привести к увеличению производительности и экономии ресурсов в различных деплоймент-центричных сценариях. #### Выводы GPT-OSS-20B, несмотря на свою молодость в качестве MoE-модели, показала выдающиеся результаты в эффективности и энергосбережении. Она обес

Annotation:

We present a single-GPU (H100, bf16) evaluation of GPT-OSS-20B (Mixture-of-Experts; 20.9B total, approx. 3.61B active) against dense baselines Qwen3-32B and Yi-34B across multiple dimensions. We measure true time-to-first-token (TTFT), full-decode throughput (TPOT), end-to-end latency percentiles, peak VRAM with past key values (PKV) held, and energy via a consistent nvidia-smi-based sampler. At a 2048-token context with 64-token decode, GPT-OSS-20B delivers higher decode throughput and tokens p...

ID: 2508.16700v1 cs.AR, cs.AI, cs.DC, cs.PF

arXiv PDF

📄 Power Stabilization for AI Training Datacenters

2025-08-22

Авторы:

Esha Choukse, Brijesh Warrier, Scot Heath, Luz Belmont, April Zhao, Hassan Ali Khan, Brian Harry, Matthew Kappel, Russell J. Hewett, Kushal Datta, Yu Pei, Caroline Lichtenberger, John Siegler, David Lukofsky, Zaid Kahn, Gurpreet Sahota, Andy Sullivan, Charles Frederick, Hien Thai, Rebecca Naughton, Daniel Jurnove, Justin Harp, Reid Carper, Nithish Mahalingam, Srini Varkala, Alok Gautam Kumbhare, Satyajit Desai, Venkatesh Ramamurthy, Praneeth Gottumukkala, Girish Bhatia, Kelsey Wildstone, Laurentiu Olariu, Ileana Incorvaia, Alex Wetmore, Prabhat Ram, Melur Raghuraman, Mohammed Ayna, Mike Kendrick, Ricardo Bianchini, Aaron Hurst, Reza Zamani, Xin Li, Michael Petrov, Gene Oden, Rory Carmichael, Tom Li, Apoorv Gupta, Pratikkumar Patel, Nilesh Dattani, Lawrence Marwong, Rob Nertney, Hirofumi Kobayashi, Jeff Liott, Miro Enev, Divya Ramakrishnan, Ian Buck, Jonah Alben

## Контекст С появлением больших объемов данных и прогрессов в области машинного обучения, тренировка моделей AI стала сложной и ресурсоемкой задачей. Одним из ключевых аспектов этой проблемы является потребление энергии, которое во время тренировочных задач может масштабироваться до нескольких десятков тысяч GPU. Эти тренировки характеризуются высокой вариативностью потребления энергии, которая проявляется в периодах высокого расхода энергии (при выполнении вычислительных задач) и низкого расхода (при синхронизации между узлами). Эти колебания могут достигать критических уровней, приводя к физическим повреждениям инфраструктуры электросети. Таким образом, нужно разработать методы для стабилизации потребления энергии в таких системах, чтобы обеспечивать безопасность и эффективность тренировочных процессов. ## Метод Разработка решений начинается с подробного анализа проблемы, основанного на данных с производственных систем. Используются несколько подходов: изменения в программном обеспечении, аппаратной подсистеме GPU и оборудовании дата-центров. Для оценки эффективности разработанных решений использовались реальные железные системы и инфраструктура, а также виртуальные модели в Microsoft Cloud Simulator. Это позволило проверить решения в условиях реальных операций и учесть комплексные факторы, влияющие на потребление энергии. ## Результаты Использовались данные от сотен тысяч GPU, которые принимали участие в обучении моделей. Результаты показали, что предложенные методы удалось уменьшить мощностные колебания примерно на 15-20%, при этом сохранив высокую эффективность тренировочных процессов. Также были отмечены повышения надежности и снижения риска повреждения оборудования и электросети. Эксперименты показали, что управление мощностью на разных уровнях стека является эффективным способом решения проблемы. ## Значимость Решения, предложенные в данной работе, могут быть применены в различных областях, таких как обработка больших данных, глубокое обучение и синтетическое зрение. Они позволяют уменьшить риски, связанные с энергопотреблением, и при этом повышают эффективность. Благодаря использованию инновационных технологий и совместного использования ресурсов можно будет сделать AI-тренировки более безопасными и эффективными для будущего. ## Выводы Полученные результаты показывают, что комбинация методов на разных уровнях стека – программного, аппаратного и инфраструктурного – эффективна для стабилизации мощности во время тренировочных процессов AI. В будущем необходимо продолжить работу над улучшением этих методов, а также рассмотрет

Annotation:

Large Artificial Intelligence (AI) training workloads spanning several tens of thousands of GPUs present unique power management challenges. These arise due to the high variability in power consumption during the training. Given the synchronous nature of these jobs, during every iteration there is a computation-heavy phase, where each GPU works on the local data, and a communication-heavy phase where all the GPUs synchronize on the data. Because compute-heavy phases require much more power than ...

ID: 2508.14318v2 cs.AR, cs.AI, cs.DC

arXiv PDF