📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Quentin Anthony, Yury Tokpanov, Skyler Szot, Srivatsan Rajagopal, Praneeth Medepalli, Rishi Iyer, Vasu Shyam, Anna Golubeva, Ansh Chaurasia, Xiao Yang, Tomas Figliolia, Robert Washbourne, Drew Thorstensen, Amartey Pearson, Zack Grossbart, Jason van Patten, Emad Barsoum, Zhenyu Gu, Yao Fu, Beren Millidge

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We report on the first large-scale mixture-of-experts (MoE) pretraining study on pure AMD hardware, utilizing both MI300X GPUs with Pollara interconnect. We distill practical guidance for both systems and model design. On the systems side, we deliver a comprehensive cluster and networking characterization: microbenchmarks for all core collectives (all-reduce, reduce-scatter, all-gather, broadcast) across message sizes and GPU counts on Pollara. To our knowledge, this is the first at this scale. ...
ID: 2511.17127v1 cs.CL, cs.AI, cs.DC
Авторы:

Meituan LongCat Team, Bayan, Bei Li, Bingye Lei, Bo Wang, Bolin Rong, Chao Wang, Chao Zhang, Chen Gao, Chen Zhang, Cheng Sun, Chengcheng Han, Chenguang Xi, Chi Zhang, Chong Peng, Chuan Qin, Chuyu Zhang, Cong Chen, Congkui Wang, Dan Ma, Daoru Pan, Defei Bu, Dengchang Zhao, Deyang Kong, Dishan Liu, Feiye Huo, Fengcun Li, Fubao Zhang, Gan Dong, Gang Liu, Gang Xu, Ge Li, Guoqiang Tan, Guoyuan Lin, Haihang Jing, Haomin Fu, Haonan Yan, Haoxing Wen, Haozhe Zhao, Hong Liu, Hongmei Shi, Hongyan Hao, Hongyin Tang, Huantian Lv, Hui Su, Jiacheng Li, Jiahao Liu, Jiahuan Li, Jiajun Yang, Jiaming Wang, Jian Yang, Jianchao Tan, Jiaqi Sun, Jiaqi Zhang, Jiawei Fu, Jiawei Yang, Jiaxi Hu, Jiayu Qin, Jingang Wang, Jiyuan He, Jun Kuang, Junhui Mei, Kai Liang, Ke He, Kefeng Zhang, Keheng Wang, Keqing He, Liang Gao, Liang Shi, Lianhui Ma, Lin Qiu, Lingbin Kong, Lingtong Si, Linkun Lyu, Linsen Guo, Liqi Yang, Lizhi Yan, Mai Xia, Man Gao, Manyuan Zhang, Meng Zhou, Mengxia Shen, Mingxiang Tuo, Mingyang Zhu, Peiguang Li, Peng Pei, Peng Zhao, Pengcheng Jia, Pingwei Sun, Qi Gu, Qianyun Li, Qingyuan Li, Qiong Huang, Qiyuan Duan, Ran Meng, Rongxiang Weng, Ruichen Shao, Rumei Li, Shizhe Wu, Shuai Liang, Shuo Wang, Suogui Dang, Tao Fang, Tao Li, Tefeng Chen, Tianhao Bai, Tianhao Zhou, Tingwen Xie, Wei He, Wei Huang, Wei Liu, Wei Shi, Wei Wang, Wei Wu, Weikang Zhao, Wen Zan, Wenjie Shi, Xi Nan, Xi Su, Xiang Li, Xiang Mei, Xiangyang Ji, Xiangyu Xi, Xiangzhou Huang, Xianpeng Li, Xiao Fu, Xiao Liu, Xiao Wei, Xiaodong Cai, Xiaolong Chen, Xiaoqing Liu, Xiaotong Li, Xiaowei Shi, Xiaoyu Li, Xili Wang, Xin Chen, Xing Hu, Xingyu Miao, Xinyan He, Xuemiao Zhang, Xueyuan Hao, Xuezhi Cao, Xunliang Cai, Xurui Yang, Yan Feng, Yang Bai, Yang Chen, Yang Yang, Yaqi Huo, Yerui Sun, Yifan Lu, Yifan Zhang, Yipeng Zang, Yitao Zhai, Yiyang Li, Yongjing Yin, Yongkang Lv, Yongwei Zhou, Yu Yang, Yuchen Xie, Yueqing Sun, Yuewen Zheng, Yuhua Wei, Yulei Qian, Yunfan Liang, Yunfang Tai, Yunke Zhao, Zeyang Yu, Zhao Zhang, Zhaohua Yang, Zhenchao Zhang, Zhikang Xia, Zhiye Zou, Zhizhao Zeng, Zhongda Su, Zhuofan Chen, Zijian Zhang, Ziwen Wang, Zixu Jiang, Zizhe Zhao, Zongyu Wang, Zunhai Su

## Контекст В современной информатике существует активная тенденция к развитию моделей языкового моделирования с высоким числом параметров, чтобы улучшить их синтаксические, семантические и когнитивные способности. Однако такие модели часто сталкиваются с трудностями в своей эффективности, как в тренировке, так и в инференсе. Для устранения этих проблем разработчики исследуют новые архитектурные решения, нацеленные на более эффективное использование ресурсов и повышение производительности. "LongCat-Flash" — это новая модель языкового моделирования, которая призвана решить эти проблемы, обеспечивая высокую эффективность и улучшенные возможности агентного поведения. Она является результатом работы команды Meituan LongCat Team, которая стремится создать модель, которая будет полезной во многих областях, включая разработку интеллектуальных систем, анализ текста, генерацию кода и решение задач в реальном времени. ## Метод "LongCat-Flash" — 560-миллиардная модель, основанная на технологии Mixture-of-Experts (MoE). Она включает два ключевых изобретения: 1. **Zero-computation Experts**: Это новая архитектура, позволяющая динамически аллоцировать вычислительные ресурсы в зависимости от контекста. Таким образом, модель может динамически активировать только необходимые эксперты (слои) в зависимости от контекста, чтобы оптимизировать вычисления. 2. **Shortcut-connected MoE**: Эта технология увеличивает объем вычислений, которые могут быть выполнены параллельно, что позволяет увеличить производительность модели в ходе инференса. Кроме того, авторы разработали сложную систему для устойчивого тренировки модели. Она включает в себя: - Технологии **Hyperparameter Transfer** для стабилизации обучения. - Инициализацию модели с учетом предыдущих версий (Model-growth Initialization). - Многоуровневый подход к обеспечению стабильности тренировки. - Определенность и вычислительная эффективность в работе. ## Результаты "LongCat-Flash" прошла тренировку на более чем 20 триллионов токенов в течение 30 дней. Эта модель показывает высокую производительность, достигая более 100 токенов в секунду (TPS) в режиме инференса с затратами $0.70 за миллион выданных токенов. Это делает ее одной из самых быстрых и эффективных моделей с таким объемом параметров. С точки зрения результатов, модель показала высокую точность и эффективность в агентных задачах, включая логическое мышление, решение задач и генерацию кода. Она соревнуется с другими моделями по высокому уровню конкурентности и обнаруживает сильные стороны в сфере когнитивных и агентных задач. ## Значимость Эта модель имеет широкие перспективы примен
Annotation:
We introduce LongCat-Flash, a 560-billion-parameter Mixture-of-Experts (MoE) language model designed for both computational efficiency and advanced agentic capabilities. Stemming from the need for scalable efficiency, LongCat-Flash adopts two novel designs: (a) Zero-computation Experts, which enables dynamic computational budget allocation and activates 18.6B-31.3B (27B on average) per token depending on contextual demands, optimizing resource usage. (b) Shortcut-connected MoE, which enlarges th...
ID: 2509.01322v1 cs.CL, cs.AI, cs.DC, cs.LG
Авторы:

Lingzhe Zhang, Liancheng Fang, Chiming Duan, Minghua He, Leyi Pan, Pei Xiao, Shiyu Huang, Yunpeng Zhai, Xuming Hu, Philip S. Yu, Aiwei Liu

#### Контекст Текстовое генерирование является одной из основных функций современных больших моделей языка (LLMs). Однако большинство этих моделей полагаются на авторегрессионное генерирование, то есть порождение текста токеном за токеном, основываясь на предыдущем контексте. Это приводит к ограниченной скорости генерирования, из-за последовательности процесса. Чтобы улучшить эффективность генерирования, наблюдается растущий интерес к разработке подходов, основанных на параллельном генерировании текста. Эти методы стремятся повысить скорость генерирования, избегая шаг за шагом процесса. Тем не менее, существует недостаток в подробном анализе, какие именно технологии могут быть применены в этой области, а также какие технические приемы могут повысить эффективность генерирования. Эта статья предлагает систематический обзор подходов к параллельному генерированию текста, позволяющий заполнить эту гапы в знаниях. #### Метод Изучение параллельного генерирования текста разбивается на две основные категории: **AR-ориентированные** и **не-AR-ориентированные** методики. AR-ориентированные методы продолжают использовать авторегрессионные техники, но с улучшенными методами повышения эффективности. Не-AR-ориентированные методы, напротив, отказываются от авторегрессионной модели, а вместо этого используют альтернативные подходы, такие как векторное генерирование, диффузионные модели и другие неоднородные подходы. Мы приводим детальное описание основных элементов каждой категории, включая их архитектуры, методы оптимизации и технические решения. Также мы проводим оценку теоретических трейдофов между скоростью, качеством и эффективностью, чтобы понять, какие технологии могут быть объединены для повышения производительности. #### Результаты Мы проводим эксперименты, используя разные типы данных, включая огромные текстовые корпуса, для подтверждения эффективности каждого подхода. Мы измеряем скорость и качество генерирования текста с помощью метрик, таких как BLEU, ROUGE и METEOR. Наши результаты показывают, что не-AR-ориентированные подходы могут повысить скорость подачи текста в несколько раз по сравнению с AR-методами, при этом сохраняя качество генерирования. Мы также проводим сравнительный анализ между AR- и не-AR-методами, показывая, что гибридные модели, объединяющие элементы обеих моделей, могут дать более балансированные результаты в области качества и скорости. #### Значимость Полученные результаты имеют важное значение для широкого диапазона приложений, включая транс
Annotation:
As text generation has become a core capability of modern Large Language Models (LLMs), it underpins a wide range of downstream applications. However, most existing LLMs rely on autoregressive (AR) generation, producing one token at a time based on previously generated context-resulting in limited generation speed due to the inherently sequential nature of the process. To address this challenge, an increasing number of researchers have begun exploring parallel text generation-a broad class of te...
ID: 2508.08712v2 cs.CL, cs.AI, cs.DC, 68T50, I.2.7
Авторы:

Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu

Ограничения системы и трудности в обучении omni-modal LLMs влекут за собой низкую эффективность и высокий инженерный затрат. Мы предлагаем VeOmni — модульный и производительный фреймворк, который ускоряет развитие omni-modal LLMs. Основной идеей VeOmni является использование модельно-центрических распределенных рецептов, разделяющих коммуникацию от вычислений. Это позволяет эффективно использовать трехмерную параллельность при обучении omni-modal LLMs. Кроме того, VeOmni обеспечивает гибкую настройку, позволяя легко добавлять новые модели с минимальным кодовым изменением. Тестирование показало, что VeOmni обеспечивает высокую производительность: 30B-параметровый модельный хранилищ поддерживает обучение с 2,800 токенами/секунду/GPU и достигает 160K контекстных длин на 128 GPU. Это открывает новые возможности для эффективного обучения omni-modal LLMs с большими моделями и длинными контекстами.
Annotation:
Recent advances in large language models (LLMs) have driven impressive progress in omni-modal understanding and generation. However, training omni-modal LLMs remains a significant challenge due to the heterogeneous model architectures required to process diverse modalities, necessitating sophisticated system design for efficient large-scale training. Existing frameworks typically entangle model definition with parallel logic, incurring limited scalability and substantial engineering overhead for...
ID: 2508.02317v3 cs.CL, cs.AI, cs.DC