📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Jinjun Yi, Zhixin Zhao, Yitao Hu, Ke Yan, Weiwei Sun, Hao Wang, Laiping Zhao, Yuhao Zhang, Wenxin Li, Keqiu Li

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
LLM serving is increasingly dominated by decode attention, which is a memory-bound operation due to massive KV cache loading from global memory. Meanwhile, real-world workloads exhibit substantial, hierarchical shared prefixes across requests (e.g., system prompts, tools/templates, RAG). Existing attention implementations fail to fully exploit prefix sharing: *one-query-per-CTA* execution repeatedly loads shared prefix KV cache, while *one-size-fits-all* tiling leaves on-chip resources idle and ...
ID: 2511.22333v1 cs.DC, cs.CL
Авторы:

Xinguo Zhu, Shaohui Peng, Jiaming Guo, Yunji Chen, Qi Guo, Yuanbo Wen, Hang Qin, Ruizhi Chen, Qirui Zhou, Ke Gao, Yanjun Wu, Chen Zhao, Ling Li

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Developing high-performance GPU kernels is critical for AI and scientific computing, but remains challenging due to its reliance on expert crafting and poor portability. While LLMs offer promise for automation, both general-purpose and finetuned LLMs suffer from two fundamental and conflicting limitations: correctness and efficiency. The key reason is that existing LLM-based approaches directly generate the entire optimized low-level programs, requiring exploration of an extremely vast space enc...
ID: 2511.20100v1 cs.DC, cs.CL
Авторы:

Yibo Jin, Yixu Xu, Yue Chen, Chengbin Wang, Tao Wang, Jiaqi Huang, Rongfei Zhang, Yiming Dong, Yuting Yan, Ke Cheng, Yingjie Zhu, Shulan Wang, Qianqian Tang, Shuaishuai Meng, Guanxin Cheng, Ze Wang, Shuyan Miao, Ketao Wang, Wen Liu, Yifan Yang, Tong Zhang, Anran Wang, Chengzhou Lu, Tiantian Dong, Yongsheng Zhang, Zhe Wang, Hefei Guo, Hongjie Liu, Wei Lu, Zhengyong Zhang

#### Контекст Современные языковые модели (LLM) широко используются в различных областях, от работы с текстом до решения комплексных задач. Однако существуют значительные проблемы в их развертывании и сервисинге, особенно в ситуациях, когда требуется высокая производительность и минимальная задержка. Одним из основных ограничений является высокая задержка в процессе декодирования, которая возникает из-за того, что генерация токенов занимает долгое время и требует большого объема ресурсов. Кроме того, на устройствах с ограниченными ресурсами, задержка в первом токене (TTFT) увеличивается с ростом продолжительности промота. Данные проблемы требуют эффективных решений для повышения производительности и снижения задержек в работе с LLM. #### Метод Предлагаемый подход, P/D-Device, предполагает разделение LLM между облаком и устройствами. Облако отвечает за часть процесса предварительной загрузки (prefill), при этом устройство получает первый токен и начинает декодировать независимо. Для сглаживания производительности используется контроль скорости (speed controller), который распределяет токены от облака к устройству по мере необходимости. За счет этого устройства может продолжать работу, не ожидая полной загрузки всех токенов. Также во время процесса декодирования в облаке происходит доработка промота, что дает дополнительную скорость при дальнейшем декодировании. Такая архитектура позволяет максимально эффективно использовать ресурсы, уменьшая задержки и увеличивая производительность. #### Результаты Проводились эксперименты с реальными данными, когда были оценены показатели TTFT (задержка в первом токене), максимальное значение TPOT (время затраченного на вывод каждого токена) и общая производительность облака. Результаты показали, что TTFT сократился в 6 раз или более, максимальное значение TPOT составило десятки миллисекунд, а производительность облака увеличилась до 15 раз. Эти результаты подтверждают значительное улучшение производительности в сравнении с другими альтернативными подходами. #### Значимость Прототип P/D-Device может быть применен в различных сферах, где требуется высокая производительность и минимальная задержка, например, в реальном времени, при работе с мобильными приложениями или в ситуациях, когда требуется высокая производительность систем с ограниченными ресурсами. Этот подход позволяет значительно улучшить темпы работы, уменьшить задержки и эффективнее использовать ресурсы. Будущие исследования будут сконцентрированы на оптимизации алгоритмов, улучшении скорости предварительной загрузки и расширении возможностей для различных типов моделей. #### Выводы Рез
Annotation:
Serving disaggregated large language models has been widely adopted in industrial practice for enhanced performance. However, too many tokens generated in decoding phase, i.e., occupying the resources for a long time, essentially hamper the cloud from achieving a higher throughput. Meanwhile, due to limited on-device resources, the time to first token (TTFT), i.e., the latency of prefill phase, increases dramatically with the growth on prompt length. In order to concur with such a bottleneck on ...
ID: 2508.09035v1 cs.DC, cs.CL, cs.LG