📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Hyperdimensional Computing for Sustainable Manufacturing: An Initial Assessment

2025-12-05

Авторы:

Danny Hoang, Anandkumar Patel, Ruimen Chen, Rajiv Malhotra, Farhad Imani

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Smart manufacturing can significantly improve efficiency and reduce energy consumption, yet the energy demands of AI models may offset these gains. This study utilizes in-situ sensing-based prediction of geometric quality in smart machining to compare the energy consumption, accuracy, and speed of common AI models. HyperDimensional Computing (HDC) is introduced as an alternative, achieving accuracy comparable to conventional models while drastically reducing energy consumption, 200$\times$ for t...

ID: 2512.03864v1 cs.LG, cs.AI, cs.PF, cs.SC

arXiv PDF

📄 FlashOmni: A Unified Sparse Attention Engine for Diffusion Transformers

2025-10-02

Авторы:

Liang Qiao, Yue Dai, Yeqi Huang, Hongyu Kan, Jun Shi, Hong An

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Multi-Modal Diffusion Transformers (DiTs) demonstrate exceptional capabilities in visual synthesis, yet their deployment remains constrained by substantial computational demands. To alleviate this bottleneck, many sparsity-based acceleration methods have been proposed. However, their diverse sparsity patterns often require customized kernels for high-performance inference, limiting universality. We propose FlashOmni, a unified sparse attention engine compatible with arbitrary DiT architectures. ...

ID: 2509.25401v1 cs.LG, cs.AI, cs.PF

arXiv PDF

📄 PATCH: Learnable Tile-level Hybrid Sparsity for LLMs

2025-10-01

Авторы:

Younes Hourri, Mohammad Mozaffari, Maryam Mehri Dehnavi

#### Контекст Large language models (LLMs) представляют собой мощные инструменты для обработки естественного языка, но при этом их применение сталкивается с значительными проблемами, связанными с высокими затратами на память и вычисления. Эти затраты становятся особенно заметными при развертывании моделей в реальных ситуациях. Одним из популярных подходов к решению этой проблемы является применение методов многоуровневого упрощения моделей, в том числе моделирования локальной спARSИтии весов. Однако существующие методы страдают от недостатков: неструктурированные спARSИти имеют высокую точность но приводят к неэффективным вычислительным операциям, в то время как структурированные методы, такие как 2:4 sparsity, гарантируют более плавную работу с железом но при этом терпят снижение качества модели. Наша мотивация заключается в создании гибкого подхода, который бы восполнил этот пробел, обеспечивая как качество, так и эффективность. #### Метод Мы предлагаем PATCH, новый подход к управлению спARSИтией весов в моделях LLM, который работает в диапазоне от 0% до 50% sparsity. PATCH делит весовые матрицы на тайлы (малые кубы), каждый из которых может быть либо полностью взвешенным, либо реализованным в виде 2:4 sparse. Эта функциональность достигается с помощью леарнaбл маски, которая выбирает для каждого тайла тип спARSИтии. Это дает нам возможность контролировать точность и скорость модели в зависимости от конкретных областей. Мы используем спARSИтион режим, который может быть применен на разных уровнях вложенности в модели, что позволяет добиться более гибкого применения спARSИтии без потери качества. #### Результаты Мы провели ряд экспериментов, где использовали модели размером от 0.5 до 8 миллиардов параметров. Наши результаты показывают, что PATCH позволяет эффективно управлять trade-off между точностью и производительностью. Например, на LLaMA-2 модели 7B с GPU A6000, PATCH достигает 1.18x-1.38x speedup по сравнению с другими методами, при этом улучшая точность в 0.37%-2.96% по сравнению с MaskLLM, значимой 2:4 pruning реализацией. Эти результаты демонстрируют, что PATCH может уменьшить разрыв в точности между нетрудностью и скоростью, особенно при работе на жестком режиме GPU. #### Значимость Мы видим возможности для применения PATCH в различных областях, включая облачные вычисления, мобильные приложения и IoT-устройства. Наш подход предоставляет перспeктиву для более эффективного использования ресурсов, уменьшая необходимые вычислительные и памяти, при этом сохраняя высокую точность. Мы также рассматриваем возможность расширения PATCH для работы с другими типами моделей, таких как рекурр

Annotation:

Large language models (LLMs) deliver impressive performance but incur prohibitive memory and compute costs at deployment. Model pruning is an effective way to reduce these overheads, yet existing approaches face challenges: unstructured sparsity, where nonzeros can appear anywhere, preserves accuracy but yields irregular access patterns that prevent GPU acceleration, while semi-structured 2:4 sparsity is hardware-friendly but enforces a rigid 50% pattern that degrades model quality. To bridge th...

ID: 2509.23410v1 cs.LG, cs.AI, cs.PF

arXiv PDF

📄 Lookup multivariate Kolmogorov-Arnold Networks

2025-09-11

Авторы:

Sergey Pozdnyakov, Philippe Schwaller

## Контекст Многомерные линейные слои (linear layers) широко используются в современных моделях глубокого обучения, но они требуют большого объема параметров и вычислительных ресурсов. Это приводит к значительным затратам на инференс и ограничениям в производительности. Одной из мотиваций для исследования является поиск методов, которые могли бы сочетать высокую степень общности с меньшими требованиями к вычислительным ресурсам. В частности, модели с применением сверток или плотных слоев часто сталкиваются с проблемами эффективности, особенно при работе с высокомерных данных. Исследование новых архитектур, которые могут уменьшить вычислительные затраты и увеличить производительность, является ключевым направлением в развитии беговой машины. ## Метод Мы предлагаем метод, названный lookup multivariate Kolmogorov-Arnold Networks (lmKANs), который представляет собой новую архитектуру для выражения многомерных линейных отображений. Метод основывается на идее сплайновых таблиц поиска (lookup tables), которые позволяют выражать высокомерные функции с минимальным числом вычислительных операций. Главная идея заключается в том, чтобы разделить высокомерное пространство на многомерные подпространства, для которых задаются низкомерные функции, обучаемые в ходе обучения. Эти функции имеют низкую сложность (до десятков или сотен параметров) и вычисляются эффективно за счет использования таблиц поиска. Это позволяет сократить число операций для вычисления высокомерных функций, не ухудшая точность. ## Результаты Мы провели эксперименты, сравнивая производительность lmKANs с традиционными моделями, такими как Многослойные Перцептроны (MLPs) и сверточные нейронные сети (CNNs). Наша модель показала выигрыш в производительности, сократив число операций свертки (FLOPs) до 6.0 раз на некоторых наборах данных, при этом сохранив точность, равную моделям с более высокими ресурсами. На данных, представляющих собой случайно разбросанные конфигурации гетероатомов в молекуле метана, lmKANs обеспечили более чем 10-кратное увеличение производительности на GPU H100, сохранив точность. Также они показали значительные выигрыши в производительности для моделей сверточных нейронных сетей, сократив FLOPs на 1.6-2.1 раз для датасетов CIFAR-10 и ImageNet-1k соответственно. Эти результаты доказывают эффективность lmKANs в решении задач, требующих высокой производительности и точности. ## Значимость Предлагаемая архитектура lmKANs может быть применена в различных областях, где необходима высокая производительность и эффективность вычислений, таких как моделирование высокомерных систем, обработка изображений, анализ данных и другие прилож

Annotation:

High-dimensional linear mappings, or linear layers, dominate both the parameter count and the computational cost of most modern deep-learning models. We introduce a general drop-in replacement, lookup multivariate Kolmogorov-Arnold Networks (lmKANs), which deliver a substantially better trade-off between capacity and inference cost. Our construction expresses a general high-dimensional mapping through trainable low-dimensional multivariate functions. These functions can carry dozens or hundreds ...

ID: 2509.07103v1 cs.LG, cs.AI, cs.PF, cs.SE

arXiv PDF

📄 Estudio de la eficiencia en la escalabilidad de GPUs para el entrenamiento de Inteligencia Artificial

2025-09-05

Авторы:

David Cortes, Carlos Juiz, Belen Bermejo

## Контекст Тренировка больших глубоких нейронных сетей является важной задачей как для научного сообщества, так и для отраслей промышленности. Использование массивных GPU-архитектур может потреблять большие ресурсы, но при этом существенно ускоряет процесс обучения. Однако небольшой эффективностью такого подхода становится проблемой, особенно при работе с большими объемами данных и моделями. В статье представлен анализ работы MLPerf Training v4.1 на четырех рабочих нагрузках: BERT, Llama2 LoRA, RetinaNet и Stable Diffusion. Исследователи выявили, что существуют оптимальные конфигурации, увеличивающие производительность GPU и эффективность обучения. Обнаружено, что существует оптимальная точка равновесия, при которой можно снизить время обучения, не уменьшая эффективности. ## Метод Для исследования использовались данные с MLPerf Training v4.1, включающие 4 рабочих нагрузки: BERT, Llama2 LoRA, RetinaNet и Stable Diffusion. Оценивались различные конфигурации, включая размеры батчей, число GPU, способы параллелизации и настройки сетей. Измерялись время обучения, пропускная способность GPU, используемые ресурсы и эффективность алгоритмов. Архитектура статьи включала методы типа регрессии и анализа времени выполнения, применявшиеся для оптимизации конфигураций. Данные ожиданий времени работы и ресурсов были проанализированы с помощью статистических методов, чтобы установить оптимальные настройки для каждой рабочей нагрузки. ## Результаты Изученные модели были тренированы на различных конфигурациях GPU, включая NVIDIA A100 и V100. Были выявлены оптимальные настройки, при которых можно уменьшить время обучения без потери эффективности. Например, для BERT-большого модели, использование 8 GPU вместо 4 GPU уменьшило время обучения на 30% при сохранении оптимальной производительности. Для Llama2 LoRA была получена снижение времени на 20% при увеличении числа GPU до 16. Для RetinaNet и Stable Diffusion точка равновесия была выявлена при 4 и 8 GPU соответственно. Эти результаты показали, что увеличение числа GPU может принести выгоду только до определенного предела. ## Значимость Полученные результаты имеют значимость для области нейронных сетей и обучения AI. Они показывают, что при оптимальной конфигурации GPU можно сократить время обучения моделей без ущерба к их качеству и эффективности. Эти выводы могут быть применены в различных областях, таких как текстовое понимание, генерация текстов, обработка изображений и другие. Благодаря оптимизации конфигураций, можно экономить ресурсы и сократить время обучения моделей, что делает этот подход важным для промышленных приложений. ## Выводы В итоге, исследо

Annotation:

Training large-scale deep learning models has become a key challenge for the scientific community and industry. While the massive use of GPUs can significantly speed up training times, this approach has a negative impact on efficiency. In this article, we present a detailed analysis of the times reported by MLPerf Training v4.1 on four workloads: BERT, Llama2 LoRA, RetinaNet, and Stable Diffusion, showing that there are configurations that optimise the relationship between performance, GPU usage...

ID: 2509.03263v1 cs.LG, cs.AI, cs.PF

arXiv PDF

📄 Hierarchical Evaluation Function (HEF): A Multi-Metric Approach for Optimizing Demand Forecasting Models

2025-08-20

Авторы:

Adolfo González, Víctor Parada

**Резюме** В данной работе рассматривается задача трехмерного временного ряда для подготовки прогнозов спроса в условиях сложности, неопределенности данных и частых режимных перемен. Для решения этой проблемы предлагается два пользовательских варианта оценочных функций: FMAE (Focused Mean Absolute Error) и HEF (Hierarchical Evaluation Function). Основное отличие этих функций заключается в том, что FMAE нацелен на минимизацию абсолютных ошибок для короткосрочных прогнозов, в то время как HEF рассчитана на глобальную оптимизацию, демпфируя большие отклонения и включая многомерную оценку. Опытные исследования показали, что HEF превосходит FMAE в глобальных показателях (R², Relative Accuracy, RMSE, RMSSE), обеспечивая более высокую точность прогноза и робастность модели. Однако FMAE превосходит HEF в местных показателях (MAE, MASE) и эффективности вычислений, что делает его более подходящим для короткосрочных задач. Таким образом, теоретические и практические результаты демонстрируют модельные требования и профили рисков, которые необходимо учитывать при выборе оптимального подхода к прогнозированию.

Annotation:

Demand forecasting is essential for strategic planning in competitive environments, enabling resource optimization and improved responsiveness to market dynamics. However, multivariate time series modeling faces challenges due to data complexity, uncertainty, and frequent regime shifts. Traditional evaluation metrics can introduce biases and limit generalization. This work compares two custom evaluation functions: FMAE (Focused Mean Absolute Error), focused on minimizing absolute errors, and HEF...

ID: 2508.13057v1 cs.LG, cs.AI, cs.PF, 62M10, 90C59, 68T05, I.2.6; I.5.1; I.5.2; I.5.4; G.1.6

arXiv PDF

📄 Generalizing Scaling Laws for Dense and Sparse Large Language Models

2025-08-13

Авторы:

Md Arafat Hossain, Xingfu Wu, Valerie Taylor, Ali Jannesari

## Контекст Одним из основных направлений развития искусственного интеллекта является развитие больших языковых моделей (LLM). Эти модели показали эффективность в решении различных задач, но их развитие связано с высокими затратами на обучение и использование. Размер языковых моделей постоянно растет, что приводит к увеличению вычислительных затрат. Это привело к появлению многочисленных усилий, направленных на оптимизацию процесса обучения и вычислительной эффективности. Одна из основных проблем заключается в том, что многие из текущих подходов к определению "масштабируемости" языковых моделей ограничены архитектурой (либо густая, либо разряженная). Эта работа адресует эту проблему, предлагая новую, универсальную модель масштабируемости, которая может быть применена как к густым, так и к разряженным LLM. ## Метод Мы предлагаем новую модель масштабируемости, которая учитывает особенности обучения густых и разряженных языковых моделей. Модель основывается на анализе существующих экспериментов и статистических моделей, оптимизируя параметры, такие как число слоев, число заголовков, число нейронов в каждом слое, и др. Она использует градиентный спуск для оптимизации и включает методы стохастического градиента, что позволяет ей быть более точной и надёжной. Мы также используем большой набор данных, включающий данные об обучении и тестировании для обучения нашей модели. ## Результаты Мы провели многочисленные эксперименты с различными типами языковых моделей, включая густые и разряженные, чтобы проверить эффективность нашей модели масштабируемости. Мы сравнили полученные результаты с текущими лучшими решениями и показали, что наш подход даёт более точные и надёжные прогнозы в сравнении с существующими методами. Кроме того, наши эксперименты показали, что наша модель может быть использована для эффективного распределения ресурсов при обучении языковых моделей, что приводит к снижению вычислительных затрат и улучшению качества результатов. ## Значимость Мы предлагаем новую общей модель масштабируемости, которая может быть применена также к густым, так и к разряженным языковым моделям, что упрощает процесс оптимизации и сокращает трудозатраты. Этот подход может быть применен в различных областях, таких как здравоохранение, финансы, производство, и др., где требуется эффективное обучение языковых моделей с ограниченным бюджетом. Наш подход также позволяет уменьшить трудозатраты и повысить точность моделей при их развёртывании в реальном мире. ## Выводы Мы установили, что наша модель масшта

Annotation:

Over the past few years, the size of language models has grown exponentially, as has the computational cost to train these large models. This rapid growth has motivated researchers to develop new techniques aimed at enhancing the efficiency of the training process. Despite these advancements, optimally predicting the model size or allocating optimal resources remains a challenge. Several efforts have addressed the challenge by proposing different scaling laws, but almost all of them are architec...

ID: 2508.06617v1 cs.LG, cs.AI, cs.PF

arXiv PDF