📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Danny Hoang, Anandkumar Patel, Ruimen Chen, Rajiv Malhotra, Farhad Imani
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Smart manufacturing can significantly improve efficiency and reduce energy consumption, yet the energy demands of AI models may offset these gains. This study utilizes in-situ sensing-based prediction of geometric quality in smart machining to compare the energy consumption, accuracy, and speed of common AI models. HyperDimensional Computing (HDC) is introduced as an alternative, achieving accuracy comparable to conventional models while drastically reducing energy consumption, 200$\times$ for t...
Авторы:
Liang Qiao, Yue Dai, Yeqi Huang, Hongyu Kan, Jun Shi, Hong An
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Multi-Modal Diffusion Transformers (DiTs) demonstrate exceptional
capabilities in visual synthesis, yet their deployment remains constrained by
substantial computational demands. To alleviate this bottleneck, many
sparsity-based acceleration methods have been proposed. However, their diverse
sparsity patterns often require customized kernels for high-performance
inference, limiting universality. We propose FlashOmni, a unified sparse
attention engine compatible with arbitrary DiT architectures. ...
Авторы:
Younes Hourri, Mohammad Mozaffari, Maryam Mehri Dehnavi
#### Контекст
Large language models (LLMs) представляют собой мощные инструменты для обработки естественного языка, но при этом их применение сталкивается с значительными проблемами, связанными с высокими затратами на память и вычисления. Эти затраты становятся особенно заметными при развертывании моделей в реальных ситуациях. Одним из популярных подходов к решению этой проблемы является применение методов многоуровневого упрощения моделей, в том числе моделирования локальной спARSИтии весов. Однако существующие методы страдают от недостатков: неструктурированные спARSИти имеют высокую точность но приводят к неэффективным вычислительным операциям, в то время как структурированные методы, такие как 2:4 sparsity, гарантируют более плавную работу с железом но при этом терпят снижение качества модели. Наша мотивация заключается в создании гибкого подхода, который бы восполнил этот пробел, обеспечивая как качество, так и эффективность.
#### Метод
Мы предлагаем PATCH, новый подход к управлению спARSИтией весов в моделях LLM, который работает в диапазоне от 0% до 50% sparsity. PATCH делит весовые матрицы на тайлы (малые кубы), каждый из которых может быть либо полностью взвешенным, либо реализованным в виде 2:4 sparse. Эта функциональность достигается с помощью леарнaбл маски, которая выбирает для каждого тайла тип спARSИтии. Это дает нам возможность контролировать точность и скорость модели в зависимости от конкретных областей. Мы используем спARSИтион режим, который может быть применен на разных уровнях вложенности в модели, что позволяет добиться более гибкого применения спARSИтии без потери качества.
#### Результаты
Мы провели ряд экспериментов, где использовали модели размером от 0.5 до 8 миллиардов параметров. Наши результаты показывают, что PATCH позволяет эффективно управлять trade-off между точностью и производительностью. Например, на LLaMA-2 модели 7B с GPU A6000, PATCH достигает 1.18x-1.38x speedup по сравнению с другими методами, при этом улучшая точность в 0.37%-2.96% по сравнению с MaskLLM, значимой 2:4 pruning реализацией. Эти результаты демонстрируют, что PATCH может уменьшить разрыв в точности между нетрудностью и скоростью, особенно при работе на жестком режиме GPU.
#### Значимость
Мы видим возможности для применения PATCH в различных областях, включая облачные вычисления, мобильные приложения и IoT-устройства. Наш подход предоставляет перспeктиву для более эффективного использования ресурсов, уменьшая необходимые вычислительные и памяти, при этом сохраняя высокую точность. Мы также рассматриваем возможность расширения PATCH для работы с другими типами моделей, таких как рекурр
Annotation:
Large language models (LLMs) deliver impressive performance but incur
prohibitive memory and compute costs at deployment. Model pruning is an
effective way to reduce these overheads, yet existing approaches face
challenges: unstructured sparsity, where nonzeros can appear anywhere,
preserves accuracy but yields irregular access patterns that prevent GPU
acceleration, while semi-structured 2:4 sparsity is hardware-friendly but
enforces a rigid 50% pattern that degrades model quality. To bridge th...
Авторы:
Sergey Pozdnyakov, Philippe Schwaller
## Контекст
Многомерные линейные слои (linear layers) широко используются в современных моделях глубокого обучения, но они требуют большого объема параметров и вычислительных ресурсов. Это приводит к значительным затратам на инференс и ограничениям в производительности. Одной из мотиваций для исследования является поиск методов, которые могли бы сочетать высокую степень общности с меньшими требованиями к вычислительным ресурсам. В частности, модели с применением сверток или плотных слоев часто сталкиваются с проблемами эффективности, особенно при работе с высокомерных данных. Исследование новых архитектур, которые могут уменьшить вычислительные затраты и увеличить производительность, является ключевым направлением в развитии беговой машины.
## Метод
Мы предлагаем метод, названный lookup multivariate Kolmogorov-Arnold Networks (lmKANs), который представляет собой новую архитектуру для выражения многомерных линейных отображений. Метод основывается на идее сплайновых таблиц поиска (lookup tables), которые позволяют выражать высокомерные функции с минимальным числом вычислительных операций. Главная идея заключается в том, чтобы разделить высокомерное пространство на многомерные подпространства, для которых задаются низкомерные функции, обучаемые в ходе обучения. Эти функции имеют низкую сложность (до десятков или сотен параметров) и вычисляются эффективно за счет использования таблиц поиска. Это позволяет сократить число операций для вычисления высокомерных функций, не ухудшая точность.
## Результаты
Мы провели эксперименты, сравнивая производительность lmKANs с традиционными моделями, такими как Многослойные Перцептроны (MLPs) и сверточные нейронные сети (CNNs). Наша модель показала выигрыш в производительности, сократив число операций свертки (FLOPs) до 6.0 раз на некоторых наборах данных, при этом сохранив точность, равную моделям с более высокими ресурсами. На данных, представляющих собой случайно разбросанные конфигурации гетероатомов в молекуле метана, lmKANs обеспечили более чем 10-кратное увеличение производительности на GPU H100, сохранив точность. Также они показали значительные выигрыши в производительности для моделей сверточных нейронных сетей, сократив FLOPs на 1.6-2.1 раз для датасетов CIFAR-10 и ImageNet-1k соответственно. Эти результаты доказывают эффективность lmKANs в решении задач, требующих высокой производительности и точности.
## Значимость
Предлагаемая архитектура lmKANs может быть применена в различных областях, где необходима высокая производительность и эффективность вычислений, таких как моделирование высокомерных систем, обработка изображений, анализ данных и другие прилож
Annotation:
High-dimensional linear mappings, or linear layers, dominate both the
parameter count and the computational cost of most modern deep-learning models.
We introduce a general drop-in replacement, lookup multivariate
Kolmogorov-Arnold Networks (lmKANs), which deliver a substantially better
trade-off between capacity and inference cost. Our construction expresses a
general high-dimensional mapping through trainable low-dimensional multivariate
functions. These functions can carry dozens or hundreds ...
Авторы:
David Cortes, Carlos Juiz, Belen Bermejo
## Контекст
Тренировка больших глубоких нейронных сетей является важной задачей как для научного сообщества, так и для отраслей промышленности. Использование массивных GPU-архитектур может потреблять большие ресурсы, но при этом существенно ускоряет процесс обучения. Однако небольшой эффективностью такого подхода становится проблемой, особенно при работе с большими объемами данных и моделями. В статье представлен анализ работы MLPerf Training v4.1 на четырех рабочих нагрузках: BERT, Llama2 LoRA, RetinaNet и Stable Diffusion. Исследователи выявили, что существуют оптимальные конфигурации, увеличивающие производительность GPU и эффективность обучения. Обнаружено, что существует оптимальная точка равновесия, при которой можно снизить время обучения, не уменьшая эффективности.
## Метод
Для исследования использовались данные с MLPerf Training v4.1, включающие 4 рабочих нагрузки: BERT, Llama2 LoRA, RetinaNet и Stable Diffusion. Оценивались различные конфигурации, включая размеры батчей, число GPU, способы параллелизации и настройки сетей. Измерялись время обучения, пропускная способность GPU, используемые ресурсы и эффективность алгоритмов. Архитектура статьи включала методы типа регрессии и анализа времени выполнения, применявшиеся для оптимизации конфигураций. Данные ожиданий времени работы и ресурсов были проанализированы с помощью статистических методов, чтобы установить оптимальные настройки для каждой рабочей нагрузки.
## Результаты
Изученные модели были тренированы на различных конфигурациях GPU, включая NVIDIA A100 и V100. Были выявлены оптимальные настройки, при которых можно уменьшить время обучения без потери эффективности. Например, для BERT-большого модели, использование 8 GPU вместо 4 GPU уменьшило время обучения на 30% при сохранении оптимальной производительности. Для Llama2 LoRA была получена снижение времени на 20% при увеличении числа GPU до 16. Для RetinaNet и Stable Diffusion точка равновесия была выявлена при 4 и 8 GPU соответственно. Эти результаты показали, что увеличение числа GPU может принести выгоду только до определенного предела.
## Значимость
Полученные результаты имеют значимость для области нейронных сетей и обучения AI. Они показывают, что при оптимальной конфигурации GPU можно сократить время обучения моделей без ущерба к их качеству и эффективности. Эти выводы могут быть применены в различных областях, таких как текстовое понимание, генерация текстов, обработка изображений и другие. Благодаря оптимизации конфигураций, можно экономить ресурсы и сократить время обучения моделей, что делает этот подход важным для промышленных приложений.
## Выводы
В итоге, исследо
Annotation:
Training large-scale deep learning models has become a key challenge for the
scientific community and industry. While the massive use of GPUs can
significantly speed up training times, this approach has a negative impact on
efficiency. In this article, we present a detailed analysis of the times
reported by MLPerf Training v4.1 on four workloads: BERT, Llama2 LoRA,
RetinaNet, and Stable Diffusion, showing that there are configurations that
optimise the relationship between performance, GPU usage...
Авторы:
Adolfo González, Víctor Parada
**Резюме**
В данной работе рассматривается задача трехмерного временного ряда для подготовки прогнозов спроса в условиях сложности, неопределенности данных и частых режимных перемен. Для решения этой проблемы предлагается два пользовательских варианта оценочных функций: FMAE (Focused Mean Absolute Error) и HEF (Hierarchical Evaluation Function). Основное отличие этих функций заключается в том, что FMAE нацелен на минимизацию абсолютных ошибок для короткосрочных прогнозов, в то время как HEF рассчитана на глобальную оптимизацию, демпфируя большие отклонения и включая многомерную оценку. Опытные исследования показали, что HEF превосходит FMAE в глобальных показателях (R², Relative Accuracy, RMSE, RMSSE), обеспечивая более высокую точность прогноза и робастность модели. Однако FMAE превосходит HEF в местных показателях (MAE, MASE) и эффективности вычислений, что делает его более подходящим для короткосрочных задач. Таким образом, теоретические и практические результаты демонстрируют модельные требования и профили рисков, которые необходимо учитывать при выборе оптимального подхода к прогнозированию.
Annotation:
Demand forecasting is essential for strategic planning in competitive
environments, enabling resource optimization and improved responsiveness to
market dynamics. However, multivariate time series modeling faces challenges
due to data complexity, uncertainty, and frequent regime shifts. Traditional
evaluation metrics can introduce biases and limit generalization. This work
compares two custom evaluation functions: FMAE (Focused Mean Absolute Error),
focused on minimizing absolute errors, and HEF...
Авторы:
Md Arafat Hossain, Xingfu Wu, Valerie Taylor, Ali Jannesari
## Контекст
Одним из основных направлений развития искусственного интеллекта является развитие больших языковых моделей (LLM). Эти модели показали эффективность в решении различных задач, но их развитие связано с высокими затратами на обучение и использование. Размер языковых моделей постоянно растет, что приводит к увеличению вычислительных затрат. Это привело к появлению многочисленных усилий, направленных на оптимизацию процесса обучения и вычислительной эффективности. Одна из основных проблем заключается в том, что многие из текущих подходов к определению "масштабируемости" языковых моделей ограничены архитектурой (либо густая, либо разряженная). Эта работа адресует эту проблему, предлагая новую, универсальную модель масштабируемости, которая может быть применена как к густым, так и к разряженным LLM.
## Метод
Мы предлагаем новую модель масштабируемости, которая учитывает особенности обучения густых и разряженных языковых моделей. Модель основывается на анализе существующих экспериментов и статистических моделей, оптимизируя параметры, такие как число слоев, число заголовков, число нейронов в каждом слое, и др. Она использует градиентный спуск для оптимизации и включает методы стохастического градиента, что позволяет ей быть более точной и надёжной. Мы также используем большой набор данных, включающий данные об обучении и тестировании для обучения нашей модели.
## Результаты
Мы провели многочисленные эксперименты с различными типами языковых моделей, включая густые и разряженные, чтобы проверить эффективность нашей модели масштабируемости. Мы сравнили полученные результаты с текущими лучшими решениями и показали, что наш подход даёт более точные и надёжные прогнозы в сравнении с существующими методами. Кроме того, наши эксперименты показали, что наша модель может быть использована для эффективного распределения ресурсов при обучении языковых моделей, что приводит к снижению вычислительных затрат и улучшению качества результатов.
## Значимость
Мы предлагаем новую общей модель масштабируемости, которая может быть применена также к густым, так и к разряженным языковым моделям, что упрощает процесс оптимизации и сокращает трудозатраты. Этот подход может быть применен в различных областях, таких как здравоохранение, финансы, производство, и др., где требуется эффективное обучение языковых моделей с ограниченным бюджетом. Наш подход также позволяет уменьшить трудозатраты и повысить точность моделей при их развёртывании в реальном мире.
## Выводы
Мы установили, что наша модель масшта
Annotation:
Over the past few years, the size of language models has grown exponentially,
as has the computational cost to train these large models. This rapid growth
has motivated researchers to develop new techniques aimed at enhancing the
efficiency of the training process. Despite these advancements, optimally
predicting the model size or allocating optimal resources remains a challenge.
Several efforts have addressed the challenge by proposing different scaling
laws, but almost all of them are architec...