📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Sadegh Jafari, Aishwarya Sarkar, Mohiuddin Bilwal, Ali Jannesari

## Контекст Современные фундаментальные модели сталкиваются с значительными боттлнеками в вычислительных ресурсах и памяти, что ограничивает их применение на устройствах с ограниченными ресурсами. Одной из популярных методик улучшения производительности является сжатие моделей, включающее в себя техники, такие как градиентный жесты и квантизация. Однако большинство подобных подходов опираются на универсальные грубой приближенных, не учитывая различия в архитектуре и характеристиках производительности. Таким образом, существует необходимость в разработке более точных, адаптивных систем, которые могут анализировать и использовать специфические характеристики моделей для оптимального сжатия. ## Метод ProfilingAgent представляет собой профилирующую систему, основанную на логике агентного управления, которая использует крупные лингвистические модели (LLMs) для автоматизации сжатия моделей с помощью структурированного жеста и динамической квантизации. Этот подход включает создание модульной системы, включающей в себя несколько агентов, которые анализируют как статические метрики (например, MACs и количество параметров), так и динамические сигналы (например, задержки и объем памяти). Многоагентная система строит производительность модели, создавая архитектурно-специфические стратегии сжатия. Благодаря этому, профилирующий агент может адаптировать свои решения к конкретным областям узкости в архитектуре, что является отличительным признаком по отношению к базовым методам, основанным на грубых грубой приближенных. ## Результаты Проведенные эксперименты показали высокую эффективность ProfilingAgent на таких наборах данных, как ImageNet-1K, CIFAR-10 и CIFAR-100. Были протестированы модели, такие как ResNet-101, ViT-B/16, Swin-B и DeiT-B/16. Результаты показали, что профилирующий агент удалось сохранить конкурентную точность (примерно 1% потерь на ImageNet-1K), при этом улучшив производительность на более мелких наборах данных (до 2% на ViT-B/16). Для квантизации были получены оптимизации памяти до 74% с минимальными потерями точности (<0,5%). Была также достигнута до 1,74-кратная ускорение производительности вывода. Контрольные эксперименты с GPT-4o и GPT-4-Turbo подтвердили важность качества логики лингвистических моделей для работы профилирующих систем. ## Значимость Профилирующая система ProfilingAgent может быть применена в различных областях, где требуется оптимальное сжатие моделей, включая мобильные устройства, облачные сервисы и реальному времени процессы. Основные преимущества этого подхода заключают
Annotation:
Foundation models face growing compute and memory bottlenecks, hindering deployment on resource-limited platforms. While compression techniques such as pruning and quantization are widely used, most rely on uniform heuristics that ignore architectural and runtime heterogeneity. Profiling tools expose per-layer latency, memory, and compute cost, yet are rarely integrated into automated pipelines. We propose ProfilingAgent, a profiling-guided, agentic approach that uses large language models (LLMs...
ID: 2509.05584v1 cs.LG, cs.CV, cs.PF