ProfilingAgent: Profiling-Guided Agentic Reasoning for Adaptive Model Optimization
2509.05584v1
cs.LG, cs.CV, cs.PF
2025-09-10
Авторы:
Sadegh Jafari, Aishwarya Sarkar, Mohiuddin Bilwal, Ali Jannesari
Резюме на русском
## Контекст
Современные фундаментальные модели сталкиваются с значительными боттлнеками в вычислительных ресурсах и памяти, что ограничивает их применение на устройствах с ограниченными ресурсами. Одной из популярных методик улучшения производительности является сжатие моделей, включающее в себя техники, такие как градиентный жесты и квантизация. Однако большинство подобных подходов опираются на универсальные грубой приближенных, не учитывая различия в архитектуре и характеристиках производительности. Таким образом, существует необходимость в разработке более точных, адаптивных систем, которые могут анализировать и использовать специфические характеристики моделей для оптимального сжатия.
## Метод
ProfilingAgent представляет собой профилирующую систему, основанную на логике агентного управления, которая использует крупные лингвистические модели (LLMs) для автоматизации сжатия моделей с помощью структурированного жеста и динамической квантизации. Этот подход включает создание модульной системы, включающей в себя несколько агентов, которые анализируют как статические метрики (например, MACs и количество параметров), так и динамические сигналы (например, задержки и объем памяти). Многоагентная система строит производительность модели, создавая архитектурно-специфические стратегии сжатия. Благодаря этому, профилирующий агент может адаптировать свои решения к конкретным областям узкости в архитектуре, что является отличительным признаком по отношению к базовым методам, основанным на грубых грубой приближенных.
## Результаты
Проведенные эксперименты показали высокую эффективность ProfilingAgent на таких наборах данных, как ImageNet-1K, CIFAR-10 и CIFAR-100. Были протестированы модели, такие как ResNet-101, ViT-B/16, Swin-B и DeiT-B/16. Результаты показали, что профилирующий агент удалось сохранить конкурентную точность (примерно 1% потерь на ImageNet-1K), при этом улучшив производительность на более мелких наборах данных (до 2% на ViT-B/16). Для квантизации были получены оптимизации памяти до 74% с минимальными потерями точности (<0,5%). Была также достигнута до 1,74-кратная ускорение производительности вывода. Контрольные эксперименты с GPT-4o и GPT-4-Turbo подтвердили важность качества логики лингвистических моделей для работы профилирующих систем.
## Значимость
Профилирующая система ProfilingAgent может быть применена в различных областях, где требуется оптимальное сжатие моделей, включая мобильные устройства, облачные сервисы и реальному времени процессы. Основные преимущества этого подхода заключают
Abstract
Foundation models face growing compute and memory bottlenecks, hindering
deployment on resource-limited platforms. While compression techniques such as
pruning and quantization are widely used, most rely on uniform heuristics that
ignore architectural and runtime heterogeneity. Profiling tools expose
per-layer latency, memory, and compute cost, yet are rarely integrated into
automated pipelines. We propose ProfilingAgent, a profiling-guided, agentic
approach that uses large language models (LLMs) to automate compression via
structured pruning and post-training dynamic quantization. Our modular
multi-agent system reasons over static metrics (MACs, parameter counts) and
dynamic signals (latency, memory) to design architecture-specific strategies.
Unlike heuristic baselines, ProfilingAgent tailors layer-wise decisions to
bottlenecks. Experiments on ImageNet-1K, CIFAR-10, and CIFAR-100 with
ResNet-101, ViT-B/16, Swin-B, and DeiT-B/16 show pruning maintains competitive
or improved accuracy (about 1% drop on ImageNet-1K, +2% gains for ViT-B/16 on
smaller datasets), while quantization achieves up to 74% memory savings with
<0.5% accuracy loss. Our quantization also yields consistent inference speedups
of up to 1.74 times faster. Comparative studies with GPT-4o and GPT-4-Turbo
highlight the importance of LLM reasoning quality for iterative pruning. These
results establish agentic systems as scalable solutions for profiling-guided
model optimization.
Ссылки и действия
Дополнительные ресурсы: