ProfilingAgent: Profiling-Guided Agentic Reasoning for Adaptive Model Optimization

2509.05584v1 cs.LG, cs.CV, cs.PF 2025-09-10
Авторы:

Sadegh Jafari, Aishwarya Sarkar, Mohiuddin Bilwal, Ali Jannesari

Резюме на русском

## Контекст Современные фундаментальные модели сталкиваются с значительными боттлнеками в вычислительных ресурсах и памяти, что ограничивает их применение на устройствах с ограниченными ресурсами. Одной из популярных методик улучшения производительности является сжатие моделей, включающее в себя техники, такие как градиентный жесты и квантизация. Однако большинство подобных подходов опираются на универсальные грубой приближенных, не учитывая различия в архитектуре и характеристиках производительности. Таким образом, существует необходимость в разработке более точных, адаптивных систем, которые могут анализировать и использовать специфические характеристики моделей для оптимального сжатия. ## Метод ProfilingAgent представляет собой профилирующую систему, основанную на логике агентного управления, которая использует крупные лингвистические модели (LLMs) для автоматизации сжатия моделей с помощью структурированного жеста и динамической квантизации. Этот подход включает создание модульной системы, включающей в себя несколько агентов, которые анализируют как статические метрики (например, MACs и количество параметров), так и динамические сигналы (например, задержки и объем памяти). Многоагентная система строит производительность модели, создавая архитектурно-специфические стратегии сжатия. Благодаря этому, профилирующий агент может адаптировать свои решения к конкретным областям узкости в архитектуре, что является отличительным признаком по отношению к базовым методам, основанным на грубых грубой приближенных. ## Результаты Проведенные эксперименты показали высокую эффективность ProfilingAgent на таких наборах данных, как ImageNet-1K, CIFAR-10 и CIFAR-100. Были протестированы модели, такие как ResNet-101, ViT-B/16, Swin-B и DeiT-B/16. Результаты показали, что профилирующий агент удалось сохранить конкурентную точность (примерно 1% потерь на ImageNet-1K), при этом улучшив производительность на более мелких наборах данных (до 2% на ViT-B/16). Для квантизации были получены оптимизации памяти до 74% с минимальными потерями точности (<0,5%). Была также достигнута до 1,74-кратная ускорение производительности вывода. Контрольные эксперименты с GPT-4o и GPT-4-Turbo подтвердили важность качества логики лингвистических моделей для работы профилирующих систем. ## Значимость Профилирующая система ProfilingAgent может быть применена в различных областях, где требуется оптимальное сжатие моделей, включая мобильные устройства, облачные сервисы и реальному времени процессы. Основные преимущества этого подхода заключают

Abstract

Foundation models face growing compute and memory bottlenecks, hindering deployment on resource-limited platforms. While compression techniques such as pruning and quantization are widely used, most rely on uniform heuristics that ignore architectural and runtime heterogeneity. Profiling tools expose per-layer latency, memory, and compute cost, yet are rarely integrated into automated pipelines. We propose ProfilingAgent, a profiling-guided, agentic approach that uses large language models (LLMs) to automate compression via structured pruning and post-training dynamic quantization. Our modular multi-agent system reasons over static metrics (MACs, parameter counts) and dynamic signals (latency, memory) to design architecture-specific strategies. Unlike heuristic baselines, ProfilingAgent tailors layer-wise decisions to bottlenecks. Experiments on ImageNet-1K, CIFAR-10, and CIFAR-100 with ResNet-101, ViT-B/16, Swin-B, and DeiT-B/16 show pruning maintains competitive or improved accuracy (about 1% drop on ImageNet-1K, +2% gains for ViT-B/16 on smaller datasets), while quantization achieves up to 74% memory savings with <0.5% accuracy loss. Our quantization also yields consistent inference speedups of up to 1.74 times faster. Comparative studies with GPT-4o and GPT-4-Turbo highlight the importance of LLM reasoning quality for iterative pruning. These results establish agentic systems as scalable solutions for profiling-guided model optimization.

Ссылки и действия