Accelerating Local AI on Consumer GPUs: A Hardware-Aware Dynamic Strategy for YOLOv10s

2509.07928v1 cs.CV, cs.AI, cs.LG 2025-09-11
Авторы:

Mahmudul Islam Masum, Miad Islam, Arif I. Sarwat

Резюме на русском

## Контекст Со вслед за развитием локальных систем искусственного интеллекта (AI), возрастает значимость их эффективного развертывания на потребительском железе. Особенно актуальной становится проблема улучшения производительности сложных моделей, таких как YOLOv10s, на устройствах с ограниченными ресурсами, таких как ноутбуки с GPU NVIDIA RTX 4060. Несмотря на то, что модели YOLOv10s обещают реального времени, их настоящая производительность в реальных условиях значительно меньше, что обусловлено ограниченными возможностями таких устройств. Этот вопрос становится критичным для реального применения, так как многие пользователи зависят от ресурсо-ограниченных систем. Таким образом, существует необходимость в разработке более эффективных стратегий реализации AI на потребительском железе. Цель этого исследования — обеспечить более быструю и эффективную работу AI-моделей на устройствах с ограниченными ресурсами, сохранив высокую точность. ## Метод Разработанная стратегия, названная Two-Pass Adaptive Inference, представляет собой модельно-независимое решение, которое не требует изменений в архитектуре модели YOLOv10s. Основной идеей является двухэтапный подход, включающий в себя первый проход с низким разрешением для быстрого определения объектов и второй проход с высоким разрешением только когда необходима точность высокой уверенности. В процессе исследования мы осуществляем сравнительный анализ различных стратегий, включая early-exit и resolution-adaptive routing, чтобы определить их производительность и точность в разных условиях. Основной методологией является адаптивная инференсная стратегия, которая автоматически регулирует разрешение изображения на основе обнаруженных объектов, чтобы сохранить баланс между производительностью и точностью. ## Результаты Мы проводим эксперименты на датасете COCO с 5000 изображениями, сравнивая нашу стратегию с PyTorch Early-Exit baseline. Наша стратегия Two-Pass Adaptive Inference демонстрирует значительный прирост скорости — 1.85x — с минимальным потерями mAP (5.51%). Этот результат показывает, что наши модификации могут быстрее и эффективнее работать на ресурсо-ограниченных устройствах, в то же время сохраняя большую часть точности. Таким образом, мы доказываем, что модели YOLOv10s могут быть эффективно развернуты на потребительском железе, не требуя высокой мощности GPU. Такие результаты подтверждают потенциал нашей стратегии для реального времени AI-развертываний в реальных условиях пользователей. ## Значимость Мы убедились в том, что наш подход может быть применен в различных областях, где необходимы реальность AI-решения на пот

Abstract

As local AI grows in popularity, there is a critical gap between the benchmark performance of object detectors and their practical viability on consumer-grade hardware. While models like YOLOv10s promise real-time speeds, these metrics are typically achieved on high-power, desktop-class GPUs. This paper reveals that on resource-constrained systems, such as laptops with RTX 4060 GPUs, performance is not compute-bound but is instead dominated by system-level bottlenecks, as illustrated by a simple bottleneck test. To overcome this hardware-level constraint, we introduce a Two-Pass Adaptive Inference algorithm, a model-independent approach that requires no architectural changes. This study mainly focuses on adaptive inference strategies and undertakes a comparative analysis of architectural early-exit and resolution-adaptive routing, highlighting their respective trade-offs within a unified evaluation framework. The system uses a fast, low-resolution pass and only escalates to a high-resolution model pass when detection confidence is low. On a 5000-image COCO dataset, our method achieves a 1.85x speedup over a PyTorch Early-Exit baseline, with a modest mAP loss of 5.51%. This work provides a practical and reproducible blueprint for deploying high-performance, real-time AI on consumer-grade devices by shifting the focus from pure model optimization to hardware-aware inference strategies that maximize throughput.

Ссылки и действия