Accelerating Local AI on Consumer GPUs: A Hardware-Aware Dynamic Strategy for YOLOv10s
2509.07928v1
cs.CV, cs.AI, cs.LG
2025-09-11
Авторы:
Mahmudul Islam Masum, Miad Islam, Arif I. Sarwat
Резюме на русском
## Контекст
Со вслед за развитием локальных систем искусственного интеллекта (AI), возрастает значимость их эффективного развертывания на потребительском железе. Особенно актуальной становится проблема улучшения производительности сложных моделей, таких как YOLOv10s, на устройствах с ограниченными ресурсами, таких как ноутбуки с GPU NVIDIA RTX 4060. Несмотря на то, что модели YOLOv10s обещают реального времени, их настоящая производительность в реальных условиях значительно меньше, что обусловлено ограниченными возможностями таких устройств. Этот вопрос становится критичным для реального применения, так как многие пользователи зависят от ресурсо-ограниченных систем. Таким образом, существует необходимость в разработке более эффективных стратегий реализации AI на потребительском железе. Цель этого исследования — обеспечить более быструю и эффективную работу AI-моделей на устройствах с ограниченными ресурсами, сохранив высокую точность.
## Метод
Разработанная стратегия, названная Two-Pass Adaptive Inference, представляет собой модельно-независимое решение, которое не требует изменений в архитектуре модели YOLOv10s. Основной идеей является двухэтапный подход, включающий в себя первый проход с низким разрешением для быстрого определения объектов и второй проход с высоким разрешением только когда необходима точность высокой уверенности. В процессе исследования мы осуществляем сравнительный анализ различных стратегий, включая early-exit и resolution-adaptive routing, чтобы определить их производительность и точность в разных условиях. Основной методологией является адаптивная инференсная стратегия, которая автоматически регулирует разрешение изображения на основе обнаруженных объектов, чтобы сохранить баланс между производительностью и точностью.
## Результаты
Мы проводим эксперименты на датасете COCO с 5000 изображениями, сравнивая нашу стратегию с PyTorch Early-Exit baseline. Наша стратегия Two-Pass Adaptive Inference демонстрирует значительный прирост скорости — 1.85x — с минимальным потерями mAP (5.51%). Этот результат показывает, что наши модификации могут быстрее и эффективнее работать на ресурсо-ограниченных устройствах, в то же время сохраняя большую часть точности. Таким образом, мы доказываем, что модели YOLOv10s могут быть эффективно развернуты на потребительском железе, не требуя высокой мощности GPU. Такие результаты подтверждают потенциал нашей стратегии для реального времени AI-развертываний в реальных условиях пользователей.
## Значимость
Мы убедились в том, что наш подход может быть применен в различных областях, где необходимы реальность AI-решения на пот
Abstract
As local AI grows in popularity, there is a critical gap between the
benchmark performance of object detectors and their practical viability on
consumer-grade hardware. While models like YOLOv10s promise real-time speeds,
these metrics are typically achieved on high-power, desktop-class GPUs. This
paper reveals that on resource-constrained systems, such as laptops with RTX
4060 GPUs, performance is not compute-bound but is instead dominated by
system-level bottlenecks, as illustrated by a simple bottleneck test. To
overcome this hardware-level constraint, we introduce a Two-Pass Adaptive
Inference algorithm, a model-independent approach that requires no
architectural changes. This study mainly focuses on adaptive inference
strategies and undertakes a comparative analysis of architectural early-exit
and resolution-adaptive routing, highlighting their respective trade-offs
within a unified evaluation framework. The system uses a fast, low-resolution
pass and only escalates to a high-resolution model pass when detection
confidence is low. On a 5000-image COCO dataset, our method achieves a 1.85x
speedup over a PyTorch Early-Exit baseline, with a modest mAP loss of 5.51%.
This work provides a practical and reproducible blueprint for deploying
high-performance, real-time AI on consumer-grade devices by shifting the focus
from pure model optimization to hardware-aware inference strategies that
maximize throughput.
Ссылки и действия
Дополнительные ресурсы: