RAM-NAS: Resource-aware Multiobjective Neural Architecture Search Method for Robot Vision Tasks

2509.20688v1 cs.RO, cs.CV 2025-09-27
Авторы:

Shouren Mao, Minghao Qin, Wei Dong, Huajian Liu, Yongzhuo Gao

Резюме на русском

## Контекст Исследование построения моделей глубокого обучения для задач робототехнического зрения стало важной областью, так как эти модели должны обладать высокой точностью и низким потреблением ресурсов для устройств с ограниченными возможностями. Однако существующие подходы к Neural Architecture Search (NAS) часто не учитывают реальность работы на робототехнических устройствах. Недостаток учета ограничений по ресурсам приводит к моделям, которые неэффективно используются в реальных условиях. Таким образом, необходим подход, который учитывает ресурсы и улучшает процесс поиска моделей для робототехнических задач. ## Метод RAM-NAS является первым resource-aware multi-objective NAS-методом, сочетающим в себе улучшение супернет-предобучения и ресурсно-ориентированность при работе на робототехнических устройствах. Основной инновацией является идея subnets mutual distillation, где все subnets, выбираемые по сандвичному правилу, обмениваются знаниями друг с другом. Также включен Decoupled Knowledge Distillation (DKD) loss для улучшения distillation-based training. Для ускорения поиска с учетом характеристик робототехнических устройств, вводятся Latency Surrogate predictors, основанные на данных с трех типов робототехнического оборудования. Эти модели позволяют приближенно оценивать время выполнения на робототехнических устройствах во время поиска. Это позволяет объединять общие цели — модельную точность и низкую задержку — в единое multi-objective optimization. ## Результаты В экспериментах были проверены методы на задачах обработки изображений, включая сегментацию и распознавание объектов. Модели RAM-NAS достигли топ-1 accuracy от 76.7% до 81.4% на ImageNet. Была проверена эффективность на моделях для робототехнических задач, таких как локализация и окружение, где использовались данные с трех типов робототехнического оборудования. В результате RAM-NAS привело к существенному сокращению latency на всех трех типах устройств, по сравнению с MobileNetv3-based methods. Это подтвердило эффективность в реальных условиях, когда размер модели и производительность имеют решающее значение. ## Значимость Предложенный подход оказался полезным в сферах применения, где требуется быстрая и точная обработка данных на устройствах с ограниченными ресурсами, включая робототехнические системы. Он обеспечивает лучшую эффективность и уменьшает затраты на ресурсы, что критично для применения на робототехнических устройствах. Учтя ресурсы на этапе поиска, RAM-NAS позволяет быстрее и эффективнее находить модели, которые могут быть применены в реальных условиях. ## Выводы Результаты показали, что RAM-NAS является эффективным методом для поиска моделей, которые сочетают высокую точность и низкую задержку для робототе

Abstract

Neural architecture search (NAS) has shown great promise in automatically designing lightweight models. However, conventional approaches are insufficient in training the supernet and pay little attention to actual robot hardware resources. To meet such challenges, we propose RAM-NAS, a resource-aware multi-objective NAS method that focuses on improving the supernet pretrain and resource-awareness on robot hardware devices. We introduce the concept of subnets mutual distillation, which refers to mutually distilling all subnets sampled by the sandwich rule. Additionally, we utilize the Decoupled Knowledge Distillation (DKD) loss to enhance logits distillation performance. To expedite the search process with consideration for hardware resources, we used data from three types of robotic edge hardware to train Latency Surrogate predictors. These predictors facilitated the estimation of hardware inference latency during the search phase, enabling a unified multi-objective evolutionary search to balance model accuracy and latency trade-offs. Our discovered model family, RAM-NAS models, can achieve top-1 accuracy ranging from 76.7% to 81.4% on ImageNet. In addition, the resource-aware multi-objective NAS we employ significantly reduces the model's inference latency on edge hardware for robots. We conducted experiments on downstream tasks to verify the scalability of our methods. The inference time for detection and segmentation is reduced on all three hardware types compared to MobileNetv3-based methods. Our work fills the gap in NAS for robot hardware resource-aware.

Ссылки и действия