RAM-NAS: Resource-aware Multiobjective Neural Architecture Search Method for Robot Vision Tasks
2509.20688v1
cs.RO, cs.CV
2025-09-27
Авторы:
Shouren Mao, Minghao Qin, Wei Dong, Huajian Liu, Yongzhuo Gao
Резюме на русском
## Контекст
Исследование построения моделей глубокого обучения для задач робототехнического зрения стало важной областью, так как эти модели должны обладать высокой точностью и низким потреблением ресурсов для устройств с ограниченными возможностями. Однако существующие подходы к Neural Architecture Search (NAS) часто не учитывают реальность работы на робототехнических устройствах. Недостаток учета ограничений по ресурсам приводит к моделям, которые неэффективно используются в реальных условиях. Таким образом, необходим подход, который учитывает ресурсы и улучшает процесс поиска моделей для робототехнических задач.
## Метод
RAM-NAS является первым resource-aware multi-objective NAS-методом, сочетающим в себе улучшение супернет-предобучения и ресурсно-ориентированность при работе на робототехнических устройствах. Основной инновацией является идея subnets mutual distillation, где все subnets, выбираемые по сандвичному правилу, обмениваются знаниями друг с другом. Также включен Decoupled Knowledge Distillation (DKD) loss для улучшения distillation-based training. Для ускорения поиска с учетом характеристик робототехнических устройств, вводятся Latency Surrogate predictors, основанные на данных с трех типов робототехнического оборудования. Эти модели позволяют приближенно оценивать время выполнения на робототехнических устройствах во время поиска. Это позволяет объединять общие цели — модельную точность и низкую задержку — в единое multi-objective optimization.
## Результаты
В экспериментах были проверены методы на задачах обработки изображений, включая сегментацию и распознавание объектов. Модели RAM-NAS достигли топ-1 accuracy от 76.7% до 81.4% на ImageNet. Была проверена эффективность на моделях для робототехнических задач, таких как локализация и окружение, где использовались данные с трех типов робототехнического оборудования. В результате RAM-NAS привело к существенному сокращению latency на всех трех типах устройств, по сравнению с MobileNetv3-based methods. Это подтвердило эффективность в реальных условиях, когда размер модели и производительность имеют решающее значение.
## Значимость
Предложенный подход оказался полезным в сферах применения, где требуется быстрая и точная обработка данных на устройствах с ограниченными ресурсами, включая робототехнические системы. Он обеспечивает лучшую эффективность и уменьшает затраты на ресурсы, что критично для применения на робототехнических устройствах. Учтя ресурсы на этапе поиска, RAM-NAS позволяет быстрее и эффективнее находить модели, которые могут быть применены в реальных условиях.
## Выводы
Результаты показали, что RAM-NAS является эффективным методом для поиска моделей, которые сочетают высокую точность и низкую задержку для робототе
Abstract
Neural architecture search (NAS) has shown great promise in automatically
designing lightweight models. However, conventional approaches are insufficient
in training the supernet and pay little attention to actual robot hardware
resources. To meet such challenges, we propose RAM-NAS, a resource-aware
multi-objective NAS method that focuses on improving the supernet pretrain and
resource-awareness on robot hardware devices. We introduce the concept of
subnets mutual distillation, which refers to mutually distilling all subnets
sampled by the sandwich rule. Additionally, we utilize the Decoupled Knowledge
Distillation (DKD) loss to enhance logits distillation performance. To expedite
the search process with consideration for hardware resources, we used data from
three types of robotic edge hardware to train Latency Surrogate predictors.
These predictors facilitated the estimation of hardware inference latency
during the search phase, enabling a unified multi-objective evolutionary search
to balance model accuracy and latency trade-offs. Our discovered model family,
RAM-NAS models, can achieve top-1 accuracy ranging from 76.7% to 81.4% on
ImageNet. In addition, the resource-aware multi-objective NAS we employ
significantly reduces the model's inference latency on edge hardware for
robots. We conducted experiments on downstream tasks to verify the scalability
of our methods. The inference time for detection and segmentation is reduced on
all three hardware types compared to MobileNetv3-based methods. Our work fills
the gap in NAS for robot hardware resource-aware.
Ссылки и действия
Дополнительные ресурсы: