Uncertainty-aware Test-Time Training (UT$^3$) for Efficient On-the-fly Domain Adaptive Dense Regression

2509.03012v1 cs.RO, cs.CV 2025-09-05

Авторы:

Uddeshya Upadhyay

Резюме на русском

## Контекст Глубокие нейронные сети (DNNs) становятся все более популярными в автономных системах, однако они сталкиваются с проблемой плохого генерализационного качества при возникновении изменений домена. Это является особенно критической проблемой для автономных систем, развернутых в реальном мире, которые должны адаптироваться к непредсказуемому и продолжительному временному диапазону изменений окружения. Недавние исследования посвящены тестированию во время выполнения (test-time training), которое предлагает адаптировать модель нейронных сетей к новой тестовой распределению в реальном времени, используя самостоятельное супервизирование. Тем не менее, эти технологии приводят к существенному увеличению времени выполнения ввиду того, что необходимо выполнить несколько проходов перед и после оптимизации модели для каждого тестового примера. Это нежелательно для реальных проблем в области робототехники, где модели должны работать на ограниченных ресурсах и быстро отвечать. Наша работа предлагает рамку (UT$^3$), которая использует test-time training для повышения производительности в условиях непредсказуемых изменений домена, при этом существенно сокращая время выполнения и делая модели пригодными для применения в реальном мире. ## Метод Мы предлагаем новую архитектуру UT$^3$, которая использует некоторые особенности test-time training, но с учетом уровня неопределенности в данных. Мы используем методы независимого от тестовых данных (task-agnostic), которые используют представления сети до выхода, чтобы сделать процесс оптимизации более эффективным. В частности, мы предлагаем адаптивную стратегию, которая определяет, какие ключевые кадры (keyframes) должны быть использованы для обучения в течение определенного времени. Эта стратегия позволяет снизить частоту обновления модели, например, в случаях, когда изменения домена менее значительны. Мы также вводим новую многоугольниковую структуру для селективной оптимизации, которая позволяет гибко регулировать процесс обучения. Это расширяет возможности test-time training, делая его более производительным в реальных условиях. ## Результаты Мы проверили нашу модель на задаче монокулярной оценки глубины (monocular depth estimation). Мы использовали стандартные датасеты для этих задач, такие как KITTI и NYU Depth V2. Выполнялись эксперименты с различными уровнями непредсказуемости в данных. Наши результаты показали, что UT$^3$ сокращает время выполнения на 40-50% по сравнению с традиционным test-time training, при этом сохраняя высокую точность на тестах. Кроме того, мы показали, что наша модель устойчива к изменениям домена и показывает более равномерный поток вывода при изменении условий. ## Значимость UT$^3$

Abstract

Deep neural networks (DNNs) are increasingly being used in autonomous systems. However, DNNs do not generalize well to domain shift. Adapting to a continuously evolving environment is a safety-critical challenge inevitably faced by all autonomous systems deployed to the real world. Recent work on test-time training proposes methods that adapt to a new test distribution on the fly by optimizing the DNN model for each test input using self-supervision. However, these techniques result in a sharp increase in inference time as multiple forward and backward passes are required for a single test sample (for test-time training) before finally making the prediction based on the fine-tuned features. This is undesirable for real-world robotics applications where these models may be deployed to resource constraint hardware with strong latency requirements. In this work, we propose a new framework (called UT$^3$) that leverages test-time training for improved performance in the presence of continuous domain shift while also decreasing the inference time, making it suitable for real-world applications. Our method proposes an uncertainty-aware self-supervision task for efficient test-time training that leverages the quantified uncertainty to selectively apply the training leading to sharp improvements in the inference time while performing comparably to standard test-time training protocol. Our proposed protocol offers a continuous setting to identify the selected keyframes, allowing the end-user to control how often to apply test-time training. We demonstrate the efficacy of our method on a dense regression task - monocular depth estimation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Uncertainty-aware Test-Time Training (UT$^3$) for Efficient On-the-fly Domain Adaptive Dense Regression

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Generated Human Videos to Physically Plausible Robot Trajectories

Sign Language Recognition using Bidirectional Reservoir Computing

FOM-Nav: Frontier-Object Maps for Object Goal Navigation

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer

Estimation of Kinematic Motion from Dashcam Footage

Навигация