Uncertainty-aware Test-Time Training (UT$^3$) for Efficient On-the-fly Domain Adaptive Dense Regression
2509.03012v1
cs.RO, cs.CV
2025-09-05
Авторы:
Uddeshya Upadhyay
Резюме на русском
## Контекст
Глубокие нейронные сети (DNNs) становятся все более популярными в автономных системах, однако они сталкиваются с проблемой плохого генерализационного качества при возникновении изменений домена. Это является особенно критической проблемой для автономных систем, развернутых в реальном мире, которые должны адаптироваться к непредсказуемому и продолжительному временному диапазону изменений окружения. Недавние исследования посвящены тестированию во время выполнения (test-time training), которое предлагает адаптировать модель нейронных сетей к новой тестовой распределению в реальном времени, используя самостоятельное супервизирование. Тем не менее, эти технологии приводят к существенному увеличению времени выполнения ввиду того, что необходимо выполнить несколько проходов перед и после оптимизации модели для каждого тестового примера. Это нежелательно для реальных проблем в области робототехники, где модели должны работать на ограниченных ресурсах и быстро отвечать. Наша работа предлагает рамку (UT$^3$), которая использует test-time training для повышения производительности в условиях непредсказуемых изменений домена, при этом существенно сокращая время выполнения и делая модели пригодными для применения в реальном мире.
## Метод
Мы предлагаем новую архитектуру UT$^3$, которая использует некоторые особенности test-time training, но с учетом уровня неопределенности в данных. Мы используем методы независимого от тестовых данных (task-agnostic), которые используют представления сети до выхода, чтобы сделать процесс оптимизации более эффективным. В частности, мы предлагаем адаптивную стратегию, которая определяет, какие ключевые кадры (keyframes) должны быть использованы для обучения в течение определенного времени. Эта стратегия позволяет снизить частоту обновления модели, например, в случаях, когда изменения домена менее значительны. Мы также вводим новую многоугольниковую структуру для селективной оптимизации, которая позволяет гибко регулировать процесс обучения. Это расширяет возможности test-time training, делая его более производительным в реальных условиях.
## Результаты
Мы проверили нашу модель на задаче монокулярной оценки глубины (monocular depth estimation). Мы использовали стандартные датасеты для этих задач, такие как KITTI и NYU Depth V2. Выполнялись эксперименты с различными уровнями непредсказуемости в данных. Наши результаты показали, что UT$^3$ сокращает время выполнения на 40-50% по сравнению с традиционным test-time training, при этом сохраняя высокую точность на тестах. Кроме того, мы показали, что наша модель устойчива к изменениям домена и показывает более равномерный поток вывода при изменении условий.
## Значимость
UT$^3$
Abstract
Deep neural networks (DNNs) are increasingly being used in autonomous
systems. However, DNNs do not generalize well to domain shift. Adapting to a
continuously evolving environment is a safety-critical challenge inevitably
faced by all autonomous systems deployed to the real world. Recent work on
test-time training proposes methods that adapt to a new test distribution on
the fly by optimizing the DNN model for each test input using self-supervision.
However, these techniques result in a sharp increase in inference time as
multiple forward and backward passes are required for a single test sample (for
test-time training) before finally making the prediction based on the
fine-tuned features. This is undesirable for real-world robotics applications
where these models may be deployed to resource constraint hardware with strong
latency requirements. In this work, we propose a new framework (called UT$^3$)
that leverages test-time training for improved performance in the presence of
continuous domain shift while also decreasing the inference time, making it
suitable for real-world applications. Our method proposes an uncertainty-aware
self-supervision task for efficient test-time training that leverages the
quantified uncertainty to selectively apply the training leading to sharp
improvements in the inference time while performing comparably to standard
test-time training protocol. Our proposed protocol offers a continuous setting
to identify the selected keyframes, allowing the end-user to control how often
to apply test-time training. We demonstrate the efficacy of our method on a
dense regression task - monocular depth estimation.
Ссылки и действия
Дополнительные ресурсы: