TCUQ: Single-Pass Uncertainty Quantification from Temporal Consistency with Streaming Conformal Calibration for TinyML

2508.12905v1 cs.LG, cs.CL 2025-08-20
Авторы:

Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh

Резюме на русском

#### Контекст Текущие тенденции в развитии смарт-устройств и интернета вещей (IoT) привели к появлению микроконтроллеров с ограниченными ресурсами, которые требуют эффективных методов м MLOps. Одной из проблем в этой области является необходимость постоянного мониторинга моделей Машинного Обучения для обеспечения их надежности и точности в реальном времени. Существующие подходы, такие как early exits и deep ensembles, требуют значительных вычислительных ресурсов или дополнительных вычислений, что не всегда применимо для малоразмерных устройств. Это мотивирует развитие методов, которые обеспечивают непрерывный мониторинг моделей с минимальным потреблением ресурсов и высокой производительностью. #### Метод Метод TCUQ (Temporal Consistency for Uncertainty Quantification) основывается на использовании темпоральной консистенции в качестве источника информации для оценки неопределенности. Метод работает в режиме одного прохода и не требует якорных меток для каждого примера. Идея заключается в том, чтобы использовать характеристики структуры данных в течение короткого временного окна для построения бюджетного правила принятия решений. Для этого применяется структура буфера размером $W$ и метод простого обновления в режиме $O(1)$. Для сериализации результатов используется потоковая модель калибровки, которая преобразует полученные оценки неопределенности в правило принятия решений с фиксированным бюджетом (accept/abstain). Это позволяет достичь высокой точности в определении достоверности вывода без дополнительных вычислительных затрат. #### Результаты Результаты экспериментов показывают, что TCUQ эффективен в сравнении с современными подходами. Он применялся к малоразмерным устройствам с ограниченной памятью и потреблял значительно меньший объем ресурсов (около 50-60% меньше и около 30-45% быстрее) в сравнении с early exits и deep ensembles. Были проведены испытания на микроконтроллерах с килобайтным объемом памяти, где TCUQ показал себя как эффективный инструмент для мониторинга моделей. Особое внимание уделено оценке достоверности в условиях потоковых данных с повреждениями. TCUQ достиг значительного улучшения в обнаружении выпадения точности модели (до 3-7 AUPRC) и достиг 0.86 AUPRC при высоких уровнях повреждений. Для детекции неисправностей он достиг 0.92 AUROC. #### Значимость TCUQ предоставляет практический и ресурсосберегающий подход к мониторингу моделей в TinyML. Он отличается высокой скоростью работы и небольшим расходом ресурсов, что делает его применимым для экономии памяти и процессорных мощностей на микроконтроллерах. Этот подход может быть применен в различных областях, включая IoT-устройства,

Abstract

We introduce TCUQ, a single pass, label free uncertainty monitor for streaming TinyML that converts short horizon temporal consistency captured via lightweight signals on posteriors and features into a calibrated risk score with an O(W ) ring buffer and O(1) per step updates. A streaming conformal layer turns this score into a budgeted accept/abstain rule, yielding calibrated behavior without online labels or extra forward passes. On microcontrollers, TCUQ fits comfortably on kilobyte scale devices and reduces footprint and latency versus early exit and deep ensembles (typically about 50 to 60% smaller and about 30 to 45% faster), while methods of similar accuracy often run out of memory. Under corrupted in distribution streams, TCUQ improves accuracy drop detection by 3 to 7 AUPRC points and reaches up to 0.86 AUPRC at high severities; for failure detection it attains up to 0.92 AUROC. These results show that temporal consistency, coupled with streaming conformal calibration, provides a practical and resource efficient foundation for on device monitoring in TinyML.

Ссылки и действия