Dual-Stage Reweighted MoE for Long-Tailed Egocentric Mistake Detection

2509.12990v1 cs.CV, cs.AI, cs.LG 2025-09-18

Авторы:

Boyu Han, Qianqian Xu, Shilong Bao, Zhiyong Yang, Sicong Li, Qingming Huang

Резюме на русском

## Контекст В современной аналитике данных, определение ошибочных действий пользователя с помощью видеоданных получает все большее внимание. Особенно актуальным становится выявление недостатков при выполнении рутинных задач, когда ошибки часто являются неочевидными и редкими. Одной из трудностей в этой области является неизбежное несбалансированное распределение классов, когда редкие ошибки скрываются под значительным количеством нормальных действий. Модели, использующие стандартные кросс-энтропийные функции потерь, часто не могут эффективно справиться с этой проблемой, что приводит к недостаточной качественной оценке редких классов. Наша мотивация заключается в разработке метода, который при sota будет обеспечивать точную оценку редких ошибочных действий. ## Метод Мы предлагаем Dual-Stage Reweighted Mixture-of-Experts (DR-MoE), который состоит из двух этапов: 1. **Формирование экспертных модулей**: - В первом этапе используется модель ViViT, которая в качестве фиксированного эксперта забирает фичу из видеоданных. Дополнительно, эта модель подвергается LoRA-тюнингу для улучшения точности в сложных условиях. - Две полученные многомерные матрицы-выхода объединяются в feature-level expert module, который обеспечивает взаимодействие этих слоёв. 2. **Обучение классификаторов**: - На втором этапе обучаются три классификатора, каждый с весовым потерям: - **Reweighted Cross-Entropy Loss** — для уменьшения несбалансированности классов. - **AUC Loss** — для улучшения точности ранжирования, особенно при неравномерных данных. - **Label-Aware Loss with Sharpness-Aware Minimization** — для повышения калибровки и общей устойчивости. - Результаты этих классификаторов объединяются в classification-level expert module, который устанавливает окончательный вывод. ## Результаты Мы проверили DR-MoE на двух наборах данных: EPIC-KITCHENS-100 и EGTEA Gaze+. Оценивались классические метрики, такие как точность (accuracy), F1-меры, AUC-ROC и mAP. Наша модель показала значительные улучшения в сравнении со стандартными моделями, особенно в области редких и амбигуирующих ошибочных действий. Дополнительно, мы проверили чувствительность DR-MoE к изменениям в весах в блоках expert module, подтвердив её устойчивость. Наши результаты показали, что DR-MoE превосходит текущие модели в задачах с пониженной классовой дисбалансировкой. Код доступен по ссылке: [https://github.com/boyuh/DR-MoE](https://github.com/boyuh/DR-MoE). ## Значимость DR-MoE может быть применено в различных областях, где требуется точное выявление редких ошибок, например, в мониторинге производительности в промышленных задачах, робототехнике и медицине. Оно предлагает значительные преимущества в отношении

Abstract

In this report, we address the problem of determining whether a user performs an action incorrectly from egocentric video data. To handle the challenges posed by subtle and infrequent mistakes, we propose a Dual-Stage Reweighted Mixture-of-Experts (DR-MoE) framework. In the first stage, features are extracted using a frozen ViViT model and a LoRA-tuned ViViT model, which are combined through a feature-level expert module. In the second stage, three classifiers are trained with different objectives: reweighted cross-entropy to mitigate class imbalance, AUC loss to improve ranking under skewed distributions, and label-aware loss with sharpness-aware minimization to enhance calibration and generalization. Their predictions are fused using a classification-level expert module. The proposed method achieves strong performance, particularly in identifying rare and ambiguous mistake instances. The code is available at https://github.com/boyuh/DR-MoE.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Dual-Stage Reweighted MoE for Long-Tailed Egocentric Mistake Detection

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация