Dual-Stage Reweighted MoE for Long-Tailed Egocentric Mistake Detection
2509.12990v1
cs.CV, cs.AI, cs.LG
2025-09-18
Авторы:
Boyu Han, Qianqian Xu, Shilong Bao, Zhiyong Yang, Sicong Li, Qingming Huang
Резюме на русском
## Контекст
В современной аналитике данных, определение ошибочных действий пользователя с помощью видеоданных получает все большее внимание. Особенно актуальным становится выявление недостатков при выполнении рутинных задач, когда ошибки часто являются неочевидными и редкими. Одной из трудностей в этой области является неизбежное несбалансированное распределение классов, когда редкие ошибки скрываются под значительным количеством нормальных действий. Модели, использующие стандартные кросс-энтропийные функции потерь, часто не могут эффективно справиться с этой проблемой, что приводит к недостаточной качественной оценке редких классов. Наша мотивация заключается в разработке метода, который при sota будет обеспечивать точную оценку редких ошибочных действий.
## Метод
Мы предлагаем Dual-Stage Reweighted Mixture-of-Experts (DR-MoE), который состоит из двух этапов:
1. **Формирование экспертных модулей**:
- В первом этапе используется модель ViViT, которая в качестве фиксированного эксперта забирает фичу из видеоданных. Дополнительно, эта модель подвергается LoRA-тюнингу для улучшения точности в сложных условиях.
- Две полученные многомерные матрицы-выхода объединяются в feature-level expert module, который обеспечивает взаимодействие этих слоёв.
2. **Обучение классификаторов**:
- На втором этапе обучаются три классификатора, каждый с весовым потерям:
- **Reweighted Cross-Entropy Loss** — для уменьшения несбалансированности классов.
- **AUC Loss** — для улучшения точности ранжирования, особенно при неравномерных данных.
- **Label-Aware Loss with Sharpness-Aware Minimization** — для повышения калибровки и общей устойчивости.
- Результаты этих классификаторов объединяются в classification-level expert module, который устанавливает окончательный вывод.
## Результаты
Мы проверили DR-MoE на двух наборах данных: EPIC-KITCHENS-100 и EGTEA Gaze+. Оценивались классические метрики, такие как точность (accuracy), F1-меры, AUC-ROC и mAP. Наша модель показала значительные улучшения в сравнении со стандартными моделями, особенно в области редких и амбигуирующих ошибочных действий. Дополнительно, мы проверили чувствительность DR-MoE к изменениям в весах в блоках expert module, подтвердив её устойчивость. Наши результаты показали, что DR-MoE превосходит текущие модели в задачах с пониженной классовой дисбалансировкой. Код доступен по ссылке: [https://github.com/boyuh/DR-MoE](https://github.com/boyuh/DR-MoE).
## Значимость
DR-MoE может быть применено в различных областях, где требуется точное выявление редких ошибок, например, в мониторинге производительности в промышленных задачах, робототехнике и медицине. Оно предлагает значительные преимущества в отношении
Abstract
In this report, we address the problem of determining whether a user performs
an action incorrectly from egocentric video data. To handle the challenges
posed by subtle and infrequent mistakes, we propose a Dual-Stage Reweighted
Mixture-of-Experts (DR-MoE) framework. In the first stage, features are
extracted using a frozen ViViT model and a LoRA-tuned ViViT model, which are
combined through a feature-level expert module. In the second stage, three
classifiers are trained with different objectives: reweighted cross-entropy to
mitigate class imbalance, AUC loss to improve ranking under skewed
distributions, and label-aware loss with sharpness-aware minimization to
enhance calibration and generalization. Their predictions are fused using a
classification-level expert module. The proposed method achieves strong
performance, particularly in identifying rare and ambiguous mistake instances.
The code is available at https://github.com/boyuh/DR-MoE.
Ссылки и действия
Дополнительные ресурсы: