Segment-to-Act: Label-Noise-Robust Action-Prompted Video Segmentation Towards Embodied Intelligence
2509.16677v1
cs.CV, cs.LG, cs.RO, eess.IV
2025-09-24
Авторы:
Wenxin Li, Kunyu Peng, Di Wen, Ruiping Liu, Mengfei Duan, Kai Luo, Kailun Yang
Резюме на русском
## Контекст
Embodied intelligence требует точного выделения объектов, активно участвующих в интеракции. Активная обработка видеоматериалов позволяет связать обработку семантике действий, однако это зависит от больших наборов данных с этикетками, которые требуются для подготовки моделей. Такие данные трудоемки в получении, чувствительны к ошибкам и часто непоследовательны. Данную проблему ещё не изучали. В настоящей работе мы стремимся изучить активную сегментацию видеообъектов в условиях шума в этикетках, ориентируясь на два источника шума: шум в текстовых приглашениях (ошибки в категориальных принадлежностях и внутрикатегорийных сменах глаголов) и шум в масках (неточные границы объектов, что моделирует неточное направление).
## Метод
Мы предлагаем новую модель для активной сегментации видео, которая может выдерживать шум в категориях и неточности в масках. Методика включает в себя обучение модели с разными уровнями шума в этикетках и масках, а также улучшение структуры видеомаскировки, чтобы улучшить точность работы с неточными данными. Мы также разработали новый бенчмарк ActiSeg-NL, который позволяет измерить устойчивость моделей к шуму в этикетках в разных условиях.
## Результаты
Мы проводили эксперименты с разными моделями, тестировали их на ActiSeg-NL и проверяли их устойчивость к разным видам шума. Мы обнаружили, что некоторые модели более устойчивы к текстовым шумам, в то время как другие устойчивы к маскировочным шумам. Мы также установили, что новые методы улучшения маскировки, такие как Parallel Mask Head Mechanism (PMHM), могут значительно повысить устойчивость к неточностям в масках.
## Значимость
Наша работа может использоваться в различных приложениях, где необходима взаимодействие с объектами в реальном времени, например в системах-роботах, видеонаблюдении и AR/VR. Новая модель демонстрирует значительные преимущества в обработке шума в этикетках и может использоваться в искусственном интеллекте для более точных и надёжных систем.
## Выводы
Мы установили новый бенчмарк для изучения шума в этикетках в активной сегментации видеообъектов. Мы разработали новые методы для улучшения устойчивости моделей к шумам и показали, что они могут существенно повысить точность в условиях шума. В дальнейшем, мы планируем расширить тестирование на более сложных сценариях и улучшить модель для обработки более сложных типов шума.
Abstract
Embodied intelligence relies on accurately segmenting objects actively
involved in interactions. Action-based video object segmentation addresses this
by linking segmentation with action semantics, but it depends on large-scale
annotations and prompts that are costly, inconsistent, and prone to multimodal
noise such as imprecise masks and referential ambiguity. To date, this
challenge remains unexplored. In this work, we take the first step by studying
action-based video object segmentation under label noise, focusing on two
sources: textual prompt noise (category flips and within-category noun
substitutions) and mask annotation noise (perturbed object boundaries to mimic
imprecise supervision). Our contributions are threefold. First, we introduce
two types of label noises for the action-based video object segmentation task.
Second, we build up the first action-based video object segmentation under a
label noise benchmark ActiSeg-NL and adapt six label-noise learning strategies
to this setting, and establish protocols for evaluating them under textual,
boundary, and mixed noise. Third, we provide a comprehensive analysis linking
noise types to failure modes and robustness gains, and we introduce a Parallel
Mask Head Mechanism (PMHM) to address mask annotation noise. Qualitative
evaluations further reveal characteristic failure modes, including boundary
leakage and mislocalization under boundary perturbations, as well as occasional
identity substitutions under textual flips. Our comparative analysis reveals
that different learning strategies exhibit distinct robustness profiles,
governed by a foreground-background trade-off where some achieve balanced
performance while others prioritize foreground accuracy at the cost of
background precision. The established benchmark and source code will be made
publicly available at https://github.com/mylwx/ActiSeg-NL.