What Holds Back Open-Vocabulary Segmentation?

2508.04211v1 cs.CV 2025-08-09

Авторы:

Josip Šarić, Ivan Martinović, Matej Kristan, Siniša Šegvić

Резюме на русском

Научная статья What Holds Back Open-Vocabulary Segmentation? раскрывает проблему того, что нынешние системы разделения областей не умеют распознавать объекты, не описанные в их обучающем наборе. Общая идея открытого лексикона заключается в том, чтобы использовать предобучение на многомиллионных изображений-титулов, чтобы расширить функционал таких моделей. Однако авторы отмечают, что данная подход не приносит ожидаемого прогресса в работе моделей уже более двух лет. Исследователи предложили новые аналитические методы, позволяющие выявить и анализировать ограничения, связанные с ошибками моделей. Исследовательские эксперименты демонстрируют, что эти ограничения ключевые для понимания проблем, с которыми сталкиваются модели open-vocabulary segmentation. В итоге, предложенные рекомендации могут способствовать повышению эффективности этих систем в будущих исследованиях.

Abstract

Standard segmentation setups are unable to deliver models that can recognize concepts outside the training taxonomy. Open-vocabulary approaches promise to close this gap through language-image pretraining on billions of image-caption pairs. Unfortunately, we observe that the promise is not delivered due to several bottlenecks that have caused the performance to plateau for almost two years. This paper proposes novel oracle components that identify and decouple these bottlenecks by taking advantage of the groundtruth information. The presented validation experiments deliver important empirical findings that provide a deeper insight into the failures of open-vocabulary models and suggest prominent approaches to unlock the future research.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

What Holds Back Open-Vocabulary Segmentation?

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ViRectify: A Challenging Benchmark for Video Reasoning Correction with Multimoda...

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with P...

ViDiC: Video Difference Captioning

Beyond the Ground Truth: Enhanced Supervision for Image Restoration

TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task ...

Навигация