What Holds Back Open-Vocabulary Segmentation?
2508.04211v1
cs.CV
2025-08-09
Авторы:
Josip Šarić, Ivan Martinović, Matej Kristan, Siniša Šegvić
Резюме на русском
Научная статья What Holds Back Open-Vocabulary Segmentation? раскрывает проблему того, что нынешние системы разделения областей не умеют распознавать объекты, не описанные в их обучающем наборе. Общая идея открытого лексикона заключается в том, чтобы использовать предобучение на многомиллионных изображений-титулов, чтобы расширить функционал таких моделей. Однако авторы отмечают, что данная подход не приносит ожидаемого прогресса в работе моделей уже более двух лет. Исследователи предложили новые аналитические методы, позволяющие выявить и анализировать ограничения, связанные с ошибками моделей. Исследовательские эксперименты демонстрируют, что эти ограничения ключевые для понимания проблем, с которыми сталкиваются модели open-vocabulary segmentation. В итоге, предложенные рекомендации могут способствовать повышению эффективности этих систем в будущих исследованиях.
Abstract
Standard segmentation setups are unable to deliver models that can recognize
concepts outside the training taxonomy. Open-vocabulary approaches promise to
close this gap through language-image pretraining on billions of image-caption
pairs. Unfortunately, we observe that the promise is not delivered due to
several bottlenecks that have caused the performance to plateau for almost two
years. This paper proposes novel oracle components that identify and decouple
these bottlenecks by taking advantage of the groundtruth information. The
presented validation experiments deliver important empirical findings that
provide a deeper insight into the failures of open-vocabulary models and
suggest prominent approaches to unlock the future research.
Ссылки и действия
Дополнительные ресурсы: