GPT-4 for Occlusion Order Recovery
2509.22383v1
cs.CV, I.4.5
2025-09-30
Авторы:
Kaziwa Saleh, Zhyar Rzgar K Rostam, Sándor Szénási, Zoltán Vámossy
Резюме на русском
#### Контекст
Объектно-ориентированная обработка изображений требует точного понимания геометрических отношений между объектами, в том числе их порядок видимости (вложенность). Эта задача становится особенно сложной в условиях сложных и плотно взаимодействующих объектов, характерных для реального мира. Традиционные модели имеют трудности в точном определении взаимосвязей между объектами, что приводит к ошибкам в цепочках предсказаний. Модели становятся более ограниченными в своей точности и универсальности. Наша мотивация заключается в развитии более точных и универсальных моделей, которые могут выделить и интерпретировать эти отношения, особенно в сложных, нелинейных сценах.
#### Метод
Мы предлагаем использовать базовую модель GPT-4, тренированную на обширных данных, для оценки порядка видимости объектов на изображениях. Методом является предоставление входных изображений и сопутствующих данных в форме специально сконструированного запроса (промпта). GPT-4 анализирует изображение и выдает оценку порядка видимости в виде текстового ответа. Далее, эти текстовые данные преобразуются в матрицу видимости (или "окклюзионный матриц"), которая может быть использована для дальнейшей обработки в различных задачах, таких как построение глубинных карт или многоуровневый анализ сцены.
#### Результаты
Мы проводили эксперименты с двумя датасетами: COCOA и InstaOrder. Использовались различные метрики для оценки точности предсказаний. Результаты показали, что использование семантического контекста, визуальных указателей и коммонсенса позволяет GPT-4 получать более точные результаты по сравнению с базовыми методами, особенно в областях, где другие модели сталкиваются с трудностями. Модель также показала возможность решать задачи без тренировки на аннотированных данных (zero-shot learning), что делает ее универсальной и эффективной в различных условиях.
#### Значимость
Предложенная модель может иметь широкие применения в области компьютерного зрения, включая распознавание сцен, машинное зрение для динамических сред, а также в обобщенные задачи, требующие точного понимания взаимосвязей объектов. Ее основное преимущество заключается в том, что она может работать в zero-shot режиме, чтобы избегать проблем с нехваткой данных и делать ее более развитой в плане интеллектуального анализа. Эта модель также может повысить точность в других задачах, таких как сегментация изображений и обнаружение объектов.
#### Выводы
Мы доказали, что GPT-4 может быть эффективно использована для восстановления порядка видимости в сложных сценах. Наша под
Abstract
Occlusion remains a significant challenge for current vision models to
robustly interpret complex and dense real-world images and scenes. To address
this limitation and to enable accurate prediction of the occlusion order
relationship between objects, we propose leveraging the advanced capability of
a pre-trained GPT-4 model to deduce the order. By providing a specifically
designed prompt along with the input image, GPT-4 can analyze the image and
generate order predictions. The response can then be parsed to construct an
occlusion matrix which can be utilized in assisting with other occlusion
handling tasks and image understanding. We report the results of evaluating the
model on COCOA and InstaOrder datasets. The results show that by using semantic
context, visual patterns, and commonsense knowledge, the model can produce more
accurate order predictions. Unlike baseline methods, the model can reason about
occlusion relationships in a zero-shot fashion, which requires no annotated
training data and can easily be integrated into occlusion handling frameworks.
Ссылки и действия
Дополнительные ресурсы: