GPT-4 for Occlusion Order Recovery

2509.22383v1 cs.CV, I.4.5 2025-09-30
Авторы:

Kaziwa Saleh, Zhyar Rzgar K Rostam, Sándor Szénási, Zoltán Vámossy

Резюме на русском

#### Контекст Объектно-ориентированная обработка изображений требует точного понимания геометрических отношений между объектами, в том числе их порядок видимости (вложенность). Эта задача становится особенно сложной в условиях сложных и плотно взаимодействующих объектов, характерных для реального мира. Традиционные модели имеют трудности в точном определении взаимосвязей между объектами, что приводит к ошибкам в цепочках предсказаний. Модели становятся более ограниченными в своей точности и универсальности. Наша мотивация заключается в развитии более точных и универсальных моделей, которые могут выделить и интерпретировать эти отношения, особенно в сложных, нелинейных сценах. #### Метод Мы предлагаем использовать базовую модель GPT-4, тренированную на обширных данных, для оценки порядка видимости объектов на изображениях. Методом является предоставление входных изображений и сопутствующих данных в форме специально сконструированного запроса (промпта). GPT-4 анализирует изображение и выдает оценку порядка видимости в виде текстового ответа. Далее, эти текстовые данные преобразуются в матрицу видимости (или "окклюзионный матриц"), которая может быть использована для дальнейшей обработки в различных задачах, таких как построение глубинных карт или многоуровневый анализ сцены. #### Результаты Мы проводили эксперименты с двумя датасетами: COCOA и InstaOrder. Использовались различные метрики для оценки точности предсказаний. Результаты показали, что использование семантического контекста, визуальных указателей и коммонсенса позволяет GPT-4 получать более точные результаты по сравнению с базовыми методами, особенно в областях, где другие модели сталкиваются с трудностями. Модель также показала возможность решать задачи без тренировки на аннотированных данных (zero-shot learning), что делает ее универсальной и эффективной в различных условиях. #### Значимость Предложенная модель может иметь широкие применения в области компьютерного зрения, включая распознавание сцен, машинное зрение для динамических сред, а также в обобщенные задачи, требующие точного понимания взаимосвязей объектов. Ее основное преимущество заключается в том, что она может работать в zero-shot режиме, чтобы избегать проблем с нехваткой данных и делать ее более развитой в плане интеллектуального анализа. Эта модель также может повысить точность в других задачах, таких как сегментация изображений и обнаружение объектов. #### Выводы Мы доказали, что GPT-4 может быть эффективно использована для восстановления порядка видимости в сложных сценах. Наша под

Abstract

Occlusion remains a significant challenge for current vision models to robustly interpret complex and dense real-world images and scenes. To address this limitation and to enable accurate prediction of the occlusion order relationship between objects, we propose leveraging the advanced capability of a pre-trained GPT-4 model to deduce the order. By providing a specifically designed prompt along with the input image, GPT-4 can analyze the image and generate order predictions. The response can then be parsed to construct an occlusion matrix which can be utilized in assisting with other occlusion handling tasks and image understanding. We report the results of evaluating the model on COCOA and InstaOrder datasets. The results show that by using semantic context, visual patterns, and commonsense knowledge, the model can produce more accurate order predictions. Unlike baseline methods, the model can reason about occlusion relationships in a zero-shot fashion, which requires no annotated training data and can easily be integrated into occlusion handling frameworks.

Ссылки и действия