📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Physics-Inspired Gaussian Kolmogorov-Arnold Networks for X-ray Scatter Correction in Cone-Beam CT

2025-10-30

Авторы:

Xu Jiang, Huiying Pan, Ligen Shi, Jianing Sun, Wenfeng Xu, Xing Zhao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Cone-beam CT (CBCT) employs a flat-panel detector to achieve three-dimensional imaging with high spatial resolution. However, CBCT is susceptible to scatter during data acquisition, which introduces CT value bias and reduced tissue contrast in the reconstructed images, ultimately degrading diagnostic accuracy. To address this issue, we propose a deep learning-based scatter artifact correction method inspired by physical prior knowledge. Leveraging the fact that the observed point scatter probabi...

ID: 2510.24579v1 cs.CV, I.4.5; I.5

arXiv PDF

📄 GPT-4 for Occlusion Order Recovery

2025-09-30

Авторы:

Kaziwa Saleh, Zhyar Rzgar K Rostam, Sándor Szénási, Zoltán Vámossy

#### Контекст Объектно-ориентированная обработка изображений требует точного понимания геометрических отношений между объектами, в том числе их порядок видимости (вложенность). Эта задача становится особенно сложной в условиях сложных и плотно взаимодействующих объектов, характерных для реального мира. Традиционные модели имеют трудности в точном определении взаимосвязей между объектами, что приводит к ошибкам в цепочках предсказаний. Модели становятся более ограниченными в своей точности и универсальности. Наша мотивация заключается в развитии более точных и универсальных моделей, которые могут выделить и интерпретировать эти отношения, особенно в сложных, нелинейных сценах. #### Метод Мы предлагаем использовать базовую модель GPT-4, тренированную на обширных данных, для оценки порядка видимости объектов на изображениях. Методом является предоставление входных изображений и сопутствующих данных в форме специально сконструированного запроса (промпта). GPT-4 анализирует изображение и выдает оценку порядка видимости в виде текстового ответа. Далее, эти текстовые данные преобразуются в матрицу видимости (или "окклюзионный матриц"), которая может быть использована для дальнейшей обработки в различных задачах, таких как построение глубинных карт или многоуровневый анализ сцены. #### Результаты Мы проводили эксперименты с двумя датасетами: COCOA и InstaOrder. Использовались различные метрики для оценки точности предсказаний. Результаты показали, что использование семантического контекста, визуальных указателей и коммонсенса позволяет GPT-4 получать более точные результаты по сравнению с базовыми методами, особенно в областях, где другие модели сталкиваются с трудностями. Модель также показала возможность решать задачи без тренировки на аннотированных данных (zero-shot learning), что делает ее универсальной и эффективной в различных условиях. #### Значимость Предложенная модель может иметь широкие применения в области компьютерного зрения, включая распознавание сцен, машинное зрение для динамических сред, а также в обобщенные задачи, требующие точного понимания взаимосвязей объектов. Ее основное преимущество заключается в том, что она может работать в zero-shot режиме, чтобы избегать проблем с нехваткой данных и делать ее более развитой в плане интеллектуального анализа. Эта модель также может повысить точность в других задачах, таких как сегментация изображений и обнаружение объектов. #### Выводы Мы доказали, что GPT-4 может быть эффективно использована для восстановления порядка видимости в сложных сценах. Наша под

Annotation:

Occlusion remains a significant challenge for current vision models to robustly interpret complex and dense real-world images and scenes. To address this limitation and to enable accurate prediction of the occlusion order relationship between objects, we propose leveraging the advanced capability of a pre-trained GPT-4 model to deduce the order. By providing a specifically designed prompt along with the input image, GPT-4 can analyze the image and generate order predictions. The response can the...

ID: 2509.22383v1 cs.CV, I.4.5

arXiv PDF