📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 A Classification-Aware Super-Resolution Framework for Ship Targets in SAR Imagery

2025-08-12

Авторы:

Ch Muhammad Awais, Marco Reggiannini, Davide Moroni, Oktay Karakus

## Контекст Область исследования связана с развитием алгоритмов для повышения разрешения изображений в синтетическом апертурном радиолокации (SAR). Это критически важно для улучшения качества визуального анализа и автоматизированного распознавания объектов, таких как суда. Однако существуют существующие проблемы, такие как несоответствие между качеством изображений, полученных с помощью суперрезолюционных (SR) техник, и их влиянием на алгоритмы классификации. Многие традиционные подходы ориентированы только на улучшение пиксельного качества, не учитывая то, как эти улучшения влияют на точность классификации. Эта проблема является мотивацией для разработки методов, которые могут оптимизировать как изображение, так и его классификационную точность. ## Метод Методология, предложенная в статье, основывается на разработке алгоритма, который не только повышает разрешение SAR-изображений, но и оптимизирует классификационную точность. Авторы использовали усовершенствованные функции потерь, которые учитывают как метрики качества изображения (например, PSNR, SSIM), так и метрики классификационной точности. Архитектура предложенного подхода включает в себя нейронные сети с глубокими слоями, которые работают в двух режимах: режиме повышения разрешения и режиме классификации. Инновационность заключается в интеграции этих режимов в единую структуру, что позволяет достичь оптимального баланса между качеством изображения и его классификационной точностью. ## Результаты Эксперименты были проведены на наборе данных, содержащих SAR-изображения судов с разным уровнем разрешения. Авторы использовали как стандартные метрики качества (например, PSNR, SSIM), так и метрики классификационной точности (например, accuracy, F1-score). В результате показано, что предложенный подход не только повышает разрешение изображений, но и улучшает точность классификации. Это достигается благодаря интеграции классификационной функции в процесс повышения разрешения, что делает изображение более информативным для алгоритмов классификации. ## Значимость Предложенный подход имеет широкие области применения в сферах, требующих высокого качества изображений, таких как удаленное снятие, системы безопасности и системы наблюдения. Одним из основных преимуществ является улучшение качества изображений судов, что влияет на точность распознавания. Это может привести к значительным улучшениям в автоматизированных системах наблюдения и контроля. Дальнейшие исследования могут быть направлены на расширение метода на другие типы объектов и уточнение алгоритмов для решения конкретных проблем в област

Annotation:

High-resolution imagery plays a critical role in improving the performance of visual recognition tasks such as classification, detection, and segmentation. In many domains, including remote sensing and surveillance, low-resolution images can limit the accuracy of automated analysis. To address this, super-resolution (SR) techniques have been widely adopted to attempt to reconstruct high-resolution images from low-resolution inputs. Related traditional approaches focus solely on enhancing image q...

ID: 2508.06407v1 cs.CV, cs.AI, eess.IV

arXiv PDF

📄 SPARSE Data, Rich Results: Few-Shot Semi-Supervised Learning via Class-Conditioned Image Translation

2025-08-12

Авторы:

Guido Manni, Clemente Lauretti, Loredana Zollo, Paolo Soda

## Контекст В области медицинской иммиджинга ограниченная доступность меток усложняет обучение моделей, несмотря на высокую степень использования глубокого обучения в этой сфере. Недостаток меток приводит к снижению точности классификаторов и ограничивает применение глубокого обучения в клинической практике. Необходимость в эффективных методах обучения с небольшим количеством меток побудила затратить усилия на разработку новых подходов, которые могли бы успешно работать даже при ограниченных метаданных. ## Метод Предложенный подход основывается на генеративно-адверсарной сети (GAN) и предлагает трехэтапную модель обучения. Основные компоненты — генератор, реализующий класс-ориентированный перевод изображений; дискриминатор, оценивающий аутентичность изображений и выполняющий классификацию; и классификатор, отвечающий за прямое уточнение классов. Метод работает в трех фазах: начальное обучение с меньшим количеством меток, нейросетевое генерирование изображений для уточнения меток и последний этап переобучения. Важной особенностью является использование псевдомаркировок, которые объединяют предсказания дискриминатора и классификатора с использованием экспоненциального скользания для точности. ## Результаты Эксперименты проводились на 11 датасетах MedMNIST. Метод показал статистически значимый прогресс по сравнению с шестью современными методами в режимах от 5 до 50 меток на класс. Особенно выдающиеся результаты были получены в ситуации с 5-мя метками на класс, где необходимость меток является самой высокой. Такая эффективность достигается благодаря гибкой стратегии псевдомаркировки и использованию изображений в качестве входных данных вместо генерации из шума, что позволяет использовать большие объемы немаркированных данных. ## Значимость Предложенный подход имеет широкие применения в медицинских иммиджингах, где аннотации сложно получить из-за высоких требований к квалификации специалистов и высокой стоимости. Он позволяет повысить точность классификации даже при ограниченном количестве меток. Метод может быть применен в различных областях, таких как диагностика заболеваний и анализ иммиджинга рентгена, терапевтических данных и морфологических структур. Имеет потенциал для улучшения традиционных методов медицинской иммиджинга и снижения затрат на тренинг моделей, что может сделать глубокое обучение более доступным в клинической практике. ## Выводы Разработанная парадигма демонстрирует эффективность владения небольшим количеством меток и может стать решением для проблем недостатка данных в ме

Annotation:

Deep learning has revolutionized medical imaging, but its effectiveness is severely limited by insufficient labeled training data. This paper introduces a novel GAN-based semi-supervised learning framework specifically designed for low labeled-data regimes, evaluated across settings with 5 to 50 labeled samples per class. Our approach integrates three specialized neural networks -- a generator for class-conditioned image translation, a discriminator for authenticity assessment and classification...

ID: 2508.06429v1 cs.CV, cs.AI

arXiv PDF

📄 CLIPin: A Non-contrastive Plug-in to CLIP for Multimodal Semantic Alignment

2025-08-12

Авторы:

Shengzhu Yang, Jiawei Du, Shuai Lu, Weihang Zhang, Ningli Wang, Huiqi Li

## Контекст Одной из основных проблем в области многомодального языково-изображения обучения (CLIP) является узкое многомодальное семантическое выравнивание, которое обусловлено слабой супервайзой в автоматически собранных больших многомодальных изображений-текстов. Добавляя к этому, в медицинских данных, где кросс-модальная корреляция высока, но разнообразие содержимого низко, такие проблемы становятся еще более заметными. Эти особенности затрудняют CLIP-стильные архитектуры в обучении надежных и генерализуемых многомодальных представлений. Мы предлагаем CLIPin — универсальный не-контрастивный плагин, который может быть эффективно встроен в CLIP-стильные архитектуры для улучшения многомодального семантического выравнивания, усиления прочности выравнивания и повышения универсальности. ## Метод Мы предлагаем CLIPin — не-контрастивный плагин, который использует две общие предобработчики для изображений и текстов, чтобы объединить контрастивное и не-контрастивное обучение в универсальной структуре. В дополнение к этому, CLIPin предоставляет более сильную супервайзой для повышения выравнивания многомодальных представлений. Этот плагин может быть легко интегрирован в различные CLIP-стильные архитектуры, чтобы улучшить многомодальное семантическое выравнивание и повысить универсальность. Таким образом, CLIPin является гибким и мощным инструментом для улучшения многомодальных представлений. ## Результаты Мы провели эксперименты на различных многомодальных задачах, используя различные CLIP-стильные архитектуры. Наши результаты показали, что CLIPin повышает прочность выравнивания многомодальных представлений и улучшает общеуниверсальную точность. На данных медицинских изображений-текстов, где кросс-модальная корреляция высока, но разнообразие содержимого низко, CLIPin продемонстрировал значительный прирост в производительности. Это показано в сравнении с базовыми моделями, что делает CLIPin эффективным и генерализуемым инструментом для многомодальных задач. ## Значимость CLIPin широко может быть применен в различных областях многомодального обучения, включая клинические приложения, где кросс-модальная корреляция высока, но разнообразие содержимого низко. Благодаря своей совместимости с различными CLIP-стильными архитектурами, CLIPin может быть легко интегрирован в существующие модели для повышения прочности выравнивания. Это делает его полезным для улучшения многомодальных представлений в различных доменах, в том числе медицинских. ## Выводы Мы предложили CLIPin — универсальный не-контрастивный плагин, который может улучшать многомодальное семантическое выравнивание в

Annotation:

Large-scale natural image-text datasets, especially those automatically collected from the web, often suffer from loose semantic alignment due to weak supervision, while medical datasets tend to have high cross-modal correlation but low content diversity. These properties pose a common challenge for contrastive language-image pretraining (CLIP): they hinder the model's ability to learn robust and generalizable representations. In this work, we propose CLIPin, a unified non-contrastive plug-in th...

ID: 2508.06434v1 cs.CV, cs.AI

arXiv PDF

📄 Text Embedded Swin-UMamba for DeepLesion Segmentation

2025-08-12

Авторы:

Ruida Cheng, Tejas Sudharshan Mathai, Pritam Mukherjee, Benjamin Hou, Qingqing Zhu, Zhiyong Lu, Matthew McAuliffe, Ronald M. Summers

## Контекст Segmentation of lesions on CT scans plays a ключевую роль в клинической оценке прогресса хронических заболеваний, таких как лимфома. Однако существуют сложности в автоматизации этого процесса, включая неоднородность признаков и отсутствие доступных методов, которые могли бы использовать описательные текстовые поля в радиологических отчетах. Недостаток эффективных алгоритмов, которые могли бы объединять изображения и текстовые данные, становится ограничением для развития интеллектуальных систем в этой области. ## Метод Мы предлагаем Text-Swin-UMamba, модель, которая интегрирует текстовые описания из радиологических отчетов с изображениями CT в процессе сегментации лезион. Использовалась архитектура Swin-UMamba, которая была адаптирована для учета текстовых признаков. Для обучения и тестирования был использован общедоступный DeepLesion датасет, в котором включены текстовые описания находок. Модель работает путем совмещения изображений и текстовых признаков в единой иерархической архитектуре, которая учитывает влияние текста на изображения. ## Результаты Проведенные эксперименты показали, что Text-Swin-UMamba эффективно сегментирует лезион, достигая Dice Score 82% и Hausdorff distance 6.58 пикселей. Этот результат превосходит лучшие достижения предыдущих моделей: LanGuideMedSeg (+37%, p < 0.001), xLSTM-UNet (+1.74%) и nnUNet (+0.22%). Это указывает на более высокую точность модели в определении границ лезионов, особенно в сложных случаях. Данные и код доступны на GitHub. ## Значимость Наша модель может повысить точность сегментации лезионов в клинических задачах, помогая в автоматизированной оценке лезионов на CT. Она имеет применение в технике медицинской интеллектуальной системы, которая могла бы улучшить клинические результаты и эффективность ухода. ## Выводы Мы установили, что интеграция текстовых данных в модели сегментации лезионов может значительно улучшить точность. Наша работа открывает новые трудности в создании более интеллектуальных моделей сегментации, в которых могут использоваться текстовые и изображений вместе. Будущие работы будут сконцентрированы на расширении модели для других видов данных и клинических задач.

Annotation:

Segmentation of lesions on CT enables automatic measurement for clinical assessment of chronic diseases (e.g., lymphoma). Integrating large language models (LLMs) into the lesion segmentation workflow offers the potential to combine imaging features with descriptions of lesion characteristics from the radiology reports. In this study, we investigate the feasibility of integrating text into the Swin-UMamba architecture for the task of lesion segmentation. The publicly available ULS23 DeepLesion d...

ID: 2508.06453v1 cs.CV, cs.AI

arXiv PDF

📄 WGAST: Weakly-Supervised Generative Network for Daily 10 m Land Surface Temperature Estimation via Spatio-Temporal Fusion

2025-08-12

Авторы:

Sofiane Bouaziz, Adel Hafiane, Raphael Canals, Rachid Nedjai

#### Контекст Ускоренная городского типа, климатические изменения и напряжение в сельском хозяйстве повышают потребность в точном и временном мониторинге окружающей среды. Земляной температура поверхности (LST) является ключевой переменной в этой области и извлекается при помощи дальнего зондирования. Однако существует торговля между пространственной и временной разрешенностью систем дальнего зондирования. Хотя методы фузирования пространственно-временных данных предлагают быстрые решения, малоизвестно о разработке методов для оценки дневной ЛСТ с разрешением 10 м. В данном исследовании предлагается WGAST — с WEAKLY SUPERVISED GENERATIVE NETWORK для оценки дневной ЛСТ на 10 м с помощью спектрально-временного слияния данных Terra MODIS, Landsat 8 и Sentinel-2. Это первый полностью глубокий фреймворк для этой задачи. #### Метод WGAST использует кондыциональную сеть генеративной адверсарной архитектуры, которая состоит из четырёх этапов: извлечения признаков, слияния, реконструкции LST и сглаживания шума. На первом этапе используется набор энкодеров для извлечения многоуровневых латентных представлений входных данных. На втором этапе эти представления объединены с помощью механизма косинусной сходства, нормализации и временного аттенционного механизма. На третьем этапе эти объединённые признаки декодируются в высокорезольвентные LST, после чего используется Гауссовский фильтр для сглаживания высокочастотного шума. Обучение проводится на основе уязвимого стратегии, основывающейся на физических принципах среднего значения и усиленной отзывчивостью на квадратные патчи PatchGAN дискриминатором. #### Результаты В экспериментах, проведённых на специально созданных датасетах, WGAST показал существенную выгоду по сравнению с существующими методами. На эталонных данных он уменьшил RMSE на 17.18% и увеличил SSIM на 11.00% по сравнению с лучшим базовым решением. Также WGAST продемонстрировал высокую устойчивость к облачным источникам и в точности распознавал тонкие термальные паттерны, как показал сравнение с 33 основными станциями. Эти результаты подтверждают эффективность WGAST в решении задачи оценки 10 метровых десятиметровых ЛСТ. #### Значимость WGAST может применяться в различных областях, включая климатическую моделирование, сельское хозяйство и системы мониторинга здоровья окружающей среды. Его основные преимущества заключаются в высокой точности, возможности работы с отсутствующими данными и высоком разрешении. Это могло бы способствовать повышению качества моделей стохастической климатической д

Annotation:

Urbanization, climate change, and agricultural stress are increasing the demand for precise and timely environmental monitoring. Land Surface Temperature (LST) is a key variable in this context and is retrieved from remote sensing satellites. However, these systems face a trade-off between spatial and temporal resolution. While spatio-temporal fusion methods offer promising solutions, few have addressed the estimation of daily LST at 10 m resolution. In this study, we present WGAST, a Weakly-Sup...

ID: 2508.06485v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Extending Foundational Monocular Depth Estimators to Fisheye Cameras with Calibration Tokens

2025-08-11

Авторы:

Suchisrit Gangopadhyay, Jung-Hee Kim, Xien Chen, Patrick Rim, Hyoungseob Park, Alex Wong

## Контекст Монокулярные глубинные оценщики (Monocular Depth Estimators, FMDEs) — одна из ключевых технологий в области глубинной оценки, обладающих высокой точностью при использовании кадров в перспективной камеры. Однако, при переходе к камерам с фишей, эти методы чувствительны к ковариатному сдвигу, вызванному изменениями калибровочных параметров (на примере внутренних и дисторсионных параметров). Это приводит к неточным глубинным оценкам, что ограничивает применение FMDEs в сценариях, требующих использования фишевых камер. Наша работа направлена на обеспечение универсальности FMDEs для фишевых камер без необходимости их переучивания или оптимизации. ## Метод Мы предлагаем метод, основанный на использовании **Calibration Tokens** — легковесных механизмов, которые регулируют входные данные для FMDEs, чтобы достичь алигнмента между латентными пространствами фишевых и перспективных кадров. Эти токены позволяют избежать неполадок, связанных с перекалибровкой или проекцией на каноническую систему координат, что часто приводит к потерям или артефактам. Мы используем publicly available large-scale perspective image datasets для дообучения FMDEs на фишевых кадрах, пересчитав их угловые преобразования. Наш метод является self-supervised и не требует использования фишевых данных для обучения. ## Результаты Мы проверили нашу модель на различных FMDEs и многочисленных изображениях, включая внутренние и внешние сцены. Наши результаты показывают, что подход с Calibration Tokens позволяет достичь значительных улучшений в точности глубинных оценок по сравнению с состоянием искусства (state-of-the-art). Это достигается за счет того, что мы используем только один набор токенов для оба категорий — перспективных и фишевых кадров. Это универсален достигнутый благодаря обобщающему потенциалу нашего подхода. ## Значимость Наше решение открывает путь к обобщению FMDEs для использования с фишевыми камерами в различных приложениях, таких как VR, AR, и системы автоматизированного вождения. Несмотря на то, что метод не требует специальных фишевых данных, он позволяет достичь высокой точности и повторяемости. Это может существенно сократить затраты на проектирование и развертывание систем, которым требуется обработка изображений в фишевой камере. ## Выводы Мы представили метод расширения FMDEs для работы с фишевыми камерами с помощью Calibration Tokens. Этот метод эффективен, self-supervised и не требует переучивания модели. Мы показали, что он позволяет повысить точность глубинных оценок и обеспечивает широкое применение в различных сценариях. Будущие работы будут направлены на улучшение метода для поддержки более сложных сцен и типов камер. Наш код доступен по а

Annotation:

We propose a method to extend foundational monocular depth estimators (FMDEs), trained on perspective images, to fisheye images. Despite being trained on tens of millions of images, FMDEs are susceptible to the covariate shift introduced by changes in camera calibration (intrinsic, distortion) parameters, leading to erroneous depth estimates. Our method aligns the distribution of latent embeddings encoding fisheye images to those of perspective images, enabling the reuse of FMDEs for fisheye cam...

ID: 2508.04928v2 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 A Study of Gender Classification Techniques Based on Iris Images: A Deep Survey and Analysis

2025-08-11

Авторы:

Basna Mohammed Salih Hasan, Ramadhan J. Mstafa

## Контекст Гендерная классификация — это задача определения пола человека на основе различных биометрических признаков. Она находит применение в сферах, таких как слежение, корпоративное профилирование и интерактивные системы компьютера-человек. Информация о полу человека является одним из слабых биометрических признаков, который может быть использован для установления личности. На протяжении многих лет разработаны различные методы определения пола, включая такие, как определение по лицу, отпечаткам пальцев, отпечаткам ладони, ДНК, ушам, походке и яблочку. Однако большинство методов определения пола базируются на определении лица. Яблочка, в свою очередь, является важной биометрической характеристикой, так как, по современным исследованиям, она остается практически неизменной в течение всего жизненного цикла человека. Кроме того, она является внешне видимой и неприхотливой к использованию в практических приложениях. На данный момент существуют высококачественные методы для сегментации и кодирования ирисных изображений, что облегчает выбор и извлечение признаковых векторов из текстуры ириса. Эта работа охватывает различные подходы к определению пола на основе ирисных изображений, подробно рассматривает их преимущества и недостатки. Она также выделяет проблемы и предлагает направления для будущих исследований. ## Метод В работе предлагается подробный обзор различных методов классификации пола на основе ирисных изображений. Изучаются методы, основанные на различных аспектах, таких как глубокое обучение, машинное обучение, статистические методы и т. д. Техническая часть работы включает в себя обзор представлений ирисных изображений, выбор и исследование признаков, методы классификации и оценки качества. Описывается архитектура существующих систем классификации пола, а также их особенности и ограничения. Также приводится сравнительный анализ различных подходов, указываются их достоинства и недостатки. Работа также подробно охватывает методы разделения изображений ириса на отдельные части, кодирования этих частей и их использования для классификации пола. Литературный обзор включает в себя работы, которые использовали различные биометрические признаки, в том числе ирис, для классификации пола, а также работы, которые сравнивали различные методы классификации пола. ## Результаты В ходе исследования проанализированы различные методы классификации пола на основе ирисных изображений. На основе сравнительного анализа было выделено, что глубокое обучение является одним из наиболее эффективных подходов в этой области. Было проведено исследо

Annotation:

Gender classification is attractive in a range of applications, including surveillance and monitoring, corporate profiling, and human-computer interaction. Individuals' identities may be gleaned from information about their gender, which is a kind of soft biometric. Over the years, several methods for determining a person's gender have been devised. Some of the most well-known ones are based on physical characteristics like face, fingerprint, palmprint, DNA, ears, gait, and iris. On the other ha...

ID: 2508.05246v2 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 CF3: Compact and Fast 3D Feature Fields

2025-08-11

Авторы:

Hyunjoon Lee, Joonkyu Min, Jaesik Park

#### Контекст 3D Gaussian Splatting (3DGS) — это метод, который позволяет хранить и обрабатывать 3D-данные в виде Gaussian feature fields. Этот метод находит применение в различных областях, таких как реалистичная генерация имиджей и AR/VR-системы. Однако, существующие подходы страдают от высоких затрат на вычисления из-за использования bottom-up оптимизации, которая обрабатывает 2D-данные как "правду" и не эффективно интегрирует информацию из 2D-фондациональных моделей. Мотивация для данного исследования заключается в создании более эффективной архитектуры, позволяющей сократить затраты на вычисления, сохранив точность и детализацию 3D-представления. #### Метод Мы предлагаем CF3 (Compact and Fast 3D Feature Fields) — подход, значительно сокращающий затраты на вычисления и оптимизирующий хранение 3D-данных. В процессе CF3 вначале выполняется быстрая фузированная обработка многоканальных 2D-данных с использованием предварительно обученных Гауссовых моделей. Это позволяет использовать существующую модель в качестве гибкой структуры для хранения и обработки 3D-данных. Затем, мы применяем адаптивный метод спарсинга, который уменьшает количество Гауссовых моделей, сохраняя при этом геометрические детали. Автокодировщик, работающий непосредственно на высокомерных 3D-данных, лучше адаптируется к распределению данных. Наша методология эффективнее и менее трудоемкая, чем Feature-3DGS, используя всего 5% Гауссовых моделей для построения 3D-представления. #### Результаты Мы проводили многочисленные эксперименты на различных датасетах, включая реалистичные 3D-сцены. Наши результаты показали, что CF3 достигает той же точности, что и Feature-3DGS, но используя значительно меньше вычислительных ресурсов. В частности, CF3 позволяет снизить количество Гауссовых моделей, необходимых для точного представления, на 95%, что значительно ускоряет процесс. Также мы проверили нашу модель на различных тестовых сценах, получив одинаковые или лучшие результаты по качеству геометрического представления, чем у существующих подходов. #### Значимость Предлагаемая модель CF3 может быть применена в различных областях, таких как машинное зрение, графика компьютера, AR/VR, а также в производственных процессах, требующих эффективных 3D-решений. Основное преимущество CF3 заключается в своей высокой эффективности. Она значительно сокращает вычислительные затраты, что делает ее привлекательной для применения в реальном времени. Будущие работы будут ориентированы на расширение CF3 для более сложных сцен, включая динамические сцены и видео-потоки. #### Выводы Мы представили

Annotation:

3D Gaussian Splatting (3DGS) has begun incorporating rich information from 2D foundation models. However, most approaches rely on a bottom-up optimization process that treats raw 2D features as ground truth, incurring increased computational costs. We propose a top-down pipeline for constructing compact and fast 3D Gaussian feature fields, namely, CF3. We first perform a fast weighted fusion of multi-view 2D features with pre-trained Gaussians. This approach enables training a per-Gaussian autoe...

ID: 2508.05254v2 cs.CV, cs.AI

arXiv PDF

📄 DreamPainter: Image Background Inpainting for E-commerce Scenarios

2025-08-09

Авторы:

Sijie Zhao, Jing Cheng, Yaoyao Wu, Hao Xu, Shaohui Jiao

**Резюме** В статье предлагается решение проблемы подготовки бэкграундов для изображений продуктов в e-commerce сценариях, связанной с необходимостью сохранить консистентность формирования продуктов в изображениях, а также гармонию между продуктом и бэкграундом через точное расположение, создание теней и отражений. Основная сложность заключается в отсутствии достаточного количества доменно-специфических данных для обучения методов inpainting. Рассматриваемое решение — фреймворк DreamPainter, который использует для контроля текстовые спроможенности, а также позволяет включать в процесс дополнительные сигналы управления, основываясь на специально созданной высококачественной датасете DreamEcom-400K. Эта датасет содержит точные маски продуктов, идеальные бэкграунды, текстовые спроможенности и атмосферно выглядящие продуктовые изображения. Исследования показали, что DreamPainter значительно превосходит современные методы в области inpainting, обеспечивая высокую консистентность продуктов и эффективно интегрируя текстовые спроможенности и специфические бэкграунд-изображения.

Annotation:

Although diffusion-based image genenation has been widely explored and applied, background generation tasks in e-commerce scenarios still face significant challenges. The first challenge is to ensure that the generated products are consistent with the given product inputs while maintaining a reasonable spatial arrangement, harmonious shadows, and reflections between foreground products and backgrounds. Existing inpainting methods fail to address this due to the lack of domain-specific data. The ...

ID: 2508.02155v1 cs.CV, cs.AI

arXiv PDF

📄 GaussianCross: Cross-modal Self-supervised 3D Representation Learning via Gaussian Splatting

2025-08-09

Авторы:

Lei Yao, Yi Wang, Yi Zhang, Moyun Liu, Lap-Pui Chau

Одной из основных проблем в самостоятельном обучении для 3D-сцен возникает недостаточная точность и надежность представлений точек, что приводит к ухудшению качества понимания сцены. В статье представлена методика GaussianCross, которая призвана устранить эти проблемы. Она использует 3D Gaussian Splatting для конвертации точечных облаков в однородный гауссовский формат, что позволяет сохранить все детали и гарантировать стабильность предварительного обучения. Более того, методика включает модуль адаптивной дистилляции, который одновременно доставляет функции геометрии, визуальной и семантической природы. Эксперименты показали, что GaussianCross демонстрирует выдающиеся результаты в тестах на нескольких бенчмарках, включая ScanNet и S3DIS. Она особенно эффективна при линейном пробировании и ограниченном объеме данных, превосходя состояние технологий. Этот подход демонстрирует выдающуюся генерализуемость и эффективность в задачах поиска объектов и их сегментации.

Annotation:

The significance of informative and robust point representations has been widely acknowledged for 3D scene understanding. Despite existing self-supervised pre-training counterparts demonstrating promising performance, the model collapse and structural information deficiency remain prevalent due to insufficient point discrimination difficulty, yielding unreliable expressions and suboptimal performance. In this paper, we present GaussianCross, a novel cross-modal self-supervised 3D representation ...

ID: 2508.02172v1 cs.CV, cs.AI, cs.MM

arXiv PDF

Показано 2191 - 2200 из 2274 записей