📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 LLM-empowered Dynamic Prompt Routing for Vision-Language Models Tuning under Long-Tailed Distributions

2025-08-23

Авторы:

Yongju Jia, Jiarui Ma, Xiangxian Li, Baiqiao Zhang, Xianhui Cao, Juan Liu, Yulong Bian

## Контекст Предварительно обученные визуально-языковые модели (Vision-Language Models, VLMs), такие как CLIP, показали впечатляющие результаты в решении визуальных задач. Однако их методы дообучения часто сталкиваются с проблемами, связанными с несбалансированным распределением классов в обучающих данных, что приводит к усилению биаса и понижению качества моделей в задачах классификации. Это особенно актуально при работе с данными, имеющими долгобортовое распределение (long-tailed distribution). Несмотря на то, что недавние работы использовали большие языковые модели (LLMs) для улучшения дообучения VLMs, они часто не учитывают встроенную несбалансированность классов в предварительно обученных моделях, что приводит к проблемам в обработке редких классов. Мотивация для данных исследований заключается в разработке методов, которые могут эффективно справляться с проблемами несбалансированности классов в VLMs, обеспечивая стабильные и точные предсказания в условиях длинных хвостов. ## Метод Методология проведения исследований основывается на разработке фреймворка Multi-dimensional Dynamic Prompt Routing (MDPR), который использует пять визуально-семантических измерений для построения комплексного классификатора. Механизм динамического маршрутизации использует глобальные классы, оптимальные предложения (prompts) и семантическую библиотеку для балансировки тонкой семантики. В процессе обучения MDPR создает значительный объем семантической информации, которая позволяет модели оптимизировать свои предсказания. Для оценки результатов используется архитектура, позволяющая совместить выходные данные нескольких моделей (logits fusion), что обеспечивает более стабильные и точные результаты. Такой подход позволяет адаптировать VLMs к данным с длинными хвостами, уменьшая таким образом влияние несбалансированности классов на получаемые результаты. ## Результаты Для оценки эффективности MDPR были проведены эксперименты на таких популярных датасетах, как CIFAR-LT, ImageNet-LT и Places-LT. Использовались как обычные данные, так и данные, характеризующиеся долгими хвостами (long-tailed distribution). Результаты показали, что MDPR демонстрирует стабильные и точные результаты, значительно превосходя некоторые текущие лучшие решения (State-of-the-Art, SOTA). Благодаря многомерному подходу и динамическому механизму маршрутизации, модель показала способность балансировать глобальные классы и тонкость семантики, что значительно улучшило показатели в сравнении с другими подходами. Данные эксперименты также доказали, что динамический маршрутизационный механизм не добавляет существенного накладных расходов, что делает MDPR эффективным и производительным для использования в реа

Annotation:

Pre-trained vision-language models (VLMs), such as CLIP, have demonstrated impressive capability in visual tasks, but their fine-tuning often suffers from bias in class-imbalanced scene. Recent works have introduced large language models (LLMs) to enhance VLM fine-tuning with supplementing semantic information. However, they often overlook inherent class imbalance in VLMs' pre-training, which may lead to bias accumulation in downstream tasks. To address this problem, this paper proposes a Multi-...

ID: 2508.15688v1 cs.CV, I.4.10

arXiv PDF

📄 Scalable Geospatial Data Generation Using AlphaEarth Foundations Model

2025-08-19

Авторы:

Luc Houriez, Sebastian Pilarski, Behzad Vahedi, Ali Ahmadalipour, Teo Honda Scully, Nicholas Aflitto, David Andre, Caroline Jaffe, Martha Wedner, Rich Mazzola, Josh Jeffery, Ben Messinger, Sage McGinley-Smith, Sarah Russell

## Контекст Геоспациальные данные являются ключевым инструментом для понимания и изучения планеты. Однако доступные данные часто ограничиваются определенными регионами, не покрывая всю территорию земного шара. Это ограничение снижает ценность данных для широкомасштабных анализов и приложений. Google DeepMind внедрила модель AlphaEarth Foundations (AEF), представляющую собой информационно-богатую глобальную геоспациальную структуру. Она предназначена для повышения качества и полноты данных в различных задачах. В данной работе рассматривается возможность использования модели AEF для расширения геоспациальных данных за пределы исходного региона. ## Метод Методология основывается на использовании AlphaEarth Foundations для расширения геоспациальных данных. Алгоритм построения модели состоит в том, что данные из исходного региона (например, USA) используются для обучения модели, которая затем применяется к новому региону (например, Канада). Используется оптимизация случайных леса и логистической регрессии для построения модели. Эти модели адаптируются для расширения данных, в том числе для высокоуровневого классификационного анализа. ## Результаты Для проверки метода проводился эксперимент над данными LANDFIRE Existing Vegetation Type (EVT), расширенными с USA в Канаду. Модель обучалась на данных EvtPhys (13 классов) и EvtGp (80 классов). В результате показано, что модели демонстрируют высокую точность классификации в USA (81%) и Канаде (73%). Хотя модели не полностью корректно классифицируют все классы, они показывают хорошую зернальность в точных классах. ## Значимость Этот подход имеет значимые применения в областях развития среды, геологии и других сфер, требующих глобальных геоспациальных данных. Он позволяет расширять область данных, которые ранее были ограничены региональными данными. Преимущества включают увеличение доступных данных, улучшение точности классификации и обеспечение адекватных ресурсов для широты задач, от управления природой до машинного обучения. ## Выводы Результаты экспериментов показали, что модели могут добавить значительное количество данных в геоспациальные наборы данных. Эта работа открывает возможности для расширения геоспациальных данных в новые регионы, охватывая новые географические зоны. Кроме того, данный подход может быть расширен на другие регионы и даже на различные классификационные модели, чтобы улучшить точность и разрешать предметные области, требующие глобальных данных.

Annotation:

High-quality labeled geospatial datasets are essential for extracting insights and understanding our planet. Unfortunately, these datasets often do not span the entire globe and are limited to certain geographic regions where data was collected. Google DeepMind's recently released AlphaEarth Foundations (AEF) provides an information-dense global geospatial representation designed to serve as a useful input across a wide gamut of tasks. In this article we propose and evaluate a methodology which ...

ID: 2508.11739v1 cs.LG, cs.CV, I.4.6; I.5.5

arXiv PDF

📄 AnatoMaskGAN: GNN-Driven Slice Feature Fusion and Noise Augmentation for Medical Semantic Image Synthesis

2025-08-19

Авторы:

Zonglin Wu, Yule Xue, Qianxiang Hu, Yaoyao Feng, Yuqi Ma, Shanxiong Chen

#### Контекст Синтез семантических масок в медицинских изображениях является важной задачей, которая играет ключевую роль в данных для анализа и повышении точности обработки изображений. Несмотря на прогресс в генеративных нейронных сетях (GAN), существующие подходы часто сталкиваются с проблемами, такими как недостаточная спецификация пространственных зависимостей и недостаточная нагрузка на реалистичность изображений. Эти ограничения приводят к ограниченной точности и недостаточному уровню подробности в синтезированных масках. Эти проблемы являются мотивацией для разработки новых методов, которые могут компенсировать эти ограничения и улучшить качество синтеза. #### Метод Мы предлагаем AnatoMaskGAN, многослойный фреймворк, который включает в себя несколько инновационных компонентов. В первую очередь, мы разработали модуль для сильно связанной функции слияния специфичности слоёв на основе графов (GNN), который моделирует пространственные отношения между слоями интегрируя информацию из соседних слоёв. Это позволяет улучшить локальную и глобальную структуру. Далее, мы предложили 3D-стратегию внедрения шума, которая учитывает различные варианты структуры и внедряет в генерируемые изображения шум с разными весами, чтобы увеличить широту моделирования. Наконец, мы внедрили классификатор текстур, который оптимизирует гистограмму и текстурные характеристики в процессе синтеза. Эти компоненты объединены в единое целое, чтобы обеспечить более точный и реалистичный синтез масок. #### Результаты Мы проверили AnatoMaskGAN на двух открытых наборах данных: L2R-OASIS и L2R-Abdomen CT. На L2R-OASIS, наша модель показала PSNR равный 26.50 dB, что является 0.43 dB выше текущего состояния техники. На L2R-Abdomen CT, мы достигли SSIM в размере 0.8602, что является 0.48 процентной единицей выше результатов лучшей модели. Эти результаты показывают, что AnatoMaskGAN превосходит современные подходы в точности воспроизведения и качестве перцепции. Анализ абляции показал, что каждый компонент фреймворка (GNN-функция слияния специфичности слоёв, 3D-шумоввод и текстовый классификатор) вносит значительный вклад в улучшение PSNR, SSIM и LPIPS. #### Значимость AnatoMaskGAN может применяться в различных областях, включая данные для обучения и анализа медицинских изображений. Его преимущество заключается в том, что он предлагает более реалистичные и точные маски, что повышает качество данных для обучения и улучшает точность диагностических процессов. Благодаря инновационной архитектуре и высокому качеству синтеза, AnatoMask

Annotation:

Medical semantic-mask synthesis boosts data augmentation and analysis, yet most GAN-based approaches still produce one-to-one images and lack spatial consistency in complex scans. To address this, we propose AnatoMaskGAN, a novel synthesis framework that embeds slice-related spatial features to precisely aggregate inter-slice contextual dependencies, introduces diverse image-augmentation strategies, and optimizes deep feature learning to improve performance on complex medical images. Specificall...

ID: 2508.11375v1 eess.IV, cs.CV, I.4.9

arXiv PDF

📄 SAM Encoder Breach by Adversarial Simplicial Complex Triggers Downstream Model Failures

2025-08-12

Авторы:

Yi Qin, Rui Wang, Tao Huang, Tong Xiao, Liping Jing

## Контекст Область исследования сосредоточена на возможностях и уязвимостях Segment Anything Model (SAM), новой модели разделения изображений, которая предлагает нулевой шаг обучения для интерактивной сегментации. SAM широко применяется в различных задачах, но, несмотря на ее прорывные возможности, она не освобождается от уязвимостей. Эти уязвимости могут привести к сбоям во многих приложениях, которые основываются на ней. Особенно критична уязвимость SAM при передаче в различных доменах, так как это может повлиять на качество работы вспомогательных моделей, которые зависят от нее. В связи с этим, возникает необходимость в поиске решений, которые могут не только выявить эти уязвимости, но и оценить их распространенность и влияние на различные модели. ## Метод Мы предлагаем Vertex-Refining Simplicial Complex Attack (VeSCA), новую методику для генерации трансфертных адверсарных примеров, ориентированных на SAM. Метод VeSCA основывается на использовании только энкодера SAM для построения общих уязвимых регионов между SAM и доростолей. Основная идея заключается в использовании параметрического симплициального комплекса, который моделирует эти уязвимые области в виде "вершин" (узлов), экспериментируя с их сочетаниями. Для того, чтобы обеспечить эффективность и трансфертность, VeSCA применяет итеративную рефининг-методику для точного определения этих узлов. Дополнительно, мы предлагаем легковесную стратегию переподготовки домена, использующую минимальный объем референсных данных, что позволяет уменьшить различия между доменами. В конце концов, VeSCA строит трансфертные адверсарные примеры, используя случайно сэмплированные комплексы, чтобы обеспечить единообразие результатов и высокую трансфертность. ## Результаты Мы провели исследования на трех классах доростолей и пяти различных доменных датасетах, чтобы оценить эффективность VeSCA. В результате, наш метод показал улучшение производительности на 12.7% в сравнении с состояниями технологий (state-of-the-art) в трех различных категориях моделей. Эксперименты также показали, что VeSCA эффективно генерирует трансфертные примеры, которые могут атаковать различные модели, включая тонкие модели, сборки и другие. Также, наши результаты подчеркивают риски, которые SAM представляет для доростолей, и подтверждают необходимость создания более надежных фундаментальных моделей, которые могут справиться с такими угрозами. ## Значимость Наша работа имеет значимость в нескольких областях. Во-первых, она позволяет выявить и анализировать уязвимости SAM в различных сферах применения, в том числе в задачах распознавания изображений, обработки текста и других. Во-вторы

Annotation:

While the Segment Anything Model (SAM) transforms interactive segmentation with zero-shot abilities, its inherent vulnerabilities present a single-point risk, potentially leading to the failure of numerous downstream applications. Proactively evaluating these transferable vulnerabilities is thus imperative. Prior adversarial attacks on SAM often present limited transferability due to insufficient exploration of common weakness across domains. To address this, we propose Vertex-Refining Simplicia...

ID: 2508.06127v1 cs.CV, I.4.9

arXiv PDF

📄 A Scalable Machine Learning Pipeline for Building Footprint Detection in Historical Maps

2025-08-09

Авторы:

Annemarie McCarthy

Исторические карты представляют собой ценный источник для изучения прошлых ландшафтов и паттернов размещения населения. Однако методы машинного обучения, используемые для извлечения построек из этих карт, часто ограничиваются городскими районами и требуют больших вычислительных ресурсов, что сделало их менее эффективными для анализа расселенных регионов. В статье предлагается новая масштабируемая и эффективная методология, основанная на машинном обучении, для выявления построек на исторических картах с малой плотностью размещения. Метод включает в себя классификацию изображений с использованием нейронных сетей, чтобы отфильтровать ненужные области карт, и сегментацию для извлечения построек. На практике этот подход показал высокую точность и эффективность на тестовых данных из ирландских исторических карт. Например, пайплайн выявил поселение в 22 домах в Тулли, Ко. Гэйлви, которое было присутствовало на карте 1839 года, но отсутствовало на карте 1899 года, что может свидетельствовать о его заросшествии во времена Великой Голодной. Этот подход открывает новые возможности для исторических и археологических исследований.

Annotation:

Historical maps offer a valuable lens through which to study past landscapes and settlement patterns. While prior research has leveraged machine learning based techniques to extract building footprints from historical maps, such approaches have largely focused on urban areas and tend to be computationally intensive. This presents a challenge for research questions requiring analysis across extensive rural regions, such as verifying historical census data or locating abandoned settlements. In thi...

ID: 2508.03564v1 cs.CV, I.4

arXiv PDF

📄 PixCuboid: Room Layout Estimation from Multi-view Featuremetric Alignment

2025-08-09

Авторы:

Gustav Hanning, Kalle Åström, Viktor Larsson

**Резюме** В статье представлена PixCuboid — метод оптимизации для оценки комнатных локайтов на основе много birds-eye-view алайнмента тяжёлых deep features. Это решение предназначено для задачи поиска плоскостей по комнатным пространствам, где существуют проблемы, связанные с неоднородными источниками данных и сложностями быстрого роста лосса. Разработчики продемонстрировали возможность использовать простые начальные геометрические шаблоны для инициализации оптимизации. Для оценки метода были представлены два новых бенчмарка на основе ScanNet++ и 2D-3D-Semantics с точно проверенными 3D комнатными локайтами. Авторы показали, что PixCuboid значительно превосходит конкурентные модели по точности и решает вопросы многокомнатной оценки. Модель и код доступны в репозитории: https://github.com/ghanning/PixCuboid.

Annotation:

Coarse room layout estimation provides important geometric cues for many downstream tasks. Current state-of-the-art methods are predominantly based on single views and often assume panoramic images. We introduce PixCuboid, an optimization-based approach for cuboid-shaped room layout estimation, which is based on multi-view alignment of dense deep features. By training with the optimization end-to-end, we learn feature maps that yield large convergence basins and smooth loss landscapes in the ali...

ID: 2508.04659v1 cs.CV, I.4

arXiv PDF

📄 Physically Controllable Relighting of Photographs

2025-08-09

Авторы:

Chris Careaga, Yağız Aksoy

Исследователи предлагают метод физически контролируемого переосвещения фотографий, который объединяет точность традиционного рендеринга с фотореализмом нейрографики. Основная проблема заключается в том, что существующие способы переосвещения требуют ручного настройки или неттонных данных, что ограничивает их применение в реальных сценах. Предложенное решение включает монокулярное определение геометрии и интринсических компонент сцены, позволяя пользователю определять освещение в 3D. Затем используется дифференцируемый рендеринг для реконструкции иллюминации и обучения нейронного рендерера в самостоятельном режиме. Результат — система, обеспечивающая контроль над источниками света в 3D и фотографический результат. Основные выводы: метод позволяет легко редактировать освещение в сложных сценах, делая его более точным и фотореалистичным.

Annotation:

We present a self-supervised approach to in-the-wild image relighting that enables fully controllable, physically based illumination editing. We achieve this by combining the physical accuracy of traditional rendering with the photorealistic appearance made possible by neural rendering. Our pipeline works by inferring a colored mesh representation of a given scene using monocular estimates of geometry and intrinsic components. This representation allows users to define their desired illumination...

ID: 2508.05626v1 cs.GR, cs.CV, I.4

arXiv PDF

Показано 31 - 37 из 37 записей