📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Aymen Bouguerra, Daniel Montoya, Alexandra Gomez-Villa, Fabio Arnez, Chokri Mraidha

## Контекст Видение-языковые модели (VLMs), такие как CLIP, стали революционным инструментом для решения задач в области обработки изображений и текста. Они обладают выдающимися возможностями zero-shot generalization и используются в решении задач безопасности, таких как детекция вне-дистрибуционных объектов (OOD). Однако, в данных моделях CLIP всё ещё существуют недостатки, связанные с эффективностью и надежностью при их реальном развёртывании. Одним из таких аспектов является влияние квантования (quantization) на производительность моделей. Несмотря на то, что квантование широко распространено в машинном обучении для уменьшения требований к ресурсам, его влияние на CLIP за пределами точности (accuracy) остается значительно недооцененным. Это делает необходимым подробное исследование и оценку того, как квантование влияет на надежность, калибровку и обобщающую способность CLIP. ## Метод Для того чтобы изучить влияние квантования на CLIP, авторы применяют тщательную оценку набора метрик, охватывающих качество распознавания, калибровку и OOD-детекцию. Использованные данные включают в себя обучающие и тестовые данные, используемые в оригинальной CLIP-модели, а также дополнительные вне-дистрибуционные данные для оценки OOD-способности. Методология исследования включает оценку классических метрик точности, но также включает рассмотрение показателей калибровки, таких как ECE (Expected Calibration Error), а также метрики OOD-точности. Архитектура оценки включает эксперименты с различными методами квантования, включая post-training quantization (PTQ) и quantization-aware training (QAT). ## Результаты Исследование показало, что квантование может привести к неожиданным результатам в зависимости от исходной тренировочной среды модели. Например, для моделей, которые в начале были менее точны (underconfident), квантование приводит к улучшению калибровки, но может негативно сказываться на точности. Несмотря на это, OOD-точность может улучшиться за счёт квантования. В то же время, для моделей, которые изначально были сильно уверенными в своих прогнозах (overconfident), квантование может привести к ухудшению калибровки. Однако, QAT-методы позволяют достичь баланса между этими двумя крайностями, повысив калибровку, точность и OOD-точность одновременно. Эти результаты вызывают удивление, поскольку доказывают, что квантование не только уменьшает требования к ресурсам, но и может улучшить целостную надежность модели. ## Значимость Полученные результаты имеют важное значение для применения VLMs в реальном мире, где необходимы модели, которые сочетают высокую эффективность, надежность и устойчивость к непредвиденным ситуациям. В
Annotation:
The powerful zero-shot generalization capabilities of vision-language models (VLMs) like CLIP have enabled new paradigms for safety-related tasks such as out-of-distribution (OOD) detection. However, additional aspects crucial for the computationally efficient and reliable deployment of CLIP are still overlooked. In particular, the impact of quantization on CLIP's performance beyond accuracy remains underexplored. This work presents a large-scale evaluation of quantization on CLIP models, assess...
ID: 2509.21173v1 cs.CV, cs.AI, cs.LG
Авторы:

Zhijian Yang, Noel DSouza, Istvan Megyeri, Xiaojian Xu, Amin Honarmandi Shandiz, Farzin Haddadpour, Krisztian Koos, Laszlo Rusko, Emanuele Valeriano, Bharadwaj Swaninathan, Lei Wu, Parminder Bhatia, Taha Kass-Hout, Erhan Bas

## Контекст Магнитная резонансная импедансometrie (MRI) является ключевым медицинским исследованием, используемым в клинической диагностике и исследованиях. Однако сложность и гетерогенность MRI создают серьезные вызовы для автоматизированного анализа, особенно при стремлении к скейлируемым и широко применимым моделям машинного обучения. Несмотря на то, что фаундациональные модели полностью изменили области естественного языка и визуального понимания, их применение к MRI остается ограниченным из-за недостатка данных и ограниченного анатомического фокуса. Для решения этих проблем мы предлагаем Decipher-MR — модель, основанную на обучении с подкреплением статичной и текстовой связи для 3D MRI. ## Метод Decipher-MR обучается на большом датасете, состоящем из 200 000 MRI-серий, полученных из более чем 22 000 исследований, охватывающих различные анатомические регионы, последовательности и патологии. Модель включает в себя самостоятельное визуальное обучение и текстовое руководство отчетов, чтобы построить широко распространенные и выносливые представления. Для обеспечения эффективного применения в разных клинических задачах, Decipher-MR имеет модульный дизайн, позволяющий настроить легкие, задаче-специфические декодеры, привязанные к замороженному предварительно обученному энкодеру. ## Результаты Мы оценили Decipher-MR на широком спектре задач, включая классификацию заболеваний, прогноз демографических признаков, локализацию анатомии и кросс-модальный поиск. Модель показала значительные улучшения по сравнению с другими моделями фаундациональных моделей и задаче-специфическими подходами. Наши результаты подтверждают Decipher-MR как скейлируемую и универсальную фаундациональную модель для MRI, которая обеспечивает эффективное развитие в области клинической практики и исследований. ## Значимость Decipher-MR может применяться в различных клинических областях, включая диагностику заболеваний, прогнозирование демографических признаков и анатомическую локализацию. Его модульный дизайн позволяет легко адаптировать модель к различным задачам с минимальным вычислительным накладным расходом. Это делает Decipher-MR важной инструментом для ускорения развития AI в области MRI, обеспечивая точность и универсальность в работе с медицинскими изображениями. ## Выводы Decipher-MR устанавливает новые академические и практические стандарты для MRI-based AI. Наша модель демонстрирует высокую точность и универсальность в различных задачах клинического анализа. Будущие исследования будут сфокусированы на расширении Decipher-MR для более широких медицинских применений и его интеграции с другими моделями машин
Annotation:
Magnetic Resonance Imaging (MRI) is a critical medical imaging modality in clinical diagnosis and research, yet its complexity and heterogeneity pose challenges for automated analysis, particularly in scalable and generalizable machine learning applications. While foundation models have revolutionized natural language and vision tasks, their application to MRI remains limited due to data scarcity and narrow anatomical focus. In this work, we present Decipher-MR, a 3D MRI-specific vision-language...
ID: 2509.21249v1 cs.CV, cs.AI, cs.LG
Авторы:

Shilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong

## Контекст Область исследования, посвященная изображению, широко развивается в современной компьютерной графике и искусственном интеллекте. Одна из сложных задач в этой области — изображение составления, которая заключается в том, чтобы вставить пользовательский объект в новую сцену таким образом, чтобы результат выглядел природным и синтетическим. Несмотря на прогрессы в глубинном обучении, существующие модели сталкиваются с рядом проблем, в том числе сложными условиями освещения (например, точные тени, отражения на воде) и разнообразием высокого разрешения входных данных. Недавние текстовые модели для генерации изображений, такие как SD3.5 и FLUX, включают в себя базовые физические признаки и высокое разрешение, но не полностью могут эффективно использовать эти возможности без потерь качества. Таким образом, существует необходимость в развитии методов, позволяющих эффективно использовать эти модели для физически правдоподобного изображения составления. ## Метод Метод, предложенный в работе, имеет название SHINE (Seamless, High-fidelity Insertion with Neutralized Errors), который является простой, но эффективной архитектурой, не требующей дополнительного обучения. Основная идея заключается в использовании целевой адаптации latenta с помощью предобученных инструментов, таких как IP-Adapter. Данные адаптеры позволяют гибко контролировать представление объекта, сохранив точность позиции и физическую правдоподобность. Для повышения результатов вводятся два дополнительных механизма: адаптивная смешивания фона и подавление потерь формируемой картины. Эти методы позволяют избежать низкокачественных результатов, таких как разрывы и неестественные стыки. Для оценки и подтверждения эффективности SHINE был разработан новый тренировочный комплекс ComplexCompo, включающий разнообразные положения и сложности сцен, такие как низкое освещение, яркие иллюминаторы и рефлексивные поверхности. ## Результаты На новой тренировочной выборке ComplexCompo SHINE показал свою высокую эффективность, получив лучшие результаты по сравнению с другими подходами, такими как преобразования латентных пространств и методы склейки. Оценки были проведены с помощью стандартных метрик (например, DINOv2), а также метриками, основанными на человеческом понимании (например, DreamSim, ImageReward, VisionReward). Эксперименты показали, что SHINE не только превосходит другие модели по качеству изображений, но и обеспечивает лучшую гармонию между главным предметом и фоном. Эти результаты подтверждают, что SHINE может эффективно решать сложные задачи в области изображения составления. ## Значимость Предложенный подход име
Annotation:
Image composition aims to seamlessly insert a user-specified object into a new scene, but existing models struggle with complex lighting (e.g., accurate shadows, water reflections) and diverse, high-resolution inputs. Modern text-to-image diffusion models (e.g., SD3.5, FLUX) already encode essential physical and resolution priors, yet lack a framework to unleash them without resorting to latent inversion, which often locks object poses into contextually inappropriate orientations, or brittle att...
ID: 2509.21278v1 cs.CV, cs.AI, cs.LG
Авторы:

Ved Umrajkar

## Контекст Визионно-языковые модели (Vision-Language Models, VLMs) являются основополагающими для решения задач в критических областях, таких как автономное передвижение, медицинское диагностирование и модерация контента. Интеграция этих моделей в реальные приложения, однако, сталкивается с рядом трудностей, в том числе их уязвимостью к адверсарным атакам, которые могут серьезно повлиять на безопасность и надежность решений. Одна из самых значимых моделей — CLIP — является центральным элементом для многих визуальных моделей, что делает ее уязвимость крайне критичной. Большинство методов жесткой адаптации, такие как fine-tuning, требуют больших объемов данных и ресурсов, что делает их неэффективными для малообучения (few-shot adaptation). Недавние работы, такие как Parameter-Efficient Fine-Tuning (PEFT), предлагают эффективные альтернативы, но недостаточно устойчивы к адверсарным атакам. Мы предлагаем DAC-LoRA, новую структуру для укрепления уязвимостей VLMs с помощью динамического метода гибкого обучения с учетом адверсарных нападок. ## Метод DAC-LoRA основывается на интеграции динамического обучения с учетом адверсарных примеров (adversarial curriculum) и Parameter-Efficient Fine-Tuning (PEFT) в целях повышения устойчивости к адверсарным атакам. Метод использует First-Order Stationary Condition (FOSC) и TRADES-inspired loss для управления балансом между безопасностью и чистотой прогнозов. Алгоритм DAC-LoRA работает над небольшими данными в малообучении и использует итеративный процесс обучения, который постепенно усиливает атаки, обеспечивая модели CLIP устойчивость к широкому спектру адверсарных вариантов. Эта гибкая архитектура позволяет DAC-LoRA легко интегрироваться в существующие PEFT-модели без основных изменений их архитектуры. ## Результаты Мы провели эксперименты на крупных датасетах, таких как ImageNet и CIFAR-10, чтобы оценить эффективность DAC-LoRA. Модель показала значительные улучшения в устойчивости к адверсарным атакам, в то же время поддерживая высокую чистую точность. Мы сравнили результаты с другими PEFT-методами, включая LoRA и Prompt Tuning. Результаты показали, что DAC-LoRA не только улучшает устойчивость, но и уменьшает время обучения и затраты ресурсов в сравнении с жесткими методами. Благодаря его интеграбельности, DAC-LoRA может быть легко внедрен в различные VLM-приложения, что демонстрирует его практическую значимость. ## Значимость DAC-LoRA широко может быть применен в различных областях, таких как автономная техника, медицинская информатика и модерация контента. Он предоставляет существенные преимущества по сравнению с другими PEFT-методами, включая увеличение у
Annotation:
Vision-Language Models (VLMs) are foundational to critical applications like autonomous driving, medical diagnosis, and content moderation. While Parameter-Efficient Fine-Tuning (PEFT) methods like LoRA enable their efficient adaptation to specialized tasks, these models remain vulnerable to adversarial attacks that can compromise safety-critical decisions. CLIP, the backbone for numerous downstream VLMs, is a high-value target whose vulnerabilities can cascade across the multimodal AI ecosystem...
ID: 2509.20792v1 cs.CV, cs.AI, cs.LG
Авторы:

Juana Valeria Hurtado, Rohit Mohan, Abhinav Valada

#### Контекст Область исследования — семантическое разделение данных hyperspectral imaging (HSI). Несмотря на то, что HSI предоставляет богатые спектральные данные, способствующие расширению мощности роботов в сложных средах, существующие методы семантического разделения либо недостаточно эффективны, либо ориентированы на RGB-данные, не спроектированные для HSI. Это делает необходимым разработку новых подходов, которые бы позволили эффективно использовать HSI в семантическом разделении. Мотивация заключается в том, чтобы сделать HSI более доступным для машинного обучения, оптимизировав его для задач, требующих высокого качества разделения объектов. #### Метод Предлагается новый адаптер для hyperspectral imaging, основанный на vision foundation models. Этот адаптер включает в себя спектральный transformer, который эффективно обрабатывает спектральные данные, и модуль spectrum-aware spatial prior, который учитывает информацию о пространстве. Для улучшения взаимодействия двух моделей вводится modality-aware interaction block, позволяющий лучше интегрировать HSI-данные и фирзеризованные фичи модели Vision Transformer. Эта архитектура гарантирует лучшую обработку данных, учитывая их специфику, и повышает качество семантического разделения. #### Результаты Авторы проводили эксперименты на трех различных датасетах, связанных с autonomous driving. Использовались HSI-данные в качестве входных, чтобы оценить эффективность адаптера. Результаты показали, что архитектура во всех случаях показала лучший результат по сравнению с другими методами семантического разделения. Она демонстрирует высокую точность в распознавании объектов и их классификации, даже в условиях сложного спектрального содержимого и переменного освещения. Это обозначает значительное улучшение перед существующими HSI-методами и RGB-методами. #### Значимость Предлагаемый адаптер может быть применен в следующих областях: автомобильная электроника, системы безопасности, исследования окружающей среды, а также в робототехнике. Он предлагает значительные преимущества, такие как повышение точности распознавания объектов и улучшение производительности HSI в сложных средах. Это может привести к расширению использования HSI в более широких приложениях, включая самоуправляемые автомобили и системы автоматического мониторинга. #### Выводы Адаптер для hyperspectral imaging, основанный на vision foundation models, демонстрирует высокую эффективность в семантическом разделении. Он представляет собой новый подход к обработке HSI-данных, который дополняет существующие архитектуры. Будущие исследования могут сфокусироваться на улучшении модуля modality-aware interaction и исследовании других приложений, в которых HSI может предоставить значите
Annotation:
Hyperspectral imaging (HSI) captures spatial information along with dense spectral measurements across numerous narrow wavelength bands. This rich spectral content has the potential to facilitate robust robotic perception, particularly in environments with complex material compositions, varying illumination, or other visually challenging conditions. However, current HSI semantic segmentation methods underperform due to their reliance on architectures and learning frameworks optimized for RGB inp...
ID: 2509.20107v2 cs.CV, cs.AI, cs.LG, cs.RO
Авторы:

Tom Burgert, Oliver Stoll, Paolo Rota, Begüm Demir

#### Контекст Глубокие нейронные сети, особенно Convolutional Neural Networks (CNNs), стали решающим фактором в развитии машинного обучения. Однако существует широко распространенная углубляющаяся идея, что эти сети доминированно ориентируются на текстуральные признаки во время распознавания объектов. Эта текстура-ориентированная модель влияет на теоретические модели, принятие решений и даже на обучение с подкреплением в глубоком обучении. Недавние исследования Гейроса и его коллег (2021) подтвердили эту текстура-ориентированную модель, выявив, что CNNs упрекаются в недостатке умения использовать свойства формы (shape) при определении объектов. Однако, эти исследования имели тонкости в методологии, включая ситуации, когда сильные конфликты между признаками могли исказить результаты. В настоящей работе мы предлагаем новую перспективу на этот вопрос, предлагая новую методологию, которая избавляет нас от ограничений в управлении признаками. #### Метод Мы разработали новую структуру, называемую **Feature Suppression Framework**, которая позволяет контролировать различные признаки (shape, texture, и цвет) во входных изображениях. В отличие от предыдущих экспериментов, где присутствовал сильный конфликт между признаками, наша методология позволяет измерить их влияние по отдельности. Мы применяем нашу модель к различным типам данных, включая обычные изображения (ImageNet), медицинские изображения и данные спутниковых снимков. Мы оцениваем не только влияние признаков на CNNs, но и на нейронные сети стандартного обучения, включая ViT и ConvNeXt. Наши эксперименты находятся на базе методов линейного классификатора, чтобы точно определить вклад каждого признака. #### Результаты Наши результаты открывают новую главу в теории функционирования CNNs. Мы обнаружили, что CNNs, обученные на ImageNet, не имеют привязки к текстурным признакам, как это было предполагалось. Вместо этого они приоритетно рассматривают локальные признаки формы. Это отклонение от предыдущих исследований подтверждается в экспериментах, где мы показываем, что архитектуры ConvNeXt и ViT по умолчанию имеют более широкий спектр признаков, включая текстуру, но с меньшим рассчитыванием на текстуру по сравнению с CNNs. Мы также выявили различия во взаимодействии признаков в различных областях применения, например, в случае медицинских изображений, где цвет играет ключевую роль. #### Значимость Наши находки имеют решающее значение для дискурса о природе и ограничениях CNNs. Мы показали, что они не могут быть полностью ограничены текстурой, а вместо этого ориентируются на форму. Это открывает
Annotation:
The hypothesis that Convolutional Neural Networks (CNNs) are inherently texture-biased has shaped much of the discourse on feature use in deep learning. We revisit this hypothesis by examining limitations in the cue-conflict experiment by Geirhos et al. To address these limitations, we propose a domain-agnostic framework that quantifies feature reliance through systematic suppression of shape, texture, and color cues, avoiding the confounds of forced-choice conflicts. By evaluating humans and ne...
ID: 2509.20234v1 cs.CV, cs.AI, cs.LG
Авторы:

Mehrdad Moradi, Shengzhe Chen, Hao Yan, Kamran Paynabar

#### Контекст Аномалий детектирование в изображениях широко используется в различных областях, включая производство, здравоохранение и безопасность. Обычно для этого требуется подготовленный набор тренировочных данных, на основе которого обучаются модели. Однако в реальной жизни часто возникают ситуации, когда исходных данных для обучения отсутствуют. Мы предлагаем метод, который способен детектировать аномалии в изображениях без предварительного обучения, используя только тестовое изображение. Наша модель, SSDnet, основывается на свойствах конvolutionных нейронных сетей и выступает в качестве уникального решения для такого "ноль-шота" сценария. #### Метод Мы предлагаем Single Shot Decomposition Network (SSDnet), который оперирует следующим принципом. Мы считаем, что в естественных изображениях присутствуют унифицированные текстуры и шаблоны, а аномалии выражаются как отклонения от этих шаблонов, например, в виде неестественных треков или пятен. SSDnet учитывает это, используя конvolutionные сети, чтобы восстановить исходное изображение только на основе своих внутренних свойств. Мы используем патч-базуую архитектуру, где изображение само представляется сети в качестве входа вместо шума, как в Deep Image Prior. Чтобы предотвратить простое обучение идентичности, мы применяем маскирование, смешивание патчей и небольшие добавления гауссовского шума. Также мы используем потерю внутреннего произведения для захвата структуры изображения за пределами верности пикселей. #### Результаты Мы провели эксперименты на двух высокочастотных датасетах: MVTec-AD и датасете тканей. SSDnet показал отличные результаты с AUROC 0.99 и AUPRC 0.60 на MVTec-AD и AUROC 0.98, AUPRC 0.67 на датасете тканей. Эти результаты значительно превосходят лучшие результаты других методов, особенно в условиях отсутствия тренировочных данных. Мы также проверили модель на изображениях с помехами и отсутствующими пикселями, подтвердив ее высокую устойчивость. #### Значимость Наш метод может применяться в областях, где данных для обучения отсутствуют, например, в ситуациях сбора данных после катастрофы или для детектирования аномалий в реальном времени. SSDnet обеспечивает высокую точность и гибкость без нужды в специальных тренировочных данных. Это делает его привлекательным для промышленных приложений, таких как оптическая инспекция, мониторинг производства и безопасность. #### Выводы Мы успешно продемонстрировали, что модель SSDnet может детектировать аномалии в изображениях без предварительного обучения. Наши выводы показывают, что модель достаточно мощная для применения в реальных сценариях. Мы планируем продолжать
Annotation:
Anomaly detection in images is typically addressed by learning from collections of training data or relying on reference samples. In many real-world scenarios, however, such training data may be unavailable, and only the test image itself is provided. We address this zero-shot setting by proposing a single-image anomaly localization method that leverages the inductive bias of convolutional neural networks, inspired by Deep Image Prior (DIP). Our method is named Single Shot Decomposition Network ...
ID: 2509.18354v1 cs.CV, cs.AI, cs.LG, eess.IV, 62H35, 68T07, 62M40, 68T45, I.2.6; I.2.10; I.4.6; I.4.8; I.5.1; I.5.4
Авторы:

Jiaxin Dai, Xiang Xiang

## Контекст В области машинного обучения существуют задачи, требующие эффективного обработки и классификации данных с высокой степенью иерархичности. Одним из таких задач действительно является Coarse-To-Fine Few-Shot Class-Incremental Learning (C2FSCIL), в которой требуется не только классифицировать общую категорию, но и учитывать тонкую классификацию подкатегорий. Многие существующие подходы сталкиваются с проблемами, такими как переобучение при небольшом количестве обучающих данных, недостаточная точность классификации и высокая сложность алгоритмов. Мотивация для этого исследования лежит в необходимости развития моделей, которые могут эффективно работать в условиях небольших выборок и поддерживать стабильность в динамических средах. ## Метод Предлагаемый подход к решению задачи C2FSCIL основывается на использовании модели в гиперболическом пространстве, а именно в модели шаровой проекции гиперболы (Poincar\'e ball model). Основная идея заключается в том, чтобы преобразовать входные изображения в функциональные вектора в гиперболическом пространстве вместо традиционного Евклидова пространства. Для этого используется метод аппроксимации сложности и экспериментальная проверка. Был рассмотрен контрастный подход к обучению, включающий в себя контрастное обучение на крупном классе и заморозку весов классификаторов для тонких классов. Для улучшения устойчивости модели внедрена максимальная энтропия в гиперболическом пространстве. Была также предложена усовершенствованная архитектура, включающая в себя гиперболические полносвязные слои и гиперболическую кстовую потерю. Это позволило модели лучше подстраиваться под небольшие выборки данных и улучшать точность классификации. ## Результаты Для оценки эффективности предлагаемого подхода проведены эксперименты на стандартных бенчмарках C2FSCIL. Была проверена эффективность в отношении точности классификации и стабильности в динамических условиях. Полученные результаты показали что алгоритм эффективнее существующих подходов, особенно в условиях небольших обучающих выборок. Был также продемонстрирован улучшенный порядок точности классификации в гиперболическом пространстве в сравнении с Евклидовым. Были также установлены значительные улучшения в классификации тонких классов, что говорит о том, что предложенный подход отлично подходит для решения задачи C2FSCIL. ## Значимость Предложенный подход может быть применен в различных областях, где требуется обработка и классификация данных с высокой степенью иерархичности, таких как оптическое распознавание символов, классификация медици
Annotation:
In the field of machine learning, hyperbolic space demonstrates superior representation capabilities for hierarchical data compared to conventional Euclidean space. This work focuses on the Coarse-To-Fine Few-Shot Class-Incremental Learning (C2FSCIL) task. Our study follows the Knowe approach, which contrastively learns coarse class labels and subsequently normalizes and freezes the classifier weights of learned fine classes in the embedding space. To better interpret the "coarse-to-fine" paradi...
ID: 2509.18504v1 cs.CV, cs.AI, cs.LG, stat.ML
Авторы:

Matheus Vinícius Todescato, Joel Luís Carbonera

#### Контекст Глубокое обучение, включая глубокие сверточные сети (Convolutional Neural Networks, CNNs) и трансформаторы для обработки изображений (Vision Transformers, ViTs), достигло выдающихся результатов в задачах классификации изображений. Однако эти технологии часто требуют больших объемов этикетированных данных для эффективного обучения, что ограничивает их применение в сценариях, где такие данные отсутствуют. Одним из выходов из этой ситуации могут являться зеркально-языковые модели (Vision-Language Models, VLMs) и трансферное обучение с предварительно обученными моделями. Несмотря на эти преимущества, имеются проблемы, связанные с необходимостью постоянного взаимодействия между моделями и большими объемами данных, что приводит к сложностям в тестировании и работе в реальных условиях. Данная работа предлагает новую модель для решения проблемы классификации изображений без меток, которая может динамически адаптироваться к задаче без постоянного взаимодействия с моделями. #### Метод Предлагаемая модель основывается на самостоятельном обучении с использованием визуальных трансформаторов. Она не требует традиционных меток для обучения и может применяться для любых классов с использованием только их названий. Метод включает два основных элемента: 1) предварительно обученную визуальную модель, которая выделяет визуальные признаки, и 2) механизм самостоятельного обучения, позволяющий обновлять классификатор на основе высококонфидентных тестовых семплов. Эти высококонфидентные семплы образуются с помощью метода генерирования псевдометок, основанного на уровне уверенности модели. Используя эти псевдометки, самообучающийся классификатор обучается непосредственно на тестовых данных, что позволяет динамически адаптироваться к задаче. Избегается тюнинг модели трансформаторов, что упрощает и ускоряет процесс обучения. #### Результаты За счет использования подхода с самостоятельным обучением и высококонфидентного псевдометки, модель показала свое превосходство на 10 различных датасетах. Модель была сравнена с базовой стратегией нулевого запуска (zero-shot), и демонстрировала значительные повышения точности и устойчивости к изменению классов. Эксперименты показали, что модель может значительно улучшить результаты классификации, даже в условиях нехватки традиционных меток. Изучены различные визуальные и семантические представления, и продемонстрирована их эффективность в обучении классификатора на новых данных. #### Значимость Предлагаемый подход может быть применен в сценариях, где традиционные метки отсутствуют или требуют дополнительных затрат. Он пока
Annotation:
While deep learning, including Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs), has significantly advanced classification performance, its typical reliance on extensive annotated datasets presents a major obstacle in many practical scenarios where such data is scarce. Vision-language models (VLMs) and transfer learning with pre-trained visual models appear as promising techniques to deal with this problem. This paper proposes a novel zero-shot image classification framework t...
ID: 2509.18938v1 cs.CV, cs.AI, cs.LG
Авторы:

Xingjian Diao, Weiyi Wu, Keyi Kong, Peijun Qing, Xinwen Xu, Ming Cheng, Soroush Vosoughi, Jiang Gui

## Контекст Visual Question Answering (VQA) широко применяется в различных областях, от общей визуальной рассуждений до критически важных сфер, таких как медицинское изображение и автономные системы. В этих областях необходимо не только предоставить правильный ответ, но и объяснить его понятно для людей. Однако, проблема в том, что большинство VQA-систем не могут объяснить свои решения. Это приводит к затруднению проверки и доверию к результатам. Мы предлагаем ProtoVQA — рамочную модель, которая призвана улучшить интерпретируемость и точность VQA-систем, объединяя прототипные методы и понимание вопросов. ## Метод ProtoVQA представляет собой прототипный фреймворк, который объединяет несколько ключевых компонентов. Во-первых, он выводит вопрос-специфические прототипы — семантически обозначенные области, которые связывают ответы с областями в изображении. Во-вторых, он использует пространственно ограниченное сравнение для того, чтобы обеспечить логичность и семантическую актуальность выбранного доказательства. В-третьих, он объединяет возможности по объяснению и ответу в одну модель, используя общую архитектуру прототипов. ## Результаты Мы проверили ProtoVQA на наборе данных Visual7W, измерив качество объяснения с помощью показателя Visual-Linguistic Alignment Score (VLAS). Этот показатель измеряет степень совпадения выделенных в модели областей с тем, что требуется по тексту. Результаты показали, что ProtoVQA демонстрирует высокую точность и подробность объяснений, сохраняя доступность для понимания людей. ## Значимость ProtoVQA может быть использована в различных областях, где важно обеспечить понимание результатов. Например, в медицинской импликации, где врачи должны понимать, почему модель пришла к определенному выводу. Эта модель также может использоваться в автономных системах, где понимание решений критично для безопасности. Основное преимущество ProtoVQA заключается в том, что она предоставляет понятные, доказуемые и финеграммальные объяснения. ## Выводы ProtoVQA демонстрирует фундаментально новый подход к объяснению результатов VQA. Мы показали, что она может предоставлять точные и понятные объяснения, обеспечивая новый уровень доверия к VQA-системам. Будущие исследования будут фокусироваться на расширении ProtoVQA для более сложных задач и применении ей в реальных критически важных системах.
Annotation:
Visual Question Answering (VQA) is increasingly used in diverse applications ranging from general visual reasoning to safety-critical domains such as medical imaging and autonomous systems, where models must provide not only accurate answers but also explanations that humans can easily understand and verify. Prototype-based modeling has shown promise for interpretability by grounding predictions in semantically meaningful regions for purely visual reasoning tasks, yet remains underexplored in th...
ID: 2509.16680v1 cs.CV, cs.AI, cs.LG
Показано 241 - 250 из 358 записей