📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Deep Learning with Self-Attention and Enhanced Preprocessing for Precise Diagnosis of Acute Lymphoblastic Leukemia from Bone Marrow Smears in Hemato-Oncology

2025-08-27

Авторы:

Md. Maruf, Md. Mahbubul Haque, Bishowjit Paul

## Контекст Acute lymphoblastic leukemia (ALL) является частым типом лейкоза, как у детей, так и у взрослых. Его ранняя и точная диагностика, включая подтипировку, крайне важна для выбора эффективного лечения. Однако существующие рабочие процессы диагностики требуют больших усилий, требуют много времени и чувствительны к человеческим ошибкам. Нейронные сети становятся мощным инструментом для автоматизации диагностики, однако необходимо их улучшение для обеспечения высокой точности и достоверности в работе с реальными медицинскими данными. ## Метод Мы предлагаем биомедицинскую систему для обнаружения ALL, основанную на глубинных нейронных сетях с использованием многоголосного самоп paуживания (MHSA). Этот метод внедряется в сеть VGG19 для моделирования связности между клетками. Для того чтобы улучшить интерпретируемость и эффективность, мы внедрили стабилизированную предобработку изображений. Также, для адресации проблемы несбалансированных классов, мы использовали Focal Loss. Это позволило системе улучшить свою точность и уменьшить погрешность при различных объемах данных. ## Результаты Мы провели эксперименты с использованием небольшого, но высококачественного датасета, содержащего изображения бонных марров с признаками ALL. Улучшенная модель VGG19+MHSA с Focal Loss достигла 99.25% точности, что значительно превышает результаты модели ResNet101 (98.62%). Эти результаты показывают, что самоп paуживание самостоятельно может быть полезно для моделирования взаимосвязей клеток и повышения точности диагностики. ## Значимость Наше решение может использоваться для быстрого и точного распознавания типов лейкоза, что уменьшит нагрузку на клинических экспертов и повысит точность диагностики. Это может привести к более эффективному управлению лечением и улучшению прогноза для пациентов. ## Выводы Мы установили, что глубинные нейронные сети с многоголосным самоп paуживанием могут повысить точность диагностики ALL. Наша работа показывает, что такие модели могут стать ключевым инструментом для сверхточной диагностики на основе медицинских изображений. Мы планируем расширить нашу модель для учета дополнительных факторов, таких как подтипы лейкоза и выявление раннего стадии.

Annotation:

Acute lymphoblastic leukemia (ALL) is a prevalent hematological malignancy in both pediatric and adult populations. Early and accurate detection with precise subtyping is essential for guiding therapy. Conventional workflows are complex, time-consuming, and prone to human error. We present a deep learning framework for automated ALL diagnosis from bone marrow smear images. The method combines a robust preprocessing pipeline with convolutional neural networks (CNNs) to standardize image quality a...

ID: 2508.17216v1 cs.CV, cs.LG, I.2.6; I.4.6; I.5.4; J.3

arXiv PDF

📄 CLIFF: Continual Learning for Incremental Flake Features in 2D Material Identification

2025-08-27

Авторы:

Sankalp Pandey, Xuan Bac Nguyen, Nicholas Borys, Hugh Churchill, Khoa Luu

#### Контекст Идентификация квантовых флейсов является ключевым вопросом для развития скалярных квантовых технологий, но автоматическая классификация слоёв на основе оптического микроскопии сталкивается с значительными трудностями из-за выраженных визуальных изменений между различными материалами. Для решения этой проблемы требуются мощные методы, способные обучаться постепенно и адаптироваться к новым материалам без полной переобучения. Наша проблема лежит в центре области континюального обучения, где требуется создать модели, которые могут эффективно обобщаться на новых данных без удаления информации о предыдущих. Особенно актуальным это становится в контексте двумерных (2D) материалов, где природа физических и оптических свойств требует точности и гибкости. #### Метод Мы предлагаем Continual-Learning Framework for Flake Layer Classification (CLIFF), ориентированный на точность и эффективность в классификации слоёв квантовых материалов. Фреймворк основывается на трёх основных компонентах: 1. **Material-Specific Prompts и Embeddings**: CLIFF использует пространственные модели, описывающие физические свойства материалов. Эти модели адаптируются для каждого нового материала с помощью материал-специфических предложений (prompts) и вспомогательных входных данных (embeddings). 2. **Delta Head и Prompt Pool**: CLIFF обучает отдельный "delta head" для каждого материала, используя его для выявления отличий по отношению к предыдущим материалам. Для этого используется пул предложений (prompt pool), который помогает быстро ориентироваться в новых условиях. 3. **Memory Replay и Knowledge Distillation**: Для борьбы с проблемой кратковременного забывания (forgetting), CLIFF включает механизм памяти реплея, позволяющий модели повторно просматривать ранее натренированные данные, а также использовать техники knowledge distillation для улучшения устойчивости модели. CLIFF является первым систематическим подходом к континюальному обучению в 2D-материалах, объединяя принципы continual learning и memory-based techniques. #### Результаты Мы провели эксперименты на наборе данных, содержащих слои различных квантовых материалов, как известных, так и новых. Наша модель CLIFF показала высокую точность классификации и существенно меньшую степень забывания по сравнению с традиционным одиночным обучением (fine-tuning) и базовым методом с подсказками (prompt-based baseline). Также мы проанализировали влияние размера памяти реплирования и количества материалов на полученные результаты. Эксперименты показали, что CLIFF обеспечивает значительно более стабильное обучение и эффективность при работе с новыми материалами. #### Значимость CLIFF открывает новые возможности для автоматизированной классификации квантовы

Annotation:

Identifying quantum flakes is crucial for scalable quantum hardware; however, automated layer classification from optical microscopy remains challenging due to substantial appearance shifts across different materials. In this paper, we propose a new Continual-Learning Framework for Flake Layer Classification (CLIFF). To our knowledge, this is the first systematic study of continual learning in the domain of two-dimensional (2D) materials. Our method enables the model to differentiate between mat...

ID: 2508.17261v1 cs.CV, cs.LG

arXiv PDF

📄 Quickly Tuning Foundation Models for Image Segmentation

2025-08-27

Авторы:

Breenda Das, Lennart Purucker, Timur Carstensen, Frank Hutter

Отличное выполнение! Весьма понравились ваша грамотность и лаконичность. Если вам понадобятся более сложные редакторские или коррекционные задачи, с радостью помогу.

Annotation:

Foundation models like SAM (Segment Anything Model) exhibit strong zero-shot image segmentation performance, but often fall short on domain-specific tasks. Fine-tuning these models typically requires significant manual effort and domain expertise. In this work, we introduce QTT-SEG, a meta-learning-driven approach for automating and accelerating the fine-tuning of SAM for image segmentation. Built on the Quick-Tune hyperparameter optimization framework, QTT-SEG predicts high-performing configura...

ID: 2508.17283v1 cs.CV, cs.LG

arXiv PDF

📄 Towards Optimal Convolutional Transfer Learning Architectures for Breast Lesion Classification and ACL Tear Detection

2025-08-27

Авторы:

Daniel Frees, Moritz Bolling, Aditri Bhagirath

#### Контекст Модерная компьютерная визуализация нашла широкое применение в медицинских иммуниграциях, включая классификацию и сегментацию изображений. Однако, существующие модели часто сталкиваются с ограниченным размером медицинских данных, что снижает их эффективность. Трансферное обучение (transfer learning) стало ключевым решением этой проблемы, позволяя использовать предобученные модели на больших объемах данных для улучшения классификации на малых датасетах. Ранее, Mei et al. (2022) обнаружили, что предобучение CNN-моделей на большой выборке изображений, отмеченных радиологами (RadImageNet), повысило качество решения задач классификации по сравнению с предобучениями на ImageNet. В данной работе мы проводим подробное исследование для определения оптимальных архитектур конволюционных нейронных сетей для диагностики злокачественных подвздошных зубков и разрывов связок анатрофий (ACL), а также проводим статистический анализ влияния RadImageNet и ImageNet на последующие результаты модели. #### Метод Мы исследуем различные архитектуры конволюционных нейронных сетей с различными типами слоев, включая 1D-конволюции, полносвязные слои и skip-соединения. Модели предобучены на большом датасете RadImageNet или ImageNet, затем принимают участие в трейнинге на малых датасетах для классификации злокачественных подвздошных зубков и разрывов ACL. Мы рассматриваем стратегии, такие как полное и частичное размотывание бэкбоны, чтобы оптимизировать последующие результаты. Для сравнения, мы используем метрики AUC (Area Under Curve) для оценки качества классификации. #### Результаты Наши эксперименты показали, что 1D-конволюционные классификаторы с skip-соединениями, бэкбонами ResNet50 и частичным размотом бэкбона демонстрируют оптимальные результаты. Мы получили AUC 0.9969 для диагностики разрывов ACL и 0.9641 для классификации злокачественных подвздошных зубков. Эти результаты сравнимы с теми, полученными Mei et al. (2022), и превосходят другие работы в этой области. Наши исследования не подтвердили, что RadImageNet предобучение обеспечивает лучшую последующую производительность для задач классификации подвздошных зубков и разрывов ACL. #### Значимость Наша работа имеет большое значение для развития медицинских искусственных нейронных сетей. Оптимальные архитектуры, разработанные в этом исследовании, могут использоваться для других задач классификации медицинских изображений, включая диагностику раковых опухолей и инфекций. Мы также подтвердили, что предобучение на больших датасетах не всегда является существенным фактором для повышения модели, что мож

Annotation:

Modern computer vision models have proven to be highly useful for medical imaging classification and segmentation tasks, but the scarcity of medical imaging data often limits the efficacy of models trained from scratch. Transfer learning has emerged as a pivotal solution to this, enabling the fine-tuning of high-performance models on small data. Mei et al. (2022) found that pre-training CNNs on a large dataset of radiologist-labeled images (RadImageNet) enhanced model performance on downstream t...

ID: 2508.17567v2 cs.CV, cs.LG, 68T45

arXiv PDF

📄 Citizen Centered Climate Intelligence: Operationalizing Open Tree Data for Urban Cooling and Eco-Routing in Indian Cities

2025-08-27

Авторы:

Kaushik Ravi, Andreas Brück

#### Контекст Устойчивость к климатическим изменениям в урбанизированных районах требует не только высокого разрешения данных, но и систем, включающих сбор, интерпретацию и применение данных в повседневной жизни граждан. Это взаимосвязанное проблемы значительного экологического неравенства и централизации данных. В этом контексте рассматривается развитие гражданско-ориентированной системы умных городов, которая превращает открытые данные в систему управления, ориентированную на участников, и обеспечивающую экологическую справедливость. Особенно актуальным это становится в городах Индии, где городская окружающая среда подвергается значительным проблемам, включая жару, загрязнение воздуха и недоступность экологически чистых зон. #### Метод Предложенная модель состоит из трех взаимосвязанных модулей: (1) смартфон-базированная система для измерения, в том числе использования AI для определения размеров деревьев (высота, диаметр кроны и диаметр ствола); (2) метод определения локальных температурных перцентилей с использованием спутниковых данных о земной поверхностной температуре для расчета метрик Охлаждающая Эффективность и Отдых от Зноя; (3) эко-маршрутизационный модуль, ориентированный на уменьшение экологического следа путей мобильности через динамический баланс между деревьями, их многообразием и уровнем углеродного захвата. Эти модули обеспечивают замкнутый цикл между гражданами, которые создают данные, и системой, которая их обрабатывает и предоставляет ценные рекомендации. #### Результаты Использование смартфонов для измерения деревьев позволило собрать данные о высоте, диаметре кроны и диаметре ствола в районах Пуне. Эти данные были включены в перцентильный анализ Land Surface Temperature, чтобы вычислить Охлаждающую Эффективность и Отдых от Зноя. Эко-маршрутизационная система демонстрирует, как мобильные пути могут быть оптимизированы для сокращения экологического следа. Эксперименты показали, что оценки деревьев, интегрированные в эко-маршрутизационную систему, могут значительно повысить эффективность городского транспорта и доступность к зеленым пространствам. #### Значимость Предложенная модель может быть применена в других городах Индии и за её пределами, чтобы сделать города более устойчивыми к климатическим изменениям. Она предоставляет гражданам возможность участвовать в управлении и решении климатических проблем, что приводит к более справедливому и экологически чином городской среде. В будущем могут быть исследованы дополнительные аспекты, такие как расширение покрытия дан

Annotation:

Urban climate resilience requires more than high-resolution data; it demands systems that embed data collection, interpretation, and action within the daily lives of citizens. This chapter presents a scalable, citizen-centric framework that reimagines environmental infrastructure through participatory sensing, open analytics, and prescriptive urban planning tools. Applied in Pune, India, the framework comprises three interlinked modules: (1) a smartphone-based measurement toolkit enhanced by AI ...

ID: 2508.17648v1 cs.CY, cs.CV, cs.LG, H.2.8; J.1

arXiv PDF

📄 Segmentation and Classification of Pap Smear Images for Cervical Cancer Detection Using Deep Learning

2025-08-27

Авторы:

Nisreen Albzour, Sarah S. Lam

## Контекст Рак шейки матки остается серьезной проблемой здравоохранения по всему миру, становится причиной смерти у большого числа женщин. Несмотря на то что раннее выявление может сильно снизить риск смерти, вручную проводимый поиск заболевания чреват ошибками и требует большого времени. Исследование предлагает новый подход, основанный на глубоком обучении, для улучшения диагностической точности. Он использует U-Net для сегментации и модель классификации для определения типа клеток, чтобы помочь врачам в диагностике раннего заболевания. ## Метод Глубокое обучение применимо для сегментации и классификации изображений Пап-скрина. Фреймворк включает U-Net для сегментации клеток и классификационную модель для определения риска рака. Для обучения и оценки использовался Herlev Pap Smear Dataset, содержащий изображения клеток шейки матки. Для сравнения оценивались результаты модели, обученной на сегментированных изображениях, и модель, обученной на несегментированных. Оценка включала метрики точности и F1-меру. ## Результаты Эксперименты показали, что модель, обученная на сегментированных изображениях, дает незначительное улучшение точности (приблизительно 0,41%) и значительное повышение F1-меры (приблизительно 1,30%). Эти результаты показывают, что сегментация незначительно улучшает классификационную точность, но может помочь в эффективной фичи-экстракции. Таким образом, внедрение сегментации может предоставить дополнительные преимущества для ранней диагностики. ## Значимость Предложенный подход может использоваться в системах помощи врачам для раннего выявления рака шейки матки. Он сочетает U-Net для сегментации и классификацию для улучшения точности диагноза. Хотя результаты показывают, что сегментация незначительно влияет на классификационную точность, все равно она может сделать модель более стабильной и точной, особенно для сложных случаев. Этот подход может повысить эффективность диагностики в клинических условиях. ## Выводы Результаты демонстрируют, что модель с сегментацией дает незначительно лучшие результаты в классификации. Однако она все же может помочь врачам в диагностике раннего заболевания. Дальнейшие исследования могут улучшить модель и изучить ее применение в других видах рака и медицинской диагностике. Этот подход может стать важной частью системы раннего выявления рака шейки матки.

Annotation:

Cervical cancer remains a significant global health concern and a leading cause of cancer-related deaths among women. Early detection through Pap smear tests is essential to reduce mortality rates; however, the manual examination is time consuming and prone to human error. This study proposes a deep learning framework that integrates U-Net for segmentation and a classification model to enhance diagnostic performance. The Herlev Pap Smear Dataset, a publicly available cervical cell dataset, was u...

ID: 2508.17728v1 cs.CV, cs.LG

arXiv PDF

📄 Robust Anomaly Detection in Industrial Environments via Meta-Learning

2025-08-27

Авторы:

Muhammad Aqeel, Shakiba Sharifi, Marco Cristani, Francesco Setti

## Контекст Аномалий детектирование является ключевым компонентом для обеспечения качества и эффективности операций в индустриальных средах. Однако, существующие подходы сталкиваются с значительными вызовами, особенно при работе с шумами в данных, включая неправильные метки в обучающих выборках. Такая неточность в данных широко распространена в реальных промышленных средах, где быстрое адаптирование к изменениям и высокая точность детектирования аномалий являются критичными. Наша работа сосредоточена на создании метода, который обеспечивает высокую устойчивость к шуму в обучающих данных и позволяет эффективно детектировать аномалии даже в условиях значительного шума. ## Метод Мы предлагаем RAD (Robust Anomaly Detection) — метод, который использует нормализующие потоки (Normalizing Flows) и мета-обучение (Model-Agnostic Meta-Learning, MAML). Метод основывается на билвэловых оптимизационных стратегиях, где мета-обучение позволяет быстро адаптироваться к различным условиям шума в данных. Мы также используем квантификацию неопределенности для настройки адаптивного L2-регуляризатора, чтобы поддерживать стабильность модели. Для точной оценки вероятности нормальных и аномальных объектов мы используем специальные модели вроде Normalizing Flows. Для обнаружения детальных аномалий мы используем мультимасштабные признаки, обрабатываемые предобученными вычислительными выделителями. В результате получается мощная структура, которая обеспечивает высокую точность даже при значительном шуме в данных. ## Результаты Мы проверили наш метод на двух популярных датасетах: MVTec-AD и KSDD2. Под чистой условиями (без шума в данных), RAD показал I-AUROC (Instance-Adjusted AUROC) в 95.4% для MVTec-AD и 94.6% для KSDD2. Эти результаты показали высокую точность в детектировании аномалий в чистом виде. Однако, наиболее важным является устойчивость RAD к неточностям в обучении. Даже когда в обучающих выборках 50% значений были неправильно мечены, RAD показал I-AUROC больше 86.8% для MVTec-AD и 92.1% для KSDD2. Это уникальное свойство демонстрирует высокую устойчивость RAD к шуму в обучающих данных и его крайнюю эффективность в реальных индустриальных условиях. ## Значимость Предложенный подход имеет широкие применения в промышленных средах, где качество контроля и реагирование на аномалии критичны. Мы показали, что RAD может эффективно работать в условиях значительного шума в данных, что делает его практичным для реальных сценариев, где полная управляемость данными часто недостижима. Наши результаты значительно превосходят существующие методы в области детектирования аномалий в инду

Annotation:

Anomaly detection is fundamental for ensuring quality control and operational efficiency in industrial environments, yet conventional approaches face significant challenges when training data contains mislabeled samples-a common occurrence in real-world scenarios. This paper presents RAD, a robust anomaly detection framework that integrates Normalizing Flows with Model-Agnostic Meta-Learning to address the critical challenge of label noise in industrial settings. Our approach employs a bi-level ...

ID: 2508.17789v1 cs.CV, cs.LG

arXiv PDF

📄 A Contrastive Learning-Guided Confident Meta-learning for Zero Shot Anomaly Detection

2025-08-27

Авторы:

Muhammad Aqeel, Danijel Skocaj, Marco Cristani, Francesco Setti

## Контекст Индустриальная и медицинская детекция аномалий сталкивается с критическими вызовами, включая нехватку данных и высокую стоимость аннотаций. Эти проблемы особенно актуальны в условиях быстрого развития производственных и медицинских систем. Отсутствие доступных масштабных данных, а также трудности в получении аннотаций, снижают эффективность существующих методов. Многие работы предлагают решения, ориентированные на конкретные сценарии, но не рассматривают широкий спектр приложений. Мы предлагаем CoZAD — расширенную мета-learning-ориентированную модель для нулевого-снарядного (zero-shot) обнаружения аномалий. Она комбинирует методы софт-конфиденсного обучения, мета-обучения и контрастного отображения признаков, чтобы обеспечить эффективность в различных сценариях. ## Метод CoZAD основывается на нескольких ключевых компонентах. Вначале, метод **Soft Confident Learning (SCL)** присваивает всем обучающим данным веса, основанные на их уверенности. Это позволяет сохранить информацию о границах классов и сохранить важность прототипных нормальных паттернов. **Model-Agnostic Meta-Learning (MAML)** используется для адаптации модели к различным задачам с небольшим количеством примеров. **Contrastive Learning** позволяет формировать дискретные признаковые пространства, в которых нормальные паттерны образуют спаи, упрощая распознавание аномалий. **Thresholding** на основе IQR (Interquartile Range) используется для оценки данных с высокой неопределенностью, тогда как **Covariance-Based Regularization** внутри MAML позволяет модели учитывать ковариацию признаков. ## Результаты Мы провели эксперименты на десяти различных датасетах, как в индустрии, так и в медицине. CoZAD показала значительные улучшения по сравнению с текущими лучшими решениями на 6 из 7 индустриальных задач, особенно на датасетах, содержащих богатые текстурные данные. На DTD-Synthetic CoZAD достигла I-AUROC 99.2%, а на BTAD — 97.2%. Кроме того, на MVTec-AD модель показала величину P-AUROC 96.3% при pixellevel-локализации аномалий. Эти результаты демонистрируют высокую точность и гибкость модели в различных условиях. ## Значимость CoZAD может быть применена в различных областях, включая производственную автоматизацию, выявление неисправностей в системах, анализ медицинских изображений и другие сценарии с недостатком данных. Основное преимущество — полное отсутствие зависимости от моделей визуального понимания языка или композиционных моделей. Это делает CoZAD привлекательной для систем, требующих быстрой развертываемости и экономии ресурсов. Будущие исследования будут ориентированы на расширение модели для многомодальных задач и улучшение ее точности в ситуациях с высоко

Annotation:

Industrial and medical anomaly detection faces critical challenges from data scarcity and prohibitive annotation costs, particularly in evolving manufacturing and healthcare settings. To address this, we propose CoZAD, a novel zero-shot anomaly detection framework that integrates soft confident learning with meta-learning and contrastive feature representation. Unlike traditional confident learning that discards uncertain samples, our method assigns confidence-based weights to all training data,...

ID: 2508.17827v1 cs.CV, cs.LG

arXiv PDF

📄 Diffusion-Based Data Augmentation for Medical Image Segmentation

2025-08-27

Авторы:

Maham Nazir, Muhammad Aqeel, Francesco Setti

## Контекст В области медицинской информатики становится все более актуальной задача автоматизации сегментации медицинских изображений для обнаружения и исследования различных заболеваний. Одним из основных вызовов в этой области является нехватка больших количеств качественно подготовленных данных, особенно для редких и характеризующихся необычными образованиями. Эта проблема снижает эффективность существующих медицинских моделей сегментации и приводит к ухудшению результатов диагностики. Основная мотивация заключается в развитии методов, позволяющих сгенерировать реалистичные данные для обучения моделей, особенно для редких аномалий, которые требуют точного распознавания и диагностики. ## Метод Предлагаемый подход, DiffAug, заключается в сочетании текстово-управляемого диффузионного подхода с автоматической валидацией сегментации. Основной компонентой этого метода является условное диффузионное моделирование, которое используется для генерации аномалий в медицинских изображениях. Используя текстовые справочные сигналы, полученные из медицинской литературы, а также пространственные маски, DiffAug генерирует реалистичные образцы аномалий, добавляя их на нормальные изображения через процесс inpainting. Для обеспечения высокого качества результатов вводится валидационный механизм, основанный на латентном пространстве, который динамически проверяет сгенерированные образцы на точность и смысловую соответствие. Данный метод оптимизирует процесс генерации и валидации сегментации в одном проходе, что позволяет эффективно использовать ресурсы и повысить точность. ## Результаты На трех медицинских бенчмарках (CVC-ClinicDB, Kvasir-SEG, REFUGE2) проведены эксперименты, демонстрирующие высокую эффективность DiffAug по сравнению с традиционными методами. Модель показала увеличение Dice-метрики на 8-10%, что значительно превосходит существующие алгоритмы. Более того, DiffAug существенно сократил false negative rate на 28%, что является критически важной особенностью для диагностики таких заболеваний, как малые полипы или незначительные поверхностные опухоли. Эти результаты указывают на то, что DiffAug не только улучшает качество сегментации, но и повышает способность моделей распознавать редкие и сложные аномалии. ## Значимость DiffAug может применяться в различных областях, включая раннюю диагностику, медицинские исследования и обучение моделей сегментации. Одним из основных преимуществ является увеличение точности распознавания редких и необычных заболеваний, что имеет практическое значение для раннего выявления и профилактики. Этот подход также обесп

Annotation:

Medical image segmentation models struggle with rare abnormalities due to scarce annotated pathological data. We propose DiffAug a novel framework that combines textguided diffusion-based generation with automatic segmentation validation to address this challenge. Our proposed approach uses latent diffusion models conditioned on medical text descriptions and spatial masks to synthesize abnormalities via inpainting on normal images. Generated samples undergo dynamic quality validation through a l...

ID: 2508.17844v1 cs.CV, cs.LG

arXiv PDF

📄 Alternating Training-based Label Smoothing Enhances Prompt Generalization

2025-08-27

Авторы:

Yang Chen, Yanbin Wei, Ke Jin, Yi Kong, James Kwok, Yu Zhang

## Контекст Недавние достижения в области предобученных визуально-языковых моделей показали выдающиеся возможности нулевого-значения общей генерализации. Однако, для расширения их пригодности к различным задачам, в последнее время появилась мода на предложенный тип тюнинга, который требует меньшего количества параметров. Тем не менее, генерализационная способность этого метода остается ограниченной. Метод латеральной сглаживания (Label Smoothing, LS), широко признанный как мощный способ регуляризации, уменьшает переобучение и улучшает общую способность моделей. Исследователи задались вопросом о потенциальной интеграции LS с тюнингом подсказкой (prompt tuning). Однако, ванильная LS не только не улучшает, но и ухудшает эту способность. Для решения этой проблемы предлагается новый подход — Alternating Training-based Label Smoothing (ATLaS). ## Метод ATLaS основывается на альтернативном тренировочном процессе, в котором модель последовательно обучается с использованием стандартных одноготных меток и мягких меток, сгенерированных LS. Этот подход предназначен для того, чтобы сочетать преимущества обеих методик — точности одноготных меток и регуляризационных свойств LS. Более того, предложенный метод использует два типа эффективных мягких меток: Class-wise Soft Labels (CSL) и Instance-wise Soft Labels (ISL). CSL предоставляют связь между классами, что повышает классификационную способность, в то время как ISL подчеркивают отношения между отдельными экземплярами внутри класса, улучшая общую точность модели. ## Результаты Эксперименты проведены на различных данных и задачах, включая визуально-языковые модели и общие тестовые наборы. Результаты показали, что ATLaS, в сочетании с CSL и ISL, постоянно улучшает генерализацию модели на тюнинге подсказок. Эти результаты стабильны и заметны в сравнении с базовым тюнингом подсказок. Также была проверена совместимость ATLaS с другими популярными тюнинговыми методами, что демонстрирует его широкую применимость. ## Значимость Предложенный подход может быть применен в различных высокотехнологичных областях, таких как обработка текстов, визуальный анализ, доступность для слабовидящих и другие. Он предоставляет выигрыш в точности и устойчивости, при этом не требуя значительных изменений в существующих моделях. Таким образом, ATLaS повышает потенциал тюнинга подсказок, улучшая его эффективность и генерализационную способность. ## Выводы Результаты исследований подтверждают эффективность ATLaS в улучшении генерализации моделей с помощью тюнинга подсказок. Авторы планируют дальнейшие исследования в области усовершенствования

Annotation:

Recent advances in pre-trained vision-language models have demonstrated remarkable zero-shot generalization capabilities. To further enhance these models' adaptability to various downstream tasks, prompt tuning has emerged as a parameter-efficient fine-tuning method. However, despite its efficiency, the generalization ability of prompt remains limited. In contrast, label smoothing (LS) has been widely recognized as an effective regularization technique that prevents models from becoming over-con...

ID: 2508.17846v1 cs.CV, cs.LG

arXiv PDF

Показано 701 - 710 из 835 записей