📚 Саммари научных статей из arXiv

Найдено 11631 результатов по запросу 'cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 R2GenKG: Hierarchical Multi-modal Knowledge Graph for LLM-based Radiology Report Generation

2025-08-06

Авторы:

Futian Wang, Yuhan Qiao, Xiao Wang, Fuling Wang, Yuxiang Zhang, Dengdi Sun

**Резюме:** Генерация медицинских отчётов на основе рентгеновских изображений является важной задачей в применении искусственного интеллекта в медицине. Однако существующие методы страдают от проблем, таких как генерация недостоверной информации (hallucination) и ограниченные способности к диагностике заболеваний. В этой работе авторы предлагают R2GenKG — иерархический многомодальный знаний граф (M3KG), построенный на основе данных медицинских отчётов с помощью GPT-4. Граф содержит 2477 сущностей, три типа отношений, 37 424 тройки и 6943 диагностически ориентированных визуальных токенов для датасета CheXpert Plus. Для извлечения визуальных признаков используется Swin-Transformer, который взаимодействует с графом через кросс-атенцию. Для генерации текста применяется большой языковой модель, которая отображает знания графа, визуальные признаки и диагностические токены в естественный язык. Результаты экспериментов на различных датасетах подтверждают высокую эффективность предложенного подхода в улучшении качества генерации отчётов и диагностики заболеваний.

Annotation:

X-ray medical report generation is one of the important applications of artificial intelligence in healthcare. With the support of large foundation models, the quality of medical report generation has significantly improved. However, challenges such as hallucination and weak disease diagnostic capability still persist. In this paper, we first construct a large-scale multi-modal medical knowledge graph (termed M3KG) based on the ground truth medical report using the GPT-4o. It contains 2477 entit...

ID: 2508.03426v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Spatial Imputation Drives Cross-Domain Alignment for EEG Classification

2025-08-06

Авторы:

Hongjun Liu, Chao Yao, Yalan Zhang, Xiaokun wang, Xiaojuan Ban

**Резюме:** Классификация сигналов электроэнцефалограммы (EEG) сталкивается с серьезными трудностями, вызванными различиями в конфигурациях электродов, протоколах сбора данных и аппаратуре различных доменов. В этой работе представлена модель **IMAC**, которая решает эту проблему путем выравнивания кросс-доменных данных через задачу импуции (заполнения пропусков) пространственных временных рядов. IMAC выравнивает разнородные конфигурации электродов с помощью метода унификации пространственных представлений, основанного на 3D-to-2D маппинге. Отличительной особенностью является введение channel-dependent масок и реконструкции сигнала в виде задачи импуции с низкого разрешения на высокое. Этот подход эмулирует реальные различия между доменами, такие как отсутствие каналов и временные нестабильности, обеспечивая робастность модели. Дополнительно, IMAC использует дескрипторную структуру для раздельного моделирования пространственной и временной информации, что повышает эффективность и адаптивность. Результаты на 10 открытых наборах данных показывают, что IMAC достигает лучших показателей классификации в кросс-субъектном и кросс-центровом сценариях, превосходя базовые методы на до 35% по метрике целостности и показывая высокую стабильность при реальных и имитированных распределениях. **(145 слов)**

Annotation:

Electroencephalogram (EEG) signal classification faces significant challenges due to data distribution shifts caused by heterogeneous electrode configurations, acquisition protocols, and hardware discrepancies across domains. This paper introduces IMAC, a novel channel-dependent mask and imputation self-supervised framework that formulates the alignment of cross-domain EEG data shifts as a spatial time series imputation task. To address heterogeneous electrode configurations in cross-domain scen...

ID: 2508.03437v1 cs.CV, cs.AI, 62M10, I.5.1; J.3

arXiv PDF

📄 VideoGuard: Protecting Video Content from Unauthorized Editing

2025-08-06

Авторы:

Junjie Cao, Kaizhou Li, Xinchun Yu, Hongxiang Li, Xiaoping Zhang

В последнее время генеративные модели достигли высоких результатов в генерации и редактировании цифрового контента, но их злоупотребление может привести к распространению вводящей в заблуждение информации. Несмотря на существование методов защиты фотографических изображений от несанкционерного редактирования, видеоконтент остаётся менее защищённым. Для решения этой проблемы предлагается VideoGuard — метод защиты видеоконтента от неавторизованных редактирований. Защита основывается на введении малозаметных пертурбаций, которые нарушают работу генеративных моделей диффузии. Учитывая избыточность между кадрами и механизмы внимания межкадрового характера в моделях видеодиффузии, VideoGuard использует совместную оптимизацию кадров и интегрирует в них движенческую информацию. Это позволяет гарантировать, что модели будут генерировать неконсистентные или неправдоподобные результаты. Метод показал высокую эффективность по сравнению с существующими подходами, подтверждая свою преимущественную роль в защите видеоконтента.

Annotation:

With the rapid development of generative technology, current generative models can generate high-fidelity digital content and edit it in a controlled manner. However, there is a risk that malicious individuals might misuse these capabilities for misleading activities. Although existing research has attempted to shield photographic images from being manipulated by generative models, there remains a significant disparity in the protection offered to video content editing. To bridge the gap, we pro...

ID: 2508.03480v1 cs.CV, cs.AI

arXiv PDF

📄 Draw Your Mind: Personalized Generation via Condition-Level Modeling in Text-to-Image Diffusion Models

2025-08-06

Авторы:

Hyungjin Kim, Seokho Ahn, Young-Duk Seo

**Резюме** Персонализированная генерация в моделях типа Text-to-Image (T2I) с диффузионными моделями направлена на то, чтобы учесть предпочтения конкретных пользователей в процессе генерации, при этом свести к минимуму необходимость их участия. Тем не менее, современные подходы зачастую основываются на моделировании на уровне текстовых запросов (prompt-level) с помощью крупномасштабных моделей, что ограничивает эффективность персонализации из-за ограниченной емкости входных токенов в моделях T2I. Чтобы решить эту проблему, была разработка метода DrUM, который интегрирует пользовательский профиль с помощью адаптера на базе трансформера для моделирования на уровне условий (condition-level) в латентном пространстве. Этот подход обеспечивает высокую эффективность на крупных датасетах и легко интегрируется с открытыми текстовыми декодерами, совместимыми с популярными фундаментальными моделями T2I, не требуя дополнительной файн-тюнинга.

Annotation:

Personalized generation in T2I diffusion models aims to naturally incorporate individual user preferences into the generation process with minimal user intervention. However, existing studies primarily rely on prompt-level modeling with large-scale models, often leading to inaccurate personalization due to the limited input token capacity of T2I diffusion models. To address these limitations, we propose DrUM, a novel method that integrates user profiling with a transformer-based adapter to enabl...

ID: 2508.03481v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 When Cars Have Stereotypes: Auditing Demographic Bias in Objects from Text-to-Image Models

2025-08-06

Авторы:

Dasol Choi Jihwan Lee, Minjae Lee, Minsuk Kahng

**Резюме:** В статье рассматривается проблема демографических предубеждений в объектах, генерируемых моделями text-to-image. Несмотря на то, что предыдущие исследования фокусировались в основном на биасе в демографической характеристике людей, авторы раскрывают более тонкую проблему — стереотипы в визуальных атрибутах объектов, таких как автомобили. Для этого был разработан новый фреймворк SODA (Stereotyped Object Diagnostic Audit), который позволяет систематически измерять такие биаси. Анализ 2700 изображений, сгенерированных тремя современными моделями (GPT Image-1, Imagen 4, Stable Diffusion) в пяти категориях объектов, показал сильную ассоциацию между демографическими признаками (такими как пол или этническая принадлежность) и визуальными чертами объектов. Обнаруженные стереотипы отражают и усиливают социально-культурные представления, в том числе самые тонкие и неочевидные. Также было выявлено, что некоторые модели генерируют менее разнообразные выходные данные, что усиливает различия в визуальных атрибутах. Результаты показывают, что SODA может стать эффективным инструментом для выявления и коррекции стереотипных биасов в моделях генеративного AI.

Annotation:

While prior research on text-to-image generation has predominantly focused on biases in human depictions, we investigate a more subtle yet pervasive phenomenon: demographic bias in generated objects (e.g., cars). We introduce SODA (Stereotyped Object Diagnostic Audit), a novel framework for systematically measuring such biases. Our approach compares visual attributes of objects generated with demographic cues (e.g., "for young people'') to those from neutral prompts, across 2,700 images produced...

ID: 2508.03483v1 cs.CV, cs.AI

arXiv PDF

📄 Retinal Lipidomics Associations as Candidate Biomarkers for Cardiovascular Health

2025-08-06

Авторы:

Inamullah, Imran Razzak, Shoaib Jameel

Несмотря на признание ретинальной микрососудистой архитектуры как окна в системное здоровье, механизмы, связывающие её с липидным профилем крови, оставались неизученными. Авторы анализировали 10 DL-извлечённых вазографических признаков и 4 класса сывороточных липидов (FA, DAG, TAG, CE) в когорте 8 000 здоровых взрослых. Применив корреляционный анализ с FDR-регулировкой, они показали: свободные жирные кислоты предсказывают извилистость сосудов, холестериловые эфиры — средний диаметр артерий и вен, а DAG/TAG обратно коррелировали с шириной и сложностью артериолярной сети. Работа впервые демонстрирует, что ретинальные DL-трейты отражают конкретные липидные сигнатуры, что открывает путь к неинвазивному скринингу метаболического риска задолго до клинических проявлений.

Annotation:

Retinal microvascular imaging is increasingly recognised as a non invasive method for evaluating systemic vascular and metabolic health. However, the association between lipidomics and retinal vasculature remains inadequate. This study investigates the relationships between serum lipid subclasses, free fatty acids (FA), diacylglycerols (DAG), triacylglycerols (TAG), and cholesteryl esters (CE), and retinal microvascular characteristics in a large population-based cohort. Using Spearman correlati...

ID: 2508.03538v1 cs.CV, cs.AI

arXiv PDF

📄 MetaScope: Optics-Driven Neural Network for Ultra-Micro Metalens Endoscopy

2025-08-06

Авторы:

Wuyang Li, Wentao Pan, Xiaoyuan Liu, Zhendong Luo, Chenxin Li, Hengyu Liu, Din Ping Tsai, Mu Ku Chen, Yixuan Yuan

Современные миниатюрные эндоскопы ограничены миллиметровыми линзами. Метаповерхности позволяют уменьшить толщину до микрон, но создают качественный разрыв между физикой света и алгоритмами. Авторы строят первый набор данных для металинзовой эндоскопии и выявляют два ключевых искажения — затухание интенсивности и хроматическую аберрацию. Предложенная сеть MetaScope учитывает оптику двумя модулями: OIA корректирует затухание через оптические эмбеддинги, OCC устраняет аберрации через пространственную деформацию, обученную на распределении PSF. Градиент-направленная дистилляция переносит знания из базовой модели. Эксперименты показывают SOTA-результаты по сегментации и восстановлению изображений, а также успешную работу на реальных биомедицинских сценах.

Annotation:

Miniaturized endoscopy has advanced accurate visual perception within the human body. Prevailing research remains limited to conventional cameras employing convex lenses, where the physical constraints with millimetre-scale thickness impose serious impediments on the micro-level clinical. Recently, with the emergence of meta-optics, ultra-micro imaging based on metalenses (micron-scale) has garnered great attention, serving as a promising solution. However, due to the physical difference of meta...

ID: 2508.03596v1 cs.CV, cs.AI

arXiv PDF

📄 AttZoom: Attention Zoom for Better Visual Features

2025-08-06

Авторы:

Daniel DeAlcala, Aythami Morales, Julian Fierrez, Ruben Tolosana

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы сверточные нейронные сети (CNNs) стали основным инструментом для решения задач в области компьютерного зрения, таких как классификация изображений, детекция объектов и сегментация. Однако, несмотря на успехи, CNNs имеют ограничения в способности эффективно выделять значимые регионы на изображениях. Это связано с тем, что стандартные архитектуры часто полагаются на заранее заданные параметры и фиксированные фильтры, которые могут не учитывать все тонкости и вариативность визуальных данных. Традиционные подходы с применением механизмов внимания, направленных на улучшение качества извлекаемых признаков, зачастую требуют интеграции в конкретные архитектуры, что ограничивает их универсальность и применимость. Таким образом, существует необходимость в разработке модульного и архитектурно-независимого решения, которое могло бы улучшать процесс выделения признаков в существующих CNNs без значительных изменений их структуры. В данной статье авторы предлагают новый метод Attention Zoom, который направлен на решение этих проблем и повышение эффективности процесса извлечения признаков из изображений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Attention Zoom представляет собой модульный механизм пространственного внимания, который можно интегрировать в различные архитектуры CNN без необходимости значительных изменений. В отличие от традиционных подходов, которые требуют специфической интеграции в архитектуру, Attention Zoom добавляется как отдельный слой, фокусирующийся на областях изображения с высокой важностью. Этот механизм анализирует входные данные и акцентирует внимание сети на значимых регионах, улучшая тем самым качество извлекаемых признаков. Основной идеей является использование внимания для "увеличения" критических участков изображения, что приводит к более детальному и разнообразному вниманию. Таким образом, Attention Zoom способствует более точному и эффективному извлечению признаков, минимизируя при этом архитектурные накладные расходы и сохраняя общую универсальность и гибкость метода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода Attention Zoom авторы провели серию экспериментов на различных архитектурах CNN с использованием наборов данных CIFAR-100 и TinyImageNet. Результаты показали значительные улучшения в точности классификации как по метрике Top-1, так и по метрике Top-5. Визуальный анализ с использованием Grad-CAM и пространственного искажения продемонстрировал, что Attention Zoom способствует более тонкому и разнообразному распределению внимания по изображению. Это подтверждает способность метода акцентировать внимание на более значимых деталях, что в свою очередь улучшает общее качество классификации. Полученные результаты указывают на универсальность и эффективность предложенного слоя, который может улучшать производительность CNNs с минимальными изменениями в архитектуре. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Разработанный механизм Attention Zoom обладает широким спектром потенциальных применений в различных областях, связанных с компьютерным зрением. Одним из ключевых преимуществ является его архитектурная независимость, что позволяет интегрировать его в существующие модели без значительных изменений. Это делает метод особенно привлекательным для практического применения, где часто требуется улучшать производительность уже развернутых систем. Улучшение качества извлечения признаков может существенно повысить точность и надежность задач классификации, детекции и сегментации изображений. Кроме того, минимальные архитектурные накладные расходы делают метод доступным для применения в ресурсозависимых средах, таких как мобильные устройства и встроенные системы. Такой подход может значительно повлиять на эффективность и точность обработки визуальной информации в реальных приложениях, от автономных транспортных средств до систем мониторинга безопасности. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, авторы демонстрируют, что Attention Zoom является эффективным и универсальным решением для улучшения качества выделения признаков в CNNs. Основные достижения включают значительное повышение точности классификации и более детализированное распределение внимания на изображениях. Поскольку метод не требует значительных изменений архитектуры, он может быть легко адаптирован для использования с различными моделями CNN. В будущем исследование может быть направлено на дальнейшее улучшение механизма внимания и его адаптацию для других типов нейронных сетей и задач, таких как обработка видео и трехмерных изображений. Кроме того, изучение влияния Attention Zoom в контексте обучения с малым количеством данных может открыть новые возможности для его применения в условиях ограниченных ресурсов.

Annotation:

We present Attention Zoom, a modular and model-agnostic spatial attention mechanism designed to improve feature extraction in convolutional neural networks (CNNs). Unlike traditional attention approaches that require architecture-specific integration, our method introduces a standalone layer that spatially emphasizes high-importance regions in the input. We evaluated Attention Zoom on multiple CNN backbones using CIFAR-100 and TinyImageNet, showing consistent improvements in Top-1 and Top-5 clas...

ID: 2508.03625v1 cs.CV, cs.AI

arXiv PDF

📄 LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

2025-08-06

Авторы:

Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Генерация видео является одной из актуальных задач в области компьютерного зрения и машинного обучения. Существующие методы, направленные на создание коротких видеоклипов, показывают хорошие результаты, однако они сталкиваются с серьезными трудностями при генерации продолжительных видео. К основным проблемам можно отнести временную несогласованность и визуальное ухудшение качества. Эти аспекты становятся особенно значительными, когда речь идет о генерации видео продолжительностью более одной минуты. Существующие подходы к контролируемой генерации видео, как правило, ориентированы на работу с однотипными данными и не учитывают сложности, возникающие при интеграции различных модальностей. В частности, недостаточная инициализация шума, независимая нормализация управляющих сигналов и ограниченность использования однородных данных приводят к ухудшению качества результатов. Поэтому существует настоятельная необходимость в разработке более эффективных методов, которые бы учитывали эти ограничения и обеспечивали бы высокое качество видео с сохранением временной согласованности. Данная статья представляет собой попытку решения этих проблем. Авторы изучают ключевые факторы, влияющие на качество генерации, и предлагают новый подход под названием LongVie, который направлен на создание контролируемого ультрадолгого видео с учетом уникальных характеристик данных и требований к качеству. ## ПРЕДЛОЖЕННЫЙ МЕТОД LongVie представляет собой автономную авторегрессионную архитектуру, которая включает в себя несколько ключевых компонентов, направленных на решение вышеупомянутых проблем. Во-первых, система использует унифицированную стратегию инициализации шума, которая обеспечивает однородность генерации во всех клипах. Это позволяет избежать проблем с временной несогласованностью, которые часто возникают в традиционных методах. Во-вторых, LongVie применяет глобальную нормализацию управляющих сигналов, что обеспечивает согласование в пространстве управления на протяжении всего видео. Это позволяет контролировать процесс генерации более эффективно и с наименьшими потерями качества. Для борьбы с визуальным ухудшением качества, LongVie использует многомодальную контрольную структуру, которая интегрирует как плотные (например, карты глубины), так и разреженные (например, ключевые точки) управляющие сигналы. Это позволяет системе адаптивно реагировать на изменения в визуальной информации и корректировать процесс генерации в реальном времени. Кроме того, LongVie включает в себя стратегию обучения, учитывающую деградацию, которая адаптивно балансирует вклад различных модальностей во времени, что позволяет поддерживать высокое визуальное качество на протяжении всего видео. Данные подходы в совокупности обеспечивают LongVie выдающиеся результаты в области контролируемой генерации длинных видеоклипов, что делает этот метод значительным шагом вперед в данной области. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования была проведена серия экспериментов, направленных на оценку эффективности LongVie. Для этих целей был разработан новый обширный бенчмарк LongVGenBench, который включает 100 высококачественных видеороликов, охватывающих разнообразные реальные и синтетические среды, каждый из которых длится более одной минуты. Это позволяет полноценно оценить возможности LongVie в различных условиях. Эксперименты продемонстрировали, что LongVie достигает состояния наилучшего искусства в таких аспектах, как долгосрочная контролируемость, согласованность и качество визуализации. Результаты показывают, что система способна генерировать видео с высокой степенью детализации, сохраняя при этом временную согласованность на протяжении всей длины клипа. Сравнение с существующими методами подтвердило, что LongVie превосходит аналогичные подходы по всем ключевым метрикам, включая субъективное качество видео и согласованность между кадрами. Эти результаты подчеркивают значимость предложенного метода и его потенциал для применения в практических задачах генерации видео. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ LongVie имеет широкий спектр применения в различных областях, включая развлекательную индустрию, создание видеоигр, а также в образовательных и рекламных приложениях. Его способность генерировать длинные видеоклипы с высокой степенью контролируемости и качеством открывает новые возможности для креативных специалистов, позволяя им создавать уникальный контент с минимальными затратами времени и ресурсов. Кроме того, LongVie может быть использован в исследованиях, связанных с анализом и синтезом видео, а также в области виртуальной и дополненной реальности, где требуется создание реалистичных и динамичных окружений. Потенциальное влияние данного метода на индустрию может быть значительным, так как он позволяет значительно упростить процесс создания видеоконтента, который раньше требовал значительных усилий и времени. Также стоит отметить, что использование многомодальных сигналов в контроле генерации может привести к новым подходам в других областях, таких как робототехника и автономные системы, где визуальная информация и управление играют ключевую роль. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В статье представлены значимые достижения в области контролируемой генерации ультрадолгих видео с использованием метода LongVie. Авторы продемонстрировали, что предложенная архитектура успешно решает проблемы временной несогласованности и визуального ухудшения, обеспечивая высокое качество и согласованность при генерации длинных видеоклипов. Направления для будущих исследований включают дальнейшую оптимизацию модели, изучение дополнительных модальностей и улучшение адаптивных стратегий обучения. Также стоит рассмотреть возможность интеграции LongVie с другими технологиями, такими как генерация текста в видео или создание интерактивного контента. Все это открывает новые горизонты для улучшения и расширения возможностей автоматизированной генерации видео.

Annotation:

Controllable ultra-long video generation is a fundamental yet challenging task. Although existing methods are effective for short clips, they struggle to scale due to issues such as temporal inconsistency and visual degradation. In this paper, we initially investigate and identify three key factors: separate noise initialization, independent control signal normalization, and the limitations of single-modality guidance. To address these issues, we propose LongVie, an end-to-end autoregressive fra...

ID: 2508.03694v1 cs.CV

arXiv PDF

📄 Raw Data Matters: Enhancing Prompt Tuning by Internal Augmentation on Vision-Language Models

2025-08-05

Авторы:

Haoyang Li, Liang Wang, Chao Wang, Siyu Zhou, Jing Jiang, Yan Peng, Guodong Long

КОНТЕКСТ И ПРОБЛЕМАТИКА Современные модели обработки изображений и текста, такие как CLIP (Contrastive Language–Image Pretraining), становятся все более важными в области искусственного интеллекта благодаря их способности эффективно работать с мультидоменными данными. Эти модели обучаются на огромных наборах данных, содержащих пары изображений и текстов, что позволяет им извлекать и связывать семантическую информацию из различных источников. Несмотря на их успешность, существует ряд проблем, связанных с адаптацией и тонкой настройкой таких моделей для конкретных задач или датасетов. Одной из ключевых проблем является высокая стоимость и сложность сбора и обработки дополнительных данных для повышения производительности моделей. Это особенно актуально в контексте настройки подсказок (prompt tuning), где задача состоит в том, чтобы оптимально адаптировать модель к конкретной задаче, используя ограниченные ресурсы. Существующие стратегии увеличения данных для настройки подсказок часто опираются на внешние источники знаний, такие как большие языковые модели или предварительно структурированные базы знаний. Эти подходы, хотя и эффективные, требуют значительных затрат на сбор и обработку данных, а также могут игнорировать потенциал использования внутренних признаков изображений, уже имеющихся в исходном наборе данных. Таким образом, возникает необходимость в разработке более экономически эффективных и автономных методов увеличения данных, которые могут использовать существующие внутренние признаки изображений для улучшения процесса настройки подсказок. Мотивация данного исследования заключается в разработке метода, который использует внутренние признаки изображений для улучшения настройки подсказок, минимизируя зависимость от внешних источников знаний и снижая сопутствующие затраты. Авторы предлагают инновационный подход, который включает в себя внутреннее увеличение данных, позволяя модели более эффективно извлекать информацию из доступных изображений и улучшать свою производительность без необходимости в дополнительных внешних данных. Это исследование стремится продемонстрировать, что использование внутренних признаков может существенно повысить качество настройки подсказок, обеспечивая при этом более экономически эффективное и масштабируемое решение для практических приложений. МЕТОДОЛОГИЯ И ПОДХОД Предложенный в статье метод, названный Augmentation-driven Prompt Tuning (AugPT), представляет собой самодостаточный подход к настройке подсказок, основанный на внутреннем увеличении данных. Основная идея заключается в использовании самонаправленного увеличения на необработанных изображениях из обучающего набора данных для более полного использования известных признаков. Это позволяет модели извлекать больше информации из доступных данных, минимизируя зависимость от внешних источников. Технически метод AugPT включает в себя несколько ключевых компонентов. Во-первых, он использует самонаправленное увеличение на необработанных изображениях. Это включает в себя применение различных техник аугментации, таких как случайные обрезки, повороты, изменения яркости и контраста, которые позволяют создать разнообразные представления одного и того же изображения. Эти аугментированные представления затем используются для обучения модели, что позволяет улучшить ее способность к обобщению и адаптации к новым данным. Кроме того, AugPT включает в себя новый механизм фильтрации на основе консенсусного теста, который позволяет автоматически отсеивать шумные образцы из аугментированных данных. Этот механизм использует предварительно обученную модель настройки подсказок в качестве основы для фильтрации, что позволяет модели самостоятельно определять, какие из аугментированных представлений полезны для обучения, а какие следует отбросить. Это способствует повышению качества аугментированных представлений и улучшает общую производительность модели. Архитектурно AugPT строится на основе существующей модели настройки подсказок, что позволяет легко интегрировать его в существующие рабочие процессы без необходимости в значительных изменениях или дополнительных ресурсах. Алгоритмически подход включает в себя итеративный процесс обучения, где модель последовательно обучается на аугментированных данных, фильтруя при этом шумные образцы и обновляя свои параметры на основе высококачественных представлений. Это обеспечивает устойчивое улучшение модели и позволяет ей более эффективно адаптироваться к новым задачам и данным. ЭКСПЕРИМЕНТАЛЬНАЯ ЧАСТЬ Экспериментальная часть исследования направлена на оценку эффективности предложенного метода AugPT в сравнении с традиционными подходами к настройке подсказок. Для этого авторы провели серию экспериментов, использующих различные датасеты и метрики для оценки производительности модели. Экспериментальная установка включала в себя использование нескольких популярных наборов данных для задач классификации изображений и мультидоменных задач, таких как ImageNet, COCO и другие. Эти наборы данных были выбраны из-за их популярности и доступности, что позволяет легко сравнивать результаты с существующими методами. Метрики оценки включали в себя точность классификации, способность модели к обобщению и устойчивость к шуму в данных. Результаты экспериментов показали, что метод AugPT значительно превосходит существующие подходы к настройке подсказок, особенно в условиях ограниченных данных и отсутствия доступа к внешним источникам знаний. В частности, модель, обученная с использованием AugPT, демонстрировала более высокую точность классификации и лучшую способность к обобщению на новых данных. Это подтверждает гипотезу о том, что внутреннее увеличение данных может существенно улучшить производительность моделей без необходимости в дополнительных ресурсах. Сравнение с существующими методами показало, что AugPT обеспечивает более стабильные результаты и меньшую зависимость от качества исходных данных. Это особенно важно в контексте использования моделей в реальных приложениях, где качество данных может варьироваться, и доступ к внешним источникам может быть ограничен. ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость предложенного подхода заключается в его потенциале для широкого применения в различных областях, связанных с обработкой изображений и текста. Во-первых, метод AugPT может быть полезен в ситуациях, где доступ к внешним источникам знаний ограничен или невозможен, например, в условиях конфиденциальности данных или при работе с уникальными датасетами, для которых нет готовых решений. Преимущества предложенного подхода включают в себя снижение затрат на сбор и обработку данных, повышение устойчивости модели к шуму и улучшение ее способности к обобщению. Это делает AugPT привлекательным решением для компаний и исследовательских организаций, стремящихся оптимизировать свои процессы машинного обучения без необходимости в значительных инвестициях в инфраструктуру и ресурсы. Потенциальное влияние на индустрию и науку также значимо. В индустрии AugPT может быть применен в таких областях, как автоматическое распознавание объектов, анализ изображений для медицинских целей, интеллектуальные системы наблюдения и другие. В науке этот метод может способствовать более глубокому пониманию процессов обучения и адаптации моделей, открывая новые возможности для исследований в области искусственного интеллекта. ВЫВОДЫ И ПЕРСПЕКТИВЫ Основные достижения работы заключаются в демонстрации эффективности внутреннего увеличения данных для настройки подсказок, а также в разработке нового механизма фильтрации, который улучшает качество аугментированных представлений. Исследование показало, что использование внутренних признаков изображений может значительно повысить производительность моделей, минимизируя при этом зависимость от внешних источников знаний. Направления будущих исследований могут включать в себя расширение предложенного метода на другие типы данных и задач, а также исследование возможностей интеграции с другими подходами к увеличению данных и настройке моделей. Кроме того, дальнейшие исследования могут быть направлены на оптимизацию алгоритмических решений и снижение вычислительных затрат, связанных с обучением моделей. Ограничения текущего подхода включают в себя потенциальную зависимость от качества исходных данных и необходимость в дальнейшей валидации на более широком спектре задач и наборов данных. Однако, несмотря на эти ограничения, предложенный метод представляет собой значительный шаг вперед в области настройки подсказок и имеет потенциал для широкого применения в различных областях науки и индустрии.

Annotation:

For CLIP-based prompt tuning, introducing more data as additional knowledge for enhancing fine-tuning process is proved to be an effective approach. Existing data amplification strategies for prompt tuning typically rely on external knowledge (e.g., large language models or pre-structured knowledge bases), resulting in higher costs for data collection and processing, while generally ignoring further utilization of features in image modality. To address this, we propose Augmentation-driven Prompt...

ID: 2508.02671v1 cs.CV

arXiv PDF

1
2
1161
1162
1163
1164

Показано 11621 - 11630 из 11631 записей