📚 Саммари научных статей из arXiv

Найдено 11614 результатов по запросу 'cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 CORE-ReID: Comprehensive Optimization and Refinement through Ensemble fusion in Domain Adaptation for person re-identification

2025-08-09

Авторы:

Trinh Quoc Nguyen, Oky Dicky Ardiansyah Prima, Katsuyoshi Hotta

Person Re-identification (ReID) в условиях Unsupervised Domain Adaptation (UDA) остается вызовом из-за искажений в изображениях, возникающих при использовании различных камер. Для решения этой проблемы предлагается CORE-ReID — фреймворк, объединяющий подходы к оптимизации и рефинингу через пакетное обучение с использованием Ensemble Fusion. Трех этапный подход включает предварительное обучение с CycleGAN для генерации разнообразных данных, корректировку с использованием нескольких видов признаков, а также новый механизм Ensemble Fusion для уточненного использования местных деталей в глобальных признаках. Это позволяет избежать неоднозначности в кластеризации и улучшить точность. Тестирование на трех UDA-выборках показало, что CORE-ReID превосходит современные методы по таким метрикам, как Mean Average Precision, Top-1, Top-5 и Top-10. Наши результаты и модели доступны по ссылке [https://github.com/TrinhQuocNguyen/CORE-ReID].

Annotation:

This study introduces a novel framework, "Comprehensive Optimization and Refinement through Ensemble Fusion in Domain Adaptation for Person Re-identification (CORE-ReID)", to address an Unsupervised Domain Adaptation (UDA) for Person Re-identification (ReID). The framework utilizes CycleGAN to generate diverse data that harmonizes differences in image characteristics from different camera sources in the pre-training stage. In the fine-tuning stage, based on a pair of teacher-student networks, th...

ID: 2508.03064v1 cs.CV, cs.AI

arXiv PDF

📄 T2UE: Generating Unlearnable Examples from Text Descriptions

2025-08-09

Авторы:

Xingjun Ma, Hanxun Huang, Tianwei Song, Ye Sun, Yifeng Gao, Yu-Gang Jiang

**Резюме** В статье предлагается **Text-to-Unlearnable Example (T2UE)** — новая архитектура для генерации **Unlearnable Examples (UEs)** на основе текстовых описаний без необходимости использования изображений. Это решение направлено на устранение парадокса, связанного с требованием ранее разглашать данные для их защиты. Текущие подходы требуют оптимизации шума для изображений и текстов, что является вычислительно трудоемким и непрактичным для применения в реальной жизни. T2UE использует text-to-image (T2I) модель для преобразования текстов в изображения-шум, а затем минимизирует ошибки для генерации эффективных UEs. Эксперименты показывают, что защищенные T2UE данные снижают производительность современных моделей в задачах кросс-модального поиска. Таким образом, T2UE расширяет применение UEs за счет "ноля контакта" с оригинальными данными, обеспечивая их защиту на основе текстовых описаний. Это открывает путь к более широкому использованию защиты персональных данных в AI.

Annotation:

Large-scale pre-training frameworks like CLIP have revolutionized multimodal learning, but their reliance on web-scraped datasets, frequently containing private user data, raises serious concerns about misuse. Unlearnable Examples (UEs) have emerged as a promising countermeasure against unauthorized model training, employing carefully crafted unlearnable noise to disrupt the learning of meaningful representations from protected data. Current approaches typically generate UEs by jointly optimizin...

ID: 2508.03091v1 cs.AI, cs.CR, cs.CV

arXiv PDF

📄 Landsat30-AU: A Vision-Language Dataset for Australian Landsat Imagery

2025-08-09

Авторы:

Sai Ma, Zhuang Li, John A Taylor

Landsat30-AU — это крупномасштабный датасет для семантического понимания данных спутниковой съемки, сфокусированный на 30-метровом разрешении Landsat (5, 7, 8, 9) для Австралии за 36+ лет. Он включает две части: Landsat30-AU-Cap с 196,262 парами изображения-текст и Landsat30-AU-VQA с 17,725 визуальных задач вопроса-ответа (VQA), подтвержденными людьми. Датасет создан через итеративный процесс с использованием VLMs и ручной проверкой. Результаты нашего эксперимента показывают, что в спутниковой съемке существуют затруднения в понимании, даже с использованием существующих VLMs, в том числе EarthDial. Однако легкий файнтюнинг Qwen2.5-VL-7B на Landsat30-AU улучшил качество полученных ответов, что подтверждает потенциал таких подходов для дальнейшего оптимизации. Данные и код доступны на GitHub.

Annotation:

Vision language models (VLMs) that enable natural language interaction with satellite imagery can democratize Earth observation by accelerating expert workflows, making data accessible to non-specialists, and enabling planet-scale automation. However, existing datasets focus mainly on short-term, high-resolution imagery from a limited number of satellites, overlooking low-resolution, multi-satellite, long-term archives, such as Landsat, that are essential for affordable and bias-robust global mo...

ID: 2508.03127v2 cs.CV, cs.AI

arXiv PDF

📄 ChartCap: Mitigating Hallucination of Dense Chart Captioning

2025-08-09

Авторы:

Junyoung Lim, Jaewoo Ahn, Gunhee Kim

Генерирование точных и структурированных подписей для диаграмм остается сложной задачей для визуально-языковых моделей, в основном из-за недостатка больших, высококачественных датасетов реальных диаграмм. Основная проблема в том, что существующие датасеты часто включают лишнюю информацию, которая нельзя вывести из диаграмм, и недостаточно хорошо охватывают структурные элементы и основные выводы. Чтобы решить эту проблему, мы представляем ChartCap — большой датасет из 565К реальных диаграмм, покрывающий широкий спектр типов диаграмм. Наш датасет включает в себя точные, детальные подписи, которые исключают лишнюю информацию и сосредоточены на структуре и ключевых выводах. Чтобы повысить качество, мы разработали 4-х этапную методику с использованием циклической консистентности для проверки гуманными экспертами. Мы также предложили новый метрику — Visual Consistency Score — для оценки качества подписей, сравнивая регенерируемую диаграммой с оригиналом. Наши эксперименты показали, что модели, приточенные на ChartCap, генерируют более точные и информативные подписи с меньшим количеством халлуцинаций, превосходя даже профессионально аннотированные данные.

Annotation:

Generating accurate, informative, and hallucination-free captions for charts remains challenging for vision language models, primarily due to the lack of large-scale, high-quality datasets of real-world charts. However, existing real-world chart datasets suffer from the inclusion of extraneous information that cannot be inferred from the chart and failure to sufficiently capture structural elements and key insights. Therefore, we introduce ChartCap, a large-scale dataset of 565K real-world chart...

ID: 2508.03164v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 When Deep Learning Fails: Limitations of Recurrent Models on Stroke-Based Handwriting for Alzheimer's Disease Detection

2025-08-09

Авторы:

Emanuele Nardone, Tiziana D'Alessandro, Francesco Fontanella, Claudio De Stefano

Обнаружение болезни Альцгеймера (AD) часто требует дорогостоящих нейроимажирований или инвазивных процедур, что снижает доступность диагностики. В данном исследовании исследовались возможности глубокого обучения для нейроинвазивной диагностики AD на основе анализа рукописи. Использовался датасет из 34 заданий по рукописи, собранных у здоровых участников и пациентов с AD. Здесь предлагается подход, в котором рекуррентные нейронные сети (LSTM, GRU, RNN) обучаются на предварительно извлеченных признаках рисунков, а не на непрерывных временных сигналах. Это нарушает основное предположение рекуррентных сетей о непрерывном потоке данных. Исследование показало, что рекуррентные архитектуры сталкиваются с повышенной вариабельностью и недостаточной специфичностью. Точность рекуррентных архитектур оказалась значительно ниже, чем у традиционных методов машинного обучения, которые показали лучший баланс между точностью и метриками обобщаемости. Научная статья подчеркивает ограниченность рекуррентных моделей при работе с дискретными признаками рукописи и выделяет направления для будущих исследований.

Annotation:

Alzheimer's disease detection requires expensive neuroimaging or invasive procedures, limiting accessibility. This study explores whether deep learning can enable non-invasive Alzheimer's disease detection through handwriting analysis. Using a dataset of 34 distinct handwriting tasks collected from healthy controls and Alzheimer's disease patients, we evaluate and compare three recurrent neural architectures (LSTM, GRU, RNN) against traditional machine learning models. A crucial distinction of o...

ID: 2508.03773v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 4D-PreNet: A Unified Preprocessing Framework for 4D-STEM Data Analysis

2025-08-09

Авторы:

Mingyu Liu, Zian Mao, Zhu Liu, Haoran Zhang, Jintao Guo, Xiaoya He, Xi Huang, Shufen Chu, Chun Cheng, Jun Ding, Yujun Xie

## КОНТЕКСТ И ПРОБЛЕМАТИКА В настоящее время 4D-STEM (четырехмерная сканирующая трансмиссионная электронная микроскопия) является мощным инструментом для изучения материалов на атомном и нанометровом уровнях. Этот метод предоставляет возможность получать высокоточные данные о структурной и электронной структуре материалов. Однако, несмотря на широкие возможности, 4D-STEM сталкивается с серьезными проблемами, связанными с обработкой данных. Данные, полученные при 4D-STEM, часто содержат шум, погрешности в центральном положении луча, а также искажения в виде эллиптических деформаций. Эти артефакты могут существенно исказить результаты анализа, особенно при высокопропускной обработке данных. Традиционные методы коррекции, такие как алгоритмы для устранения шума или исправления положения луча, часто оказываются специфичными для конкретных материалов и условий измерения. Это ограничивает их применимость в реальных экспериментальных условиях, где могут встречаться разнообразные типы шума, погрешностей и искажений. Более того, многие существующие методы не обеспечивают достаточно высокого уровня точности, что может привести к систематическим ошибкам в квантитативных измерениях. При этом автоматизация экспериментов и в реальном времени анализ данных требует более надежного и универсального подхода к предварительной обработке данных. В этой связи возникает потребность в разработке интегрированного и гибкого метода, который мог бы эффективно справляться с различными типами помех и искажений в данных 4D-STEM. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе авторы предлагают 4D-PreNet – унифицированный предварительный обработчик для 4D-STEM данных, основанный на глубоком обучении. 4D-PreNet состоит из двух основных компонентов: attention-enhanced U-Net и ResNet. Эти модели объединяются в единую конвейерную систему, которая одновременно выполняет три ключевых задачи: деноизирование (устранение шума), коррекцию положения луча (center detection) и калибровку эллиптических искажений (elliptical distortion calibration). Attention-enhanced U-Net используется для деноизирования и восстановления дифракционных паттернов, которые могут быть искажены шумом. ResNet, в свою очередь, применяется для точного определения положения луча и коррекции эллиптических деформаций. Обучение модели осуществляется на больших симуляционных наборах данных, которые включают широкий спектр шумов, погрешностей и типов искажений. Это позволяет модели хорошо адаптироваться к различным условиям эксперимента и обеспечивает высокую степень универсальности. Ключевым моментом является то, что 4D-PreNet обеспечивает конечно-структурированный подход к предварительной обработке данных, что позволяет автоматизировать процесс и улучшить качество результатов. Благодаря использованию глубоких нейронных сетей, модель может обрабатывать большие объемы данных быстро и эффективно, что критически важно для высокопропускной обработки данных в 4D-STEM. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности 4D-PreNet авторы провели ряд экспериментов, используя как симуляционные, так и реальные данные. На симуляционных данных были исследованы различные уровни шума, погрешностей и искажений, чтобы оценить способность модели к обобщению. Результаты показали, что 4D-PreNet способна уменьшить среднеквадратичную ошибку (MSE) в процессе деноизирования до 50% по сравнению с традиционными методами. Также, модель достигает высокой точности в задаче определения положения луча, с ошибкой менее 0,04 пикселя. Кроме того, были проведены сравнения с традиционными алгоритмами коррекции. Результаты экспериментов показали, что 4D-PreNet не только эффективнее в устранении шума, но также лучше восстанавливает дифракционные паттерны, что важно для получения точных квантитативных измерений. Эти результаты демонстрируют преимущества интегрированного подхода, основанного на глубоком обучений, по сравнению с традиционными методами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ 4D-PreNet имеет значительный потенциал для практического применения в области материаловедения и нанотехнологий. Благодаря его способности эффективно обрабатывать данные 4D-STEM, этот метод может стать ключевым инструментом для автоматизации экспериментов и в реальном времени анализа данных. Улучшение качества данных путем устранения шума и исправления искажений позволяет повысить точность измерений, что важно для многих приложений, включая изучение фазовых переходов, дефектов в кристаллах, и других структурных характеристик материалов. Преимущества 4D-PreNet также состоят в его универсальности и адаптивности к различным условиям эксперимента. Это позволяет использовать этот метод в различных контекстах, независимо от конкретных материалов или условий измерения. Такой подход может существенно ускорить процесс анализа и повысить надежность результатов в автоматизированных экспериментах. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе был представлен 4D-PreNet – унифицированный фреймворк для предварительной обработки данных 4D-STEM, который обеспечивает высокую точность в устранении шума, коррекции положения луча и исправлении эллиптических искажений. Результаты экспериментов показали значительные улучшения в сравнении с традиционными методами, что демонстрирует потенциал этого метода для решения ключевых проблем в области 4D-STEM анализа. В будущем можно ожидать дальнейшего развития этого подхода, включая улучшение архитектуры модели, расширение обучающих данных и интеграцию с другими методами анализа. Также, возможно расширение применения 4D-PreNet на другие типы электронной микроскопии и другие области, где критически важно высокоточное обработка данных в реальном времени.

Annotation:

Automated experimentation with real time data analysis in scanning transmission electron microscopy (STEM) often require end-to-end framework. The four-dimensional scanning transmission electron microscopy (4D-STEM) with high-throughput data acquisition has been constrained by the critical bottleneck results from data preprocessing. Pervasive noise, beam center drift, and elliptical distortions during high-throughput acquisition inevitably corrupt diffraction patterns, systematically biasing qua...

ID: 2508.03775v1 cs.CV, cond-mat.mtrl-sci, cs.AI, I.2.10; I.5.1; J.2

arXiv PDF

📄 Deep learning framework for crater detection and identification on the Moon and Mars

2025-08-09

Авторы:

Yihan Ma, Zeyang Yu, Rohitash Chandra

## КОНТЕКСТ И ПРОБЛЕМАТИКА Импактные кратеры являются одними из наиболее заметных геоморфологических объектов на поверхности планет и спутников солнечной системы. Их распределение по пространству и морфологические характеристики несут важную информацию о композиции поверхности, геологической истории и процессах, вызванных внешним воздействием. Изучение кратеров играет ключевую роль в планетарной науке, поскольку они служат индикаторами временных рамков и интенсивности космических ударов, а также показателями эволюции поверхности. Традиционные методы детектирования кратеров основывались на ручной идентифицировании по изображениям, что требовало больших временных и трудовых затрат, особенно при анализе больших объемов данных с планетарных орбитальных миссий. В последние годы развитие искусственного интеллекта и глубоких нейронных сетей открыло новые возможности для автоматизированного детектирования кратеров. Однако существующие модели часто сталкиваются с проблемами, такими как недостаточная точность распознавания, ограниченность обучения на конкретных типах поверхностей и неоптимальное балансирование между скоростью и точностью. Эта проблематика ставит вопрос о создании эффективного и универсального фреймворка для автоматического детектирования и идентификации кратеров, способного работать на различных планетарных поверхностях с высокой точностью. В данной статье авторы предлагают решение на основе глубокого обучения, ориентированное на детектирование и идентификацию кратеров на Луне и Марсе, используя данные дистанционного зондирования. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют фреймворк для детектирования кратеров, основанный на глубоком обучении, который включает два этапа. На первом этапе используются классические модели, такие как Convolutional Neural Networks (CNNs), ResNet-50 и YOLO (You Only Look Once), для идентификации кратеров. ResNet-50 представляет собой глубокую архитектуру с 50 слоями, известную своей способностью к эффективному обучению на больших данных. YOLO, в свою очередь, является одной из самых быстрых моделей для детектирования объектов в режиме реального времени. На втором этапе фреймворк использует YOLO-базированный подход для точной локализации кратеров. Этот подход позволяет обеспечить высокую точность распознавания различных типов кратеров, включая крупные и мелкие формы. Архитектура фреймворка оптимизирована для работы с данными дистанционного зондирования, полученными с Луны и Марса, что позволяет анализировать различные типы поверхностей и геологических условий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности фреймворка проведены эксперименты на данных дистанционного зондирования с Луны и Марса. Использовались высокоразрешенные изображения, позволяющие распознать мелкие детали кратеров. Результаты показали, что YOLO демонстрирует наиболее сбалансированную производительность в детектировании кратеров, обеспечивая высокую скорость и точность. ResNet-50, с другой стороны, показал лучшие результаты в идентификации крупных кратеров с высокой точностью. Эксперименты также подтвердили, что фреймворк способен обрабатывать разнообразные типы поверхностей, обнаруживая кратеры различных размеров и форм. Отчеты, сгенерированные фреймворком, включали детальную информацию о расположении и характеристиках кратеров, что демонстрирует практическую применимость метода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк имеет широкие возможности применения в планетарной науке и космических исследованиях. Он позволяет быстро и точно обрабатывать большие объемы данных, что значительно ускоряет процессы исследования поверхностей Луны и Марса. Это может быть использовано для изучения геологической истории планет, оценки возраста поверхностных форм и анализа динамики космических ударов. Кроме того, фреймворк может быть интегрирован в космические миссии для реального времени анализа данных, что повышает эффективность миссий и позволяет быстрее принимать научные решения. Его универсальность и высокая точность делают его полезным инструментом для будущих космических проектов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе представлен фреймворк для автоматического детектирования и идентификации кратеров на Луне и Марсе, который демонстрирует высокую эффективность и точность. Основными достижениями являются балансированное детектирование YOLO и высокая точность ResNet-50 в распознавании крупных кратеров. В будущем можно рассмотреть расширение фреймворка для работы с другими планетарными поверхностями, а также интеграцию дополнительных моделей для улучшения точности и скорости. Также возможно исследование возможностей фреймворка в реальном времени для применения в будущих космических миссиях.

Annotation:

Impact craters are among the most prominent geomorphological features on planetary surfaces and are of substantial significance in planetary science research. Their spatial distribution and morphological characteristics provide critical information on planetary surface composition, geological history, and impact processes. In recent years, the rapid advancement of deep learning models has fostered significant interest in automated crater detection. In this paper, we apply advancements in deep le...

ID: 2508.03920v1 cs.CV, cs.AI

arXiv PDF

📄 Policy to Assist Iteratively Local Segmentation: Optimising Modality and Location Selection for Prostate Cancer Localisation

2025-08-09

Авторы:

Xiangcen Wu, Shaheer U. Saeed, Yipei Wang, Ester Bonmati Coll, Yipeng Hu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Диагностика рака простаты требует тщательного анализа медицинских изображений, таких как многопараметрическая МРТ (mpMRI). Радиологи часто используют комбинированные стратегии чтения изображений, включая просмотр отдельных модальностей и локальных регионов изображения. Они анализируют информацию из разных изображений и разных регионов как независимо, так и одновременно, чтобы точно определить местоположение опухолей. Тем не менее, эта задача часто является высокосубъективной и трудоемкой, особенно при наличии сложной патологии. Существующие модели машинного обучения для сегментации опухолей часто используют всю доступную информацию из всех модальностей одновременно, что может привести к неэффективному использованию данных. Требуется более интеллектуальный подход, который мог бы оптимизировать процесс выбора модальностей и локализации регионов для анализа. Такой подход мог бы повысить эффективность аннотации и улучшить точность сегментации, особенно в случаях сложной патологии. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предлагается система политик (policy network), которая помогает сегментационным моделям машинного обучения путем рекомендации наиболее подходящих изображений и регионов для анализа. Эта система обучается выбора оптимальной модальности и конкретных сегментов изображений, которые должны быть проанализированы для максимизации точности сегментации рака простаты. При обучении используется предварительно обученная модель сегментации, которая имитирует действия радиологов, просматривая отдельные модальности или их комбинации, выбранные политикой. На основе выбранных регионов выполняется локальная сегментация, и результаты используются в качестве входа для следующего цикла рекомендаций. Этот итеративный процесс продолжается до тех пор, пока все опухоли не будут точно локализованы. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности метода использовалась база данных из 1325 меткированных mpMRI-изображений пациентов с раком простаты. Эксперименты показали, что предлагаемый подход может значительно улучшить качество сегментации и эффективность аннотации, особенно при сложной патологии. Результаты демонстрируют, что система политик может превосходить стандартные сегментационные модели, особенно в случаях, когда существуют труднодиагностируемые опухоли. Интересно то, что обученная политика разработала собственную стратегию выбора модальностей и регионов, которая может отличаться от текущих клинических рекомендаций, таких как PI-RADS. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в клинической практике. Он может повысить эффективность работы радиологов, помогая им сосредоточиться на наиболее релевантных регионах и модальностях. Это может существенно сократить время, необходимое для аннотации и диагностики. Кроме того, предложенная система может быть использована в интерактивных приложениях, где она будет помогать радиологам в реальном времени, оптимизируя процесс диагностики. Это может способствовать улучшению качества медицинского обследования и уменьшению вероятности пропуска опухолей. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Представленный метод демонстрирует высокую эффективность в оптимизации процесса локализации рака простаты. Он не только улучшает точность сегментации, но и позволяет разрабатывать новые стратегии анализа, которые могут быть интегрированы в клиническую практику. В будущем могут быть исследованы возможности дальнейшей интеграции таких политик в клинические рабочие процессы, а также исследования того, как они могут сотрудничать с радиологами в интерактивном режиме для улучшения диагностики.

Annotation:

Radiologists often mix medical image reading strategies, including inspection of individual modalities and local image regions, using information at different locations from different images independently as well as concurrently. In this paper, we propose a recommend system to assist machine learning-based segmentation models, by suggesting appropriate image portions along with the best modality, such that prostate cancer segmentation performance can be maximised. Our approach trains a policy ne...

ID: 2508.03953v1 cs.CV, cs.AI

arXiv PDF

📄 CORE-ReID V2: Advancing the Domain Adaptation for Object Re-Identification with Optimized Training and Ensemble Fusion

2025-08-09

Авторы:

Trinh Quoc Nguyen, Oky Dicky Ardiansyah Prima, Syahid Al Irfan, Hindriyanto Dwi Purnomo, Radius Tanone

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область Object Re-Identification (ReID) — одна из ключевых задач в компьютерном зрении, которая нацелена на идентификацию объектов, таких как люди или автомобили, на различных камерах или в разных сценариях. Несмотря на значительные успехи в этой области, решение задач ReID остается сложной задачей, особенно в контексте Unsupervised Domain Adaptation (UDA). Традиционные подходы к ReID часто страдают от проблемы доменной разницы, когда модели, обученные на одном наборе данных, не эффективно работают на другом из-за различий в распределении данных. Это особенно актуально для практических приложений, где данные могут быть собраны в различных условиях, таких как разные местоположения, освещение или ракурсы. Проблема UDA в ReID заключается в том, чтобы адаптировать модель, обученную на исходном домене (source domain), к новому, целевому домену (target domain), где метки данных недоступны. Это требует разработки эффективных методов для борьбы с проблемами различий в данных и генерации качественных представлений объектов. Кроме того, многие существующие решения страдают от недостатков в точности и сложности, что ограничивает их применимость в реальных сценариях. В этом контексте, CORE-ReID V2 предлагает улучшенный подход, который стремится решить эти проблемы, используя расширенные методы предобработки данных, улучшенную архитектуру модели и эффективные механизмы фьюзинга для повышения точности и эффективности ReID в различных доменах. ## ПРЕДЛОЖЕННЫЙ МЕТОД CORE-ReID V2 — это усовершенствованный фреймворк, который строится на основе предшественника CORE-ReID, но включает в себя несколько ключевых улучшений для решения проблем UDA в Object ReID. Основным компонентом этого фреймворка является использование CycleGAN для синтеза данных в процессе предобработки. CycleGAN позволяет генерировать синтетические изображения, которые помогают переносить характеристики изображений из исходного домена в целевой, тем самым снижая разрыв между распределениями данных. Во время файн-тюнинга, CORE-ReID V2 использует совершенствованный механизм ensemble fusion, который состоит из Efficient Channel Attention Block (ECAB) и Simplified Efficient Channel Attention Block (SECAB). Эти блоки позволяют эффективно обрабатывать как локальные, так и глобальные функции представлений объектов, что помогает уменьшить неопределенность в псевдо-метках для целевых образцов. ECAB и SECAB обеспечивают более глубокое понимание данных, улучшая качество представлений и повышая точность классификации. Архитектура CORE-ReID V2 также поддерживает легковесные бэкбоны, такие как ResNet18 и ResNet34, что делает его более эффективным с точки зрения вычислительных ресурсов. Это позволяет фреймворку быть более масштабируемым и пригодным для различных практических приложений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности CORE-ReID V2 проведены эксперименты на различных наборах данных, включая UDA Person ReID и Vehicle ReID. Результаты демонстрируют, что CORE-ReID V2 значительно превосходит современные методы по ключевым метрикам, таким как Mean Average Precision (mAP) и Rank-k Accuracy (Top-1, Top-5, Top-10). Например, на некоторых наборах данных, CORE-ReID V2 достигает высочайших показателей mAP и Rank-1 Accuracy, что подтверждает его лидирующую позицию среди современных подходов. В экспериментах также было показано, что использование CycleGAN для синтеза данных в предобработке существенно повышает качество адаптации модели к новым доменам. Благодаря эффективным механизмам фьюзинга, CORE-ReID V2 успешно справляется с неопределенностью в псевдо-метках, что является ключевым фактором для достижения высокой точности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CORE-ReID V2 имеет широкий спектр применений в различных областях, включая безопасность, транспорт и розничную торговлю. Благодаря его способности эффективно адаптироваться к различным доменам, этот фреймворк может быть использован для решения задач ReID в реальных условиях, где данные могут быть получены из различных источников. Преимущества CORE-ReID V2 включают в себя не только высокую точность и эффективность, но и масштабируемость благодаря поддержке легковесных бэкбонов. Это делает его пригодным для использования на различных платформах, включая мобильные устройства. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ CORE-ReID V2 является значительным шагом вперед в области Unsupervised Domain Adaptation для Object ReID. Он не только показывает высокую эффективность на различных наборах данных, но и открывает новые возможности для дальнейших исследований в этой области. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры, включая использование более продвинутых моделей и методов для еще более эффективной адаптации к новым доменам. Открытый код и модели также позволят другим исследователям продолжить работу над улучшением этого фреймворка.

Annotation:

This study presents CORE-ReID V2, an enhanced framework building upon CORE-ReID. The new framework extends its predecessor by addressing Unsupervised Domain Adaptation (UDA) challenges in Person ReID and Vehicle ReID, with further applicability to Object ReID. During pre-training, CycleGAN is employed to synthesize diverse data, bridging image characteristic gaps across different domains. In the fine-tuning, an advanced ensemble fusion mechanism, consisting of the Efficient Channel Attention Blo...

ID: 2508.04036v1 cs.CV, cs.AI

arXiv PDF

📄 FLAT: Latent-Driven Arbitrary-Target Backdoor Attacks in Federated Learning

2025-08-09

Авторы:

Tuan Nguyen, Khoa D Doan, Kok-Seng Wong

**Резюме** Статья предлагает новый подход к внедрению вредоносных backdoor-атак в системы федеративного обучения (FL). Традиционные backdoor-атаки в FL ограничены фиксированными триггерами или одной целью, что делает их неэффективными и легко обнаруживаемыми. В отличие от них, авторы предлагают FLAT (FL Arbitrary-Target Attack), которая использует локальный условный автокодировщик для генерации динамических, целевых и адаптивных триггеров. Это позволяет атакующему выбирать произвольную цель без переучивания модели и скрыться от стандартных методов обнаружения. FLAT объединяет в себе высокую успешность атаки, стелтость и гибкость в единой модели. Эксперименты показали, что атака достаточно эффективна и устойчива против передовых методов защиты FL. Научиться распознавать и бороться с подобными новыми типами backdoor-атак требуется для развития эффективных защитных стратегий в FL.

Annotation:

Federated learning (FL) is vulnerable to backdoor attacks, yet most existing methods are limited by fixed-pattern or single-target triggers, making them inflexible and easier to detect. We propose FLAT (FL Arbitrary-Target Attack), a novel backdoor attack that leverages a latent-driven conditional autoencoder to generate diverse, target-specific triggers as needed. By introducing a latent code, FLAT enables the creation of visually adaptive and highly variable triggers, allowing attackers to sel...

ID: 2508.04064v1 cs.LG, cs.AI, cs.CV

arXiv PDF

1
2
1152
1153
1154
1155
1156
1161
1162

Показано 11531 - 11540 из 11614 записей