📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 When Deepfakes Look Real: Detecting AI-Generated Faces with Unlabeled Data due to Annotation Challenges

2025-08-14

Авторы:

Zhiqiang Yang, Renshuai Tao, Xiaolong Zheng, Guodong Yang, Chunjie Zhang

#### Контекст Область исследования связана с распознаванием г DEEPFAKES, технологий, которые автоматически генерируют лица, выглядящие как настоящие. Эти технологии имеют широкое применение в разных сферах, но также представляют угрозу для безопасности информации и честности коммуникации. Известно, что существующие методы распознавания DEEPFAKES требуют большого количества точечного меток (labeled), для обучения моделей. Однако, на сегодняшний день, генерируемые с помощью ИИ лица становятся все более реалистичными, и даже человеком процесс различения между генерируемыми и настоящими лицами становится сложнее. Это приводит к увеличению времени и сложности процесса меток, а также к ухудшению точности распознавания. Кроме того, требуется развитие подходов, которые могут эффективно использовать большие массивы непомеченных данных, таких как лица, полученные из социальных сетей. Эти данные обычно имеют динамические качества и трудно классифицировать стандартными методами, обученными на меточных данных. В данном исследовании рассматривается задача распознавания главных особенностей г DEEPFAKES, применяя алгоритмы, которые могут эффективно работать с непомеченными данными. #### Метод Основной метод, предлагаемый в работе, называется Dual-Path Guidance Network (DPGNet). Он представляет собой совместное использование двух путей информации: текстового и визуального. Данный подход оптимизируется для решения двух ключевых проблем: (1) уменьшения различий между генерируемыми лицами различных моделей, и (2) использования непомеченных данных для обучения. - **Text-guided Cross-domain Alignment**: Этот модуль позволяет связать визуальные и текстовые признаки, используя универсальность текста для объединения разных доменов (генерируемые и настоящие лица). Используя "learnable prompts" (обучаемые подсказки), DPGNet способен привести визуальные и текстовые данные к общему, независимому от домена, функциональному пространству. - **Curriculum-driven Pseudo Label Generation**: Данный модуль раскрывает потенциал непомеченных данных, постепенно расширяя обучающую выборку с помощью динамической генерации псевдо-меток. Это позволяет модели учитывать более качественные семплы из непомеченных данных. - **Cross-domain Knowledge Distillation**: Чтобы обойти проблему "catastrophic forgetting" (забывание достигнутых навыков при изменении обучающих наборов), DPGNet использует методы кросс-доменного знания, чтобы лучше связать взаимосвязанные компоненты из разных доменов. #### Результаты В ходе экспериментов DPGNet был проверен на 11 популярных датасетах, где показал высокую точность в распознавании г DEEPFAKES. Метод демонстрирует зна

Annotation:

Existing deepfake detection methods heavily depend on labeled training data. However, as AI-generated content becomes increasingly realistic, even \textbf{human annotators struggle to distinguish} between deepfakes and authentic images. This makes the labeling process both time-consuming and less reliable. Specifically, there is a growing demand for approaches that can effectively utilize large-scale unlabeled data from online social networks. Unlike typical unsupervised learning tasks, where ca...

ID: 2508.09022v2 cs.CV, cs.AI

arXiv PDF

📄 Spatial Traces: Enhancing VLA Models with Spatial-Temporal Understanding

2025-08-14

Авторы:

Maxim A. Patratskiy, Alexey K. Kovalev, Aleksandr I. Panov

## Контекст В последнее десятилетие, визуально-языковые модели стали одним из основных направлений в искусственном интеллекте. Они позволяют агентам визуально-языковых моделей (VLA) воспринимать визуальные сигналы и текстовые команды для точного прогнозирования динамики действий в реальных и виртуальных средах. Однако существуют некоторые проблемы, связанные с недостаточным пониманием спatial и temporal аспектов. Несмотря на то, что ранее разработанные подходы привносили улучшения, они по-прежнему сталкиваются с ограничениями в данных и сложностью внедрения этих подходов для решения реальных задач. Этот факт мотивирует разработку более эффективных методов, которые могут объединить spatial и temporal с той же степенью эффективности. ## Метод Метод Spatial Traces состоит в том, чтобы проецировать ключевые точки, отслеживаемые на входных визуальных кадрах, на depth maps (глубинные карты). Это происходит с помощью технологии visual prompting, которая интегрирует spatial и temporal слои в одном процессе. Модель получает входные данные в виде глубинных карт и текстовых признаков, а затем выполняет последовательное обучение, чтобы обеспечить одновременное понимание пространственных и временных зависимостей. Была разработана архитектура, включающая convolutional layers для обработки depth maps и transformer-based encoder для обработки текстовых данных. Эта методика позволяет улучшить прогнозирование действий в пространстве и времени, объединяя их в единую модель. ## Результаты Эксперименты проводились на SimplerEnv, где использовались данные, содержащие визуальные сигналы и текстовые команды. Модель Spatial Traces показала значительное улучшение в процессе решения задач в сравнении с двумя конкурирующими моделями: SpatialVLA и TraceVLA. Для Spatial Traces, mean success rate увеличился на 4% в сравнении с SpatialVLA и на 19% в сравнении с TraceVLA. Кроме того, Spatial Traces показала высокую точность при минимальном количестве данных для обучения, что делает её привлекательной для реальных сценариев, где сбор данных может быть ограниченным. ## Значимость Этот подход может быть применен в различных областях, таких как robotics, augmented reality, и computer vision. Он позволяет улучшить точность прогнозирования динамики в средах, где spatial и temporal данные имеют важное значение. Благодаря тому, что модель показала высокую эффективность с минимальным объемом данных, она может стать ключевым инструментом для решения задач в реальном мире, где сбор данных может быть сложным. ## Выводы В ходе работы был разработан метод, который улучшает точность прогнозирования действий в пространстве и времени, объединяя spatial и temporal слои в единой модели. Этот подход продемонстрировал существенное улучшение производительности в сравнении с подходами, которые работают с spatial и temporal данными отдельно

Annotation:

Vision-Language-Action models have demonstrated remarkable capabilities in predicting agent movements within virtual environments and real-world scenarios based on visual observations and textual instructions. Although recent research has focused on enhancing spatial and temporal understanding independently, this paper presents a novel approach that integrates both aspects through visual prompting. We introduce a method that projects visual traces of key points from observations onto depth maps,...

ID: 2508.09032v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 MMFformer: Multimodal Fusion Transformer Network for Depression Detection

2025-08-13

Авторы:

Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Hamdi Altaheri, Lobna Nassar, Fakhri Karray

## Контекст В последние годы становится все очевиднее, что депрессия является одной из самых серьезных проблем психического здоровья, значительно сказывающихся на качестве жизни и благополучии индивидуума. Несмотря на значительные достижения в области диагностики депрессии, окончательный анализ часто влечет за собой субъективные оценки в клинических интервью. Это может привести к задержке диагноза и неэффективному лечению. Недавно начались исследования, ориентированные на использование социальных сетей для ранней диагностики депрессии. Тем не менее, обычные методы не всегда справляются с трудностями, связанными с объемом и разнообразием пользовательских данных, а также с потребностью в эффективном сочетании многомодальных данных. Таким образом, возникает необходимость в разработке нового подхода, который бы позволил эффективно обрабатывать многомодальные данные и выявлять связи между ними. ## Метод MMFformer — это многомодальная сеть, основанная на использовании трансформеров, предназначенная для выявления депрессивных моделей в многомодальных социальных медиа-данных. Она включает в себя несколько основных модулей. Во-первых, трансформер с резидентными связями используется для извлечения пространственных характеристик из видеоматериалов. Затем, второй трансформер-энкодер применяется для извлечения динамики в аудиоданных. Для улучшения эффективности, архитектура объединения функций использует лонгшорт-фюзинг для объединения взаимосвязанных функций, что позволяет улучшить детализацию и точность. Наконец, сеть прошла оптимизацию для работы с данными многомодальности, что достигается с помощью устранения некоторых ограничений, связанных с задержкой синтеза и проблемами взаимодействия между модальностями. ## Результаты Для оценки MMFformer были применены две крупномасштабные базы данных по диагностике депрессии: D-Vlog и LMVD. Эксперименты показали, что предложенная сеть превосходит существующие подходы, повышая F1-Score на 13.92% для D-Vlog и 7.74% для LMVD. Эти результаты отражают высокую точность сети в выявлении моделей депрессии, даже в условиях многообразия и большого объема данных. Еще одним огромным достижением является возможность обнаружения столь точных пространственных и временных моделей, что дает новый взгляд на диагностику депрессии. ## Значимость Предложенный подход имеет значительное значение для нескольких областей, включая психиатрию, медицинское исследование и прогностические технологии. Эффективность MMFformer в сочетании нескольких модальностей данных открыва

Annotation:

Depression is a serious mental health illness that significantly affects an individual's well-being and quality of life, making early detection crucial for adequate care and treatment. Detecting depression is often difficult, as it is based primarily on subjective evaluations during clinical interviews. Hence, the early diagnosis of depression, thanks to the content of social networks, has become a prominent research area. The extensive and diverse nature of user-generated information poses a si...

ID: 2508.06701v1 cs.CV, cs.AI, cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 Beyond Frequency: Seeing Subtle Cues Through the Lens of Spatial Decomposition for Fine-Grained Visual Classification

2025-08-13

Авторы:

Qin Xu, Lili Zhu, Xiaoxia Cheng, Bo Jiang

## Контекст Область fine-grained visual classification (FGVC) сосредоточена на распознавании тонких, классо-специфичных черт, которые отличают одни объекты от других внутри одной категории. Эта задача требует активного мининга деталей, которые часто заключены в нетривиальных, но важных областях изображения. Несмотря на прогрессы, существующие подходы часто сталкиваются с ограничениями в динамичности и гибкости. Например, методы, основанные на преобразованиех частоты, хотя и мощны, ограничены фиксированными базисами, которые не могут адаптироваться к изображениям в зависимости от их уникальных особенностей. Эта статья описывает новый подход, SCOPE, который адресует эти ограничения, предлагая гибкую архитектуру для эффективного представления информации в пространственной области. ## Метод SCOPE, или Subtle-Cue Oriented Perception Engine, является прорывом в области FGVC, предлагая адаптивные механизмы для улучшения представительности низкоуровневых деталей и высокоуровневых семантических структур. Основоположная идея заключается в двух модулях: **Subtle Detail Extractor (SDE)** и **Salient Semantic Refiner (SSR)**. SDE ориентирован на динамическое повышение чувствительности к небольшим деталям, таким как ребра и текстуры, в начальных слоях. SSR, в свою очередь, объединяет этот подход с высокоуровневыми семантическими структурами, чтобы улучшить целостность и контекст. Модули SDE и SSR работают в рекуррентном режиме, позволяя последовательному улучшению представления. Этот подход мотивирован тем, что FGVC чувствителен к деталям, которые могут быть пропущены фиксированными базисами. ## Результаты Эксперименты проводились на четырех ключевых бенчмарках FGVC: CUB-200-2011, Stanford Cars, FGVC-Aircraft и iNaturalist. Использовались различные метрики, включая top-1 accuracy. Результаты показали, что SCOPE превосходит существующие методы, достигая новых рекордов по точности распознавания. Кроме того, анализируя вклад каждого модуля, было показано, что SDE и SSR совместно способствуют улучшению, а степень детализации и семантики в каждом модуле варьируется в зависимости от сложности изображения. ## Значимость Предлагаемый подход расширяет мощность FGVC, предлагая гибкость в обработке сложных изображений. Он применим в таких областях, как автоматический распознаватель, анализ изображений в робототехнике и медицине. Развитие динамических модулей SCOPE открывает путь для более точного распознавания в будущих исследованиях, особенно в сферах, где тонкие черты играют ключевую роль. ## Выводы В целом, SCOPE достигает новых результатов в FGVC, становясь мощным инструментом для распозна

Annotation:

The crux of resolving fine-grained visual classification (FGVC) lies in capturing discriminative and class-specific cues that correspond to subtle visual characteristics. Recently, frequency decomposition/transform based approaches have attracted considerable interests since its appearing discriminative cue mining ability. However, the frequency-domain methods are based on fixed basis functions, lacking adaptability to image content and unable to dynamically adjust feature extraction according t...

ID: 2508.06959v1 cs.CV, cs.AI

arXiv PDF

📄 WeatherDiffusion: Weather-Guided Diffusion Model for Forward and Inverse Rendering

2025-08-13

Авторы:

Yixin Zhu, Zuoliang Zhu, Miloš Hašan, Jian Yang, Jin Xie, Beibei Wang

## Контекст Forward и inverse rendering являются ключевыми технологиями для понимания и реконструкции объектов в контексте автономного вождения (AD). Однако сложные условия погоды и освещения представляют значительные проблемы для этих задач. Новые большие модели размещения (diffusion models) показали свою эффективность в обучении на 2D-признаках, но их управление остается сложным, а надежность оставляет желать лучшего. В этой работе мы предлагаем WeatherDiffusion, расширенную рамку работы на основе diffusion для forward и inverse rendering в сценах AD, охватывающих различные погодные и освещенные условия. Наше решение предназначено для точного определения материальных свойств, геометрии сцены и освещения, а также поддерживает редактирование погодных и освещенных условий с помощью прогнозируемых интринсических карт, управляемых текстовыми описаниями. ## Метод WeatherDiffusion работает на основе размещения (diffusion) и использует текстовую информацию для контроля процесса. Мы предлагаем Intrinsic Map-aware Attention (MAA), которая учитывает различные регионы исходного изображения, что позволяет повысить качество inverse rendering. Для обучения и оценки метода мы создали две высококачественные выборки данных: WeatherSynthetic (синтетическая) и WeatherReal (реальная). Метод WeatherDiffusion предлагает уникальные возможности для решения задач воздействия погоды на AD-технологии, таких как обнаружение объектов и сегментация изображений в сложных условиях. ## Результаты Мы провести небольшой эксперимент, чтобы продемонстрировать применение WeatherDiffusion к задаче forward и inverse rendering. Использовались данные из синтетической и реальной выборок. Наши результаты показали, что WeatherDiffusion значительно превосходит состояние технологии по метрикам качества и точности. Мы также провели эксперименты на реальных сценах AD, в которых метод показал высокую точность и надежность при различных условиях погоды и освещения. ## Значимость WeatherDiffusion может быть применен в различных сферах, включая автономное вождение, виртуальную реальность, моделирование информации для систем управления транспортом и другие. Метод имеет преимущества в точности, эффективности и управляемости. Мы считаем, что WeatherDiffusion может стать новым стандартом для forward и inverse rendering в AD и далее подкрепиться в области визуальных технологий для сложных сцен с различными погодными и освещенными условиями. ## Выводы WeatherDiffusion представляет собой мощный метод для forward и inverse rendering в сценах AD с разными погодными и освещенными условиями. Мы продемонстрировали его эффективность на двух выборках данных и показали преимущества по сравнению с другими методами. Наша работа может способствовать развитию технологий AD в будущем, улучшению обнаружения объектов и сегментации изображений в сложных условиях. Мы также планируем расширить моде

Annotation:

Forward and inverse rendering have emerged as key techniques for enabling understanding and reconstruction in the context of autonomous driving (AD). However, complex weather and illumination pose great challenges to this task. The emergence of large diffusion models has shown promise in achieving reasonable results through learning from 2D priors, but these models are difficult to control and lack robustness. In this paper, we introduce WeatherDiffusion, a diffusion-based framework for forward ...

ID: 2508.06982v1 cs.CV, cs.AI

arXiv PDF

📄 Perceptual Evaluation of GANs and Diffusion Models for Generating X-rays

2025-08-13

Авторы:

Gregory Schuit, Denis Parra, Cecilia Besa

#### Контекст Генерирующие изображения модели, такие как генерирующие адверсарные сети (GANs) и модели диффузии (DMs), показали свою эффективность в области генерирования изображений, включая медицинскую имеджинг. В частности, это относится к области радиологии, где синтетические изображения могут устранить проблему нехватки данных, особенно для редких заболеваний, которые снижают эффективность AI-based диагностики и сегментации. Однако остаются вопросы относительно качества синтетических изображений и их клинической полезности. Недостаточное генерирование может снизить универсальность моделей и их доверие. Наше исследование фокусируется на оценке эффективности GANs и DMs в синтезе X-ray изображений, особенно для таких аномалий, как Atelectasis (AT), Lung Opacity (LO), Pleural Effusion (PE), и Enlarged Cardiac Silhouette (ECS). Мы проводим читательское исследование с участием радиологов разных уровней опыта, чтобы изучить качество синтетических изображений в сравнении с реальными. #### Метод Мы создали бенчмарк, который включал реальные X-ray изображения из датасета MIMIC-CXR и синтетические изображения, генерируемые GANs и DMs. Эти изображения были упорядочены по четырём классам аномалий. Мы провели читательское исследование с участием трёх радиологов разных уровней опыта. Участники должны были отличить реальные от синтетических изображений и оценить согласованность визуальных признаков с фокусируемой аномалией. Мы использовали метрики, такие как точность распознавания и чувствительность, чтобы измерить качество моделей. Также, мы проанализировали визуальные критерии, которые помогали радиологам выявить синтетические изображения. #### Результаты Наши результаты показали, что DMs генерируют более реалистичные изображения в целом, особенно для пространственных деталей и общей имитации естественного шума. Однако GANs показали лучшую точность в определении конкретных условий, таких как отсутствие ECS. Мы также выявили визуальные признаки, помогающие радиологам отличать синтетические изображения, такие как неестественная текстура и несогласованность в локализации. Эти результаты показывают, что GANs и DMs имеют дополнительные сильные стороны и могут быть использованы вместе для повышения качества синтетических данных в AI-системах. #### Значимость Наше исследование выявило важное применение GANs и DMs в производстве синтетических изображений для обучения AI-систем в радиологии. Мы показали, что DMs могут использоваться для широкой генерации качественных изображений, в то время как GANs могут специализироваться в накладываемых задачах. Э

Annotation:

Generative image models have achieved remarkable progress in both natural and medical imaging. In the medical context, these techniques offer a potential solution to data scarcity-especially for low-prevalence anomalies that impair the performance of AI-driven diagnostic and segmentation tools. However, questions remain regarding the fidelity and clinical utility of synthetic images, since poor generation quality can undermine model generalizability and trust. In this study, we evaluate the effe...

ID: 2508.07128v1 cs.CV, cs.AI

arXiv PDF

📄 Intention-Aware Diffusion Model for Pedestrian Trajectory Prediction

2025-08-13

Авторы:

Yu Liu, Zhijie Liu, Xiao Ren, You-Fu Li, He Kong

#### Контекст Предсказание движения пешеходов является критическим аспектом планирования маршрутов и управления движением автономных транспортных средств. Несмотря на то, что развивающиеся методы становятся все более точными, одной из проблем является недостаточная учета потенциальных целей движения пешеходов. Без точного моделирования поведенческих интентов может возникать неточность в прогнозировании. Это приводит к нежелательным ситуациям, таким как непредвиденные столкновения или неточное планирование маршрутов. Наша мотивация заключается в создании модели, которая не только точно предсказывает движение, но и учитывает семантические аспекты, такие как цели и интенты пешеходов. #### Метод Мы предлагаем рамоку Intention-Aware Diffusion Model, которая интегрирует семантическое моделирование поведения пешеходов. Шорт-терм интент представляется с помощью резидуального полярного представления. Это позволяет разделить направление и масштаб движения, чтобы лучше передать локальные модели движения. Для лонг-терм интента используется токен-базированный предиктор конечной точки, который вырабатывает несколько возможных целей со связанными вероятностями. Это позволяет учесть многомиодальность и контекстуальные аспекты предсказания. Дополнительно, мы улучшаем процесс диффузии с помощью адаптивного руководства и резидуального шумового предиктора, улучшающего степень точности денойсинга. #### Результаты Мы проверяли нашу модель на трех ключевых датасетах: ETH, UCY, и SDD. Наши результаты показали, что Intention-Aware Diffusion Model превосходит состояние технологии по метрикам FDE (Final Displacement Error) и ADE (Average Displacement Error). Мы также проверили точность предсказания интентов, показав, что наша модель эффективно моделирует как локальные, так и глобальные цели движения. #### Значимость Модель имеет широкие перспективы применения в автономных системах, например, в дорожном трафике, робототехнике и мультимедийном контроле. Она позволяет улучшить точность предсказания, уменьшить непредвиденные ситуации и повысить безопасность в интеракции автомобилей с пешеходами. Модель также предоставляет новые возможности для продвинутого моделирования поведенческих интентов, которые могут быть применимы в других областях, таких как коммерческие системы прогнозирования потребления. #### Выводы Мы успешно применили технологии диффузии для моделирования поведенческих интентов пешеходов. Наша модель демонстрирует высокую точность в предсказании интентов и движения в целом. Будущие исследования будут направлены на расширение модели для поддержки более сложных сценариев и увеличение

Annotation:

Predicting pedestrian motion trajectories is critical for the path planning and motion control of autonomous vehicles. Recent diffusion-based models have shown promising results in capturing the inherent stochasticity of pedestrian behavior for trajectory prediction. However, the absence of explicit semantic modelling of pedestrian intent in many diffusion-based methods may result in misinterpreted behaviors and reduced prediction accuracy. To address the above challenges, we propose a diffusion...

ID: 2508.07146v1 cs.CV, cs.AI

arXiv PDF

📄 Lightweight Multi-Scale Feature Extraction with Fully Connected LMF Layer for Salient Object Detection

2025-08-13

Авторы:

Yunpeng Shi, Lei Chen, Xiaolu Shen, Yanju Guo

## Контекст Задача поиска наиболее выделенного объекта в изображении, называемая **salient object detection (SOD)**, широко используется в области компьютерного зрения, включая обнаружение объектов, сегментацию изображений и анализ сцен. Однако, эффективная и точная интерпретация изображений чрезвычайно зависит от возможности эффективного извлечения особенностей на разных масштабах. Несмотря на то, что существуют многослойные сети, они часто сталкиваются с проблемами, такими как высокий центровой вес, большое количество параметров и высокий уровень вычислительных затрат. Данная работа посвящена разработке **lightweight** сети, которая может эффективно извлекать многомерные особенности не подвергаясь упомянутым проблемам. ## Метод Методология предложенной работы основывается на разработке **Lightweight Multi-Scale Feature Extraction Layer (LMF)**. Этот слой использует **depthwise separable dilated convolutions** в сочетании с **fully connected** структурой. Это позволяет эффективно извлекать многомерные фичи на разных масштабах, при этом сокращая количество параметров и вычислительных затрат. Для построения **LMFNet** (сеть для SOD), **LMF** слои интегрируются в сеть, чтобы достичь лучшей точности в **salient object detection**. Эта методология значительно сокращает вес сети, сохраняя высокую точность. ## Результаты **LMFNet** была протестирована на пяти различных бенчмарк-датасетах, включая **DUTS**, **ECSSD**, **HKU-IS**, **PASCAL-S** и **SOD**. Результаты показывают, что **LMFNet** достигает **state-of-the-art** или сопоставимых результатов на этих датасетах с **0.81M** параметрами. Эта сеть существенно превосходит традиционные модели по **Efficiency** и **Accuracy**. Таким образом, **LMFNet** эффективно решает проблему **multi-scale feature extraction** в **lightweight** сетях. ## Значимость **LMFNet** может применяться в разных областях **image processing**, таких как **salient object detection**, **video processing** и даже в **medical imaging**. Её преимущества заключаются в **high efficiency**, **low computational cost** и **state-of-the-art performance**. Данная работа открывает новые возможности для **lightweight architectures** в области **computer vision** и может быть применена в будущих исследованиях, связанных с **multi-scale feature extraction**. ## Выводы Разработанная сеть **LMFNet** демонстрирует эффективность в **lightweight multi-scale feature extraction** для **salient object detection**. Она исправляет ранее существующие проблемы, связанные с **efficiency** и **accuracy** в **lightweight networks**. **LMFNet** не только показывает новый подход к **multi-scale feature extraction**, но и открывает пути для будущих исследований в области **image processing** и более широких **computer vision** задач.

Annotation:

In the domain of computer vision, multi-scale feature extraction is vital for tasks such as salient object detection. However, achieving this capability in lightweight networks remains challenging due to the trade-off between efficiency and performance. This paper proposes a novel lightweight multi-scale feature extraction layer, termed the LMF layer, which employs depthwise separable dilated convolutions in a fully connected structure. By integrating multiple LMF layers, we develop LMFNet, a li...

ID: 2508.07170v1 cs.CV, cs.AI

arXiv PDF

📄 OpenHAIV: A Framework Towards Practical Open-World Learning

2025-08-13

Авторы:

Xiang Xiang, Qinhao Zhou, Zhuo Xu, Jing Ma, Jiaxin Dai, Yifan Liang, Hanlin Li

## Контекст Открытый мир (open-world) — это многопрофильная область исследований, которая направлена на обнаружение и обработку неизвестных классов в данных. Открытый мир отличается от стандартных сценариев, где модели обучаются только на известных классах. В открытом мире необходимо обнаруживать неизвестные классы и обновлять модель в режиме реального времени. Существующие методы, такие как OOD-обнаружение и инкрементное обучение, сталкиваются с проблемами: OOD-обнаружение не обновляет знания модели, а инкрементное обучение требует наличия меток для новых классов, что не соответствует открытому миру. Наличие этих проблем подчеркивает необходимость разработки универсального подхода, который мог бы объединить OOD-обнаружение, обнаружение новых классов и инкрементное обучение в единое целое. ## Метод OpenHAIV представляет собой инновационный фреймворк, который решает вышеуказанные проблемы. Он состоит из трех основных компонентов: 1. **OOD-обнаружение (Out-of-Distribution Detection):** Этот компонент позволяет модели определять новые классы в данных. 2. **Обнаружение новых классов (New Class Discovery):** Этот модуль использует OOD-обнаруженные данные для выделения и обработки новых классов. 3. **Инкрементное обучение (Incremental Continual Fine-tuning):** Этот модуль обновляет модель, используя обнаруженные новые классы, и позволяет ей продолжительно обучаться в открытом мире. Технология OpenHAIV лежит в основе модели представления, объединяющей эти компоненты в единую целостную систему. ## Результаты Эксперименты проводились на стандартных датасетах, в том числе CIFAR-100, ImageNet или TinyImageNet. Открытый мир был воспроизведен, добавляя неизвестные классы во время выполнения. Результаты показали, что OpenHAIV превосходит существующие методы в обнаружении неизвестных классов, в новом классе обнаружения и сохранении модели на протяжении длительного времени. Открытый код и результаты доступны на сайте https://haiv-lab.github.io/openhaiv . ## Значимость OpenHAIV открывает новые возможности в широких областях применения, таких как робототехника, медицина, анализ данных и мониторинг сетей. Он позволяет моделям не только распознавать данные, но и адаптироваться к новым условиям в реальном времени. Это предоставляет потенциал для улучшения производительности в сложных интеллектуальных системах. ## Выводы OpenHAIV представляет собой новую модель, которая объединяет OOD-обнаружение, обнаружение новых классов и инкрементное обучение. Это решение развивает открытый мир, расширяя возможности моделей в реальном времени. Будущие исследования будут направлены на улучшение эффективности фреймворка, а также на расширение его применения в разли

Annotation:

Substantial progress has been made in various techniques for open-world recognition. Out-of-distribution (OOD) detection methods can effectively distinguish between known and unknown classes in the data, while incremental learning enables continuous model knowledge updates. However, in open-world scenarios, these approaches still face limitations. Relying solely on OOD detection does not facilitate knowledge updates in the model, and incremental fine-tuning typically requires supervised conditio...

ID: 2508.07270v1 cs.CV, cs.AI, cs.LG, eess.IV, stat.ML

arXiv PDF

📄 Representation Understanding via Activation Maximization

2025-08-13

Авторы:

Hongbo Zhu, Angelo Cangelosi

#### Контекст В последние годы глубокие нейронные сети (DNNs) стали одним из наиболее эффективных инструментов для решения задач классификации изображений, текстов и аудио. Однако у них существует значительный недостаток: недостаточная понятность интерпретации результатов. Это ограничивает их применение в критических областях, таких как медицина и юриспруденция, где требуется понятная интерпретация решений. Одним из подходов к разъяснению внутренних представлений сетей является Activation Maximization (AM) — метод, нацеленный на синтез входных данных, вызывающих сильные ответы от нейронов сети. Несмотря на то, что AM был применен ранее, основные исследования фокусировались на последних слоях сверточных нейронных сетей (CNNs). Наша мотивация заключается в расширении этого подхода на внутренние слои и использовании его для разных архитектур, включая Vision Transformers (ViTs). #### Метод Мы предлагаем обобщенную фреймфорк для визуализации функций, который может быть применен к CNNs и ViTs. Наш метод строится на идее максимизации активации нейрона, используя градиентный подъем по многомерному пространству входов. Для того чтобы расширить применение метода на внутренние слои, мы применяем локальные ограничения, чтобы генерировать входы, которые активируют конкретные нейроны внутри этих слоев. Для ViTs мы используем трансформерские блоки для уточненной визуализации. Эта архитектура позволяет проводить эксперименты не только с выходными слоями, но и с промежуточными, что дает более полное представление о внутреннем устройстве сетей. #### Результаты Используя наши методы, мы провели эксперименты на популярных базах данных, таких как CIFAR-10 и ImageNet. Мы сравнивали наши результаты с текущими методами визуализации и показали, что наш подход дает более ясные и точные представления о внутренних представлениях. Мы также проверили эффективность нашего подхода в создании адверсарных примеров, показав, что он может эффективно использоваться для выявления уязвимостей DNNs. Выполненные эксперименты указывают на широкую применимость нашего подхода к разным типам нейронных сетей. #### Значимость Наш подход может быть применен в системах, требующих понятной интерпретации результатов, таких как медицинские системы диагностики и системы безопасности. Он также может стать полезным для отладки моделей и выявления уязвимостей, что может привести к более надежным системам. Более широкое применение включает в себя исследования в области обучения с подкреплением и моделирования внимания, где понимание внутренних представлений ключевое значение имеет. #### Выводы М

Annotation:

Understanding internal feature representations of deep neural networks (DNNs) is a fundamental step toward model interpretability. Inspired by neuroscience methods that probe biological neurons using visual stimuli, recent deep learning studies have employed Activation Maximization (AM) to synthesize inputs that elicit strong responses from artificial neurons. In this work, we propose a unified feature visualization framework applicable to both Convolutional Neural Networks (CNNs) and Vision Tra...

ID: 2508.07281v1 cs.CV, cs.AI

arXiv PDF

1
2
213
214
215
216
217
227
228

Показано 2141 - 2150 из 2274 записей