📚 Саммари научных статей из arXiv

Найдено 358 результатов по запросу 'cs.CV, cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Guided and Unguided Conditional Diffusion Mechanisms for Structured and Semantically-Aware 3D Point Cloud Generation

2025-09-24

Авторы:

Gunner Stone, Sushmita Sarker, Alireza Tavakkoli

## Контекст Генерация реалистичных 3D-точечных массивов является важной задачей в области компьютерного зрения, применяющуюся в таких сферах, как удаленное замерение, робототехника и создание цифровых моделей объектов. Основные подходы к генерации 3D-точечных массивов стремятся представить только геометрию объектов, не учитывая их семантические характеристики. Эти семантические свойства, как правило, добавляются вне динамики генерации, что приводит к несовершенству разделения объектов в генерируемых моделях. Было предложено расширенное рамфазное фреймворк, которое включает показатели семантических характеристик у каждой точки в процессе генерации. Это позволяет генерировать точечные массивы, в которых геометрия и семантика гармонично взаимодействуют. ## Метод Методом генерации 3D-точечных массивов полагается развитие различных рандомизированных диффузионных процессов. Основная идея состоит в том, чтобы создать модель, которая учитывает объединение геометрии и семантики уже на этапе синтеза. Для каждой точки 3D-точечного массива поддерживается раздельная семантическая метка, влияющая на диффузионные процессы. Это гарантирует, что каждая точка в модели будет генерироваться с учетом её семантической принадлежности, что повышает качество и точность модели. Фреймворк также включает в себя два режима работы: управляемый и неуправляемый, чтобы проанализировать влияние семантических условий на генерацию. ## Результаты Исследования проводились на многочисленных данных, включая синтетические и реальные 3D-точечные массивы. В ходе экспериментов были сравнивали качество генерируемых точечных массивов при использовании различных семантических условий. Эталонные методы, которые не учитывают семантику, показали низкий уровень точности в разделении объектов. Наш подход показал значительное улучшение в создании точечных массивов, где каждая точка отражает свои семантические качества, что приводит к точным и детализированным моделям. ## Значимость Наш подход может быть применен в различных областях, включая удаленное замерение, цифровые модели зданий и робототехнику. Он позволяет получать более точные и разделенные модели, что улучшает качество работы в задачах, требующих высокой точности распознавания семантики. Также он предоставляет новые возможности для создания синтетических моделей с учетом геометрических и семантических факторов. ## Выводы Мы представили расширенный фреймворк для генерации 3D-точечных массивов, который включает семантические условия на уровне каж

Annotation:

Generating realistic 3D point clouds is a fundamental problem in computer vision with applications in remote sensing, robotics, and digital object modeling. Existing generative approaches primarily capture geometry, and when semantics are considered, they are typically imposed post hoc through external segmentation or clustering rather than integrated into the generative process itself. We propose a diffusion-based framework that embeds per-point semantic conditioning directly within generation....

ID: 2509.17206v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Point-RTD: Replaced Token Denoising for Pretraining Transformer Models on Point Clouds

2025-09-24

Авторы:

Gunner Stone, Youngsook Choi, Alireza Tavakkoli, Ankita Shukla

#### Контекст Transformer-based модели широко применяются к задачам обработки точечных массивов трёхмерных объектов. Однако, предварительное обучение (pretraining) этих моделей существенно сложнее, чем для стандартных ансамблей изображений. Основная проблема заключается в том, что точечные массивы требуют более сложной архитектуры для извлечения структурных признаков. Недостаток эффективных методов pretraining приводит к низкой точности и ограниченности моделей. Таким образом, возникает необходимость в разработке новых подходов, которые могут улучшить характеристики моделей на трёхмерных данных. #### Метод Point-RTD (Replaced Token Denoising) представляет собой совершенно новую методику для pretraining моделей на точечных массивах. В этой стратегии, точечные массивы трансформируются в токены, которые последующим образом подвергаются повреждению (corruption). Затем, это повреждение предсказывается с помощью модели, которая реконструирует поврежденные токены с помощью архитектуры генератора-дискриминатора. Это позволяет модели изучить более сильные структурные признаки, чем в стандартных подходах, например Point-MAE. Такой подход дозволяет модели быстрее выучивать структурные характеристики, требуемые для распознавания объектов на трёхмерных сценах. #### Результаты В Point-RTD проводился ряд экспериментов на различных данных, включая ShapeNet, ModelNet10 и ModelNet40. На ShapeNet, Point-RTD достиг значительных улучшений, сократив реконструкционный ошибки в 93% по сравнению с Point-MAE. Также, Point-RTD показал значительно более высокую точность распознавания объектов на ModelNet10 и ModelNet40. Еще, Point-RTD достиг более высокой эффективности и быстрого схождения во время обучения. Эти результаты очевидно подтверждают высокую эффективность Point-RTD по сравнению с остальными подходами. #### Значимость Point-RTD может быть применен в широком спектре приложений, включая автоматизированное зрение, виртуальную реальность, интеллектуальный анализ данных. Этот подход обладает преимуществами об улучшенной точности, более быстром схождении во время обучения и высокой эффективности. Это может привести к развитию более точных и эффективных моделей для работы с трёхмерными данными, которые могут использоваться в широком спектре технологий. #### Выводы Point-RTD демонстрирует удачный подход к pretraining моделей трёхмерных точечных массивов. Он показал существенные улучшения в точности, эффективности и скорости обучения по сравнению с Point-MAE. В дальнейших исследованиях, будет интересно исследовать влияние Point-RTD на другие модели трёхмерных данных, а также на различные сценарии применения в глубоком обучении.

Annotation:

Pre-training strategies play a critical role in advancing the performance of transformer-based models for 3D point cloud tasks. In this paper, we introduce Point-RTD (Replaced Token Denoising), a novel pretraining strategy designed to improve token robustness through a corruption-reconstruction framework. Unlike traditional mask-based reconstruction tasks that hide data segments for later prediction, Point-RTD corrupts point cloud tokens and leverages a discriminator-generator architecture for d...

ID: 2509.17207v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Interpreting Attention Heads for Image-to-Text Information Flow in Large Vision-Language Models

2025-09-24

Авторы:

Jinyeong Kim, Seil Kang, Jiwoo Park, Junhyeok Kim, Seong Jae Hwang

#### Контекст Modern Large Vision-Language Models (LVLMs) представляют собой сложные системы, которые способны выполнять задачи, такие как обнаружение объектов, генерация текста и объяснение изображений, путем взаимодействия между двумя модальностями — изображениями и текстом. Одним из ключевых аспектов LVLMs является процесс передачи информации из изображения в текст (image-to-text information flow), который центральен для решения задач визуальных вопросов (visual question answering). Тем не менее, процесс этого потока информации не полностью понятен из-за работы многочисленных attention heads, которые одновременно производят работу. Это создает сложности в интерпретации и понимании того, как LVLMs обрабатывают информацию. Мы предлагаем новую методику, называемую head attribution, чтобы раскрыть эти сложности и определить ключевые attention heads, которые играют ключевую роль в процессе передачи информации. #### Метод Мы предлагаем метод head attribution, который построен на принципах подходов к аттрибуции компонентов (component attribution methods). Этот метод работает с тем, чтобы определить значимые attention heads, которые играют ключевую роль в передаче информации из изображения в текст. Мы применяем эту технику для исследования того, какие attention heads активируются при обработке визуальных вопросов, а также для раскрытия связей между изображениями и текстом. Метод построен на анализе собственных вибраций (eigen-analysis) внутри attention heads, что позволяет выявить структуру и характеристики их работы. Это позволяет получить подробный погляд на то, как LVLMs обрабатывают взаимодействие изображений и текста. #### Результаты Мы провели эксперименты с использованием данных, состоящих из визуальных вопросов и ответов, чтобы проверить нашу методику. Наши результаты показали, что в LVLMs существует конкретный набор attention heads, который активен при обработке вопросов о главном объекте в изображении. Мы обнаружили, что эти heads не определяются по визуальным характеристикам изображения, а скорее по его семантическому содержанию. Кроме того, мы выявили, что text information первым делом распространяется на role-related токены и токен за концом фразы, а image information вложена в токены, относящиеся к объектам и фоновым элементам. Эти результаты подтверждают, что image-to-text information flow в LVLMs следует определенной структуре, а исследование attention heads может стать мощным инструментом для понимания механизмов, применяемых этими моделями. #### Значимость Наша работа имеет значимость в разных областях применения, включая computer vision, natural language processing и multimodal understanding. Метод head attribution может использоваться для выявления и понимания моделей, которые взаимодействуют с изображениями и текстом. Он предоставляет новые возможности для читаемости и отладки таких моделей. Кроме того, наше исследование по

Annotation:

Large Vision-Language Models (LVLMs) answer visual questions by transferring information from images to text through a series of attention heads. While this image-to-text information flow is central to visual question answering, its underlying mechanism remains difficult to interpret due to the simultaneous operation of numerous attention heads. To address this challenge, we propose head attribution, a technique inspired by component attribution methods, to identify consistent patterns among att...

ID: 2509.17588v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Towards Size-invariant Salient Object Detection: A Generic Evaluation and Optimization Approach

2025-09-23

Авторы:

Shilong Bao, Qianqian Xu, Feiran Li, Boyu Han, Zhiyong Yang, Xiaochun Cao, Qingming Huang

## Контекст В рамках современных исследований в области классификации и обнаружения объектов в изображениях выделяется проблема размера объектов. Например, в Salient Object Detection (SOD) возникает ситуация, когда в одном изображении присутствуют несколько объектов разных размеров. На основе существующих метрик становится сложно оценить достоверно качество детектора в таких сценариях. Такой подход может привести к ошибкам величины и пропускам менее визуально важных объектов. Данная работа касается именно этой проблемы, авторы предлагают новый взгляд на проблему и предлагают решение с учетом размера объектов. ## Метод Проект предлагает методологию, основанную на разделении задачи SOD на семантические компоненты, каждая из которых характеризуется размером. Для этого авторы предлагают использовать новый фреймворк Size-Invariant Evaluation (SIEva), который эффективно учитывает размеры объектов и уменьшает их влияние на оценку. Для повышения точности обнаружения разработан фреймворк SIOpt, который может быть интегрирован с любыми моделями SOD, независимо от их архитектуры. Авторы также предоставляют анализ общей теоретической модели и разрабатывают новую метрику, которая учитывает размер в зависимости от семантического значения объекта. ## Результаты В ходе экспериментов были оценены различные модели SOD в сценариях с разными размерами объектов. Использовались различные данные, включая COCO, ECSSD и DUTS. Эксперименты показывают, что SIEva и SIOpt улучшают показатели оценки SOD в случаях, когда размеры объектов сильно различаются. Результаты подтверждают, что новый подход действительно снимает несоклькомерную оценку и повышает точность работы моделей SOD в сложных сценариях. ## Значимость Работа имеет большое значение для области SOD, так как решает ключевую проблему текущих метрик. Она может применяться в разных приложениях, где важно обнаруживать объекты разных размеров, например, в робототехнике, медицине и видеоанализе. Новое решение также может способствовать улучшению общей точности и универсальности SOD-моделей. ## Выводы Работа представляет собой важный вклад в улучшение SOD, предлагая новый подход к оценке и оптимизации. Будущие исследования могут сосредоточиться на усовершенствовании фреймворка в зависимости от новых задач и моделей в классификации и обнаружении объектов. Продолжение развития SIOpt в различных сценариях может способствовать расширению применений этой технологии.

Annotation:

This paper investigates a fundamental yet underexplored issue in Salient Object Detection (SOD): the size-invariant property for evaluation protocols, particularly in scenarios when multiple salient objects of significantly different sizes appear within a single image. We first present a novel perspective to expose the inherent size sensitivity of existing widely used SOD metrics. Through careful theoretical derivations, we show that the evaluation outcome of an image under current SOD metrics c...

ID: 2509.15573v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Autoguided Online Data Curation for Diffusion Model Training

2025-09-22

Авторы:

Valeria Pais, Luis Oala, Daniele Faccio, Marco Aversa

----------------------------------------------------------------------------------------------------------------------- ## Контекст ----------------------------------------------------------------------------------------------------------------------- Область исследования связана с повышением эффективности обучения генерирующих моделей с помощью автоматического выбора данных. Исследователи сталкиваются с проблемой высоких затрат на вычисления при обучении различных генерирующих моделей, таких как diffusion models. Эти модели требуют больших объемов качественных данных для эффективного обучения, что ставит перед исследователями задачу оптимизации процесса выбора данных. Многие методы поиска и выбора эффективных примеров включают ручную интервенцию или требуют постоянного мониторинга, что требует значительных ресурсов. В этой работе авторы рассматривают новые подходы, которые могут автоматизировать этот процесс и улучшить эффективность обучения. ## Метод ----------------------------------------------------------------------------------------------------------------------- Работа основывается на интеграции двух подходов: **Joint Example Selection (JEST)** и **autoguidance**. JEST представляет собой метод оптимизации выбора примеров в каждой эпохе обучения. Он использует априорные сведения об эффективности примеров и адаптируется к изменениям в данных. Autoguidance, в свою очередь, метод подбора примеров, основанный на оценке качества каждого примера во время обучения. Авторы создали унифицированную среду для эффективного проведения экспериментов. Она позволяет легко адаптировать и сравнивать различные стратегии выбора примеров. Эксперименты проводятся на синтетических и реальных данных, чтобы оценить качество и эффективность разных подходов в условиях различных задач. ## Результаты ----------------------------------------------------------------------------------------------------------------------- Исследование проводилось на двух задачах: генерации 2D-синтетических данных и (3x64x64)-D изображений. Результаты показали, что автоматическое выбор примеров (autoguidance) постоянно улучшает качество и разнообразие сгенерированных данных. Метод JEST в свою очередь показал высокую эффективность в начале обучения, но требует большего времени и усилий для реализации. В сравнении с автоматическим выбором, JEST дает незначительные преимущества в данных задачах, однако необходимость в дополнительных вычислительных мощностях и сложности приводят к тому, что лучший выбор для большинства задач остается автоматическим выбором примеров. ## Значимость ----------------------------------------------------------------------------------------------------------------------- Результаты этого исследования имеют практическое значение для области генерирующих моделей и данных. Автогуидинг позволяет эффективно использовать ресурсы, сокращая время и стоимость обучения моделей. Это важно для приложений, где ресурсы вычислений ограничены. Методы, рассмотренные в работе, также могут быть применены в областях, где требуется оптимизация выбора данных, таких как медицина, компьютерного зрения и естественного языка. ## Выводы ----------------------------------------------------------------------------------------------------------------------- Исследование показало, что автоматич

Annotation:

The costs of generative model compute rekindled promises and hopes for efficient data curation. In this work, we investigate whether recently developed autoguidance and online data selection methods can improve the time and sample efficiency of training generative diffusion models. We integrate joint example selection (JEST) and autoguidance into a unified code base for fast ablation and benchmarking. We evaluate combinations of data curation on a controlled 2-D synthetic data generation task as...

ID: 2509.15267v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Emulating Human-like Adaptive Vision for Efficient and Flexible Machine Visual Perception

2025-09-22

Авторы:

Yulin Wang, Yang Yue, Yang Yue, Huanqian Wang, Haojun Jiang, Yizeng Han, Zanlin Ni, Yifan Pu, Minglei Shi, Rui Lu, Qisen Yang, Andrew Zhao, Zhuofan Xia, Shiji Song, Gao Huang

## Контекст Мы сталкиваемся с ключевыми ограничениями в традиционных моделях машинного зрения, вынужденных пассивно обрабатывать все входные данные в целом. Это приводит к значительным потреблениям ресурсов, неэффективности и невысокой гибкости. У этих моделей недостаточно способности адаптироваться к конкретным задачам и ограничениям ресурсов. Эта проблема становится важной во многих областях, таких как обработка изображений в реальном времени, видеонаблюдение, визуальный поиск и даже исследования в области зрения человека. Мы мотивируем разработку моделей, которые способны активно выбирать и обрабатывать только самое необходимое, экономя ресурсы и улучшая эффективность. ## Метод Мы предлагаем AdaptiveNN, фреймворк, который преобразует визуальную перцепцию в процесс последовательного решения задач. Вместо обработки всего изображения за один проход, AdaptiveNN использует систему последовательных фиксаций. Он активно выбирает и обрабатывает только те регионы, которые требуются для решения задачи. Информация из разных фиксаций комбинируется в процессе, и модель активно определяет, когда достаточно данных для точного решения. Мы используем теорию, объединяющую репрезентацию объектов с самопоощряющимся реинфорсиментным обучением, чтобы обучать AdaptiveNN без дополнительных наград за фиксации. Это позволяет модели самостоятельно определять лучшие регионы для внимания. ## Результаты Мы проверили AdaptiveNN на 17 бенчмарках, охватывающих 9 различных задач, включая крупномасштабную классификацию изображений, детальную классификацию, визуальный поиск, обработку изображений с проездов и медицинских снимков, а также сравнение с человеческими результатами. Модель снизила потребление ресурсов до 28 раз по сравнению с другими методами, но при этом сохранила точность. Она показала гибкость в решении различных задач, не требуя переучения. Также AdaptiveNN демонстрирует интерпретируемость, позволяя понять, почему она принимает определенные решения, что важно для надежности. ## Значимость AdaptiveNN может применяться в многих областях, таких как реальное время обработка, видеонаблюдение, робототехника, и даже в исследованиях в области зрения человека. Он эффективно экономит ресурсы, адаптируется к разным задачам, интерпретируем и может быть использован в широком круге задач. Это может открыть новые возможности для более эффективного интеллектуального визуального поиска в машинной технике и робототехнике. ## Выводы Мы представили AdaptiveNN, фреймворк, превращающий машинное зрение в активный процесс, похожий на зрение человека. Он эффективен

Annotation:

Human vision is highly adaptive, efficiently sampling intricate environments by sequentially fixating on task-relevant regions. In contrast, prevailing machine vision models passively process entire scenes at once, resulting in excessive resource demands scaling with spatial-temporal input resolution and model size, yielding critical limitations impeding both future advancements and real-world application. Here we introduce AdaptiveNN, a general framework aiming to drive a paradigm shift from 'p...

ID: 2509.15333v1 cs.CV, cs.AI, cs.LG, eess.IV

arXiv PDF

📄 Template-Based Cortical Surface Reconstruction with Minimal Energy Deformation

2025-09-20

Авторы:

Patrick Madlindl, Fabian Bongratz, Christian Wachinger

## Контекст Корональная поверхностная реконструкция (Cortical Surface Reconstruction, CSR) — основной процесс в нейроимагологии, обеспечивающий морфологический анализ риносорбента и жизнедеятельность мозга. Недавние прогрессы в области обучаемой CSR существенно ускорили этот процесс, позволив выполнять реконструкцию в течение нескольких секунд, используя деформацию шаблонных анатомических моделей. Однако недостаток в этой области заключается в необходимости обеспечивать оптимальность деформационных процессов, оптимизированных по энергии, и поддерживать консистентность результатов при различных условиях обучения. Мы разработали новую методику, названную Minimal Energy Deformation (MED), которая улучшает обучаемость, сохраняя при этом топологическую корректность и реконструкционную точность. ## Метод Мы используем шаблонный подход к CSR, включающий глубокие нейронные сети для уравнения движения. Целью является регулирование деформационного процесса, используя новую функцию потерь Minimal Energy Deformation (MED), которая добавляет регуляризацию к деформационным путям. MED-функция оптимизируется вместе с Chamfer Distance, чтобы повысить устойчивость обучения и сохранить топологическую корректность в результате. Мы внедрили эту методику в реконструкционный классификатор V2C-Flow, чтобы продемонстрировать повышение стабильности и точности в реконструкции корональных поверхностей. ## Результаты Мы проводили эксперименты на различных наборах данных нейроимагов, включая Т1- и Т2-сканы. Наши результаты показывают, что внедрение MED-функции приводит к существенному улучшению консистентности и воспроизводимости результатов реконструкции. Мы сравнивали наши результаты с другими моделями и показали, что они превосходят их в топологической корректности и энергетической оптимальности. Мы также проверили топологическую корректность на тестовых данных, подтвердив, что наш подход обеспечивает топологически верные реконструкции во всех случаях. ## Значимость Наш подход может быть применен в различных областях, включая морфологический анализ, диагностику заболеваний и функциональное исследование мозга. Он предлагает существенные преимущества по сравнению с существующими моделями, такими как улучшенная консистентность результатов и уменьшение возможности для случайных выбросов. Мы предлагаем, что наша работа может повлиять на развитие нейроимагологии, позволяя повысить точность и надежность CSR в широком круге задач. ## Выводы Мы разработали новую методику реконструкции корональных поверхностей с минимальной энергией деформации, которая может быть интегрирована с имеющимися моделями, такими как

Annotation:

Cortical surface reconstruction (CSR) from magnetic resonance imaging (MRI) is fundamental to neuroimage analysis, enabling morphological studies of the cerebral cortex and functional brain mapping. Recent advances in learning-based CSR have dramatically accelerated processing, allowing for reconstructions through the deformation of anatomical templates within seconds. However, ensuring the learned deformations are optimal in terms of deformation energy and consistent across training runs remain...

ID: 2509.14827v1 cs.CV, cs.AI, cs.LG, q-bio.NC, stat.ML

arXiv PDF

📄 ProtoMedX: Towards Explainable Multi-Modal Prototype Learning for Bone Health Classification

2025-09-20

Авторы:

Alvaro Lopez Pellicer, Andre Mariucci, Plamen Angelov, Marwan Bukhari, Jemma G. Kerns

## Контекст Целью исследования является развитие эффективной системы для классификации подверженности скелетной системе заболеваниями, таким как остеопороз и остеопения, врачам. Данный вопрос имеет высокий значимость в медицинской практике, так как ранний диагноз и начало лечения могут значительно повлиять на здоровье пациентов. Несмотря на развитие Искусственного Интеллекта (ИИ) в области медицины, существуют значительные проблемы, связанные с недостатком прозрачности и обоснованности решений. Например, существующие модели, основанные на глубоком обучении, часто используют только изображения (например, ДЕХА-сканы или радиологические снимки), не предоставляя достаточного объяснения своих решений, что может ограничивать доверие к таким моделям в клинической практике. Мотивацией для этого исследования является развитие модели, которая не только достигает высокой точности, но и обеспечивает понятные врачам объяснения своих решений. ## Метод Предложенная модель, ProtoMedX, является мультимодальной и основывается на принципах прототипного обучения. Она объединяет данные из денситометрических сканов (DEXA) ломбарного отдела позвоночника с пациентскими медицинскими анотациями. Архитектура ProtoMedX включает в себя нейронные сети, которые выделяют прототипы — представительные выборки данных, отражающие ключевые особенности входных примеров. Эти прототипы используются для классификации и обеспечения прозрачности модели. Метод позволяет идентифицировать и объяснить причины конкретных классификационных решений, в том числе при ошибках. Использованные данные включают данные 4160 пациентов, предоставленных Национальной Здравоохранной Службой (NHS) Великобритании, что дает статистическую значимость результатов. ## Результаты На основе опыта обучения и тестирования, ProtoMedX достигла значительного улучшения в классификации поверхности позвоночника по сравнению с другими моделями. В том числе, для задачи визуальной классификации (использование только ДЕХА-сканов), модель достигла точности 87,58%, а в мультимодальном режиме (использование DEXA-сканов и пациентских данных) — 89,8%. Эти результаты превышают значения, достигнутые ранее в этих задачах. Более того, ProtoMedX обеспечивает не только высокую точность, но и понятные врачам объяснения своих решений, которые могут быть использованы для дополнительного анализа и корректировки диагноза. ## Значимость Полученные результаты имеют высокую значимость в области медицинского ИИ. Модель ProtoMedX может быть применена в клинической практике для помощи врачам в диагностике заболеваний скел

Annotation:

Bone health studies are crucial in medical practice for the early detection and treatment of Osteopenia and Osteoporosis. Clinicians usually make a diagnosis based on densitometry (DEXA scans) and patient history. The applications of AI in this field are ongoing research. Most successful methods rely on deep learning models that use vision alone (DEXA/X-ray imagery) and focus on prediction accuracy, while explainability is often disregarded and left to post hoc assessments of input contributions...

ID: 2509.14830v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Semi-Supervised 3D Medical Segmentation from 2D Natural Images Pretrained Model

2025-09-20

Авторы:

Pak-Hei Yeung, Jayroop Ramesh, Pengfei Lyu, Ana Namburete, Jagath Rajapakse

#### Контекст В области медицинского исследования, важность точного анализа медицинских изображений несомненна. Несмотря на прогресс в 3D-сегментации медицинских изображений, ограниченность методов получения масштабных медицинских данных для обучения ограничивает эффективность существующих моделей. Эта проблема усиливается в условиях нехватки меток для тренировочных данных. Поэтому, открытым вопросом является передача знаний из общих моделей визуального восприятия, обученных на 2D-изображениях, для улучшения 3D-сегментации медицинских изображений. #### Метод Мы предлагаем модель-агностический фреймворк, названный M&N, который использует квази-метки, генерируемые двумя моделями, которые обучают друг друга в итеративном режиме. В начале, 2D-модель (pretrained on 2D natural images) и 3D-сегментационная модель (обученная с нуля) обучаются в параллельном режиме. В дальнейшем, квази-метки 2D-модели используются для обучения 3D-модели, а квази-метки 3D-модели — для улучшения 2D-модели. Для того, чтобы повысить точность квази-меток, мы внедрили метод управления скоростью обучения, который адаптивно изменяет веса между меток для обучения в зависимости от достоверности моделей. #### Результаты Мы провели эксперименты на нескольких медицинских данных, включая популярные наборы данных, такие как 3D MRI и CT-сканы. Модель M&N показала существенное улучшение в сравнении с 13 существующими методами, оформленными в работах, применяемых в случае недостатка меток. Она подтвердила свой статус лучшей подходящей методики в разных условиях обучения (с разным количеством меток). Более того, наши аблационные эксперименты показали, что M&N не зависит от конкретной архитектуры 3D-модели, что делает ее универсальной для использования с различными архитектурами. #### Значимость Предлагаемый подход имеет широкие применение в медицине, особенно в случаях нехватки меток для тренировочных данных. Он может повысить точность сегментации 3D-моделей и сделать их доступнее для разработчиков, не обладающих большим объемом медицинских данных. Также, адаптивность M&N к различным архитектурам 3D-моделей позволит применять его в будущих разработках. Этот подход может привести к повышению качества диагностики и уменьшению времени, необходимого для получения результатов медицинского анализа. #### Выводы Мы доказали, что фреймворк M&N позволяет эффективно передавать знания из моделей визуального восприятия, обученных на 2D-изображениях, для улучшения 3D-сегментации медицинских изображений. Наши результаты показали, что M&N подходит для разли

Annotation:

This paper explores the transfer of knowledge from general vision models pretrained on 2D natural images to improve 3D medical image segmentation. We focus on the semi-supervised setting, where only a few labeled 3D medical images are available, along with a large set of unlabeled images. To tackle this, we propose a model-agnostic framework that progressively distills knowledge from a 2D pretrained model to a 3D segmentation model trained from scratch. Our approach, M&N, involves iterative co-t...

ID: 2509.15167v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Hybrid Quantum-Classical Model for Image Classification

2025-09-19

Авторы:

Muhammad Adnan Shahzad

#### Контекст Классические нейронные сети, такие как конвельционные (CNN), широко используются для задач классификации изображений. Однако они могут сталкиваться с ограничениями в скорости обучения, эффективности использования ресурсов и устойчивости к атакам. За последние годы, квантовые вычисления набирают популярность в области развития моделей, которые могут превосходить классические в плане производительности и устойчивости. Одна из целей этого исследования — оценить потенциал использования гибридных квантово-классических моделей для классификации изображений и сравнить их с классическими моделями на трех различных выборках данных. #### Метод Гибридные модели, рассматриваемые в данном исследовании, объединяют параметризованные квантовые вычисления с классическими сетями. На вход подается изображение, которое обрабатывается в классической CNN нейросети, а затем, для улучшения устойчивости и точности, обрабатывается в параметризованном квантовом слое. Алгоритмы обучения были запущены на 50 эпох для каждой из выборок (MNIST, CIFAR100 и STL10). Эксперименты включали оценку валидационной и тестовой точности, времени обучения, использования ресурсов и робастности к атакам. #### Результаты На выборке MNIST, гибридная модель достигла точности в 99.38% при валидации и 98.45% на тесте. На CIFAR100, гибридная модель превышала классические результаты на 9.44%, достигнув 41.69%, а на STL10 — 74.05%, что является выигрышем на 10.29% по сравнению с классическими моделями. Затраты на обучение гибридных моделей составили 5–12 раз меньше, чем для классических, а модели также потребляли 6–32% меньше памяти. Анализ устойчивости к атакам показал, что на MNIST, гибридные модели показали 45.27% устойчивости, в то время как классические модели показали 10.80%. На CIFAR100, обе модели показали очень низкую устойчивость. #### Значимость Гибридные квантово-классические модели демонстрируют выигрыш в точности и эффективности, особенно на более сложных задачах классификации. Они находятся в центре внимания в развитии методов классификации, где необходима высокая точность, низкая затрата ресурсов и устойчивость к атакам. Эти модели могут быть применены в сферах, где ресурсы дорогостоящи, и требуется быстрая обработка данных. #### Выводы Гибридные модели показали преимущества в производительности, эффективности использования ресурсов и устойчивости к атакам на менее сложных задачах. Однако на более сложных выборках, таких как CIFAR100, эти преимущества становятся менее заметны. Будущие исс

Annotation:

This study presents a systematic comparison between hybrid quantum-classical neural networks and purely classical models across three benchmark datasets (MNIST, CIFAR100, and STL10) to evaluate their performance, efficiency, and robustness. The hybrid models integrate parameterized quantum circuits with classical deep learning architectures, while the classical counterparts use conventional convolutional neural networks (CNNs). Experiments were conducted over 50 training epochs for each dataset,...

ID: 2509.13353v1 cs.CV, cs.AI, cs.LG

arXiv PDF

1
2
24
25
26
27
28
35
36

Показано 251 - 260 из 358 записей