📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Vision Transformers for Kidney Stone Image Classification: A Comparative Study with CNNs

2025-08-21

Авторы:

Ivan Reyes-Amezcua, Francisco Lopez-Tiro, Clement Larose, Andres Mendez-Vazquez, Gilberto Ochoa-Ruiz, Christian Daul

-------------------------------------------- ## Контекст -------------------------------------------- Определение и классификация камней печени (киданов) является важной задачей в урологии, так как позволяет выбирать персонализированные методы лечения и предотвращать повторные операции. Несмотря на то, что конволюционные нейронные сети (CNN) демонстрируют заслуженный успех в этой области, они часто сталкиваются с трудностями при работе с изображениями, особенно в условиях разного рода императивов. Данный исследовательский проект анализирует возможности Vision Transformers (ViTs) в сравнении с CNN-моделями для решения этой задачи, основываясь на двух экспериментальных наборах данных, содержащих изображения, полученные фотокамерой Canon и ультразвуковым лезвием. -------------------------------------------- ## Метод -------------------------------------------- В ходе исследования использовались два архитектурных подхода: Vision Transformer (ViT) и ResNet50 на примере CNN. Модель ViT была использована с предобученными весами на ImageNet-21k. Для обучения и тестирования использовались два набора данных: изображения из секционных отрезков исследований и смешанные изображения с различных видов видеокамер. Для обеспечения надежности исследования, данные отобраны с учетом разных разрешений, скрытых условий и источников изображений. -------------------------------------------- ## Результаты -------------------------------------------- Эксперименты показали, что Vision Transformer-based модель (ViT-base) показала значительные выигрыши по сравнению с CNN-моделью (ResNet50) в задаче классификации камней печени. В частности, ViT-модель достигла 95.2% точности и 95.1% F1-меры в работе над секционными отрезками, в то время как ResNet50 показал значения 64.5% и 59.3%, соответственно. Также были проведены тесты на смешанных изображениях, где ViT-модель показала 87.1% точности, а ResNet50 - 78.4%. Эти результаты свидетельствуют о более высокой точности и рекомендательной темпологии ViT по сравнению с CNN. -------------------------------------------- ## Значимость -------------------------------------------- Высокая точность и информативность Vision Transformer моделей открывают новые горизонты в области медицинского анализа изображений. Эти модели могут быть применены для разных видов медицинских изображений, а также в других областях, где требуется высокая точность классификации. Их простота в использовании, высокая скорость обучения и надежность делают их привлекательными для практического применения в медицинской практике. -------------------------------------------- ## Выводы -------------------------------------------- В результате исследования было показано, что Vision Transformers (ViTs) превосходят CNN-модели по точности и качеству классификации изображений камней печени. Результаты исследования открывают пути для будущих исследований в области применения Vision Transformers в других задачах медицинского анализа изображений. На будущее, модификации и усовершенствования ViT моделей могут позволить улучшить их применение в различных медицинских зада

Annotation:

Kidney stone classification from endoscopic images is critical for personalized treatment and recurrence prevention. While convolutional neural networks (CNNs) have shown promise in this task, their limited ability to capture long-range dependencies can hinder performance under variable imaging conditions. This study presents a comparative analysis between Vision Transformers (ViTs) and CNN-based models, evaluating their performance on two ex vivo datasets comprising CCD camera and flexible uret...

ID: 2508.13461v1 cs.CV, cs.LG

arXiv PDF

📄 Multi-view Clustering via Bi-level Decoupling and Consistency Learning

2025-08-21

Авторы:

Shihao Dong, Yuhui Zheng, Huiying Xu, Xinzhong Zhu

#### Контекст Многопредставительское кластеризация (multi-view clustering) является мощным инструментом для изучения внутренних структур и закономерностей в много birds-eye view data. Она позволяет анализировать различные представления данных, объединяя их в единое целое. Однако, существуют проблемы, связанные с несовместимостью между различными представлениями, что может повлиять на качество кластеризации. Это мотивирует развитие методов, которые не только учитывают взаимодействие между представлениями, но и улучшают их отделимость и сгущение внутри кластеров. Наша мотивация заключается в разработке метода, который бы оптимизировал как интер-кластерную отличимость, так и интра-кластерную компактность. #### Метод Мы предлагаем Bi-level Decoupling and Consistency Learning (BDCL) — фреймворк, который решает проблемы кластеризации с помощью двухуровневого разделения и улучшения согласованности. Фреймворк состоит из трех основных модулей: 1. **Multi-view Instance Learning Module** — это автоэнкодер с реконструкцией и контрастным обучением, который сохраняет частные черты каждого представления и объединяет совместные черты через реконструкцию. 2. **Bi-level Decoupling Module** — стремится добиться более выраженной отделимости в пространстве признаков и кластеров, сделав их более выраженными и отделимыми. 3. **Consistency Learning Module** — обучает согласованность кластерных присвоений между различными представлениями и их соседними образцами, сжимая пространство внутри кластера. #### Результаты Мы проверили эффективность нашего подхода на пяти бенчмарк-датасетах. Результаты показали, что BDCL превосходит существующие методы по метрикам качества кластеризации, таким как ACC, NMI и ARI. Это доказывает, что наша модель эффективно улучшает отделимость кластеров и компактность внутри них, обеспечивая более точные и надежные кластеризации. #### Значимость Наш подход может быть применен в различных областях, где требуется высококачественное кластеризация много birds-eye view data, таких как здравоохранение, робототехника, и анализ данных в социальных сетях. Основные преимущества: улучшенная точность кластеризации, гибкость при обработке различных типов данных, и эффективность в реальном времени. Будущие исследования будут сконцентрированы на улучшении модели для нелинейных пространств и исследовании ее взаимодействия с другими алгоритмами кластеризации. #### Выводы Мы предложили новую модель BDCL, которая эффективно решает проблемы кластеризации много birds-eye view data. Эксперименты показали, что наш подход превосходит существующие методы в терминах различных метрик. Мы будем продолжать работу над улучшением модели для более высокой точности и гибкости в различных приложения

Annotation:

Multi-view clustering has shown to be an effective method for analyzing underlying patterns in multi-view data. The performance of clustering can be improved by learning the consistency and complementarity between multi-view features, however, cluster-oriented representation learning is often overlooked. In this paper, we propose a novel Bi-level Decoupling and Consistency Learning framework (BDCL) to further explore the effective representation for multi-view data to enhance inter-cluster discr...

ID: 2508.13499v1 cs.CV, cs.LG

arXiv PDF

📄 Unsupervised Urban Tree Biodiversity Mapping from Street-Level Imagery Using Spatially-Aware Visual Clustering

2025-08-21

Авторы:

Diaa Addeen Abuhani, Marco Seccaroni, Martina Mazzarello, Imran Zualkernan, Fabio Duarte, Carlo Ratti

#### Контекст Urban tree biodiversity является ключевым фактором для столичных экосистем, определяя их климатическую устойчивость, экологическую стабильность и жизнеспособность. Однако многие города сегодня не обладают полными данными о своих ареалах. Традиционные полевые оценки, такие как Shannon и Simpson diversity indices, требуют дорогих и времязатратных инвентаризаций. Методы машинного обучения, в свою очередь, часто не могут генерировать общие решения без меток. Данная работа предлагает альтернативу, которая может расширить пределы знаний о биоразнообразии в условиях города без подтверждающих меток и с целью повышения доступности и управления зелеными зонами. #### Метод Фреймворк основывается на использовании неподтвержденных стрит-ливлю имаджей и спациально ориентированных кластеризационных алгоритмов. Имбеддинги визуальных данных объединяются с паттернами распределения деревьев в пространстве, чтобы вычислить типы без требования к меткам. Этот подход позволяет оценивать биоразнообразие через меры Shannon и Simpson, а также сохранять пространственные корреляции. Разработанная архитектура включает в себя задачу преобразования изображений в визуальные признаки с использованием нейронных сетей и последующее кластеризующее отображение с помощью нейросетевых архитектур. #### Результаты Проведенные эксперименты в 8 северноамериканских городах показали высокую точность в оценке биоразнообразия по генеральным индексам Shannon и Simpson. Фреймворк достиг низких значений Wasserstein distance, что указывает на высокую точность результатов. Также была продемонстрирована хорошая сохранность пространственных корреляций, создавая модели, которые соответствуют реальным распределениям деревьев. Вычислительные эксперименты показали высокую эффективность и масштабируемость подхода для генерирования более точных исследований биоразнообразия. #### Значимость Предложенная модель предлагает новый подход к оценке биоразнообразия в условиях города без требуемых меток. Это сделает возможным мониторинг биоразнообразия в реальном времени и поддержку управления зелеными зонами. Этот подход может быть применен для прогнозирования изменений в политических и климатических условиях, помогая городам создавать более устойчивые и экологически сбалансированные окружения. #### Выводы Разработанный подход доказал свою эффективность в области неуправляемого кластеризатора для оценки биоразнообразия. На будущее, рекомендуется расширить применение этой модели для других регионов и исследовать дополнительные возможности в глубоком обучении. Это может помочь

Annotation:

Urban tree biodiversity is critical for climate resilience, ecological stability, and livability in cities, yet most municipalities lack detailed knowledge of their canopies. Field-based inventories provide reliable estimates of Shannon and Simpson diversity but are costly and time-consuming, while supervised AI methods require labeled data that often fail to generalize across regions. We introduce an unsupervised clustering framework that integrates visual embeddings from street-level imagery w...

ID: 2508.13814v2 cs.CV, cs.LG

arXiv PDF

📄 Synthesizing Accurate and Realistic T1-weighted Contrast-Enhanced MR Images using Posterior-Mean Rectified Flow

2025-08-20

Авторы:

Bastian Brandstötter, Erich Kobler

#### Контекст Область нейроонкологии становится все более зависимость от контрастированных T1-весовых (CE) магнетических резонансных исследований (MR) в целях точной диагностики и мониторинга опухолей головного мозга. Однако использование гадолиниевых контрастных материалов сопряжено с рядом проблем: дополнительные затраты, превышенный время сканирования, возможное нарушение окружающей среды, а также риски для пациентов. Этот факт поднимает вопрос о развитии методов для получения CE-T1w-сигналов без использования контрастных веществ. Необходимость в этих исследованиях стимулирует развитие методов синтеза рациональных и реалистичных магнитных резонансных изображений. #### Метод Метод, предложенный в работе, основывается на двух этапах, используя Posterior-Mean Rectified Flow (PMRF). На первом этапе применяется трехмерная У-сеть, которая предсказывает вольметрические значения с помощью постероирной средней (минимизирующей MSE) для предположения CE-сигналов. На втором этапе используется трехмерный ректифицированный поток, который учитывает условия времени и добавляет реалистичные текстуры без ущерба для структурных показателей. Модель была обучена на широком наборе данных, включающих несколько институциональных коллекций с парными пре- и пост-контрастными T1-сигналами (BraTS 2023-2025). #### Результаты На тестовом наборе данных, состоящем из 360 разнообразных томов, полученные результаты показали значительные улучшения в сравнении с первичным предположением. Измерения FID на оси "аксиал" составили $12.46$, а KID достигло значения $0.007$, что означает сокращение FID на $68.7\%$ по сравнению с первичной моделью. Однако значения MSE возрастали до $0.057$, что составило приблизительно $27\%$ выше первичной модели. Квалитативные оценки показали, что метод восстанавливает края лесений и детали венозной системы более реалистично, чем предыдущие методы. #### Значимость Этот подход может быть применен в нейроонкологии для получения CE-T1w-изображений, снижая требования к контрастным веществам и улучшая безопасность и экономичность сканирования. Он также может быть применен в других областях врачебных исследований, где необходимо синтезировать контрастные изображения на основе неконтрастных. Одним из основных преимуществ является сочетание высокой точности и реалистичности сигнала. #### Выводы Работа демонстрирует эффективность двухэтапной модели PMRF для синтеза CE-T1w-изображений. Она позволяет получить реалистичные сигналы с высокой точностью и рентабельностью. На будущее, предлагается расширить модель для

Annotation:

Contrast-enhanced (CE) T1-weighted MRI is central to neuro-oncologic diagnosis but requires gadolinium-based agents, which add cost and scan time, raise environmental concerns, and may pose risks to patients. In this work, we propose a two-stage Posterior-Mean Rectified Flow (PMRF) pipeline for synthesizing volumetric CE brain MRI from non-contrast inputs. First, a patch-based 3D U-Net predicts the voxel-wise posterior mean (minimizing MSE). Then, this initial estimate is refined by a time-condi...

ID: 2508.12640v1 cs.CV, cs.LG

arXiv PDF

📄 MixCache: Mixture-of-Cache for Video Diffusion Transformer Acceleration

2025-08-20

Авторы:

Yuanxin Wei, Lansong Diao, Bujiao Chen, Shenggan Cheng, Zhengping Qian, Wenyuan Yu, Nong Xiao, Wei Lin, Jiangsu Du

#### Контекст Видеогенерация — одна из самых сложных и ресурсоемких задач в области искусственного интеллекта. Новая трендовая технология, основанная на Transformer-архитектуре и процессе диффузии (DiT), доминирует в области высококачественной видеогенерации. Однако многошаговый процесс денойсинга в DiT-моделях требует высокой вычислительной нагрузки и влияет на высокую задержку при инференсе. Одним из популярных методов оптимизации является кэширование, которое использует нередкость в процессе диффузии для пропуска вычислений на разных уровнях (строк, блоках, шагах). Тем не менее, существующие методы ограничиваются одноуровневыми стратегиями кэширования, что не позволяет достичь баланса между качеством генерации и производительностью инференса. #### Метод В этой работе предлагается MixCache — новая, тренировка-не требующаяся стратегия кэширования для ускорения видео-DiT. Основной идеей является установление интерфейса между различными стратегиями кэширования и их интерфейсом. MixCache вводит контекстно-ориентированную стратегию активации кэша, чтобы определить, когда кэширование должно быть включено, и адаптивную стратегию гибридного кэширования для выбора наиболее оптимального уровня кэширования в зависимости от текущего контекста. Эта архитектура не требует дополнительных вычислений во время обучения, что делает ее эффективной и простую в использовании. #### Результаты Мы провести ряд экспериментов на различных моделях видеогенерации, включая Wan 14B и HunyuanVideo. Результаты показывают, что MixCache ускоряет обработку видео до 1.94$\times$ при работе с Wan 14B и 1.97$\times$ при работе с HunyuanVideo. В то же время, MixCache демонстрирует не только высокую производительность, но также значительное улучшение качества генерации видео по сравнению с базовыми методами. Это демонстрирует высокую эффективность и универсальность MixCache в разных контекстах. #### Значимость MixCache может быть применено в различных задачах видеогенерации, включая генерацию высококачественных видеороликов, редактирование видео и синтез видео. Он предоставляет значительные преимущества в скорости и эффективности, что делает его привлекательным для сценариев с реального времени, таких как стриминг, видеоредактирование и трансляции. Также MixCache открывает новые пути для будущих исследований в области оптимизации глубоких моделей с использованием кэширования в многоуровневой стратегии. #### Выводы Мы предлагаем MixCache — новую, тренировка-не требующуюся стратегию кэширования для ускорения видео-DiT. Она успешно решает проблему бала

Annotation:

Leveraging the Transformer architecture and the diffusion process, video DiT models have emerged as a dominant approach for high-quality video generation. However, their multi-step iterative denoising process incurs high computational cost and inference latency. Caching, a widely adopted optimization method in DiT models, leverages the redundancy in the diffusion process to skip computations in different granularities (e.g., step, cfg, block). Nevertheless, existing caching methods are limited t...

ID: 2508.12691v1 cs.GR, cs.CV, cs.LG

arXiv PDF

📄 On the Importance of Behavioral Nuances: Amplifying Non-Obvious Motor Noise Under True Empirical Considerations May Lead to Briefer Assays and Faster Classification Processes

2025-08-20

Авторы:

Theodoros Bermperidis, Joe Vero, Elizabeth B Torres

## Контекст Поведенческие особенности человека являются ключевыми факторами, определяющими интерпретацию его эмоционального состояния и поведения. Однако существуют проблемы с традиционными подходами, которые часто требуют длительных наблюдений или больших данных для достижения статистической мощности. Эти ограничения могут привести к упущению важных нюансов в поведении. Мы исследуем возможность использования кратких данных, зарегистрированных с помощью новых методов оценки лица, для повышения точности и эффективности анализа эмоций и диагностики. ## Метод Для решения этой проблемы была разработана подходящая методология. Мы использовали новую структуру данных, полученную из микро-пиков во временных рядах, зарегистрированных с помощью видео с лицами (5 секунд). Эти микро-пики включают подробные детали, такие как микро-выражения и динамика поведения. Анализ проводился с помощью геометрических и нелинейных динамических методов, относящихся к векторизации лица. Таким образом, мы могли зафиксировать все микро-пики, включая нюансы микро-выражений, которые часто упускаются в стандартных подходах. Это позволило нам разработать метод, который эффективно сочетает индивидуальные статистические мощности с краткими данными. ## Результаты Мы провели эксперименты с видео-данными лиц, зарегистрированными в различных контекстах. Новый подход позволяет зарегистрировать нюансы, которые обычно отсутствуют в традиционных методах. Мы сравнили наши результаты с традиционными методами и обнаружили, что новый метод позволяет обнаруживать значительные нюансы в поведении, которые могут быть игнорированы стандартными подходами. Это делает нашу стратегию более точной и эффективной для классификации эмоций и диагностики. ## Значимость Разработанный подход имеет значительное значение в области искусственного интеллекта, эмоционального анализа и диагностики. Он может быть применен в сферах, где требуется быстрая и точная классификация поведения, таких как медицина, психология и социальные исследовании. Этот подход позволяет снизить время, необходимое для получения статистически мощных данных, и увеличивает точность диагностики. Это может иметь потенциал для улучшения здоровья и качества жизни, особенно для лиц с аутизмом и другими расстройствами, эффективной диагностики которых требует быстрого реагирования. ## Выводы Мы показали, что применение новых методов для анализа микро-пиков во временных рядах лиц может привести к более эффективной классификации и улучшению анализа эмоционального состояния. На

Annotation:

There is a tradeoff between attaining statistical power with large, difficult to gather data sets, and producing highly scalable assays that register brief data samples. Often, as grand-averaging techniques a priori assume normally-distributed parameters and linear, stationary processes in biorhythmic, time series data, important information is lost, averaged out as gross data. We developed an affective computing platform that enables taking brief data samples while maintaining personalized stat...

ID: 2508.12742v1 q-bio.QM, cs.CV, cs.LG, eess.SP, nlin.CD

arXiv PDF

📄 SIS-Challenge: Event-based Spatio-temporal Instance Segmentation Challenge at the CVPR 2025 Event-based Vision Workshop

2025-08-20

Авторы:

Friedhelm Hamann, Emil Mededovic, Fabian Gülhan, Yuli Wu, Johannes Stegmaier, Jing He, Yiqing Wang, Kexin Zhang, Lingling Li, Licheng Jiao, Mengru Ma, Hongxiang Huang, Yuhao Yan, Hongwei Ren, Xiaopeng Lin, Yulong Huang, Bojun Cheng, Se Hyun Lee, Gyu Sung Ham, Kanghan Oh, Gi Hyun Lim, Boxuan Yang, Bowen Du, Guillermo Gallego

#### Контекст Современные системы визуального восприятия сталкиваются с требованиями к высокой точности, быстродействию и эффективности в обработке многоканального видео. Особенно актуальной оказывается задача сегментации инстанций в пространственно-временной области (Spatio-temporal Instance Segmentation, SIS), особенно при использовании современных эвент-камер. Эти камеры предоставляют данные в форме потоков событий, которые характеризуются повышенной чувствительностью к движению и малым потреблением энергии. Однако обработка таких данных представляет сложности, включая неустойчивость сигнала, высокую частоту событий и синхронизацию между различными каналами. Задача SIS для таких данных является ключевым вопросом в рамках работ CVPR 2025 Event-based Vision Workshop, нацеленных на развитие методов, эффективных для реального времени и устойчивых к разным условиям. #### Метод Методология SIS-Challenge основывается на создании открытого датасета, содержащего синхронизированные данные от эвент-камеры и граyzскай-камеры. Этакий подход позволяет обеспечить точную сегментацию объектов, необходимую для решения проблем взаимодействия с миром реального времени. Использовались подходы, основанные на нейронных сетях, включая U-Net или Mask R-CNN, адаптированные для обработки данных из эвент-камер. Основной архитектурой стали модели сверточных нейронных сетей с дополнительными модулями, учитывающими пространственно-временные особенности данных. Такая архитектура позволяет объединить сигналы из разных каналов и повысить точность исходящих прогнозов. #### Результаты В рамках SIS-Challenge приняли участие 12 команд, подавших результаты. Топ-5 команд, достигших лучших результатов, использовали алгоритмы, основанные на нейронных сетях. Обнаружено, что улучшение точности сегментации происходит благодаря использованию синхронизированных входных данных, а также специальным методам, учитывающим характеристики эвент-камер. Наиболее эффективными оказались модели, использующие адаптивные методы свертки, глубокие связи между слоями и единовременную обработку данных эвент-камеры и граyzскай-камеры. Эти результаты показывают, что современные сети могут эффективно обрабатывать данные из многоканальных источников, при этом обеспечивая высокую скорость и точность. #### Значимость Результаты SIS-Challenge имеют значительное значение в области компьютерного зрения, особенно для применения в реальном времени, таких как обозревание, робототехника и автоматическое управление. Высокая точность, достигнутая в ходе этого соревнования, открывает новые возможности для создания систем, эффектив

Annotation:

We present an overview of the Spatio-temporal Instance Segmentation (SIS) challenge held in conjunction with the CVPR 2025 Event-based Vision Workshop. The task is to predict accurate pixel-level segmentation masks of defined object classes from spatio-temporally aligned event camera and grayscale camera data. We provide an overview of the task, dataset, challenge details and results. Furthermore, we describe the methods used by the top-5 ranking teams in the challenge. More resources and code o...

ID: 2508.12813v1 cs.CV, cs.LG

arXiv PDF

📄 Fully Automated Segmentation of Fiber Bundles in Anatomic Tracing Data

2025-08-20

Авторы:

Kyriaki-Margarita Bintsi, Yaël Balbastre, Jingjing Wu, Julia F. Lehman, Suzanne N. Haber, Anastasia Yendiki

## Контекст Сегментация нити в анатомических исследованиях с использованием трасктрографии диффузионного МРТ является ключевым элементом для валидации и улучшения технологии. Однако, многочисленные анатомические исследования, основанные на использовании анатомических трассеров, сталкиваются с ограничениями, связанными с методом маркирования нити вручную на изображениях гистологических срезов. Этот процесс не только трудоемкий, но и подвержен ошибкам, что приводит к неточным результатам в дальнейшей аналитике. Особенно сложной оказывается работа с разреженными нитями, которые трудно обнаружить с помощью существующих методов. Наша мотивация заключается в разработке эффективного, автоматизированного подхода, который устраняет эти проблемы и позволяет осуществлять анализ на большом масштабе. ## Метод Наш подход основывается на архитектуре U-Net с большими размерами патчей, что позволяет обрабатывать изображения в целом, не разбиваясь на мелкие части. Мы также применяем форвард-аугментацию (foreground-aware sampling), чтобы лучше обнаруживать редкие нити. Для улучшения точности используется семиучитающая предобученная модель, которая учитывает общие признаки в данных. Наша архитектура способна работать непосредственно с отдельными срезами, избегая необходимости составлять последовательности из нескольких срезов, что обеспечивает большую гибкость и общедоступность. ## Результаты Мы проверили наш метод на данных из анатомических исследований с трассером на моркове. Наши результаты показали, что система способна значительно повысить точность обнаружения нити, в том числе и редких, что доказано снижением False Discovery Rate (FDR) на 40%. Мы также добились улучшения обнаружения нитей на 20% по сравнению с текущими лидерами в области. Благодаря удалению ошибок, таких как неверное определение терминалов как нити, наш подход обеспечивает более точные и надёжные результаты. ## Значимость Наш подход может быть применен в различных анатомических исследованиях, где необходима точная сегментация нитей. Он позволяет создавать большие объемы тру-положительных данных, которые могут быть использованы для оптимизации и валидации трактографии диффузионного МРТ. Это значительно упрощает процесс анализа и повышает точность, некоторые ошибки, которые ранее требовали ручного вмешательства, теперь автоматически исправляются. Это может привести к более точной и надежной диагностике и лечению различных заболеваний. ## Выводы Мы представили новый, весьма эффективный подход к сегментации нити в анатомических трассах. Наш метод не только у

Annotation:

Anatomic tracer studies are critical for validating and improving diffusion MRI (dMRI) tractography. However, large-scale analysis of data from such studies is hampered by the labor-intensive process of annotating fiber bundles manually on histological slides. Existing automated methods often miss sparse bundles or require complex post-processing across consecutive sections, limiting their flexibility and generalizability. We present a streamlined, fully automated framework for fiber bundle segm...

ID: 2508.12942v2 cs.CV, cs.LG

arXiv PDF

📄 Empirical Evidences for the Effects of Feature Diversity in Open Set Recognition and Continual Learning

2025-08-20

Авторы:

Jiawen Xu, Odej Kao

## Контекст Открытый распознавание классов (Open Set Recognition, OSR) и стремительное обучение (Continual Learning, CL) представляют собой важные проблемы в машинном обучении, каждая из которых имеет свои характерные характеристики и задачи. OSR затрагивает обнаружение новых классов во время инференции, тогда как CL нацелено на обновление моделей для включения новых классов. Оба эти подхода имеют много общего, включая необходимость обработки неожиданных данных и улучшения общей гибкости. Несмотря на то, что многие подходы к OSR и CL полагаются на усиление разнообразия признаков, изучение прямого влияния разнообразия признаков на эти проблемы остается недостаточно детальным. Мы предлагаем эмпирическую исследовательскую работу, которая основывается на освещении этих тем. ## Метод Для изучения влияния разнообразия признаков на OSR и CL мы использовали множество экспериментов с различными моделями и архитектурами. В частности, мы проводили эксперименты с применением метода баллансировки признаков (Feature Balancing) и методом добавления шума (Noise Injection), чтобы улучшить разнообразие признаков. Также мы оценивали их влияние на качество распознавания классов, на устойчивость моделей к отвлеченным классам, и на их возможность кластеризации данных. Мы рассматривали различные модели глубокого обучения, включая ResNet и WideResNet, чтобы проверить наши находки на разных структурах моделей. ## Результаты Наши эксперименты показали, что увеличение разнообразия признаков существенно повышает точность распознавания открытых классов в OSR. Кроме того, этот подход также улучшает модели CL, обеспечивая лучшую запоминание предыдущих классов и более эффективную интеграцию новых классов. Мы обнаружили, что Feature Balancing и Noise Injection могут значительно улучшить оценки F1-score и AUROC в задачах OSR. Был также проанализирован их влияние на продолжительность сеанса обучения и на метрики гибкости моделей в CL. ## Значимость Результаты указывают на важность разнообразия признаков в OSR и CL. Наши находки могут иметь практическое применение в сценариях, где необходимо обнаруживать новые классы в реальном времени, такие как обнаружение обмана в защите от атак (Anomaly Detection) или в системах распознавания образов, где новые классы постоянно появляются. Благодаря улучшенному разнообразию признаков, модели не только становятся более точными, но и становятся более устойчивыми к изменениям в данных. Это может быть ключевым преимуществом в ситуациях, где требуется гарантия постоянной точности модели в процессе обучения и использования. ## Выводы Мы подтвердили, что улучшение разнообразия признаков может значительно улучшить

Annotation:

Open set recognition (OSR) and continual learning are two critical challenges in machine learning, focusing respectively on detecting novel classes at inference time and updating models to incorporate the new classes. While many recent approaches have addressed these problems, particularly OSR, by heuristically promoting feature diversity, few studies have directly examined the role that feature diversity plays in tackling them. In this work, we provide empirical evidence that enhancing feature ...

ID: 2508.13005v1 cs.CV, cs.LG

arXiv PDF

📄 Eyes on the Image: Gaze Supervised Multimodal Learning for Chest X-ray Diagnosis and Report Generation

2025-08-20

Авторы:

Tanjim Islam Riju, Shuchismita Anwar, Saman Sarker Joy, Farig Sadeque, Swakkhar Shatabda

## Контекст Классификация заболеваний и генерация объемных отчетов в радиологии чрезвычайно важны для обеспечения качественной медицинской помощи. Однако существуют значительные проблемы, такие как несогласованность радиологических отчетов, точность диагноза и сложность в интеграции нескольких модальностей данных в легко расширяемые и точные модели. Одним из ключевых аспектов является то, что зрение врачей и радиологов содержит ценное знание, которое часто остается неиспользованным в медицинских исследованиях. За счет подключения моделей машинного обучения к этим разделяемым сигналам можно значительно повысить точность диагноза и качество отчетов. Масштабируемость и точность моделей, включающих в себя такие сигналы, остаются значительным трудностями. ## Метод Мы предлагаем двухэтапный подход на основе мультимодального обучения для решения этих проблем. В первом этапе предлагается новая гибридная архитектура для классификации заболеваний, использующая сигналы, связанные с газом, чтобы улучшить точность классификации. Эта архитектура включает в себя несколько новых компонентов, таких как газовая ате́нтион и мульти-терм газовая ате́нтион лосс. Она интегрирует визуальные признаки, клинические метки, баундинг-боксы и сигналы газа, чтобы оптимизировать диагностику. Во втором этапе мы предлагаем модульную архитектуру для генерации отчетов, которая включает в себя генерацию ключевых диагностических слов, сопоставление их с анатомическими регионами и создание структурированных отчетов с помощью специальных промитов. ## Результаты Мы провести эксперименты на датасете MIMIC-Eye, сравнивая нашу модель с другими подходами. Наша модель показала выигрыш в F1-мерой до 0.631 (+5.70%) и AUC до 0.849 (+3.41%) при классификации заболеваний, улучшив прецизию и рекалл. Также она повысила точность генерации отчетов, оцениваемую по клиническому ключевому слову и ROUGE-мерам. Это подтверждает эффективность интеграции сигналов газа в модели мультимодального обучения. ## Значимость Предложенный подход может быть применен в различных медицинских областях, включая обработку изображений и генерацию отчетов. Он позволяет повысить точность диагноза и качество отчетов, а также обеспечить более легковесную интеграцию новых модальностей данных. Это может иметь большое значение для улучшения качества медицинского здравоохранения. ## Выводы Наша работа показывает, что интеграция визуальных признаков с сигналами газа может значительно улучшить точность классиф

Annotation:

We propose a two-stage multimodal framework that enhances disease classification and region-aware radiology report generation from chest X-rays, leveraging the MIMIC-Eye dataset. In the first stage, we introduce a gaze-guided contrastive learning architecture for disease classification. It integrates visual features, clinical labels, bounding boxes, and radiologist eye-tracking signals and is equipped with a novel multi-term gaze-attention loss combining MSE, KL divergence, correlation, and cent...

ID: 2508.13068v1 cs.CV, cs.LG

arXiv PDF

1
2
73
74
75
76
77
83
84

Показано 741 - 750 из 835 записей