📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 SRMA-Mamba: Spatial Reverse Mamba Attention Network for Pathological Liver Segmentation in MRI Volumes

2025-08-20

Авторы:

Jun Zeng, Yannan Huang, Elif Keles, Halil Ertugrul Aktas, Gorkem Durak, Nikhil Kumar Tomar, Quoc-Huy Trinh, Deepak Ranjan Nayak, Ulas Bagci, Debesh Jha

#### Контекст Liver cirrhosis является ключевым фактором в прогнозировании кронарных заболеваний печени и требует точного выявления и оценки на момент раннего стадийного развития. Однако сложная анатомическая структура и разнообразные патологические изменения печеночной ткани сделали задачу точного выявления и оценки лесаний в клинических условиях достаточно сложной. Имеющиеся методы часто недостаточно эффективны в использовании сложной анатомической структуры во вращающихся магнитных резонансных изображениях (MRI), что затрудняет получение точных результатов и объясняемость результатов. Для решения этих проблем, мы предлагаем новую модель SRMA-Mamba, которая использует специальное моделирование спатиальных отношений внутри анатомической структуры MRI для надежного выделения патологических структур в легких. #### Метод SRMA-Mamba включает Spatial Anatomy-Based Mamba (SABMamba) модуль, который использует структуру трехплоскостного вращающегося резонанса (sagittal, coronal, axial) для построения глобального контекста спатиальных отношений в печеночных тканях. Модуль Spatial Reverse Attention (SRMA) использует coarse segmentation map и hierarchical encoding features для точного выделения лесней в тканях печени. Таким образом, SRMA-Mamba обеспечивает эффективное трёхмерное разделение патологических структур в MRI, улучшая точность и объяснимость процесса. #### Результаты Мы провели перспективные эксперименты на соответствующих данных, включая трёхмерное разделение легких с применением SRMA-Mamba. Мы сравнили результаты с текущими методами, показав надежные результаты, показывая превосходство SRMA-Mamba в точности и скорости работы. Вычислительные эксперименты показали, что SRMA-Mamba превосходит существующие методы, обеспечивая высокую точность и скорость работы при выделении патологических структур в легких. #### Значимость SRMA-Mamba находит применение в клинических задачах, таких как диагностика и мониторинг легких в кронарных заболеваний печени. Наша модель обеспечивает точное выделение лесней, улучшает объясняемость результатов и позволяет повысить эффективность клинического применения. Мы планируем расширить применение SRMA-Mamba к другим задачам, связанным с выделением кронарных заболеваний в других органах. #### Выводы Мы представили SRMA-Mamba, модель, которая эффективно использует спатиальные отношения в вращающихся МРИ, для выделения патологических структур в легких. Наши эксперименты демонстрируют превосходство SRMA-Mamba в точности и скорости в сравнении с другими методами. В дальнейшем, мы планируем расширить применение SRMA-Mamba в другие задачи, связанные с выделением кронарных заболеваний в других органах.

Annotation:

Liver Cirrhosis plays a critical role in the prognosis of chronic liver disease. Early detection and timely intervention are critical in significantly reducing mortality rates. However, the intricate anatomical architecture and diverse pathological changes of liver tissue complicate the accurate detection and characterization of lesions in clinical settings. Existing methods underutilize the spatial anatomical details in volumetric MRI data, thereby hindering their clinical effectiveness and exp...

ID: 2508.12410v2 cs.CV, cs.AI

arXiv PDF

📄 Standardization of Neuromuscular Reflex Analysis -- Role of Fine-Tuned Vision-Language Model Consortium and OpenAI gpt-oss Reasoning LLM Enabled Decision Support System

2025-08-20

Авторы:

Eranga Bandara, Ross Gore, Sachin Shetty, Ravi Mukkamala, Christopher Rhea, Atmaram Yarlagadda, Shaifali Kaushik, L. H. M. P. De Silva, Andriy Maznychenko, Inna Sokolowska, Amin Hass, Kasun De Zoysa

#### Контекст В области спортивных наук, реабилитации и клинической неврологии важной ролью играет точная оценка neuromuscular reflexes, таких как H-reflex. Этот механизм играет ключевую роль в определении состояния мышечно-нервной системы, включая наличие физиологических изменений, повреждений и степени восстановления. Однако существующие методы оценки H-reflex EMG-волну часто сталкиваются с проблемами, такими как вариабельность интерпретации результатов, ограниченная стандартизация и потенциальная субъективность в анализе клинических данных. Эти проблемы приводят к неточности диагноза и снижению надежности результатов. Следовательно, необходима система, которая обеспечивала бы автоматизацию и стандартизацию анализа H-reflex, улучшая точность и надежность диагностики. #### Метод Мы предлагаем консорциум из нескольких Fine-Tuned Vision-Language Models (VLM), которые были применены к анализу H-reflex EMG-волн. Каждый из этих VLM был усвоил набор данных, включающий специально собранные изображения EMG-волн, которые были проанализированы клиническими экспертами. Таким образом, каждый модель могла извлечь электрофизиологические особенности и предсказать состояния neuromuscular, такие как утомительность, повреждение и восстановление. Чтобы обеспечить консистентность и достоверность результатов, мы также внедрили Reasoning Large-Language Model (LLM), который используется в качестве Decision Support System. Он объединяет выводы VLM-консорциума, применяя эффективные методы прогнозирования и анализа. Кроме того, мы использовали функции интеграции LLM Agents в систему, чтобы обеспечить высокую степень автоматизации и обработку больших объемов данных. #### Результаты Мы осуществляли практические эксперименты, используя большой набор данных EMG-волн, а также метаданные, включая характеристики атлета, времена восстановления и другой клинический контекст. Наши модели показали высокую точность в идентификации различных электрофизиологических состояний, включая утомительность, повреждение и восстановление. Особенно выдающимся было результатом наличие высокой достоверности в диагностике восстановления после повреждений и точного предсказания последующих изменений в neuromuscular системе. Мы также проверили значимость наших результатов в различных клинических сценариях, включая спортивные тренировки и реабилитационные программы. #### Значимость Наша система имеет широкие области применения, включая спортивные науки, клиническую практику и реабилитацию. Она обеспечивает достоверность и стандартизацию в технике оценки neuromuscular reflexes, что увеличивает надежность результатов диагности

Annotation:

Accurate assessment of neuromuscular reflexes, such as the H-reflex, plays a critical role in sports science, rehabilitation, and clinical neurology. Traditional analysis of H-reflex EMG waveforms is subject to variability and interpretation bias among clinicians and researchers, limiting reliability and standardization. To address these challenges, we propose a Fine-Tuned Vision-Language Model (VLM) Consortium and a reasoning Large-Language Model (LLM)-enabled Decision Support System for automa...

ID: 2508.12473v1 cs.CV, cs.AI

arXiv PDF

📄 Design and Validation of a Responsible Artificial Intelligence-based System for the Referral of Diabetic Retinopathy Patients

2025-08-20

Авторы:

E. Ulises Moya-Sánchez, Abraham Sánchez-Perez, Raúl Nanclares Da Veiga, Alejandro Zarate-Macías, Edgar Villareal, Alejandro Sánchez-Montes, Edtna Jauregui-Ulloa, Héctor Moreno, Ulises Cortés

#### Контекст Диабетическая ретинопатия (DR) является одной из ведущих причин визуальной загрубления у лиц в возрасте до 65 лет. Раннее обнаружение DR может снизить риск развития следавствующей инвалидности до 95%. Однако широкое распространение данного заболевания в сочетании с недостатком квалифицированных специалистов и сложностями в организации быстрых осмотров ставит перед системами здравоохранения трудные задачи. Искусственные интеллектуальные модели, основанные на анализе клинических фотографий зрачка (retinal fundus photographs, RFPs), предлагают целесообразный подход к решению этих проблем. Тем не менее, низкая качественность данных, а также потенциальные биазы в моделях AI, которые могут приводить к недостоверным выводам, ограничивают их применение в практических задачах. Данная работа адресована этим проблемам, сформировав мотивацию для создания эффективной и этически ответственной системы AI для диагностики DR. #### Метод Мы разработали RAIS-DR — **Responsible AI System for Diabetic Retinopathy Screening**, которая применяет эффективные конволюционные модели для предварительной обработки и качественной оценки изображений. Для классификации DR использованы три специализированных модели, каждая из который адаптирована для выявления различных стадий заболевания. Архитектура системы обеспечивает интеграцию этических принципов на всех этапах жизненного цикла AI, включая прозрачность, справедливость и безопасность. Мы проводили сравнительные эксперименты с FDA-approved EyeArt system, используя независимую датасет из 1046 пациентов. Эталонные показатели были сравнены с результатами RAIS-DR по ключевым метрикам, включая F1-меру, точность и специфичность, а также метриками справедливости, такими как Disparate Impact и Equal Opportunity Difference. #### Результаты Результаты экспериментов показали, что RAIS-DR превосходит EyeArt по значениям F1-меры, которые увеличились на 5-12%, точность (6-19%) и специфичность (10-20%). Благодаря интеграции этических принципов в систему, мы также установили значительно более высокую справедливость RAIS-DR в различных демографических подгруппах. Это подтверждает потенциал системы в сокращении различий в доступе к качественному здравоохранению. Результаты показали, что RAIS-DR является надёжной и эффективной системой для скрининга DR в клинических условиях. #### Значимость Разработанная система может быть применена в различных областях, включая первичное здравоохранение, клиническую диагностику и удаленное мониторинге пациентов с DR. Разработанная система имеет ряд преимуществ, включая усовершенствованную точность и справедливост

Annotation:

Diabetic Retinopathy (DR) is a leading cause of vision loss in working-age individuals. Early detection of DR can reduce the risk of vision loss by up to 95%, but a shortage of retinologists and challenges in timely examination complicate detection. Artificial Intelligence (AI) models using retinal fundus photographs (RFPs) offer a promising solution. However, adoption in clinical settings is hindered by low-quality data and biases that may lead AI systems to learn unintended features. To addres...

ID: 2508.12506v1 cs.CV, cs.AI

arXiv PDF

📄 An Initial Study of Bird's-Eye View Generation for Autonomous Vehicles using Cross-View Transformers

2025-08-20

Авторы:

Felipe Carlos dos Santos, Eric Aislan Antonelo, Gustavo Claudio Karl Couto

#### Контекст Автоматизированное управление транспортным средством требует большого объема информации о среде, в которой он работает. Одним из ключевых элементов для анализа этой информации является Bird's-Eye View (BEV) — визуализация среды с виду "с высоты птичьего полета", которая позволяет абстрагироваться от мелких деталей и сосредоточиться на ключевых взаимодействующих объектах. BEV-карты широко используются в системах автономного управления транспортом, так как они обеспечивают удобный способ представления окружения, предоставляя важные сведения о дорогах, линиях разделения дорог и планах движения. Однако получение этих карт часто требует использования дорогостоящих и трудоемких сенсоров, таких как LIDAR или специальные камеры, а также сложных алгоритмов. Мотивация для данного исследования заключается в том, чтобы использовать доступные сенсоры, такие как стандартные зеркальные камеры, для эффективного построения BEV-карт, которые могли бы быть затем использованы для улучшения автономного управления транспортом. #### Метод В данном исследовании применяется Cross-View Transformer (CVT) — модель, которая предназначена для обучения сети для преобразования изображений с камеры в представление BEV-карт. Тренировочные данные собираются из реальных сцен с помощью симулятора для уличной езды, что позволяет сконцентрироваться на реалистичных ситуациях. Модель CVT основывается на кросс-аттенционной механике, которая позволяет моделировать зависимости между разными каналами BEV-карт (например, дорога, линии разделения дорог и планы движения). Мы проводим эксперименты с различными наборами сетевых архитектур и формами потерь, включая бинарный кросс-энтропийный уровень (focal loss) и L1-ошибку. Мы также проводим эксперименты, изучая влияние различных конфигураций камер и обучение на новых городах, чтобы протестировать возможность общей модели при условии трансфера. #### Результаты Мы проводили эксперименты, обучая модели CVT на данных, полученных только из одного города, а затем проверяли их на новых городах. Мы выявили, что тренировка модели с L1-потерями позволяет достичь наиболее стабильных и точных результатов в новых средах. Мы также обнаружили, что размер собираемых данных и конфигурация камер могут существенно повлиять на точность модели. Например, сеть, тренируемая на данных из одного города с 4-х камерой, показала наилучший результат при помощи L1-потерь. Таким образом, наши результаты показывают, что CVT может значительно улучшить качество BEV-карт, полученных из стандартных зеркальных камер, и продемонстрировать хорошую общинность на новых городах. ####

Annotation:

Bird's-Eye View (BEV) maps provide a structured, top-down abstraction that is crucial for autonomous-driving perception. In this work, we employ Cross-View Transformers (CVT) for learning to map camera images to three BEV's channels - road, lane markings, and planned trajectory - using a realistic simulator for urban driving. Our study examines generalization to unseen towns, the effect of different camera layouts, and two loss formulations (focal and L1). Using training data from only a town, a...

ID: 2508.12520v1 cs.CV, cs.AI

arXiv PDF

📄 OpenMoCap: Rethinking Optical Motion Capture under Real-world Occlusion

2025-08-20

Авторы:

Chen Qian, Danyang Li, Xinran Yu, Zheng Yang, Qiang Ma

## Контекст Системы оптического мониторинга движения (optical motion capture, MoCap) являются ключевым инструментом в области виртуальной реальности, анимации и кинопроизводства. Они позволяют трансформировать жесты и движения реальных объектов в цифровые модели, создавая реалистичные сценарии в цифровых пространствах. Однако существующие системы сталкиваются с серьезными проблемами в условиях реального мира, где частые маркерные замещения (marker occlusions) приводят к ошибкам в распознавании и реконструкции движения. Эти ошибки значительно снижают точность и надежность систем, что ограничивает их применение в реальных сценариях. Недостаток реалистичных данных для обучения моделей и отсутствие эффективных методов для обработки длинных зависимостей между движущимися объектами являются основными трудностями. Мотивация заключается в разработке методов и данных, которые позволят улучшить точность и надежность систем оптического мониторинга движения в условиях маркерных замещений. ## Метод OpenMoCap предлагает новую модель для решения проблем оптического мониторинга движения в условиях отрицательного воздействия маркерных замещений. Методология строится на основе цепочного механизма оптимизации маркеров и узлов. Модель использует технологии лучевого распространения (ray tracing) для точного моделирования реальных условий замещения маркеров. Также включена архитектура, которая учитывает длинные зависимости между движущимися объектами. Эти технологии объединены в OpenMoCap, который формирует профессиональное решение для моделирования движения в условиях серьезных замещений. Эта модель включена в систему MoSen MoCap для реального применения. ## Результаты Опыты проводились на разных сценариях с высоким уровнем замещения маркеров. Для обучения и тестирования использовался новый датасет CMU-Occlu, созданный с использованием технологий лучевого распространения. Результаты показали, что OpenMoCap значительно превосходит существующие модели в точности и результатах реконструкции движения в условиях маркерных замещений. Особое внимание уделено его высокой точности при работе с цепочными зависимостями между маркерами и узлами. Эти результаты продемонстрированы в сравнении с другими предложенными моделями, где OpenMoCap показал стабильное превосходство. ## Значимость Предложенная модель OpenMoCap имеет широкие возможности применения в области виртуальной реальности, кинопроизводства, а также в медицине и спорте, где точное мониторинг движения важно для реализации реальных сценариев. Модель существенно улучшает точность и надежность системы в условиях маркерных замещений, что открывает путь для

Annotation:

Optical motion capture is a foundational technology driving advancements in cutting-edge fields such as virtual reality and film production. However, system performance suffers severely under large-scale marker occlusions common in real-world applications. An in-depth analysis identifies two primary limitations of current models: (i) the lack of training datasets accurately reflecting realistic marker occlusion patterns, and (ii) the absence of training strategies designed to capture long-range ...

ID: 2508.12610v1 cs.CV, cs.AI

arXiv PDF

📄 SpotVLM: Cloud-edge Collaborative Real-time VLM based on Context Transfer

2025-08-20

Авторы:

Chen Qian, Xinran Yu, Zewen Huang, Danyang Li, Qiang Ma, Fan Dang, Xuan Ding, Guangyong Shang, Zheng Yang

#### Контекст Визуально-языковые модели (Vision-Language Models, VLMs) становятся все более популярными в реальном времени в областях, таких как автономное вождение и робототехника. Они позволяют системам понимать и реагировать на визуальную информацию, контекстуализируя ее через текстовые описания. Однако реализация эффективного взаимодействия между силами вычисления центрального облака (cloud) и мощностями вычислений сети крайнего края (edge) остается сложной задачей. Использование существующих систем, таких как разделенные модели Large Vision-Language Models (LVLMs) или стратегии задачу offloading между LVLMs и Small Vision-Language Models (SVLMs), имеет ограничения. Они не учитывают неоднородность задержек в облаке или потенциал подробных ответов от LVLMs. Мотивацией для нас является разработка нового парадигмального подхода, позволяющего решать эти проблемы, обеспечивая реальному времени интеллектуальную систему, основанную на контекстном передаче. #### Метод Мы предлагаем Context Transfer, новую парадигму, которая использует данные от LVLMs в качестве исторического контекста для улучшения реального времени SVLMs. Этот подход позволяет использовать отложенные новые ответы LVLMs для точных рекомендаций системы. Для реализации SpotVLM, мы внедрили два основных модуля: Context Replacement и Visual Focus. Модуль Context Replacement обновляет исторический контекст, используя новый ответ LVLM для более точных ввода. Модуль Visual Focus улучшает гармонию между текстовым контекстом и визуальными данными, обеспечивая согласованность в итоговых выводах. #### Результаты Мы проводили эксперименты с SpotVLM на трех реальном времени визуальных задачах, включая обнаружение объектов, текстово-визуальную сопоставление и вопрос-ответ системы, используя четыре разных данных. В результате, мы показали, что SpotVLM не только сокращает задержки, но и повышает точность сравнения с другими существующими системами. Наши результаты подтверждают, что Context Transfer не только повышает эффективность, но и обеспечивает более точный контекст для реального времени VLM-систем. #### Значимость Проект SpotVLM может иметь широкие применения в сферах, требующих быстрого и надежного взаимодействия между визуальными и текстовыми данными, таких как робототехника, системы помощи водителям, и круглосуточные системы мониторинга. Наш подход позволяет уменьшить задержки, улучшить точность и обеспечить более прозрачное взаимодействие, которое может быть применено в различных отраслях технологий. #### Выводы Мы представили SpotVLM, новую парадигму взаимодействия между LVLMs и SVLMs, которая использует контекст для улучшения реального времени выполнения. Наши эксперименты показали, что SpotVLM не только повышает эффекти

Annotation:

Vision-Language Models (VLMs) are increasingly deployed in real-time applications such as autonomous driving and human-computer interaction, which demand fast and reliable responses based on accurate perception. To meet these requirements, existing systems commonly employ cloud-edge collaborative architectures, such as partitioned Large Vision-Language Models (LVLMs) or task offloading strategies between Large and Small Vision-Language Models (SVLMs). However, these methods fail to accommodate c...

ID: 2508.12638v1 cs.CV, cs.AI

arXiv PDF

📄 TTA-DAME: Test-Time Adaptation with Domain Augmentation and Model Ensemble for Dynamic Driving Conditions

2025-08-20

Авторы:

Dongjae Jeon, Taeheon Kim, Seongwon Cho, Minhyuk Seo, Jonghyun Choi

## Контекст Тест-тайм адаптация (TTA) является сложной задачей, требующей моделей динамически адаптироваться и действовать оптимально в условиях меняющегося целевого домена. Это особенно актуально в реальных сценариях динамического вождения, где часто встречаются смены погодных условий. Такие переходы могут значительно снижать производительность моделей, особенно в переходе с дневных в ночные условия. Наше исследование, TTA-DAME, адресует эту проблему, используя источниковую доменную аугментацию для целевого домена. Мы предлагаем дополнительные методы, такие как добавление дискриминатора домена и специального детектора, для снижения вызванных внезапными переходами между дневным и ночным временем. Множественные детекторы объединяются с помощью Non-Maximum Suppression (NMS) для повышения точности. Наши эксперименты показали, что TTA-DAME позволяет значительно повысить производительность в SHIFT Benchmark. ## Метод TTA-DAME основывается на следующих ключевых компонентах: 1. **Источниковая аугментация**: Мы улучшаем целевой домен, занося в него данные источника. 2. **Дискриминатор домена**: Он включает сеть в процесс обучения, позволяя ей принимать решения о принадлежности к домену. 3. **Детектор домена**: Определяет тип домена в реальном времени, необходимый для целевой модели. 4. **NMS**: Объединяет результаты нескольких детекторов, повышая достоверность. Мы тренируем несколько моделей, объединяем их предсказания и применяем NMS для уточнения результатов. Это сочетание методов позволяет существенно повысить устойчивость и точность модели в реальных условиях. ## Результаты Мы проверили TTA-DAME на SHIFT Benchmark, который представляет собой набор данных для анализа переходов между различными погодными условиями. В результате наши тесты показали, что TTA-DAME улучшила показатели на 15% по сравнению с базовыми моделями. Мы также провели эксперименты с другими моделями, в том числе с традиционными методами адаптации, и показали, что TTA-DAME обеспечивает значительный прирост в устойчивости и точности определения объектов в ночных условиях. ## Значимость Наш метод может применяться в различных сценариях, где необходима адаптация моделей в реальном времени, например, в системах распознавания объектов, водительских помощных системах и других приложениях м MLOps. Особый потенциал TTA-DAME заключается в снижении риска ошибок в ходе адаптации моделей в условиях меняющихся доменов. Это может существенно повысить надежность и безопасность систем в работах компаний, ориентированных на технологии AI. ## Выводы Наши результаты показывают, что TTA-DAME значительно повышает устойчивость моделей в условиях ча

Annotation:

Test-time Adaptation (TTA) poses a challenge, requiring models to dynamically adapt and perform optimally on shifting target domains. This task is particularly emphasized in real-world driving scenes, where weather domain shifts occur frequently. To address such dynamic changes, our proposed method, TTA-DAME, leverages source domain data augmentation into target domains. Additionally, we introduce a domain discriminator and a specialized domain detector to mitigate drastic domain shifts, especia...

ID: 2508.12690v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Multi-Level Knowledge Distillation and Dynamic Self-Supervised Learning for Continual Learning

2025-08-20

Авторы:

Taeheon Kim, San Kim, Minhyuk Seo, Dongjae Jeon, Wonje Jeong, Jonghyun Choi

## Контекст Class-incremental with repetition (CIR) — это топорстильный подход, где ранее обученные классы повторно вводятся в последующие задачи. Это сценарий более реалистичен, чем традиционный класс-инкрементальный подход, который предполагает, что каждая задача включает невиденные классы. CIR предполагает, что доступно обширное количество необъявленных данных из внешних источников, таких как Интернет. Однако преуспеть в CIR требуется сбалансированная модель, которая обладает стабильностью (не забывает уже известные классы) и гибкостью (быстро осваивает новые классы). Наша работа стремится улучшить эти аспекты, обеспечив новый подход к класс-инкрементальному обучению. ## Метод Мы предлагаем два ключевых компонента для решения проблем CIR: **multi-level knowledge distillation (MLKD)** и **dynamic self-supervised learning (SSL)**. **MLKD** использует несколько предыдущих моделей для передачи знаний по нескольким уровням, включая формат фичей и выходных данных. Это позволяет модели сохранять широкий спектр прошлых знаний. **Dynamic SSL** использует необъявленные данные для ускорения обучения новых классов, при этом динамическое взвешивание SSL сохраняет концентрацию на основной задаче. Таким образом, наши компоненты выступают в сочетании, обеспечивая лучшую стабильность и гибкость в CIR. ## Результаты Проведенные эксперименты показали эффективность наших решений в CIR setup. Мы проверили их на различных датасетах, включая CIFAR-100 и ImageNet. Модель, в которой использовались наши компоненты, показала существенное улучшение в сравнении с другими подходами в CIR. Она достигла **2-го места в 5-м CVPR 5th CLVISION Challenge**, подтвердив свою эффективность. Эти результаты доказывают, что наш подход эффективно справляется с проблемами стабильности и гибкости в класс-инкрементальном обучении. ## Значимость Наше решение может быть применено в различных сценариях, где требуется грамотная обработка данных при непостоянном доступе к классам. Это могут быть области, такие как обнаружение объектов, распознавание звука, и даже адаптация моделей в реальном времени. Основные преимущества — улучшенная стабильность модели при повторном обучении и ускоренное обучение новых классов. Потенциальный вклад в область глубокого обучения заключается в расширение возможностей класс-инкрементальных моделей, позволяя им быть более эффективными и реалистичными в реальной жизни. ## Выводы Мы предложили два важных компонента — **multi-level knowledge distillation** и **dynamic self-supervised learning** — для усовершенствования класс-инкрементальных моделей в CIR setup. Эти компоненты демонстрируют сильное улучшение в стабильности и гибкости моделей. Наша работа подтвер

Annotation:

Class-incremental with repetition (CIR), where previously trained classes repeatedly introduced in future tasks, is a more realistic scenario than the traditional class incremental setup, which assumes that each task contains unseen classes. CIR assumes that we can easily access abundant unlabeled data from external sources, such as the Internet. Therefore, we propose two components that efficiently use the unlabeled data to ensure the high stability and the plasticity of models trained in CIR s...

ID: 2508.12692v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 DCSCR: A Class-Specific Collaborative Representation based Network for Image Set Classification

2025-08-20

Авторы:

Xizhan Gao, Wei Hu

#### Контекст Классификация изображений по наборам (Image Set Classification, ISC) является важной задачей, которая позволяет сравнивать сходство между наборами изображений разного количества и качества. Эта область набирает все большую популярность в академических и практических исследованиях. Однако, ключевыми проблемами в этой области остаются построение эффективных признаков и расчет сходства между наборами. Традиционные методы ISC опираются на работу с необработанными признаками, не учитывая важность углубленного изучения данных. Для устранения этих проблем развиваются методы с применением глубоких нейронных сетей, но они не всегда удачно адаптируют признаки при сравнении наборов, что снижает их эффективность в случае небольшого количества обучающих примеров. Для решения этой задачи предлагается совмещать принципы традиционных и глубоких подходов в инновационной системе DCSCR. #### Метод DCSCR представляет собой усовершенствованную структуру для обучения признаков и метрического обучения. Она состоит из нескольких модулей: 1. **Модуль извлечения глубоких признаков** — используется для построения локальных (frame-level) признаков каждого изображения в наборе; 2. **Модуль глобального извлечения признаков** — отвечает за объединение локальных признаков в глобальный представление для каждого набора; 3. **Модуль метрического обучения на основе CSCR** — применяет класс-специфические методы спутниковых представлений (Collaborative Representation) для вычисления метрик дистанций между наборами, используя усовершенствованную CSCR-based contrastive loss-функцию. Эта система не только извлекает глубокие признаки, но и адаптирует их в процессе сравнения, что позволяет существенно повысить точность работы в условиях небольшого количества обучающих примеров. #### Результаты Проведены эксперименты на нескольких известных коллекциях данных для ISC в среде few-shot обучения. Результаты показали, что DCSCR выполняет значительно лучше, чем многие современные методы. Он демонстрирует улучшения в метриках точности классификации и сходства наборов, что указывает на эффективность и гибкость этого подхода в задачах ISC. #### Значимость Предложенный подход имеет широкие возможности применения в сферах, требующих оперативного распознавания и сравнения изображений. Например, в области безопасности, медицины, робототехники. Он обеспечивает высокую точность, устойчивость к небольшим обучающим данным и гибкость при работе с различными наборами признаков. Это делает DCSCR одним из лучших решений для решения задач ISC в современных условиях. #### Выводы Основным достижением является разработка DCSCR, которая сочетает в себе принципы традиционных и глубоких подходов к обучению признаков и метричес

Annotation:

Image set classification (ISC), which can be viewed as a task of comparing similarities between sets consisting of unordered heterogeneous images with variable quantities and qualities, has attracted growing research attention in recent years. How to learn effective feature representations and how to explore the similarities between different image sets are two key yet challenging issues in this field. However, existing traditional ISC methods classify image sets based on raw pixel features, ign...

ID: 2508.12745v1 cs.CV, cs.AI

arXiv PDF

📄 CLAIRE-DSA: Fluoroscopic Image Classification for Quality Assurance of Computer Vision Pipelines in Acute Ischemic Stroke

2025-08-20

Авторы:

Cristo J. van den Berg, Frank G. te Nijenhuis, Mirre J. Blaauboer, Daan T. W. van Erp, Carlijn M. Keppels, Matthijs van der Sluijs, Bob Roozenbeek, Wim van Zwam, Sandra Cornelissen, Danny Ruijters, Ruisheng Su, Theo van Walsum

#### Контекст Механическая тромбектомия (MT) широко применяется для лечения акутного ишемического инсульта (AIS). Однако плохая качественность изображений, полученных с помощью динамического интервенционного рентгеновского ангиографии (DSA), часто снижает эффективность визуального анализа и автоматизированных алгоритмов, основанных на машинном обучении. Эта проблема ограничивает возможности получения точных результатов в видеомониторинге и анализе процесса лечения. Необходимость автоматизированных инструментов для классификации изображений DSA в реальном времени мотивирует разработку моделей, которые могут оценивать изображения на наличие ключевых свойств, таких как наличие контраста, углы проекции и серьезность двигательных помех. #### Метод Разработанная модель CLAIRE-DSA основывается на архитектуре ResNet. Она была прикладна к задаче классификации $1,758$ fluoroscopic MinIPs, полученных в рамках клинических исследований. Модель была прикладна к $9$ классов свойств изображения, включая наличие контраста, углы проекции, серьезность двигательных помех. Модель была обучена в соответствии с методологией файн-тюнинга предварительно обученных моделей ResNet. Для оценки качества классификации использовались ROC-AUC и precision. На основе CLAIRE-DSA проведены эксперименты по фильтрации изображений с помехами и оценке эффективности модели в поддержке задач сегментации. #### Результаты CLAIRE-DSA показала высокую точность классификации с ROC-AUC в диапазоне от $0.91$ до $0.98$ и precision от $0.70$ до $1.00$. Эксперименты по сегментации показали, что фильтрация изображений с помощью CLAIRE-DSA повысила успешность сегментации с $42\%$ до $69\%$, что значительно превосходит результаты работы с неотфильтрованными данными. Эти результаты подтверждают мощь CLAIRE-DSA в автоматизации процесса классификации изображений DSA, улучшая качество изображений и обеспечивая оптимизацию процессов в технической поддержке MT. #### Значимость Инструмент CLAIRE-DSA может использоваться в клинических и исследовательских приложениях для надёжной классификации изображений в DSA-сериях, полученных во время лечения AIS. Он повышает эффективность задач визуального анализа, обеспечивает качественное контроль и поддерживает работу моделей машинного обучения в медицинских приложениях. Это может стать полезным инструментом для сокращения времени лечения и повышения точности результатов в технике тромболизации. #### Выводы CLAIRE-DSA доказала свою эффективность в процессе классификации изображений DSA для оценки качества изображений во время лечения AIS. На основании

Annotation:

Computer vision models can be used to assist during mechanical thrombectomy (MT) for acute ischemic stroke (AIS), but poor image quality often degrades performance. This work presents CLAIRE-DSA, a deep learning--based framework designed to categorize key image properties in minimum intensity projections (MinIPs) acquired during MT for AIS, supporting downstream quality control and workflow optimization. CLAIRE-DSA uses pre-trained ResNet backbone models, fine-tuned to predict nine image propert...

ID: 2508.12755v1 cs.CV, cs.AI

arXiv PDF

1
2
200
201
202
203
204
227
228

Показано 2011 - 2020 из 2274 записей