📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Franz Thaler, Darko Stern, Gernot Plank, Martin Urschler

**Резюме** Атриальная фибриляция (АФ) — наиболее распространенный вид кардиальных аритмий, для лечения которой может потребоваться аблационная терапия. Зачастую этот вид терапии включает целевую склеивание тканей сердца для предотвращения аритмий. Одним из ключевых элементов такого подхода является точная сегментация здоровой и сгнившей ткани сердца, чтобы создать персонализированные цифровые модели сердца. Однако эта задача оказывается сложной из-за переменного качества изображений LGE-MRI и существенных доменных различий. Мы предлагаем LA-CaRe-CNN — двухступенчатую 2D/3D-архитектуру на основе CNN, которая используется для точной сегментации левого атриума и левой атриальной сгнившей ткани. LA-CaRe-CNN построен на двух этапах: первый этап определяет левое атриум, а второй этап уточняет его сегментацию, используя информацию о сгнившей ткани. Для увеличения разнообразия обучающих данных мы применяем креативные методы усиления аугментации. Наши эксперименты показали, что LA-CaRe-CNN демонстрирует отличные показатели: ДСК 89,21% и АССД 1,6969 мм для левого атриума, а для сгнившей ткани — ДСК 64,59% и Г-ДСК 91,80%. Эти результаты подтверждают мощь алгоритма в подготовке персонализированных моделей сердца и могут способствовать развитию целевой терапии для лечения АФ.
Annotation:
Atrial fibrillation (AF) represents the most prevalent type of cardiac arrhythmia for which treatment may require patients to undergo ablation therapy. In this surgery cardiac tissues are locally scarred on purpose to prevent electrical signals from causing arrhythmia. Patient-specific cardiac digital twin models show great potential for personalized ablation therapy, however, they demand accurate semantic segmentation of healthy and scarred tissue typically obtained from late gadolinium enhance...
ID: 2508.04553v1 eess.IV, cs.CV, cs.LG
Авторы:

Filipe B. Teixeira, Carolina Simões, Paulo Fidalgo, Wagner Pedrosa, André Coelho, Manuel Ricardo, Luis M. Pessoa

**Резюме** Современные сети 5G/6G стремятся объединить возможности интегрированного восприятия и связи (Integrated Sensing and Communications, ISAC), чтобы обеспечить более эффективную управляемость и реакцию на изменения. Однако существуют трудности в реализации реального времени для обработки визуальных данных и интеграции их с радиосетями. В статье предлагается **CONVERGE**, архитектура, использующая многоагентный подход для доставки в реальном времени радио- и визуальных данных в xApps O-RAN. Разработанная функция видеосенсора позволяет определять блокировки канала и предоставлять эти данные xApps, чтобы они могли контролировать RAN в реальном времени. Экспериментальные результаты показали, что сенсорная информация обрабатывается с задержкой менее 1 мс, что позволяет xApps эффективно использовать видеоданные для управления 5G/6G RAN. **Основные выводы**: CONVERGE демонстрирует перспективу использования визуальных данных для улучшения систем ISAC, обеспечивая более устойчивую и быструю реакцию на изменения в радиосреде.
Annotation:
Telecommunications and computer vision have evolved independently. With the emergence of high-frequency wireless links operating mostly in line-of-sight, visual data can help predict the channel dynamics by detecting obstacles and help overcoming them through beamforming or handover techniques. This paper proposes a novel architecture for delivering real-time radio and video sensing information to O-RAN xApps through a multi-agent approach, and introduces a new video function capable of genera...
ID: 2508.04556v1 cs.NI, cs.CV
Авторы:

Jinxi Liu, Zijian He, Guangrun Wang, Guanbin Li, Liang Lin

Настоящая работа представляет собой универсальный метод для виртуального примерки и снятия одежды в любой позе, основанный на распространении шума в пространстве образов. До этого момента, большинство существующих подходов для виртуальной примерки ограничивались использованием наглядных тканей и масок сегментации, а также строгой привязкой к исходной позе, что приводило к ограниченности практического применения. Мы предлагаем **OMFA** (One Model For All) — универсальный фреймворк, работающий в пределах одной модели, что позволяет осуществлять обе операции: снятие одежды с одного человека (try-off) и их перевод на другого (try-on) в любой позе. Работата основывается на так называемой **частичной распространении шума**, что позволяет динамически регулировать процесс обработки подсистем (например, одежды, лица или тела). Не требуя масок или множества изображений для одного человека, OMFA является практичным для реальных приложений и обеспечивает высококачественные результаты по сравнению с современными подходами в области виртуальной примерки.
Annotation:
Recent diffusion-based approaches have made significant advances in image-based virtual try-on, enabling more realistic and end-to-end garment synthesis. However, most existing methods remain constrained by their reliance on exhibition garments and segmentation masks, as well as their limited ability to handle flexible pose variations. These limitations reduce their practicality in real-world scenarios-for instance, users cannot easily transfer garments worn by one person onto another, and the g...
ID: 2508.04559v1 cs.CV
Авторы:

Gabriele Magrini, Lorenzo Berlincioni, Luca Cultrera, Federico Becattini, Pietro Pala

**Резюме** Угрозы, связанные с использованием дронов, неуклонно растут, а традиционные системы наблюдения имеют значительные ограничения при их обнаружении. Особенно сложно достичь надежного обнаружения на малых расстояниях, при высокой агильности дронов и в условиях плохого освещения. Работа предлагает рассмотреть событийные (event-based) видеокамеры как эффективное решение этих проблем. Эти камеры почти полностью устраняют риск моторного размытия, обеспечивая постоянную работу в условиях высокой светлости и темноты. Их асинхронный вывод позволяет оптимизировать расчеты, фокусируясь только на движущихся объектах, что значительно сокращает задержку. В статье проводится обзор состояния технологии в области дронового обнаружения с использованием событийных камер: с методами представления данных до продвинутых алгоритмов на основе спикинговых нейронных сетей. Также рассматриваются задачи, превышающие простое обнаружение, такие как реального времени трекинг, прогностика траекторий и уникальная идентификация с помощью анализа звука винтов. Исследование подтверждает, что событийные видеокамеры представляют собой сильную основу для развития надежных, мгновенных и эффективных систем защиты от нежелательных дронов.
Annotation:
The diffusion of drones presents significant security and safety challenges. Traditional surveillance systems, particularly conventional frame-based cameras, struggle to reliably detect these targets due to their small size, high agility, and the resulting motion blur and poor performance in challenging lighting conditions. This paper surveys the emerging field of event-based vision as a robust solution to these problems. Event cameras virtually eliminate motion blur and enable consistent detect...
ID: 2508.04564v1 cs.CV
Авторы:

Yunbi Liu, Enqi Tang, Shiyu Li, Lei Ma, Juncheng Li, Shu Lou, Yongchu Pan, Qingshan Liu

Авторы предлагают TAlignDiff — метод автоматической зубной ортодонтической коррекции, основанный на diffusion-based transformation learning. Данный метод адресует ограничения существующих подходов, которые опираются на точечные геометрические ограничения для регулирования зубной коррекции. Они не учитывают структурные характеристики анатомических систем в челюстно-лицевой области, что может приводить к неточностям. TAlignDiff включает два основных модуля: Point Cloud-based Regression Network (PRN) для регрессии точечных облаков и Diffusion-based Transformation Matrix Denoising Module (DTMD) для очистки и моделирования трансформационных матриц. Эти модули объединены в единое решение, использующее прямую регрессию и diffusion-based modeling для лучшей точности и рефинейма. Результаты экспериментов подтверждают высокую эффективность метода TAlignDiff в решении задачи зубной коррекции, положительно отличающуюся от предыдущих подходов.
Annotation:
Orthodontic treatment hinges on tooth alignment, which significantly affects occlusal function, facial aesthetics, and patients' quality of life. Current deep learning approaches predominantly concentrate on predicting transformation matrices through imposing point-to-point geometric constraints for tooth alignment. Nevertheless, these matrices are likely associated with the anatomical structure of the human oral cavity and possess particular distribution characteristics that the deterministic p...
ID: 2508.04565v1 cs.CV
Авторы:

Yifan Li, Kun Zhou, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen

**Резюме** Говорящие визуально-языковые модели (LVLMs), обученные на огромных объемах данных, достигли высоких результатов в обработке визуальной и текстовой информации. Однако они страдают от проблемы халлуцинации объектов: создают текст, не соответствующий визуальной информации. Авторы изучили эту проблему через новый бенчмарк POPEv2, основанный на counterfactual images, и обнаружили, что LVLMs склонны к скрытой систематической ошибке — они плохо обрабатывают объекты, встречавшиеся во время обучения. Это связано с тренировочным биасом, который особенно заметен в головной LM-части модели. Чтобы устранить этот биаз, авторы предложили метод Obliviate, основанный на unlearning. Этот метод эффективно идентифицирует несоответствия между тренировочными данными и выходами модели, апгрейдит LM-часть модели, используя только процентов 2 обучающих данных. Эксперименты показали, что Obliviate эффективно уменьшает халлуцинации в различных задачах, увеличивая точность и устойчивость. Метод также продемонстрировал хорошую общинность и гибкость, работая с моделями разного размера и дополнительными типами халлуцинации. Результаты и код будут доступны для общего использования.
Annotation:
As scaling up training data has significantly improved the general multimodal capabilities of Large Vision-Language Models (LVLMs), they still suffer from the hallucination issue, generating text that is inconsistent with the visual input. This phenomenon motivates us to systematically investigate the role of training data in hallucination. We introduce a new benchmark, POPEv2, which consists of counterfactual images collected from the training data of LVLMs with certain objects masked. Through ...
ID: 2508.04567v1 cs.CV, cs.CL
Авторы:

Yijie Li, Wei Zhang, Xi Zhu, Ye Wu, Yogesh Rathi, Lauren J. O'Donnell, Fan Zhang

Метод DDTracking представляет собой уникальную глубокоупрострянная структуру для трактографии диффузионного МРТ (dMRI), которая оптимизирует синтез структур нейронных нитей (streamlines) с использованием процесса условного деноisingа (conditional denoising). Основная идея заключается в разделении моделирования на два пути: локальное пространственное моделирование (детализация точечных структур) и глобальные зависимости времени (сохранение консистентности в длинных структурах). Улучшенная модель условного диффузионного моделирования (conditional diffusion model) объединяет эти элементы для предсказания направлений продолжения структуры в процессе стринглайн-трактографии (streamline tractography). В результате опробований на различных dMRI-датасетах, включая синтетические и клинические, DDTracking показал результаты, значительно превышающие современные методы по точности и устойчивости. Особенно выдающимися являются результаты на тестовых наборах ISMRM Challenge и TractoInferno. Этот подход обеспечивает анатомически интуитивные, надежные и гибкие результаты, которые могут быть применены в различных мед. задачах dMRI. Реализация доступна по адресу: https://github.com/yishengpoxiao/DDtracking.git.
Annotation:
This paper presents DDTracking, a novel deep generative framework for diffusion MRI tractography that formulates streamline propagation as a conditional denoising diffusion process. In DDTracking, we introduce a dual-pathway encoding network that jointly models local spatial encoding (capturing fine-scale structural details at each streamline point) and global temporal dependencies (ensuring long-range consistency across the entire streamline). Furthermore, we design a conditional diffusion mode...
ID: 2508.04568v1 cs.CV
Авторы:

Jun Li, Che Liu, Wenjia Bai, Mingxuan Liu, Rossella Arcucci, Cosmin I. Bercea, Julia A. Schnabel

Задача авторов — развить методы локализации клинических находок в медицинских изображениях на основе текстовых описаний. Несмотря на высокую точность современных Vision-Language Models (VLM) в общих задачах grounding, в медицинской сфере они сталкиваются с проблемами, связанными с редкими и сложными, по отношению к общим моделям, терминами. Авторы предлагают решение Knowledge to Sight (K2Sight), которое предполагает декомпозицию клинических терминов в интерпретируемые визуальные атрибуты (например, форма, плотность, зона анатомии) и их интеграцию в концептуальные инструкционные подсказки. Эти подсказки учитываются во время обучения с целью улучшения регионального-текстового анкоринга. Результат — модели с меньшим количеством параметров, обученные с минимальным объемом данных, показали результаты, сравнимые или лучшие, чем модели с 7 миллиардами параметров. Это достигнуто благодаря эффективному слиянию специализированного доменного знания и адаптивной архитектуры.
Annotation:
In this work, we address the problem of grounding abnormalities in medical images, where the goal is to localize clinical findings based on textual descriptions. While generalist Vision-Language Models (VLMs) excel in natural grounding tasks, they often struggle in the medical domain due to rare, compositional, and domain-specific terms that are poorly aligned with visual patterns. Specialized medical VLMs address this challenge via large-scale domain pretraining, but at the cost of substantial ...
ID: 2508.04572v1 cs.CV
Авторы:

Enam Ahmed Taufik, Abdullah Khondoker, Antara Firoz Parsa, Seraj Al Mahmud Mostafa

Проблема: Анализ дерматологических изображений через глубокие нейросети стал ключевым инструментом в компьютерной ассистентной диагностике, но существуют значительные вызовы, связанные с высокой схожестью классов, различием внутри- и межклассовных особенностей, а также сложностью текстур дерматологических повреждений. Решение: В настоящей работе предлагается глубокое обучающее рамфейзмклюлыйчемовянийключевойдерматологии, проверяя три метода предобработки изображений: стандартное RGB, преобразование в CMY-цвет, и CLAHE. Модели DenseNet201, EfficientNetB5 и трансформер-модели (ViT, Swin Transformer, DinoV2 Large) были оценены с помощью метрик точности и F1-skor. Основные выводы: Модель DinoV2 с предварительным RGB-обработкой показала самые высокие результаты точности и F1-skor. Grad-CAM-визуализации, примененные к RGB-входным данным, демонстрируют точное локализуемое границы границ, повышая транспарентность и практичность CAD-систем для дерматологии.
Annotation:
Accurate skin disease classification is a critical yet challenging task due to high inter-class similarity, intra-class variability, and complex lesion textures. While deep learning-based computer-aided diagnosis (CAD) systems have shown promise in automating dermatological assessments, their performance is highly dependent on image pre-processing and model architecture. This study proposes a deep learning framework for multi-class skin disease classification, systematically evaluating three ima...
ID: 2508.04573v1 cs.CV
Авторы:

Marta Moscati, Ahmed Abdullah, Muhammad Saad Saeed, Shah Nawaz, Rohan Kumar Das, Muhammad Zaigham Zaheer, Junaid Mir, Muhammad Haroon Yousaf, Khalid Malik, Markus Schedl

**Резюме** В современных мультимодальных системах, таких как распознавание лиц и голоса, возникает необходимость коррелирующей работы с лицом и голосом. Особенно актуальной становится эта задача в многолокальных средах, где пользователи часто обмениваются между собой на разных языках. Для адресации этой проблемы был организован FAME 2026 Challenge, который сосредотачивается на рассмотрении проблемы ассоциации лица и голоса в многоязычных условиях. Проблема решается с помощью датасета MAV-Celeb, содержащего мультиязычные аудио-визуальные данные. Формируется базовая модель, основывающаяся на машинном обучении, для моделирования ассоциации лица и голоса в многоязычных условиях. Основные выводы: данная задача является важной для улучшения мультимодальных систем в реальном мире, а предложенные модели демонстрируют высокую точность и эффективность в условиях многоязычности.
Annotation:
The advancements of technology have led to the use of multimodal systems in various real-world applications. Among them, audio-visual systems are among the most widely used multimodal systems. In the recent years, associating face and voice of a person has gained attention due to the presence of unique correlation between them. The Face-voice Association in Multilingual Environments (FAME) 2026 Challenge focuses on exploring face-voice association under the unique condition of a multilingual sce...
ID: 2508.04592v1 cs.CV
Показано 11401 - 11410 из 11614 записей