📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 LA-CaRe-CNN: Cascading Refinement CNN for Left Atrial Scar Segmentation

2025-08-09

Авторы:

Franz Thaler, Darko Stern, Gernot Plank, Martin Urschler

**Резюме** Атриальная фибриляция (АФ) — наиболее распространенный вид кардиальных аритмий, для лечения которой может потребоваться аблационная терапия. Зачастую этот вид терапии включает целевую склеивание тканей сердца для предотвращения аритмий. Одним из ключевых элементов такого подхода является точная сегментация здоровой и сгнившей ткани сердца, чтобы создать персонализированные цифровые модели сердца. Однако эта задача оказывается сложной из-за переменного качества изображений LGE-MRI и существенных доменных различий. Мы предлагаем LA-CaRe-CNN — двухступенчатую 2D/3D-архитектуру на основе CNN, которая используется для точной сегментации левого атриума и левой атриальной сгнившей ткани. LA-CaRe-CNN построен на двух этапах: первый этап определяет левое атриум, а второй этап уточняет его сегментацию, используя информацию о сгнившей ткани. Для увеличения разнообразия обучающих данных мы применяем креативные методы усиления аугментации. Наши эксперименты показали, что LA-CaRe-CNN демонстрирует отличные показатели: ДСК 89,21% и АССД 1,6969 мм для левого атриума, а для сгнившей ткани — ДСК 64,59% и Г-ДСК 91,80%. Эти результаты подтверждают мощь алгоритма в подготовке персонализированных моделей сердца и могут способствовать развитию целевой терапии для лечения АФ.

Annotation:

Atrial fibrillation (AF) represents the most prevalent type of cardiac arrhythmia for which treatment may require patients to undergo ablation therapy. In this surgery cardiac tissues are locally scarred on purpose to prevent electrical signals from causing arrhythmia. Patient-specific cardiac digital twin models show great potential for personalized ablation therapy, however, they demand accurate semantic segmentation of healthy and scarred tissue typically obtained from late gadolinium enhance...

ID: 2508.04553v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Advanced Multi-Architecture Deep Learning Framework for BIRADS-Based Mammographic Image Retrieval: Comprehensive Performance Analysis with Super-Ensemble Optimization

2025-08-09

Авторы:

MD Shaikh Rahman, Feiroz Humayara, Syed Maudud E Rabbi, Muhammad Mahbubur Rashid

**Резюме** В статье предлагается расширенная разработка системы контент-базированного поиска маммографических изображений, ориентированной на точный классификационный матчинг по системе BIRADS, включающей пять классов. Это решение призвано устранить существующие ограничения в текущих исследованиях, такие как недостаточные размеры выборок, неподходящие схемы разбиения данных и недостаточное статистическое взаимосвязи, которые мешают клиническому применению. Разработанная фреймворк включает стратифицированное разбиение данных (50%/20%/30% для обучения, валидации и тестирования), регрессионные тесты с помощью штрих-кода, и 602 запросов для поиска. Использованы такие CNN-архитектуры, как DenseNet121, ResNet50 и VGG16, с развитыми тренировочными стратегиями, включая пунктуальное увеличение уровня точности, метрическое обучение и свертки в супер-конфигурации. Наиболее выдающимся результатом явился супер-конфигурация, которая достигла 36.33% precision@10 (95% CI: [34.78%, 37.88%]), что превосходит реалистические ожидания для 5-классового поиска BIRADS. Доказано, что этот подход представляет более эффективные архитектуры для клинического применения в диагностике и качественном контроле.

Annotation:

Content-based mammographic image retrieval systems require exact BIRADS categorical matching across five distinct classes, presenting significantly greater complexity than binary classification tasks commonly addressed in literature. Current medical image retrieval studies suffer from methodological limitations including inadequate sample sizes, improper data splitting, and insufficient statistical validation that hinder clinical translation. We developed a comprehensive evaluation framework sys...

ID: 2508.04790v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Toward Errorless Training ImageNet-1k

2025-08-09

Авторы:

Bo Deng, Levi Heath

В статье **"Toward Errorless Training ImageNet-1k"** авторы предлагают новый подход к обучению искусственных нейронных сетей с помощью метода, достигшего высокой точности 98,3% с приемлемым значением Top-1 (99,69%) на датасете ImageNet-1k. Основоположником нового подхода является устранение искажений в данных, что позволило свести к минимуму ошибки сети в ходе обучения. Однако авторы отмечают, что достижение 100% точности недостижимо из-за дублирования изображений с разными меток в наборе данных. Экспериментальные результаты показали, что модель с 322 миллионов параметров способна правильно классифицировать 285.9 меток в среднем за 10 партиций данных. Основной вывод — что ограничения в качестве данных остаются ключевым фактором, скорее всего, ограничивающим достижение идеальной точности.

Annotation:

In this paper, we describe a feedforward artificial neural network trained on the ImageNet 2012 contest dataset [7] with the new method of [5] to an accuracy rate of 98.3% with a 99.69 Top-1 rate, and an average of 285.9 labels that are perfectly classified over the 10 batch partitions of the dataset. The best performing model uses 322,430,160 parameters, with 4 decimal places precision. We conjecture that the reason our model does not achieve a 100% accuracy rate is due to a double-labeling pro...

ID: 2508.04941v1 cs.CV, cs.LG, 68T07

arXiv PDF

📄 CRAM: Large-scale Video Continual Learning with Bootstrapped Compression

2025-08-09

Авторы:

Shivani Mall, Joao F. Henriques

**Резюме** В статье предлагается метод CRAM (Continually Refreshed Amodal Memory) для решения проблемы внедрения нейронных сетей в среды с непрерывными потоками видеоданных. Одной из основных проблем в этой области является нехватка памяти для хранения больших объемов видеоданных, особенно при использовании методов ребуферизации. Авторы предлагают хранить не полноценные видео, а их компьютерно-визуальные коды (embeddings), что позволяет значительно снизить памятные требования. Однако проблема заключается в том, что обучение компрессора видео в режиме непрерывного обучения подвержено катастрофическому забыванию, что они решают путем обновления компрессора с помощью заархивированных версий старой модели. Разработанная схема была протестирована на больших наборах данных EpicKitchens-100 и Kinetics-700, где авторы доказали существенное превосходство CRAM по сравнению с предыдущими подходами, особенно при ограничениях на память.

Annotation:

Continual learning (CL) promises to allow neural networks to learn from continuous streams of inputs, instead of IID (independent and identically distributed) sampling, which requires random access to a full dataset. This would allow for much smaller storage requirements and self-sufficiency of deployed systems that cope with natural distribution shifts, similarly to biological learning. We focus on video CL employing a rehearsal-based approach, which reinforces past samples from a memory buffer...

ID: 2508.05001v1 cs.CV, cs.LG, cs.PF

arXiv PDF

📄 SPA++: Generalized Graph Spectral Alignment for Versatile Domain Adaptation

2025-08-09

Авторы:

Zhiqing Xiao, Haobo Wang, Xu Lu, Wentao Ye, Gang Chen, Junbo Zhao

Доменный адаптационный механизм (Domain Adaptation, DA) предназначен для передачи знаний из меток источника к немаркированным или частично маркированным целевым объектам при существенных доменных сдвигах. Однако большинство текущих подходов привязаны к улучшению междоменной трансферности, грозящей ухудшением дискриминативности внутри домена. Для решения этой проблемы предлагается SPA++, новая обобщенная фреймворк классификации графов по спектру, SPA++. Он решает две основные задачи: (1) — строит механизм общего графового выравнивания, основанный на графовых примитивах и инновационной спектральной регуляризации, чтобы выравнять в спектральных пространствах входные графы; (2) — улучшает дискриминативность в целевой области с помощью тонкой механизма пропагации соседних узлов. Дополнительно, новый подход интегрирует согласование с увеличением данных и консистентностью, обеспечивая устойчивость в сложных сценариях, включая трудные случаи распределения. Теоретические анализы и эксперименты показывают, что SPA++ значительно превосходит текущие лидеры в стабильности и наилучшей адаптации в различных ситуациях.

Annotation:

Domain Adaptation (DA) aims to transfer knowledge from a labeled source domain to an unlabeled or sparsely labeled target domain under domain shifts. Most prior works focus on capturing the inter-domain transferability but largely overlook rich intra-domain structures, which empirically results in even worse discriminability. To tackle this tradeoff, we propose a generalized graph SPectral Alignment framework, SPA++. Its core is briefly condensed as follows: (1)-by casting the DA problem to grap...

ID: 2508.05182v1 cs.CV, cs.LG

arXiv PDF

📄 Keep It Real: Challenges in Attacking Compression-Based Adversarial Purification

2025-08-09

Авторы:

Samuel Räber, Till Aczel, Andreas Plesner, Roger Wattenhofer

Атаки на аддитивные модели часто столкнулись с проблемой высокой реалистичности восстановленных изображений, которая существенно усложняет проведение атак. В статье "Keep It Real: Challenges in Attacking Compression-Based Adversarial Purification" авторы исследуют этот аспект, проводя разности атак против различных моделей сжатия изображений. Они выясняют, что модели, которые формируют высококачественные и реалистичные изображения, гораздо более устойчивы к атакам по сравнению с моделями, которые генерируют низкокачественные изображения. Эта устойчивость не связана с градиентным маскированием, а связана с дискретной структурой изображений, которая сохраняется в реалистичных моделях. Таким образом, модели, продуцирующие реалистичную продукцию, представляют собой значительную трудность для атак. Основным выводом статьи является то, что развитие технологий, которые могут преодолеть эту эволюцию, является ключевым заданием для создания эффективных методов защиты от атак в будущем.

Annotation:

Previous work has suggested that preprocessing images through lossy compression can defend against adversarial perturbations, but comprehensive attack evaluations have been lacking. In this paper, we construct strong white-box and adaptive attacks against various compression models and identify a critical challenge for attackers: high realism in reconstructed images significantly increases attack difficulty. Through rigorous evaluation across multiple attack scenarios, we demonstrate that compre...

ID: 2508.05489v1 cs.CV, cs.LG, eess.IV

arXiv PDF

📄 VCNet: Recreating High-Level Visual Cortex Principles for Robust Artificial Vision

2025-08-09

Авторы:

Brennen A. Hill, Zhang Xinyu, Timothy Putra Prasetio

Модели сверточных нейронных сетей (CNN), хотя и достигают высокой точности в задачах классификации изображений, обладают серьезными ограничениями: низкая эффективность использования данных, слабая обществойность за пределами обучающего набора и чувствительность к адверсарным направленным помехам. Работа основывается на том, что приматская визуальная система достигает эффективности и высокой устойчивости благодаря своей сложной структуре. В этой работе предлагается VCNet — модель, которая эмулирует биологические принципы работы визуального коры, включая горизонтальное и вертикальное процессинг, двойной поток информации и возвратные прогностические сигналы. Модель протестирована на двух специализированных датасетах: Spots-10 и задаче распознавания изображений в лучах. Результаты показали, что VCNet демонстрирует высокую точность классификации (92.1% на Spots-10 и 74.4% на лучах), превосходя сравнимые модели. Это доказывает, что интеграция природных принципов может привести к более эффективным и устойчивым моделям для решения проблем в машинном обучении.

Annotation:

Despite their success in image classification, modern convolutional neural networks (CNNs) exhibit fundamental limitations, including data inefficiency, poor out-of-distribution generalization, and vulnerability to adversarial perturbations. The primate visual system, in contrast, demonstrates superior efficiency and robustness, suggesting that its architectural principles may offer a blueprint for more capable artificial vision systems. This paper introduces Visual Cortex Network (VCNet), a nov...

ID: 2508.02995v1 cs.NE, cs.AI, cs.CV, cs.LG, 68T07, 68T45, 68U10, I.2.6; I.4.8; I.2.10; I.5.1

arXiv PDF

📄 Beyond the Leaderboard: Rethinking Medical Benchmarks for Large Language Models

2025-08-09

Авторы:

Zizhan Ma, Wenxuan Wang, Guo Yu, Yiu-Fai Cheung, Meidan Ding, Jie Liu, Wenting Chen, Linlin Shen

**Резюме** Появление больших языковых моделей (LLMs) в области медицины открыло новые возможности, но остается спорным из-за недостатка надежности оценочных бенчмарков. Большинство таких бенчмарков либо недостаточно приближены к реальной клинической практике, либо страдают от проблем с данными, такими как попадание контролируемых случаев в обучающие выборки. Для устранения этих проблем авторы предлагают MedCheck — первую разработку, ориентированную на жизненный цикл бенчмарков, с целью глубокого анализа их качества. MedCheck включает 46 критериев, разделенных на 5 этапов жизненного цикла бенчмарков, начиная от разработки и заканчивая государственным управлением. Исследователи применяют MedCheck к 53 LLM-бенчмаркам, выявляя серьезные проблемы, включая отсутствие связи с клинической практикой, риски данных из-за негативного воздействия и недостаток оценки стойкости моделей и их понимания неопределенности. Результаты показывают, что MedCheck может стать мощным инструментом для оценки и улучшения бенчмарков, способствуя более надежной и транспаренной оценке AI в медицине.

Annotation:

Large language models (LLMs) show significant potential in healthcare, prompting numerous benchmarks to evaluate their capabilities. However, concerns persist regarding the reliability of these benchmarks, which often lack clinical fidelity, robust data management, and safety-oriented evaluation metrics. To address these shortcomings, we introduce MedCheck, the first lifecycle-oriented assessment framework specifically designed for medical benchmarks. Our framework deconstructs a benchmark's dev...

ID: 2508.04325v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 Chain of Questions: Guiding Multimodal Curiosity in Language Models

2025-08-09

Авторы:

Nima Iji, Kia Dashtipour

**Резюме** В статье представлен фреймворк Chain of Questions (CoQ), расширяющий метод chain-of-thought для повышения логических и рациональных способностей в multimodal language models. Основная проблема заключается в том, что нынешние модели сталкиваются с трудностями при работе с multimodal data, не в состоянии активно выбирать и использовать информацию из разных модальностей (вид, звук, спациальная перцепция) для точного рассуждения. CoQ предлагает стратегию, в которой модель сама формирует и задает targeted questions, ориентируясь на потребности в конкретных модальностях для построения правильного решения. Результаты экспериментов на собственном multimodal датасете, объединяющем WebGPT, ScienceQA, AVSD и ScanQA, показали, что CoQ улучшает модельную точность, при этом увеличивая интерпретируемость и адекватность процесса рассуждения к задаче. Таким образом, CoQ демонстрирует свою эффективность в работе с multimodal сценариями, повышая качество интеллектуальных задач.

Annotation:

Reasoning capabilities in large language models (LLMs) have substantially advanced through methods such as chain-of-thought and explicit step-by-step explanations. However, these improvements have not yet fully transitioned to multimodal contexts, where models must proactively decide which sensory modalities such as vision, audio, or spatial perception to engage when interacting with complex real-world environments. In this paper, we introduce the Chain of Questions (CoQ) framework, a curiosity-...

ID: 2508.04350v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MA

arXiv PDF

📄 OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

2025-08-09

Авторы:

Xueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang, Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang, Fei Wu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие искусственного интеллекта приблизило человечество к реализации мечты о создании универсальных цифровых ассистентов, подобных J.A.R.V.I.S из киновселенной Marvel. Традиционные подходы к автоматизации задач ограничивались узкоспециализированными решениями, способными выполнять лишь предопределенный набор операций в строго контролируемых средах. Однако появление мультимодальных больших языковых моделей ((M)LLM) открыло принципиально новые возможности для создания агентов, способных взаимодействовать с вычислительными устройствами через стандартные интерфейсы пользователя, такие как графические интерфейсы (GUI). Ключевая проблема заключается в том, что современные операционные системы и приложения разработаны для человеческого взаимодействия, а не для машинной автоматизации. Это создает ряд фундаментальных вызовов: необходимость понимания визуального контента экрана, интерпретации семантики элементов интерфейса, планирования сложных многошаговых задач и адаптации к изменениям в интерфейсах различных приложений. Существующие решения либо требуют специализированного программирования под каждое приложение, либо обладают ограниченной обобщающей способностью. Особенно остро стоит проблема "grounding" - способности агента связать высокоуровневые инструкции на естественном языке с конкретными действиями в интерфейсе. Например, команда "отправь отчет менеджеру по электронной почте" требует понимания, где находится приложение почты, как прикрепить файл, как выбрать нужного получателя и множества других контекстно-зависимых действий. Эта проблема усугубляется разнообразием операционных систем, версий приложений и индивидуальных настроек пользователей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Статья предлагает комплексную системную методологию создания OS Agents - агентов, способных автономно управлять вычислительными устройствами через стандартные интерфейсы операционных систем. Методология базируется на трех фундаментальных компонентах: среда наблюдения, пространство действий и архитектура агента. Среда наблюдения представлена как мультимодальное пространство, включающее визуальную информацию экрана (screenshots), структурное представление интерфейса (accessibility tree), текстовый контент и историю взаимодействий. Для обработки этой информации используются специализированные MLLM, обученные на синтетических и реальных датасетах, содержащих пары "screenshot-описание-действие". Пространство действий охватывает все возможные способы взаимодействия с GUI: клики мышью, клавиатурный ввод, прокрутка, перетаскивание, а также системные действия (запуск приложений, переключение между окнами). Для обеспечения надежности действий используется двухуровневая система: высокоуровневое планирование генерирует последовательность абстрактных действий, которые затем конкретизируются на уровне grounding в конкретные координаты и типы взаимодействий. Архитектура агента включает четыре ключевых модуля: модуль понимания (переводит наблюдения в семантическое представление), модуль планирования (разбивает высокоуровневые задачи на последовательность действий), модуль grounding (сопоставляет действия с конкретными элементами интерфейса) и модуль исполнения (выполняет действия и контролирует их результат). Для эффективного обучения используется комбинация обучения с подкреплением, имитационного обучения и самостоятельного улучшения через взаимодействие со средой. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Оценка эффектiveness OS Agents проводилась на 15 специализированных бенчмарках, охватывающих различные сценарии использования: веб-навигация (Mind2Web, WebArena), работа с офисными приложенияами (OfficeBench), управление мобильными устройствами (AndroidControl) и сложные многоприложные сценарии (OSWorld). На бенчмарке Mind2Web, включающем 2000 задач веб-навигации, лучшие OS Agents достигли 65.2% точности, что на 23% превышает предыдущие методы. В более сложной среде WebArena с динамическими веб-сайтами достигнута точность 38.7%, приблизившись к человеческому уровню в 45.2%. Особенно впечатляющие результаты показаны в задачах многошаговой автоматизации: в среднем агенты справлялись с задачами, требующими 8-12 последовательных

Annotation:

The dream to create AI assistants as capable and versatile as the fictional J.A.R.V.I.S from Iron Man has long captivated imaginations. With the evolution of (multi-modal) large language models ((M)LLMs), this dream is closer to reality, as (M)LLM-based Agents using computing devices (e.g., computers and mobile phones) by operating within the environments and interfaces (e.g., Graphical User Interface (GUI)) provided by operating systems (OS) to automate tasks have significantly advanced. This p...

ID: 2508.04482v1 cs.AI, cs.CL, cs.CV, cs.LG

arXiv PDF

Показано 851 - 860 из 863 записей