📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Mobile-Friendly Deep Learning for Plant Disease Detection: A Lightweight CNN Benchmark Across 101 Classes of 33 Crops

2025-08-16

Авторы:

Anand Kumar, Harminder Pal Monga, Tapasi Brahma, Satyam Kalra, Navas Sherif

## Контекст Повсеместное влияние заболеваний растений на урожайность и качество продукции делает раннее обнаружение инфекций ключевым для обеспечения глобальной безопасности пищевых ресурсов. Однако существующие системы часто требуют высокоскоростных вычислений и огромных ресурсов, что не позволяет их эффективно использовать в реальных условиях. Нашим целью было разработка легковесной, мобильно-дружественной системы, которая была бы эффективной в реальном времени и пригодна для использования в сложных условиях. ## Метод Мы использовали свёрточные нейронные сети (CNN), оптимизированные для мобильных устройств. Для этого была создана интегративная база данных, объединяющая Plant Doc, PlantVillage и PlantWild, содержащие изображения растений со всего мира. Мы оценивали несколько моделей: MobileNetV2, MobileNetV3, MobileNetV3-Large и EfficientNet-B0,B1. Наши выборки разбивались на тренировочные и тестовые наборы, чтобы оценить точность и общую производительность. ## Результаты Эксперименты проводились на 101 классов заболеваний 33 растений. Мы использовали легковесные архитектуры, где EfficientNet-B1 показал наилучшие результаты с точностью 94.7%. Эта модель отличалась своей сбалансированностью между точностью и требованиями к ресурсам, что делает её идеальной для мобильных устройств. ## Значимость Наша система может быть использована для быстрого и точного диагностирования заболеваний в растениях. Она эффективна для мобильных устройств, позволяя использовать её в полевых условиях. Это может способствовать улучшению безопасности продукции и снижению урожаев. ## Выводы Мы доказали, что мобильные дебиты CNN могут эффективно применяться в реальном времени на мобильных устройствах. Будущие исследования будут ориентированы на улучшение моделей и их применение в различных сельскохозяйственных системах.

Annotation:

Plant diseases are a major threat to food security globally. It is important to develop early detection systems which can accurately detect. The advancement in computer vision techniques has the potential to solve this challenge. We have developed a mobile-friendly solution which can accurately classify 101 plant diseases across 33 crops. We built a comprehensive dataset by combining different datasets, Plant Doc, PlantVillage, and PlantWild, all of which are for the same purpose. We evaluated p...

ID: 2508.10817v1 cs.CV, cs.LG

arXiv PDF

📄 We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning

2025-08-16

Авторы:

Runqi Qiao, Qiuna Tan, Peiqing Yang, Yanzi Wang, Xiaowan Wang, Enhui Wan, Sitong Zhou, Guanting Dong, Yuchen Zeng, Yida Xu, Jie Wang, Chong Sun, Chen Li, Honggang Zhang

## Контекст В последние годы внимание ученых привлекалось к развитию алгоритмов с повышенным уровнем математического рассуждения. Однако, существующие методы часто сталкиваются с ограничениями в обработке сложных задач, недостаточной интеграцией знаний, или неэффективной моделировании пространства данных. Эти ограничения становятся причиной снижения работоспособности существующих систем. Для улучшения моделей математического рассуждения необходимо разрабатывать системы, которые не только оптимизируют данные, но и учитывают структуру знаний, а также применяют мощные методы машинного обучения. ## Метод Мы представляем We-Math 2.0 — универсальную систему, которая объединяет понятия математической системы знаний, моделирования пространства данных и использования методов машинного обучения. Система предлагает 5-уровневую структуру знаний, включающую 491 точек знаний и 1819 основных принципов. Она также включает два типа данных: MathBook-Standard, обеспечивающий широкий покрытие понятий, и MathBook-Pro, который предлагает 7 вариантов под 3-уровневой системой трудности. Для обучения мы предлагаем 2-ступенчатый алгоритм машинного обучения с подкреплением (RL), включающий (i) Cold-Start Fine-tuning для выравнивания модели с цепочкой мыслей, ориентированной на знания, и (ii) Progressive Alignment RL для улучшения прогресса в обучении на разных уровнях сложности. ## Результаты Используя эти компоненты, мы провели эксперименты на широко известных бенчмарках, таких как MathBookEval, а также на собственной математической тетради MathBook. Наши результаты показали, что We-Math 2.0 превосходит существующие модели по многим показателям, включая точность и скорость решения задач. Опробуемые параметры и выборка данных показали, что модель способна эффективно решать задачи, даже в условиях прогрессивного увеличения сложности. ## Значимость Мы видим широкие возможности применения We-Math 2.0 в области образования, искусственного интеллекта, и даже в профессиональной области математических вычислений. Эта система может помочь улучшить образовательные ресурсы, обеспечить более точное моделирование задач, и сделать математику более доступной для широкой аудитории. Будущие исследования будут направлены на расширение знаний, улучшение моделей, и расширение применений в новых областях. ## Выводы В итоге, We-Math 2.0 демонстрирует существенные достижения в области математических моделей, сочетая в себе систему знаний, моделирование пространства данных и новые методы обучения. Наши результаты показывают, что модель показывает высокую эффективность в решении сложных задач мате

Annotation:

Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities across various tasks, but still struggle with complex mathematical reasoning. Existing research primarily focuses on dataset construction and method optimization, often overlooking two critical aspects: comprehensive knowledge-driven design and model-centric data space modeling. In this paper, we introduce We-Math 2.0, a unified system that integrates a structured mathematical knowledge system, model-centric data ...

ID: 2508.10433v1 cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Agentic Design Review System

2025-08-16

Авторы:

Sayan Nag, K J Joseph, Koustava Goswami, Vlad I Morariu, Balaji Vasan Srinivasan

#### Контекст Оценка графических дизайнов требует оценки из нескольких ракурсов, включая аллигейшн, композицию, эстетику и выбор цветов. Этот процесс часто затрудняется личными предъявлениями и несогласованностью мнений. Настоящая работа адресована этим проблемам, предлагая Agentic Design Review System (AgenticDRS), где несколько агентов совместно анализируют дизайн под управлением мета-агента. Такой подход позволяет объединить различные взгляды и получить более объективную оценку. #### Метод AgenticDRS использует несколько центральных технологий. Во-первых, **новый метод выбора примеров в контексте**, основанный на графическом соотнешении, позволяет каждому агенту понять контекст своего выбора. Во-вторых, **метод расширения запросов**, применяемый для уточнения информации, помогает агентам адаптироваться к конкретным дизайнам. Мета-агент организует работу всех агентов, обеспечивая согласованность и точность результатов. #### Результаты Для проверки системы был разработан DRS-BENCH, который включает в себя разнообразные типы дизайнов и формулирований. Агенты AgenticDRS были сравнены с текущими состояниями технологии, и результаты показали, что система демонстрирует значительный прогресс в оценке дизайнов и формировании понятных, действительных рекомендаций. Эксперименты также подтвердили улучшение точности и уменьшение времени, необходимого для обработки задачи. #### Значимость AgenticDRS может быть применим в различных областях, включая дизайн, маркетинг и UX-дизайн. Его преимущества заключаются в том, что он обеспечивает более точную, объективную и многогранную оценку дизайна, что может повысить качество программных продуктов и уменьшить время разработки. #### Выводы AgenticDRS представляет собой эффективное решение для проблем оценки графических дизайнов, достигая этого с помощью современных методов машинного обучения и интеллектуальной организации работы. Будущие исследования будут сосредоточены на расширении функциональности системы, улучшении точности и её использовании в реальных задачах.

Annotation:

Evaluating graphic designs involves assessing it from multiple facets like alignment, composition, aesthetics and color choices. Evaluating designs in a holistic way involves aggregating feedback from individual expert reviewers. Towards this, we propose an Agentic Design Review System (AgenticDRS), where multiple agents collaboratively analyze a design, orchestrated by a meta-agent. A novel in-context exemplar selection approach based on graph matching and a unique prompt expansion method plays...

ID: 2508.10745v1 cs.AI, cs.CV, cs.LG, cs.MA, cs.MM

arXiv PDF

📄 Harnessing Input-Adaptive Inference for Efficient VLN

2025-08-15

Авторы:

Dongwoo Kang, Akhil Perincherry, Zachary Coalson, Aiden Gabriel, Stefan Lee, Sanghyun Hong

## Контекст **Вид-и-язык-навигация (VLN)** — это устойчиво развивающаяся область исследований, основывающаяся на использовании трансформеров для обработки визуальных и языковых сигналов. На данный момент, существуют модели, учитывающие историю действий и наблюдений, что позволяет роботу динамично адаптироваться во время пребывания в среде. Однако, эти модели часто являются ресурсоемкими, что негативно сказывается на их применении в реальных условиях с ограниченными вычислительными ресурсами. Целью нашего исследования является улучшение эффективности VLN-моделей без существенного снижения их производительности. ## Метод Мы предлагаем **input-adaptive navigation**, которая применяется на разных уровнях модели. 1) Для **снижения пространственных нагрузок**, мы применяем селективную обработку панорамных видов, обрабатывая только те, которые необходимы для понимания инструкции. 2) Для **улучшения внутренней модели**, предлагается **оптимизированная схема early-exit**, которая определяет момент выхода модели при достижении определенного уровня достоверности. 3) Для **уменьшения временных затрат**, мы вводим механизм кэширования, позволяющий избежать повторной обработки уже обработанных видов. Эти алгоритмы позволяют эффективно применять модели VLN в реальных условиях без существенных потерь в производительности. ## Результаты Мы проводили эксперименты на семь VLN-бенчмарков, включая стандартные и непрерывные среды. Использовались три различных офф-салф-агента. Мы показали, что наша методика позволяет уменьшить вычислительные затраты до двух раз в сравнении с базовыми агентами, сохранив высокую точность. Эти результаты доказывают эффективность нашего подхода в реальных условиях. ## Значимость Наш подход может быть применен в различных машинным зрению и языковым задачам, где необходима эффективность вычислений. Он позволяет экономить ресурсы, снижать задержки и улучшить применение моделей VLN в устройствах с ограниченными вычислительными ресурсами, таких как роботы, умные дома и автомобили. Это открывает новые возможности для эффективного использования технологий VLN в широком круге приложений. ## Выводы Мы представили фреймворм input-adaptive navigation, который увеличивает эффективность VLN-моделей на семи бенчмарках. Наши результаты показали, что модели могут быть эффективно использованы в реальных условиях без существенных потерь в производительности. Будущие исследования будут направлены на дальнейшее улучшение адаптивных методов и их применение в различных сценариях.

Annotation:

An emerging paradigm in vision-and-language navigation (VLN) is the use of history-aware multi-modal transformer models. Given a language instruction, these models process observation and navigation history to predict the most appropriate action for an agent. While they have significantly improved performance, the scale of these models can be a bottleneck in practical settings with limited computational resources. In this work, we propose a novel input-adaptive navigation method to enhance VLN m...

ID: 2508.09262v1 cs.CV, cs.LG

arXiv PDF

📄 DINOv3

2025-08-15

Авторы:

Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michaël Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothée Darcet, Théo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Hervé Jégou, Patrick Labatut, Piotr Bojanowski

#### Контекст Самостоятельное обучение (self-supervised learning, SSL) представляет собой мощный подход к обучению моделей без необходимости использовать маркированные данные. Он позволяет увеличивать модели до больших размеров и применять их к огромным массивам данных, не ограничиваясь частными задачами или доменами. Однако, несмотря на преимущества SSL, существуют значительные трудности, связанные с динамикой и хранением данных во время обучения, а также с эффективным использованием высококачественных входных данных. Эти ограничения приводят к проблемам с генерацией высококачественных и универсальных визуальных представлений. Данная работа адресует эти проблемы, предлагая DINOv3 — универсальную модель визуальных представлений, которая избавляет от необходимости оптимизации для конкретных задач и достигает выдающихся результатов в разных областях. #### Метод DINOv3 основывается на проработанной методологии подготовки данных, которая позволяет эффективно использовать большие массивы данных, в том числе с разным разрешением и типом. Одной из ключевых инноваций является метод "Gram anchoring", который решает проблему размытия детальных фич при продолжительном обучении. Дополнительно, DINOv3 вводит пост-хокт-стратегии, которые позволяют модели гибко реагировать на разные разрешения, модели различных размеров и углубленную интеграцию с текстовыми задачами. Архитектура DINOv3 основывается на продвинутых моделях самостоятельного обучения с вниманием (transformers) и включает в себя несколько экспериментальных модификаций для повышения эффективности и точности. #### Результаты Оценки DINOv3 проводились на множестве визуальных задач, включая задачи классификации, детектирования и сегментации. В сравнении с другими моделями, такими как DINOv2 и Swin Transformer, DINOv3 показала выдающиеся результаты, не только в разных конфигурациях, но и при разных уровнях ресурсов. Например, модель показала существенный прогресс в задачах обнаружения объектов, даже при ограничениях ресурсов. Результаты подтверждают, что DINOv3 способна достигать высоких показателей качества фич, даже при работе с небольшими датасетами и при небольшом числе параметров. Это делает ее очень эффективной для применения в практических сценариях, где требуется универсальность и эффективность. #### Значимость DINOv3 представляет собой значительный шаг в области обучения без маркированных данных. Она может использоваться в разных областях, таких как робототехника, медицина, аэросъемка и многие другие. Ее гибкость и высокое качество представлений делают ее привлекательной для применения в реальных системах, где необходима возможность самостоятельного обучения и работа с ра

Annotation:

Self-supervised learning holds the promise of eliminating the need for manual data annotation, enabling models to scale effortlessly to massive datasets and larger architectures. By not being tailored to specific tasks or domains, this training paradigm has the potential to learn visual representations from diverse sources, ranging from natural to aerial images -- using a single algorithm. This technical report introduces DINOv3, a major milestone toward realizing this vision by leveraging simpl...

ID: 2508.10104v1 cs.CV, cs.LG

arXiv PDF

📄 HyperKD: Distilling Cross-Spectral Knowledge in Masked Autoencoders via Inverse Domain Shift with Spatial-Aware Masking and Specialized Loss

2025-08-15

Авторы:

Abdul Matin, Tanjim Bin Faruk, Shrideep Pallickara, Sangmi Lee Pallickara

## Контекст В последние годы сфера распознавания объектов на спутниковых снимках получила бурное развитие, благодаря прорывным технологиям машинного обучения и их применению в обработке спутниковых снимков. Область исследования ограничена, однако, спектральными и спектрально-спациальными различиями между различными типами данных спутникового зонда. Кроме того, широкоразмерные наборы данных, необходимые для эффективного обучения, часто трудно доступны. Использование фундаментальных моделей (foundation models), обученных на больших неотмеченных данных, представляется эффективным решением для обеспечения универсальности и повторного использования моделей в различных применениях. Однако прямое использование таких моделей в спектральном зонде, таком как гиперспектральное зондирование, ограничено возникающими спектральными пробелами и сложностями в адаптации моделей к новому типу данных. ## Метод HyperKD представляет собой инновационный подход к порождению научных моделей, основанный на методе knowledge distillation (KD). Разработанная архитектура включает использование Masked Autoencoder (MAE) как преподавательской модели (teacher model) и студентской модели, призванной освоить новый тип данных. Основной характеристикой HyperKD является его возможность обратного передачи знаний (inverse knowledge distillation), в отличие от традиционных фреймворков KD, где сложная модель (teacher) обучает простую (student). Для решения проблемы инверсного доменного перехода (inverse domain shift) в гиперспектральном зондировании, HyperKD включает в себя специальные стратегии: 1. **Спектрально-ориентированное выравнивание каналов**: Оптимизация спектральной аллея каналов входных данных для соответствия новому типу данных. 2. **Маскирование с привязкой к пространству**: Использование пространственной структуры снимков для восстановления информации об отдельных объектах. 3. **Специализированный функционал потерь**: Разработка уникальной функции потерь, специально ориентированной на гиперспектральные данные для повышения точности воспроизведения. ## Результаты Исследования проводились на наборе данных EnMAP (Environmental Mapping and Analysis Program), нацеленных на сравнение HyperKD с основными фреймворками KD в области гиперспектрального зондирования. Для оценки модели были использованы метрики, такие как F1-score и mean absolute error (MAE), на задачах классификации покрытия земли (land cover classification), определения типов урожая (crop type identification) и прогнозирования содержания углерода в почве (soil organic carbon prediction). Результаты показали, что HyperKD превосходит другие модели по эффективности воспроизведения и точности классификации, получая более высокие метрики на всех задачах. ## Значимость Приложение HyperKD

Annotation:

The proliferation of foundation models, pretrained on large-scale unlabeled datasets, has emerged as an effective approach in creating adaptable and reusable architectures that can be leveraged for various downstream tasks using satellite observations. However, their direct application to hyperspectral remote sensing remains challenging due to inherent spectral disparities and the scarcity of available observations. In this work, we present HyperKD, a novel knowledge distillation framework that ...

ID: 2508.09453v1 cs.CV, cs.LG

arXiv PDF

📄 NEURAL: Attention-Guided Pruning for Unified Multimodal Resource-Constrained Clinical Evaluation

2025-08-15

Авторы:

Devvrat Joshi, Islem Rekik

## Контекст Развитие медицинских импульсных технологий и видеоанализа требует эффективных алгоритмов обработки и извлечения информации из больших многомодальных медицинских наборов данных. Одной из самых серьезных проблем в этой области является нехватка ресурсов для хранения и передачи данных, особенно в условиях ограниченных ресурсов в клинических средах. В этом контексте необходимо разработать методы, позволяющие сократить размер данных, сохранив качество и достоверность диагностических задач. Многомодальные модели визионных языков, такие как нейросети, широко применяются для извлечения фичей и моделирования информации, но часто требуют большого объема памяти, что не подходит для ресурсобедержательных сред. ## Метод Мы предлагаем NEURAL (Novel Efficient Unified Resource-Constrained Attention-Guided Learning) — рамочный подход, который использует аннотации к синтезированным зрениям и текстовым отчетам для структурного уплотнения данных. Основная идея заключается в том, чтобы использовать cross-attention scores между изображением и текстовым отчетом, полученными из оптимизированной модели скрытых визуальных и языковых слоев. Эти scores определяют ключевые регионы в изображении, которые необходимо сохранить для диагностических целей. Затем эти регионы преобразуются в графовую структуру, где каждый узел представляет собой ключевую область изображения, а ребра — связи между ними. Этот граф интегрируется с классическими классическими знаниями, создавая универсальную структуру данных, уменьшая размер и повышая эффективность обработки. ## Результаты Мы проверили NEURAL на двух клинических наборах данных: MIMIC-CXR и CheXpert Plus, ориентированных на диагностику бронхит. Улучшение в производительности было достигнуто в сравнении с традиционными методами, которые не учитывали структурное уплотнение. Наш подход позволил достичь 93.4-97.7% сжатия изображений с поддержкой высокого уровня диагностической точности (AUC 0.88-0.95). Этот результат выше, чем у альтернативных подходов, которые используют несжатые данные. Кроме того, мы продемонстрировали, что NEURAL эффективно работает в ресурсораспределенных системах, где ограничения на ресурсы значительно влияют на производительность. ## Значимость Наша работа может быть применена в системах медицинского видеоанализа, где необходимо эффективно хранить и обрабатывать данные, подходящие для различных клинических задач. Метод NEURAL обеспечивает высокую эффективность и качество диагностики, что может повысить качество работы в клинических условиях, особенно в условиях нехватки ресурсо

Annotation:

The rapid growth of multimodal medical imaging data presents significant storage and transmission challenges, particularly in resource-constrained clinical settings. We propose NEURAL, a novel framework that addresses this by using semantics-guided data compression. Our approach repurposes cross-attention scores between the image and its radiological report from a fine-tuned generative vision-language model to structurally prune chest X-rays, preserving only diagnostically critical regions. This...

ID: 2508.09715v1 cs.CV, cs.LG

arXiv PDF

📄 Multimodal Sheaf-based Network for Glioblastoma Molecular Subtype Prediction

2025-08-15

Авторы:

Shekhnaz Idrissova, Islem Rekik

## Контекст Glioblastoma — опухоль крайне высокой выраженности, развивающаяся в мозгу с повышенной скоростью перераспространения. Она является одной из самых тяжелых и роковых видов опухолей мозга. Раннее и точное определение молекулярных подтипов glioblastoma не только повышает шансы на выживание пациентов, но и позволяет выбрать эффективную целевую терапию. Однако, сегодняшние методы классификации молекулярных подтипов этой опухоли в основном основываются на инвазивном извлечении и анализе ткани, что требует дорогостоящих и временно затратных процедур. Это способствует развитию интереса к методам виртуального биопсии, которые могут обеспечить быстрый и точный диагноз без необходимости инвазивных методов. Несмотря на развитие методов многомодального анализа, существующие подходы, комбинирующие MRI и изображения гистопатологического материала, имеют ограниченности и недостаточно эффективны в условиях отсутствия данных или их неполноте. ## Метод Мы предлагаем новую модель — Multimodal Sheaf-based Network (MMSN) — основанную на концепции множественных модальностей и графовых структур. Фреймворк призван решить проблему несогласованности и неполноты данных, связанную с многомодальным подходом к классификации. Наше решение включает: - **Построение многомодальных графов**, где вершины представляют регионы мозга, а ребра — связи между ними; - **Использование конструкции святой книги (sheaf)** для гарантии локальной и глобальной консистентности данных; - **Процедуры восстановления данных**, позволяющие учесть отсутствующие или неполные модальности; - **Многоуровневый фильтрационный механизм** для сохранения дискриминативных особенностей в графах. ## Результаты Мы провели эксперименты на реальных данных с классификацией молекулярных подтипов glioblastoma. Модель MMSN была сравнена с основными алгоритмами, такими как graph convolutional networks и multimodal graph attention networks. Результаты показали, что MMSN: - Обеспечивает более высокую точность классификации, особенно в условиях отсутствия или неполноты данных; - Эффективно интегрирует информацию из MRI и гистопатологических изображений; - Показывает высокую устойчивость при обработке нестандартных ситуаций, таких как удаление ребер или модальностей. ## Значимость Разрабатываемый подход имеет широкие приложения в медицине, в том числе для виртуального биопсии, улучшения диагностики и выбора терапии. Основные преимущества MMSN: - **Улучшенная точность классификации**, даже при отсутствии данных; - **Устойчивость к неполноте** или отсутствию модальности; - **Простота и э

Annotation:

Glioblastoma is a highly invasive brain tumor with rapid progression rates. Recent studies have shown that glioblastoma molecular subtype classification serves as a significant biomarker for effective targeted therapy selection. However, this classification currently requires invasive tissue extraction for comprehensive histopathological analysis. Existing multimodal approaches combining MRI and histopathology images are limited and lack robust mechanisms for preserving shared structural informa...

ID: 2508.09717v1 cs.CV, cs.LG

arXiv PDF

📄 Stable Diffusion Models are Secretly Good at Visual In-Context Learning

2025-08-15

Авторы:

Trevine Oorloff, Vishwanath Sindagi, Wele Gedara Chaminda Bandara, Ali Shafahi, Amin Ghiasi, Charan Prakash, Reza Ardekani

#### Контекст Нейронные сети, особенно языковые модели, демонстрируют всесторонний потенциал в области обучения с примерами (in-context learning, ICL) — способность использовать примерные задачи для адаптации к новым задачам без необходимости изменять веса модели. Эта область исследований в глубинных нейронных сетях постоянно пополняется новыми результатами. Однако в области компьютерного зрения (computer vision) проблема ICL остается значительно недооцененной. Особенностью данного подхода является необходимость в специальной обучающей постановке и дополнительных данных, что ограничивает его широкое применение. Мы предлагаем исследовать возможности ресурса, оказавшегося доступным для пользования, — Stable Diffusion моделей, используя их для решения задач в области компьютерного зрения. #### Метод Мы предлагаем алгоритм, основанный на внедрении возможности добавления контекстной информации в слои self-attention сети Stable Diffusion. Наша реализация включает в себя модификацию связей между входными примерами и запросами (queries), что позволяет модели лучше понять связи между задачами. Мы используем стандартные архитектуры Stable Diffusion без допустимого улучшения, устанавливая таким образом новый подход к ICL в компьютерном зрении. Это приводит к более гибкой модели, которая может использоваться для множества задач, включая категоризацию, ограничение объекта, сегментацию, распознавание ключевых точек, а также другие. Мы тестируем наши модели на различных данных, включая Pascal-5i и COCO. #### Результаты Мы проводим эксперименты, в которых проверяем возможность Stable Diffusion моделей для различных задач визуального ICL, включая сегментацию, распознавание ограничивающих граней, и другие. Мы сравниваем наши результаты с современными методами, такими как Visual Prompting и IMProv. На Pascal-5i данный метод показывает существенное улучшение в метрике mIoU (mean intersection over union) на 8.9% по сравнению с Visual Prompting и на 3.2% по сравнению с IMProv. Таким образом, мы доказываем, что модель Stable Diffusion может эффективно использоваться для ICL в компьютерном зрении, не требуя дополнительных изменений в модели. #### Значимость Наша работа демонстрирует возможность эффективного использования внедрения контекста в существующие модели для решения задач визуального ICL. Это открывает широкие возможности для применения в задачах, требующих быстрой адаптации к новым задачам. Также мы показываем, что наш подход эффективно использует множество примеров для улучшения результатов. Это делает наш метод привлекательным для промышленных применений, где необходим быстрый переход между задачами и эффективность ресурсов. #### Выводы Мы доказываем, что Stable Diffusion модели могут бы

Annotation:

Large language models (LLM) in natural language processing (NLP) have demonstrated great potential for in-context learning (ICL) -- the ability to leverage a few sets of example prompts to adapt to various tasks without having to explicitly update the model weights. ICL has recently been explored for computer vision tasks with promising early outcomes. These approaches involve specialized training and/or additional data that complicate the process and limit its generalizability. In this work, we...

ID: 2508.09949v1 cs.CV, cs.LG

arXiv PDF

📄 Real-time deep learning phase imaging flow cytometer reveals blood cell aggregate biomarkers for haematology diagnostics

2025-08-15

Авторы:

Kerem Delikoyun, Qianyu Chen, Liu Wei, Si Ko Myo, Johannes Krell, Martin Schlegel, Win Sen Kuan, John Tshon Yit Soong, Gerhard Schneider, Clarissa Prazeres da Costa, Percy A. Knolle, Laurent Renia, Matthew Edward Cove, Hwee Kuan Lee, Klaus Diepold, Oliver Hayden

## Контекст Анализ редких кровных агрегатов является важной задачей в гематологических исследованиях, так как эти структуры могут существенно улучшить методы диагностики без применения меток. Существующие автоматизированные системы гематологической диагностики, такие как традиционные потоковые цитометры, эффективно подсчитывают клеточки и выделяют их дифференциалы, но не могут распознавать кровных агрегатов, что приводит к необходимости вручную проверять результаты. Это ограничивает мощность технологий цитометрии и снижает их полезность в клинической практике. Была предложена новая технология, которая использует цифровую хологовой микроскопию (DHM) для измерения кровных клеток. Однако применение этой технологии в клинической практике столкнулось с проблемами, такими как большой объем данных и требование к офлайн-обработке. Необходимо разработать систему, которая могла бы решить эти проблемы и внести полезные кровных агрегатов в гематологические панели диагностики. ## Метод Кровные клетки были изображены с помощью цифровой хологовой микроскопии (DHM), которая предоставляет детальные фотографии каждой клетки в трехмерных графах. Для создания модели глубокого обучения для распознавания агрегатов была разработана методология, основанная на энд-то-энд дал мейн обучении. Метод представляет каждую клетку как граф, где узлы соответствуют отдельным кровным клеткам, а ребра - связям между ними. Для обработки больших объемов данных было разработано deep learning-based image processing framework RT-HAD, которое обрабатывает более 30 Гб изображений в реальном времени, используя разработанную архитектуру для быстрого детектирования агрегатов. Такой подход позволяет решать проблему большого объема данных, которая ставила препятствия для клинического применения цитометрии. ## Результаты В ходе исследований был проведен эксперимент с использованием RT-HAD для распознавания кровных агрегатов. Были изучены несколько случаев, включая анализ гематологических агрегатов, таких как лейкоциты и миелоциты, а также агрегаты тромбоцитов. Данные были обработаны в реальном времени, и обнаружены агрегаты с ошибкой в 8.9%. Это значение соответствует приемлемым ошибкам, принятым в лабораторных условиях для диагностики. Было показано, что RT-HAD позволяет не только быстро обрабатывать большие объемы данных, но и уменьшить время отведенное на офлайн-обработку, что решает проблему большого данных в клинической практике. ## Значимость Исследования RT-HAD открывают новые возможности для точечной диагностики, вкл

Annotation:

While analysing rare blood cell aggregates remains challenging in automated haematology, they could markedly advance label-free functional diagnostics. Conventional flow cytometers efficiently perform cell counting with leukocyte differentials but fail to identify aggregates with flagged results, requiring manual reviews. Quantitative phase imaging flow cytometry captures detailed aggregate morphologies, but clinical use is hampered by massive data storage and offline processing. Incorporating h...

ID: 2508.09215v1 q-bio.QM, cs.AI, cs.CV, cs.LG, eess.IV

arXiv PDF

1
2
76
77
78
79
80
83
84

Показано 771 - 780 из 835 записей