📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 EVTP-IVS: Effective Visual Token Pruning For Unifying Instruction Visual Segmentation In Multi-Modal Large Language Models

2025-08-19

Авторы:

Wenhui Zhu, Xiwen Chen, Zhipeng Wang, Shao Tang, Sayan Ghosh, Xuanzhao Dong, Rajat Koner, Yalin Wang

#### Контекст В последние годы появились многомодальные большие языковые модели (MLLMs), которые оперируют несколькими типами данных, включая текст и изображения. Одной из ключевых задач, с которой сталкиваются такие модели, является Instructed Visual Segmentation (IVS), или указательная визуальная сегментация. Задача IVS заключается в том, чтобы выделить объекты на изображении или видео в соответствии с естественным языковым запросом. Несмотря на то, что MLLMs достигли высокой точности в IVS, их высокий косвенный затратный порог, особенно при работе с видео, остается значительной проблемой. Это ограничение становится все более актуальным в ситуациях, требующих реального времени. В этой статье мы исследуем эффективность визуальных токенов в MLLMs и разрабатываем метод, который позволяет сократить накладные расходы без существенного ущерба качеству. #### Метод Мы предлагаем на основе EVTP-IVS, новый метод эффективной визуальной токен-прайзинг, который оптимизирует выбор токенов для того, чтобы сохранить максимальную информативность с минимальным количеством токенов. Метод основывается на алгоритме k-center, который включает в себя специальные техники для учета пространственной информации. Это позволяет гарантировать представительность выделяемых областей изображения или видео. Мы также применяем информационно-теоретический анализ, который подтверждает эффективность нашего подхода. Решение EVTP-IVS целенаправленно уменьшает требования к вычислительным ресурсам без потери качества, что делает его пригодным для применения в реальном времени. #### Результаты Мы провести эксперименты на нескольких стандартных IVS-benchmarks, включая образцы изображений и видео. Наши результаты показывают, что EVTP-IVS дает скорость выполнения задачи до 5 раз выше на видео-задачах и до 3,5 раз на изображениях, сохранив при этом около 80% токенов. Это приводит к значительной экономии времени и ресурсов при сохранении высокой точности. Метод EVTP-IVS также показал лучшие результаты по сравнению с другими методами упрощения вывода, в том числе с теми, которые используют более сложные архитектуры или методы. #### Значимость Предлагаемый метод EVTP-IVS имеет широкие возможности применения в сферах, требующих высокой производительности и эффективности. Например, это может быть использовано в робототехнике, автоматизированной работе, в задачах анализа видео на требовательных устройствах или в ситуациях, где ресурсы вычислений ограничены. Наш подход не только уменьшает стоимость вычислений, но и улучшает производительность в реальном времени, что открывает

Annotation:

Instructed Visual Segmentation (IVS) tasks require segmenting objects in images or videos based on natural language instructions. While recent multimodal large language models (MLLMs) have achieved strong performance on IVS, their inference cost remains a major bottleneck, particularly in video. We empirically analyze visual token sampling in MLLMs and observe a strong correlation between subset token coverage and segmentation performance. This motivates our design of a simple and effective toke...

ID: 2508.11886v1 cs.CV, cs.AI, cs.CL, cs.LG, eess.IV

arXiv PDF

📄 Real-time deep learning phase imaging flow cytometer reveals blood cell aggregate biomarkers for haematology diagnostics

2025-08-15

Авторы:

Kerem Delikoyun, Qianyu Chen, Liu Wei, Si Ko Myo, Johannes Krell, Martin Schlegel, Win Sen Kuan, John Tshon Yit Soong, Gerhard Schneider, Clarissa Prazeres da Costa, Percy A. Knolle, Laurent Renia, Matthew Edward Cove, Hwee Kuan Lee, Klaus Diepold, Oliver Hayden

## Контекст Анализ редких кровных агрегатов является важной задачей в гематологических исследованиях, так как эти структуры могут существенно улучшить методы диагностики без применения меток. Существующие автоматизированные системы гематологической диагностики, такие как традиционные потоковые цитометры, эффективно подсчитывают клеточки и выделяют их дифференциалы, но не могут распознавать кровных агрегатов, что приводит к необходимости вручную проверять результаты. Это ограничивает мощность технологий цитометрии и снижает их полезность в клинической практике. Была предложена новая технология, которая использует цифровую хологовой микроскопию (DHM) для измерения кровных клеток. Однако применение этой технологии в клинической практике столкнулось с проблемами, такими как большой объем данных и требование к офлайн-обработке. Необходимо разработать систему, которая могла бы решить эти проблемы и внести полезные кровных агрегатов в гематологические панели диагностики. ## Метод Кровные клетки были изображены с помощью цифровой хологовой микроскопии (DHM), которая предоставляет детальные фотографии каждой клетки в трехмерных графах. Для создания модели глубокого обучения для распознавания агрегатов была разработана методология, основанная на энд-то-энд дал мейн обучении. Метод представляет каждую клетку как граф, где узлы соответствуют отдельным кровным клеткам, а ребра - связям между ними. Для обработки больших объемов данных было разработано deep learning-based image processing framework RT-HAD, которое обрабатывает более 30 Гб изображений в реальном времени, используя разработанную архитектуру для быстрого детектирования агрегатов. Такой подход позволяет решать проблему большого объема данных, которая ставила препятствия для клинического применения цитометрии. ## Результаты В ходе исследований был проведен эксперимент с использованием RT-HAD для распознавания кровных агрегатов. Были изучены несколько случаев, включая анализ гематологических агрегатов, таких как лейкоциты и миелоциты, а также агрегаты тромбоцитов. Данные были обработаны в реальном времени, и обнаружены агрегаты с ошибкой в 8.9%. Это значение соответствует приемлемым ошибкам, принятым в лабораторных условиях для диагностики. Было показано, что RT-HAD позволяет не только быстро обрабатывать большие объемы данных, но и уменьшить время отведенное на офлайн-обработку, что решает проблему большого данных в клинической практике. ## Значимость Исследования RT-HAD открывают новые возможности для точечной диагностики, вкл

Annotation:

While analysing rare blood cell aggregates remains challenging in automated haematology, they could markedly advance label-free functional diagnostics. Conventional flow cytometers efficiently perform cell counting with leukocyte differentials but fail to identify aggregates with flagged results, requiring manual reviews. Quantitative phase imaging flow cytometry captures detailed aggregate morphologies, but clinical use is hampered by massive data storage and offline processing. Incorporating h...

ID: 2508.09215v1 q-bio.QM, cs.AI, cs.CV, cs.LG, eess.IV

arXiv PDF

📄 OpenHAIV: A Framework Towards Practical Open-World Learning

2025-08-13

Авторы:

Xiang Xiang, Qinhao Zhou, Zhuo Xu, Jing Ma, Jiaxin Dai, Yifan Liang, Hanlin Li

## Контекст Открытый мир (open-world) — это многопрофильная область исследований, которая направлена на обнаружение и обработку неизвестных классов в данных. Открытый мир отличается от стандартных сценариев, где модели обучаются только на известных классах. В открытом мире необходимо обнаруживать неизвестные классы и обновлять модель в режиме реального времени. Существующие методы, такие как OOD-обнаружение и инкрементное обучение, сталкиваются с проблемами: OOD-обнаружение не обновляет знания модели, а инкрементное обучение требует наличия меток для новых классов, что не соответствует открытому миру. Наличие этих проблем подчеркивает необходимость разработки универсального подхода, который мог бы объединить OOD-обнаружение, обнаружение новых классов и инкрементное обучение в единое целое. ## Метод OpenHAIV представляет собой инновационный фреймворк, который решает вышеуказанные проблемы. Он состоит из трех основных компонентов: 1. **OOD-обнаружение (Out-of-Distribution Detection):** Этот компонент позволяет модели определять новые классы в данных. 2. **Обнаружение новых классов (New Class Discovery):** Этот модуль использует OOD-обнаруженные данные для выделения и обработки новых классов. 3. **Инкрементное обучение (Incremental Continual Fine-tuning):** Этот модуль обновляет модель, используя обнаруженные новые классы, и позволяет ей продолжительно обучаться в открытом мире. Технология OpenHAIV лежит в основе модели представления, объединяющей эти компоненты в единую целостную систему. ## Результаты Эксперименты проводились на стандартных датасетах, в том числе CIFAR-100, ImageNet или TinyImageNet. Открытый мир был воспроизведен, добавляя неизвестные классы во время выполнения. Результаты показали, что OpenHAIV превосходит существующие методы в обнаружении неизвестных классов, в новом классе обнаружения и сохранении модели на протяжении длительного времени. Открытый код и результаты доступны на сайте https://haiv-lab.github.io/openhaiv . ## Значимость OpenHAIV открывает новые возможности в широких областях применения, таких как робототехника, медицина, анализ данных и мониторинг сетей. Он позволяет моделям не только распознавать данные, но и адаптироваться к новым условиям в реальном времени. Это предоставляет потенциал для улучшения производительности в сложных интеллектуальных системах. ## Выводы OpenHAIV представляет собой новую модель, которая объединяет OOD-обнаружение, обнаружение новых классов и инкрементное обучение. Это решение развивает открытый мир, расширяя возможности моделей в реальном времени. Будущие исследования будут направлены на улучшение эффективности фреймворка, а также на расширение его применения в разли

Annotation:

Substantial progress has been made in various techniques for open-world recognition. Out-of-distribution (OOD) detection methods can effectively distinguish between known and unknown classes in the data, while incremental learning enables continuous model knowledge updates. However, in open-world scenarios, these approaches still face limitations. Relying solely on OOD detection does not facilitate knowledge updates in the model, and incremental fine-tuning typically requires supervised conditio...

ID: 2508.07270v1 cs.CV, cs.AI, cs.LG, eess.IV, stat.ML

arXiv PDF

📄 Sparsity and Total Variation Constrained Multilayer Linear Unmixing for Hyperspectral Imagery

2025-08-09

Авторы:

Gang Yang

**Резюме** В статье предлагается новая методика для многоуровневого линейного размешивания в hyperspectral imagery, которая основывается на многоуровневой модели факторизации матриц. Метод, названный Sparsity and Total Variation Constrained Multilayer Linear Unmixing (STVMLU), расширяет стандартные подходы к размешиванию, внедряя два ключевых ограничения. Первое — спарсинговое ограничение (L1/2-норма), нацеленное на эффективное характеризуя спарсность матрицы абундансов. Второе — ограничение на полноту (TV), которое учитывает соседственные пространственные схожести в изображении. Эти ограничения позволяют улучшить точность распределения абундансов и структуры материалов в изображении. Решение основывается на методе ADMM (Alternating Direction Method of Multipliers), который обеспечивает эффективную оптимизацию. Эксперименты показали, что предложенный подход превосходит другие алгоритмы, демонстрируя лучшую точность и стабильность в размешивании.

Annotation:

Hyperspectral unmixing aims at estimating material signatures (known as endmembers) and the corresponding proportions (referred to abundances), which is a critical preprocessing step in various hyperspectral imagery applications. This study develops a novel approach called sparsity and total variation (TV) constrained multilayer linear unmixing (STVMLU) for hyperspectral imagery. Specifically, based on a multilayer matrix factorization model, to improve the accuracy of unmixing, a TV constraint ...

ID: 2508.03403v1 cs.CV, cs.LG, eess.IV

arXiv PDF

📄 Keep It Real: Challenges in Attacking Compression-Based Adversarial Purification

2025-08-09

Авторы:

Samuel Räber, Till Aczel, Andreas Plesner, Roger Wattenhofer

Атаки на аддитивные модели часто столкнулись с проблемой высокой реалистичности восстановленных изображений, которая существенно усложняет проведение атак. В статье "Keep It Real: Challenges in Attacking Compression-Based Adversarial Purification" авторы исследуют этот аспект, проводя разности атак против различных моделей сжатия изображений. Они выясняют, что модели, которые формируют высококачественные и реалистичные изображения, гораздо более устойчивы к атакам по сравнению с моделями, которые генерируют низкокачественные изображения. Эта устойчивость не связана с градиентным маскированием, а связана с дискретной структурой изображений, которая сохраняется в реалистичных моделях. Таким образом, модели, продуцирующие реалистичную продукцию, представляют собой значительную трудность для атак. Основным выводом статьи является то, что развитие технологий, которые могут преодолеть эту эволюцию, является ключевым заданием для создания эффективных методов защиты от атак в будущем.

Annotation:

Previous work has suggested that preprocessing images through lossy compression can defend against adversarial perturbations, but comprehensive attack evaluations have been lacking. In this paper, we construct strong white-box and adaptive attacks against various compression models and identify a critical challenge for attackers: high realism in reconstructed images significantly increases attack difficulty. Through rigorous evaluation across multiple attack scenarios, we demonstrate that compre...

ID: 2508.05489v1 cs.CV, cs.LG, eess.IV

arXiv PDF

📄 Automatic Image Colorization with Convolutional Neural Networks and Generative Adversarial Networks

2025-08-09

Авторы:

Ruiyu Li, Changyuan Qiu, Hangrui Cao, Qihan Ren, Yuqing Qiu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Задача автоматической раскраски изображений представляет собой один из наиболее интригующих вызовов в области компьютерного зрения, находящий применение в восстановлении старых фотографий, создании анимации, улучшении медицинской визуализации и кинематографии. Процесс заключается в добавлении реалистичных цветов к черно-белым изображениям, при этом две трети информации о цвете (составляющие U и V в пространстве YUV) безвозвратно утрачены. Это создает принципиальную неоднозначность задачи, поскольку один и тот же объект может иметь множество правдоподобных цветовых вариаций - например, автомобиль может быть красным, синим или зеленым без нарушения реальности. Традиционные подходы воспринимали раскраску как задачу регрессии, где модель предсказывает точные значения цветов. Однако такое формулирование игнорирует мультимодальную природу цветового восприятия - один объект может иметь множество допустимых цветовых решений. Более того, регрессионные методы стремятся к усреднению возможных вариантов, что приводит к тусклым, ненасыщенным результатам. Современные исследования показывают, что семантика сцены и текстурные особенности могут служить мощными подсказками для определения цветов: небо обычно голубое, трава зеленая, а облака белые. Доступность больших массивов обучающих данных (любое цветное изображение может быть использовано для обучения путем его обесцвечивания) создает уникальные возможности для обучения статистических приоров. Авторы работы предлагают переосмыслить задачу раскраски не как регрессию, а как задачу классификации с использованием состязательного обучения, что позволяет учесть мультимодальность цветового пространства и генерировать более реалистичные результаты. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предложенный метод представляет собой гибридную архитектуру, объединяющую сверточные нейронные сети (CNN) и генеративно-состязательные сети (GAN) для решения задачи автоматической раскраски. В основе подхода лежит переход от регрессии к классификации цветового пространства с дискретизацией цветов в 313 бина в пространстве CIE Lab, что позволяет формализовать задачу как многоклассовую классификацию. Генератор представляет собой энкодер-декодер архитектуру на основе CNN, где энкодер использует предобученную сеть ResNet для извлечения высокоуровневых признаков из черно-белого изображения. Декодер представляет собой последовательность транспонированных сверток с пропусками (skip connections) для восстановления пространственного разрешения. Особенностью является использование dilated convolutions для увеличения рецептивного поля без потери разрешения, что критично для захвата глобального контекста изображения. Дискриминатор реализован как PatchGAN - сеть, классифицирующая реальность отдельных патчей изображения размером 70x70 пикселей вместо всего изображения целиком. Это позволяет модели сосредоточиться на локальных текстурах и деталях, что особенно важно для раскраски. Для стабилизации обучения используется WGAN-GP loss с градиентной пенализацией. Ключевой инновацией является внедрение механизма внимания на уровне признаков, который позволяет модели динамически приоритизировать различные части изображения при генерации цветов. Дополнительно используется perceptual loss на основе признаков предобученной сети VGG для сохранения перцептуального сходства между раскрашенным и реальным изображениями. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на нескольких датасетах различной природы: ImageNet (1.2 миллиона изображений), COCO-stuff (164 тысячи изображений с детальной сегментацией) и специально подготовленном наборе анимационных кадров. Для обучения использовались 90% данных, оставшиеся 10% - для валидации и тестирования. Все изображения были предварительно обработаны: изменены до разрешения 256x256 пикселей, нормализованы и преобразованы в пространство CIE Lab для разделения яркости и цветовой информации. Основными метриками качества служили Fréchet Inception Distance (FID) для оценки реалистичности результатов, Peak Signal-to-Noise Ratio (PSNR) для измерения точности восстановления, а также усредненная пользовательская оценка через A/B тестирование с участием 100 добровольцев. Предложенный метод достиг F

Annotation:

Image colorization, the task of adding colors to grayscale images, has been the focus of significant research efforts in computer vision in recent years for its various application areas such as color restoration and automatic animation colorization [15, 1]. The colorization problem is challenging as it is highly ill-posed with two out of three image dimensions lost, resulting in large degrees of freedom. However, semantics of the scene as well as the surface texture could provide important cues...

ID: 2508.05068v1 cs.CV, cs.AI, cs.LG, eess.IV

arXiv PDF

Показано 51 - 56 из 56 записей