📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Mehrdad Moradi, Shengzhe Chen, Hao Yan, Kamran Paynabar
#### Контекст
Аномалий детектирование в изображениях широко используется в различных областях, включая производство, здравоохранение и безопасность. Обычно для этого требуется подготовленный набор тренировочных данных, на основе которого обучаются модели. Однако в реальной жизни часто возникают ситуации, когда исходных данных для обучения отсутствуют. Мы предлагаем метод, который способен детектировать аномалии в изображениях без предварительного обучения, используя только тестовое изображение. Наша модель, SSDnet, основывается на свойствах конvolutionных нейронных сетей и выступает в качестве уникального решения для такого "ноль-шота" сценария.
#### Метод
Мы предлагаем Single Shot Decomposition Network (SSDnet), который оперирует следующим принципом. Мы считаем, что в естественных изображениях присутствуют унифицированные текстуры и шаблоны, а аномалии выражаются как отклонения от этих шаблонов, например, в виде неестественных треков или пятен. SSDnet учитывает это, используя конvolutionные сети, чтобы восстановить исходное изображение только на основе своих внутренних свойств. Мы используем патч-базуую архитектуру, где изображение само представляется сети в качестве входа вместо шума, как в Deep Image Prior. Чтобы предотвратить простое обучение идентичности, мы применяем маскирование, смешивание патчей и небольшие добавления гауссовского шума. Также мы используем потерю внутреннего произведения для захвата структуры изображения за пределами верности пикселей.
#### Результаты
Мы провели эксперименты на двух высокочастотных датасетах: MVTec-AD и датасете тканей. SSDnet показал отличные результаты с AUROC 0.99 и AUPRC 0.60 на MVTec-AD и AUROC 0.98, AUPRC 0.67 на датасете тканей. Эти результаты значительно превосходят лучшие результаты других методов, особенно в условиях отсутствия тренировочных данных. Мы также проверили модель на изображениях с помехами и отсутствующими пикселями, подтвердив ее высокую устойчивость.
#### Значимость
Наш метод может применяться в областях, где данных для обучения отсутствуют, например, в ситуациях сбора данных после катастрофы или для детектирования аномалий в реальном времени. SSDnet обеспечивает высокую точность и гибкость без нужды в специальных тренировочных данных. Это делает его привлекательным для промышленных приложений, таких как оптическая инспекция, мониторинг производства и безопасность.
#### Выводы
Мы успешно продемонстрировали, что модель SSDnet может детектировать аномалии в изображениях без предварительного обучения. Наши выводы показывают, что модель достаточно мощная для применения в реальных сценариях. Мы планируем продолжать
Annotation:
Anomaly detection in images is typically addressed by learning from
collections of training data or relying on reference samples. In many
real-world scenarios, however, such training data may be unavailable, and only
the test image itself is provided. We address this zero-shot setting by
proposing a single-image anomaly localization method that leverages the
inductive bias of convolutional neural networks, inspired by Deep Image Prior
(DIP). Our method is named Single Shot Decomposition Network ...
📄 Emulating Human-like Adaptive Vision for Efficient and Flexible Machine Visual Perception
2025-09-22Авторы:
Yulin Wang, Yang Yue, Yang Yue, Huanqian Wang, Haojun Jiang, Yizeng Han, Zanlin Ni, Yifan Pu, Minglei Shi, Rui Lu, Qisen Yang, Andrew Zhao, Zhuofan Xia, Shiji Song, Gao Huang
## Контекст
Мы сталкиваемся с ключевыми ограничениями в традиционных моделях машинного зрения, вынужденных пассивно обрабатывать все входные данные в целом. Это приводит к значительным потреблениям ресурсов, неэффективности и невысокой гибкости. У этих моделей недостаточно способности адаптироваться к конкретным задачам и ограничениям ресурсов. Эта проблема становится важной во многих областях, таких как обработка изображений в реальном времени, видеонаблюдение, визуальный поиск и даже исследования в области зрения человека. Мы мотивируем разработку моделей, которые способны активно выбирать и обрабатывать только самое необходимое, экономя ресурсы и улучшая эффективность.
## Метод
Мы предлагаем AdaptiveNN, фреймворк, который преобразует визуальную перцепцию в процесс последовательного решения задач. Вместо обработки всего изображения за один проход, AdaptiveNN использует систему последовательных фиксаций. Он активно выбирает и обрабатывает только те регионы, которые требуются для решения задачи. Информация из разных фиксаций комбинируется в процессе, и модель активно определяет, когда достаточно данных для точного решения. Мы используем теорию, объединяющую репрезентацию объектов с самопоощряющимся реинфорсиментным обучением, чтобы обучать AdaptiveNN без дополнительных наград за фиксации. Это позволяет модели самостоятельно определять лучшие регионы для внимания.
## Результаты
Мы проверили AdaptiveNN на 17 бенчмарках, охватывающих 9 различных задач, включая крупномасштабную классификацию изображений, детальную классификацию, визуальный поиск, обработку изображений с проездов и медицинских снимков, а также сравнение с человеческими результатами. Модель снизила потребление ресурсов до 28 раз по сравнению с другими методами, но при этом сохранила точность. Она показала гибкость в решении различных задач, не требуя переучения. Также AdaptiveNN демонстрирует интерпретируемость, позволяя понять, почему она принимает определенные решения, что важно для надежности.
## Значимость
AdaptiveNN может применяться в многих областях, таких как реальное время обработка, видеонаблюдение, робототехника, и даже в исследованиях в области зрения человека. Он эффективно экономит ресурсы, адаптируется к разным задачам, интерпретируем и может быть использован в широком круге задач. Это может открыть новые возможности для более эффективного интеллектуального визуального поиска в машинной технике и робототехнике.
## Выводы
Мы представили AdaptiveNN, фреймворк, превращающий машинное зрение в активный процесс, похожий на зрение человека. Он эффективен
Annotation:
Human vision is highly adaptive, efficiently sampling intricate environments
by sequentially fixating on task-relevant regions. In contrast, prevailing
machine vision models passively process entire scenes at once, resulting in
excessive resource demands scaling with spatial-temporal input resolution and
model size, yielding critical limitations impeding both future advancements and
real-world application. Here we introduce AdaptiveNN, a general framework
aiming to drive a paradigm shift from 'p...
Авторы:
Xiang Xiang, Qinhao Zhou, Zhuo Xu, Jing Ma, Jiaxin Dai, Yifan Liang, Hanlin Li
## Контекст
Открытый мир (open-world) — это многопрофильная область исследований, которая направлена на обнаружение и обработку неизвестных классов в данных. Открытый мир отличается от стандартных сценариев, где модели обучаются только на известных классах. В открытом мире необходимо обнаруживать неизвестные классы и обновлять модель в режиме реального времени. Существующие методы, такие как OOD-обнаружение и инкрементное обучение, сталкиваются с проблемами: OOD-обнаружение не обновляет знания модели, а инкрементное обучение требует наличия меток для новых классов, что не соответствует открытому миру. Наличие этих проблем подчеркивает необходимость разработки универсального подхода, который мог бы объединить OOD-обнаружение, обнаружение новых классов и инкрементное обучение в единое целое.
## Метод
OpenHAIV представляет собой инновационный фреймворк, который решает вышеуказанные проблемы. Он состоит из трех основных компонентов:
1. **OOD-обнаружение (Out-of-Distribution Detection):** Этот компонент позволяет модели определять новые классы в данных.
2. **Обнаружение новых классов (New Class Discovery):** Этот модуль использует OOD-обнаруженные данные для выделения и обработки новых классов.
3. **Инкрементное обучение (Incremental Continual Fine-tuning):** Этот модуль обновляет модель, используя обнаруженные новые классы, и позволяет ей продолжительно обучаться в открытом мире.
Технология OpenHAIV лежит в основе модели представления, объединяющей эти компоненты в единую целостную систему.
## Результаты
Эксперименты проводились на стандартных датасетах, в том числе CIFAR-100, ImageNet или TinyImageNet. Открытый мир был воспроизведен, добавляя неизвестные классы во время выполнения. Результаты показали, что OpenHAIV превосходит существующие методы в обнаружении неизвестных классов, в новом классе обнаружения и сохранении модели на протяжении длительного времени. Открытый код и результаты доступны на сайте https://haiv-lab.github.io/openhaiv .
## Значимость
OpenHAIV открывает новые возможности в широких областях применения, таких как робототехника, медицина, анализ данных и мониторинг сетей. Он позволяет моделям не только распознавать данные, но и адаптироваться к новым условиям в реальном времени. Это предоставляет потенциал для улучшения производительности в сложных интеллектуальных системах.
## Выводы
OpenHAIV представляет собой новую модель, которая объединяет OOD-обнаружение, обнаружение новых классов и инкрементное обучение. Это решение развивает открытый мир, расширяя возможности моделей в реальном времени. Будущие исследования будут направлены на улучшение эффективности фреймворка, а также на расширение его применения в разли
Annotation:
Substantial progress has been made in various techniques for open-world
recognition. Out-of-distribution (OOD) detection methods can effectively
distinguish between known and unknown classes in the data, while incremental
learning enables continuous model knowledge updates. However, in open-world
scenarios, these approaches still face limitations. Relying solely on OOD
detection does not facilitate knowledge updates in the model, and incremental
fine-tuning typically requires supervised conditio...
Авторы:
Ruiyu Li, Changyuan Qiu, Hangrui Cao, Qihan Ren, Yuqing Qiu
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Задача автоматической раскраски изображений представляет собой один из наиболее интригующих вызовов в области компьютерного зрения, находящий применение в восстановлении старых фотографий, создании анимации, улучшении медицинской визуализации и кинематографии. Процесс заключается в добавлении реалистичных цветов к черно-белым изображениям, при этом две трети информации о цвете (составляющие U и V в пространстве YUV) безвозвратно утрачены. Это создает принципиальную неоднозначность задачи, поскольку один и тот же объект может иметь множество правдоподобных цветовых вариаций - например, автомобиль может быть красным, синим или зеленым без нарушения реальности.
Традиционные подходы воспринимали раскраску как задачу регрессии, где модель предсказывает точные значения цветов. Однако такое формулирование игнорирует мультимодальную природу цветового восприятия - один объект может иметь множество допустимых цветовых решений. Более того, регрессионные методы стремятся к усреднению возможных вариантов, что приводит к тусклым, ненасыщенным результатам.
Современные исследования показывают, что семантика сцены и текстурные особенности могут служить мощными подсказками для определения цветов: небо обычно голубое, трава зеленая, а облака белые. Доступность больших массивов обучающих данных (любое цветное изображение может быть использовано для обучения путем его обесцвечивания) создает уникальные возможности для обучения статистических приоров. Авторы работы предлагают переосмыслить задачу раскраски не как регрессию, а как задачу классификации с использованием состязательного обучения, что позволяет учесть мультимодальность цветового пространства и генерировать более реалистичные результаты.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Предложенный метод представляет собой гибридную архитектуру, объединяющую сверточные нейронные сети (CNN) и генеративно-состязательные сети (GAN) для решения задачи автоматической раскраски. В основе подхода лежит переход от регрессии к классификации цветового пространства с дискретизацией цветов в 313 бина в пространстве CIE Lab, что позволяет формализовать задачу как многоклассовую классификацию.
Генератор представляет собой энкодер-декодер архитектуру на основе CNN, где энкодер использует предобученную сеть ResNet для извлечения высокоуровневых признаков из черно-белого изображения. Декодер представляет собой последовательность транспонированных сверток с пропусками (skip connections) для восстановления пространственного разрешения. Особенностью является использование dilated convolutions для увеличения рецептивного поля без потери разрешения, что критично для захвата глобального контекста изображения.
Дискриминатор реализован как PatchGAN - сеть, классифицирующая реальность отдельных патчей изображения размером 70x70 пикселей вместо всего изображения целиком. Это позволяет модели сосредоточиться на локальных текстурах и деталях, что особенно важно для раскраски. Для стабилизации обучения используется WGAN-GP loss с градиентной пенализацией.
Ключевой инновацией является внедрение механизма внимания на уровне признаков, который позволяет модели динамически приоритизировать различные части изображения при генерации цветов. Дополнительно используется perceptual loss на основе признаков предобученной сети VGG для сохранения перцептуального сходства между раскрашенным и реальным изображениями.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Эксперименты проводились на нескольких датасетах различной природы: ImageNet (1.2 миллиона изображений), COCO-stuff (164 тысячи изображений с детальной сегментацией) и специально подготовленном наборе анимационных кадров. Для обучения использовались 90% данных, оставшиеся 10% - для валидации и тестирования. Все изображения были предварительно обработаны: изменены до разрешения 256x256 пикселей, нормализованы и преобразованы в пространство CIE Lab для разделения яркости и цветовой информации.
Основными метриками качества служили Fréchet Inception Distance (FID) для оценки реалистичности результатов, Peak Signal-to-Noise Ratio (PSNR) для измерения точности восстановления, а также усредненная пользовательская оценка через A/B тестирование с участием 100 добровольцев. Предложенный метод достиг F
Annotation:
Image colorization, the task of adding colors to grayscale images, has been
the focus of significant research efforts in computer vision in recent years
for its various application areas such as color restoration and automatic
animation colorization [15, 1]. The colorization problem is challenging as it
is highly ill-posed with two out of three image dimensions lost, resulting in
large degrees of freedom. However, semantics of the scene as well as the
surface texture could provide important cues...
Показано 11 -
14
из 14 записей