📚 Саммари научных статей из arXiv

Найдено 358 результатов по запросу 'cs.CV, cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 CLASP: Adaptive Spectral Clustering for Unsupervised Per-Image Segmentation

2025-10-01

Авторы:

Max Curie, Paulo da Costa

## Контекст Объект исследования — развитие адаптивной спектральной кластеризации для неразмеченной сегментации изображений. Существующие проблемы включают необходимость ручного выбора параметров кластеризации, высокую сложность обучения с учителем для работы с большими неразмеченными корпусами данных, а также трудности в поддержании высокой точности сегментации. Мотивация заключается в создании простой, легко реплицируемой и эффективной модели, которая могла бы использоваться в приложениях, таких как оценка бренд-безопасности, креативная ассет-курация и модерация содержимого в социальных сетях. ## Метод CLASP (Clustering via Adaptive Spectral Processing) — это легковесная архитектура, которая не требует меток данных. Она начинает с извлечения функций первого порядка для каждого патча изображения с помощью самосупервизированного ViT-энкодера DINO. Затем строится аффинти-матрица, исходя из этих функций, с последующим применением спектральной кластеризации. Чтобы избежать ручной настройки, CLASP автоматически определяет число кластеров с помощью метода eigengap silhouette search. Чтобы улучшить точность, CLASP применяет DenseCRF для закругления границ сегментов. Модель требует минимального вычислительного ввоза и не требует предварительного обучения. ## Результаты На бенчмарках COCO Stuff и ADE20K, CLASP достигает соревновательных показателей mIoU и пиксельной точности по сравнению с другими неразмеченными базовыми моделями. Эксперименты показывают, что CLASP превосходит многие современные подходы в сценариях, где данных для обучения отсутствуют. Данные эксперименты подтверждают сильную репликабельность модели и ее применимость в рабочих процессах, таких как модерация содержимого и креативная ассет-курация. ## Значимость CLASP имеет широкие области применения, включая цифровое рекламное пространство, креативное управление, и модерацию контента. Развитие модели в рамках этого исследования демонстрирует потенциал самосупервизионных подходов в больших неразмеченных корпусах данных. Своей простотой и эффективностью CLASP открывает возможности для улучшения производительности таких рабочих процессов, как бренд-безопасность и социальная модерация. ## Выводы CLASP представляет собой прорыв в области неразмеченной сегментации изображений, обеспечивая высокую точность и простоту в реализации. Будущие работы будут сфокусированы на расширении модели для более сложных сценариев и интеграции в различные приложения, такие как анализ содержимого и автоматизация рабочих процессов.

Annotation:

We introduce CLASP (Clustering via Adaptive Spectral Processing), a lightweight framework for unsupervised image segmentation that operates without any labeled data or finetuning. CLASP first extracts per patch features using a self supervised ViT encoder (DINO); then, it builds an affinity matrix and applies spectral clustering. To avoid manual tuning, we select the segment count automatically with a eigengap silhouette search, and we sharpen the boundaries with a fully connected DenseCRF. Desp...

ID: 2509.25016v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Score Distillation of Flow Matching Models

2025-10-01

Авторы:

Mingyuan Zhou, Yi Gu, Huangjie Zheng, Liangchen Song, Guande He, Yizhe Zhang, Wenze Hu, Yinfei Yang

## Контекст Генерация высококачественных изображений — одна из наиболее активных областей искусственного интеллекта. Одним из важных аспектов этой области является эффективность в процессе генерации. Несмотря на то, что модели типа diffusion (диффузионные модели) достигли высоких результатов в этой области, они страдают от медлительности процесса итеративной семплирования. Это приводит к затруднениям при использовании этих моделей в реальном времени. **Score distillation** — это техника, которая упрощает процесс генерации, позволяя выполнить его за один или несколько шагов. Появление **flow matching** моделей (моделей соответствия потоков), которые в первую очередь представлялись как альтернативная фреймворк, но позже были доказаны теоретически эквивалентными diffusion моделям при гипотезе Гаусса, повлекло за собой задачу о переносимости техник distillation. Эта работа раскрывает проблему взаимодействия этих двух фреймворков и задает вопрос о том, можно ли применить score distillation так же эффективно к flow matching моделям, как и к diffusion моделям. ## Метод Мы использовали **Bayes' rule** и **conditional expectations** для систематического объединения теории Gaussian diffusion и flow matching моделей. Наша цель — найти способ, который позволит использовать score distillation независимо от изначального фреймворка. Для применения нашего решения к **text-to-image flow matching моделям** (SANA, SD3-Medium, SD3.5-Medium/Large, FLUX.1-dev с DiT бэкбонами) мы провели небольшие адаптации. Эти модели не требуют изменения архитектуры или тюнинга учителя. Мы провели эксперименты в двух режимах: в аналитическом режиме (дата-фри) и в гибридном режиме (дата-авторский). ## Результаты Мы проверили нашу технику на нескольких моделях и получили успешные результаты. Score distillation работает без изменений в архитектуре и требует минимальных дополнительных ресурсов. В режиме data-free мы доказали, что модели могут генерировать качественные изображения за один шаг, что позволяет экономить время и ресурсы. В режиме data-aided мы показали, что данные могут быть эффективно использованы для улучшения качества изображения. ## Значимость Результаты этой работы имеют большое значение в следующих областях: - **Ускорение генерации изображений**: позволяет быстрее получать качественные результаты. - **Универсальность**: техника может использоваться для разных моделей, независимо от их исходного фреймворка. - **Практическое применение**: техника может быть применена в реальном времени, где необходимы быстрые результаты. - **Будущие исследования**: решение открывает путь к дальнейшему усовершенствованию технологий генерации изображений, используя score distillation в разных контекстах. ## Выводы Мы успешно показали, что **score distillation** можно применять к **flow matching** моделям, решая пробл

Annotation:

Diffusion models achieve high-quality image generation but are limited by slow iterative sampling. Distillation methods alleviate this by enabling one- or few-step generation. Flow matching, originally introduced as a distinct framework, has since been shown to be theoretically equivalent to diffusion under Gaussian assumptions, raising the question of whether distillation techniques such as score distillation transfer directly. We provide a simple derivation -- based on Bayes' rule and conditio...

ID: 2509.25127v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Fast Feature Field ($\text{F}^3$): A Predictive Representation of Events

2025-10-01

Авторы:

Richeek Das, Kostas Daniilidis, Pratik Chaudhari

## Контекст Event-based сенсоры, такие как Dynamic Vision Sensors (DVS), получают данные в виде последовательностей событий, которые достаточно сложно интерпретировать с помощью традиционных методов обработки изображений. Эти сенсоры показывают высокую чувствительность к движению и низкую задержку, но при этом требуют эффективных алгоритмов для интерпретации и предсказания поведения объектов в реальном времени. Отсутствие эффективных математических моделей для представления данных от таких сенсоров ограничивает потенциал их применения в системах супермаркетинга, водительских ассистентах и роботов. Наша мотивация заключается в разработке подробной теоретической модели и алгоритмов, который бы способствовал эффективному представлению данных и позволил бы использовать event-based сенсоры в широком круге задач. ## Метод Разработанная модель, названная Fast Feature Field ($\text{F}^3$), основывается на математической модели, которая предсказывает будущие события на основе прошлых данных. Основной метод состоит в том, чтобы представить каждый слой данных в виде многоканального изображения, которое содержит информацию о спарсе, движении и структуре сцены. Модель использует механизмы "глубинных наборов" (deep sets) и многорезольвенческого хеширования для обработки данных. Эти методы позволяют эффективно обрабатывать данные сенсоров, которые имеют спарсоедненую природу. Алгоритмы работают на высоких частотах (до 440 Гц при разрешении VGA и 120 Гц при разрешении HD), что делает их применимыми для реального времени. ## Результаты Мы провели эксперименты на данных, полученных с трех различных роботизированных платформ (автомобиля, легкого транспорта и воздушного робота) в различных условиях освещения (днем, ночью) и средах (внутренних, внешних, городских и местности). Модель $\text{F}^3$ показала состояние лучшего результата на задачах оценки оптического потока, сегментации сеансов и оценки метрического расстояния. В результате, наши решения достигли высокой точности и эффективности, сохранив высокую частоту работы (до 75 Гц при HD-резолюции). Это делает $\text{F}^3$ применимым в различных сценариях, включая водительские системы, супермаркетинг и роботизированные системы. ## Значимость Предлагаемый подход имеет многочисленные применения в области робототехники, систем управления транспортом и супермаркетинга. Он позволяет эффективно обрабатывать данные, которые требуют сильной зависимости от времени, что делает его идеальным для сценариев, требующих реального времени. Модель $\text{F}^3$ показала свою выносливость в оптическом потоке,

Annotation:

This paper develops a mathematical argument and algorithms for building representations of data from event-based cameras, that we call Fast Feature Field ($\text{F}^3$). We learn this representation by predicting future events from past events and show that it preserves scene structure and motion information. $\text{F}^3$ exploits the sparsity of event data and is robust to noise and variations in event rates. It can be computed efficiently using ideas from multi-resolution hash encoding and dee...

ID: 2509.25146v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 Can Less Precise Be More Reliable? A Systematic Evaluation of Quantization's Impact on CLIP Beyond Accuracy

2025-09-30

Авторы:

Aymen Bouguerra, Daniel Montoya, Alexandra Gomez-Villa, Fabio Arnez, Chokri Mraidha

## Контекст Видение-языковые модели (VLMs), такие как CLIP, обладают впечатляющими способностями к нулевой-выстреловой общепринципности и применяются в решении задач, включая определение выхода за пределы распределения (OOD). Однако, несмотря на их высокую точность, вопросы касательно вычислительной эффективности и надежности этих моделей остаются открытыми. Квантование (quantization), являющееся одним из методов оптимизации модели, сокращает размер модели и ускоряет её вычисления, но его влияние на производительность CLIP, не только в точности, но и в других аспектах надежности, остается нередко недостаточно исследовано. Это исследование подробно изучает эффекты квантования на CLIP, используя различные метрики, включая калибровку и определение выхода за пределы распределения (OOD). Важность исследования заключается в том, что оно было направлено на то, чтобы понять, можно ли оптимизировать VLMs, используя квантование, не только для улучшения точности, но и для обеспечения надежности и качества работы в "реальном мире". ## Метод Исследование основывается на методологии квантования (quantization), включая варианты типа Post-Training Quantization (PTQ) и Quantization-Aware Training (QAT). Авторы применяют QAT для оптимизации CLIP, контролируя изменения в модели после этой оптимизации. В ходе исследования была проанализирована не только точность (accuracy) CLIP по внутренним данным (in-distribution data), но также несколько дополнительных метрик, таких как калибровка (calibration) и определение "выхода за пределы распределения" (OOD detection). Авторы также проверили, как эти метрики влияют на разные версии CLIP, подготовленные к работе с разными источниками предварительного обучения (pre-training datasets). Методология также включала сравнение разных квантово-сознательных тренировочных методов (quantization-aware training), чтобы определить, какие из них дают наибольшую выгоду в трех областях: точности, калибровке и OOD-надежности. ## Результаты Результаты показали, что квантование, в основном, приводит к значительному улучшению калибровки (calibration) для моделей, которые изначально были "недоуверенными" (underconfident) в своих предсказаниях. Таким образом, эти модели становятся более надежными в определении "слишком высокой" или "слишком низкой" уверенности в своих ответах. Однако, для моделей, которые изначально "переуверенны" (overconfident), квантование может привести к ухудшению калибровки. Несмотря на это, даже для таких моделей, квантование положительно влияло на другие метрики надежности, такие как OOD-детекция. В результате обнаружено, что применение конкретных методов квантования-сознательного обучения (Quantization-Aware Training) позволяет получить выгоду во всех трех областях: точности, калибровки и OOD-надежности одновременно, что

Annotation:

The powerful zero-shot generalization capabilities of vision-language models (VLMs) like CLIP have enabled new paradigms for safety-related tasks such as out-of-distribution (OOD) detection. However, additional aspects crucial for the computationally efficient and reliable deployment of CLIP are still overlooked. In particular, the impact of quantization on CLIP's performance beyond accuracy remains underexplored. This work presents a large-scale evaluation of quantization on CLIP models, assess...

ID: 2509.21173v2 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 DyME: Dynamic Multi-Concept Erasure in Diffusion Models with Bi-Level Orthogonal LoRA Adaptation

2025-09-30

Авторы:

Jiaqi Liu, Lan Zhang, Xiaoyong Yuan

## Контекст Text-to-image diffusion models (DMs) стали одной из самых популярных технологий в области генерации изображений. Они позволяют генерировать изображения на основе текстовых описаний. Однако эти модели часто генерируют изображения, которые включают в себя защищенные либо копирайт-защищенные визуальные элементы и стили. Это приводит к риску предъявления юридических и этических претензий. Чтобы устранить эту проблему, разработаны методы "concept erasure", которые представляют собой методы, нацеленные на выборочное удаление таких элементов. Однако существующие методы не учитывают ситуации, когда требуется удалить несколько концепций, а точнее, когда эти концепции могут быть взаимоисключающими. Это делает их непригодными для практического применения. Наше исследование направлено на разработку метода, который не только удовлетворит потребности в удалении нескольких концепций, но и позволит динамически адаптироваться к разным условиям инференса. ## Метод Мы предлагаем DyME (Dynamic Multi-Concept Erasure) – динамический метод, который удаляет несколько концепций в зависимости от требований каждого отдельного запроса. DyME работает на основе механизма LoRA (Low-Rank Adaptation), который позволяет построить концепт-специфические адаптеры. Однако проблема с такими адаптерами заключается в том, что при удалении многих концепций могут возникнуть конфликты, которые приведут к деградации фидабека и ухудшению качества изображения. Для решения этой проблемы, мы ввели би-уровневую ортогональность (bi-level orthogonality) на уровне особенностей и параметров. Это позволяет гарантировать, что каждый адаптер будет работать независимо от других адаптеров, даже если они связаны семантически. Мы также ввели новую структуру бенчмарка ErasureBench-H, которая позволяет оценивать эффективность удаления в разных уровнях семантической гранулярности. ## Результаты Мы провели эксперименты на нашем новом бенчмарке ErasureBench-H, а также на стандартных датасетах, таких как CIFAR-100 и Imagenette. Наши результаты показали, что DyME показывает значительно лучшие результаты по сравнению с состоянием искусства в многоконцепциональном удалении изображений. Мы также показали, что DyME достигает высокой точности в удалении концепций, при этом оставляя минимальные последствия в нецелевых областях. Это доказывает, что наш метод может динамически адаптироваться к разным запросам инференса, что является ключевым преимуществом перед существующими подходами. ## Значимость DyME может быть применен в различных сферах, где требуется удаление защищенных или копирайт-защищенных элементов. Например, это

Annotation:

Text-to-image diffusion models (DMs) inadvertently reproduce copyrighted styles and protected visual concepts, raising legal and ethical concerns. Concept erasure has emerged as a safeguard, aiming to selectively suppress such concepts through fine-tuning. However, existing methods do not scale to practical settings where providers must erase multiple and possibly conflicting concepts. The core bottleneck is their reliance on static erasure: a single checkpoint is fine-tuned to remove all target...

ID: 2509.21433v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 No Alignment Needed for Generation: Learning Linearly Separable Representations in Diffusion Models

2025-09-30

Авторы:

Junno Yun, Yaşar Utku Alçalar, Mehmet Akçakaya

#### Контекст Современные искусственные нейронные сети, особенно те, которые применяются в области синтеза изображений, требуют эффективных стратегий обучения для повышения качества генерируемых данных. Одним из ключевых аспектов является повышение качества интерпретируемых представлений в этих моделях. Одним из популярных подходов является стратегия выравнивания представлений, которая основывается на использовании высококачественных внешних энкодеров. Однако этот подход имеет серьезные ограничения, такие как высокая стоимость вычислительных ресурсов, необходимых для обучения энкодера, а также возможность улучшения результатов только в контексте задач, которые решаются внешним энкодером. В этой работе мы предлагаем альтернативную стратегию, основывающуюся на продвижении линейной отделимости (Linear SEParability, LSEP) внутренних представлений модели, что позволяет избежать необходимости использования дополнительных энкодеров и требует меньшего количества вычислительных ресурсов. #### Метод Мы предлагаем метод, основанный на подходе, называемом Linear SEParability (LSEP), который имеет вид регуляризатора в процессе обучения модели. Метод заключается в том, чтобы поощрять слои сети, чтобы их выходные представления были линейно отделимы, чтобы сделать их более легко интерпретируемым. Технический подход состоит в вычислении метрики LSEP во время обучения и ее интеграции в оптимизационный процесс. Архитектура обучения основывается на методе проксирования линейных классификаторов, но в отличие от стратегий выравнивания представлений, LSEP не требует внешних энкодеров. В качестве главной модели использована модель SiT (Vision Transformer for Image Synthesis), которая является мощной архитектурой для генерации изображений. #### Результаты Для проверки эффективности предложенного подхода, мы провели ряд экспериментов на данных ImageNet, включая вычисление FID (Frechet Inception Distance), чтобы оценить качество генерируемых изображений. Мы сравнили нашу модель с другими подходами, включая стратегии выравнивания представлений. Наши результаты показали, что LSEP значительно повышает эффективность обучения и качество генерируемых изображений. Так, на той же $256 \times 256$ ImageNet-датесете, мы достигли FID равного 1.46, что значительно превосходит результаты других подходов. Кроме того, мы проверили эффективность наших регуляризаторов в других задачах, таких как обнаружение объектов и анализ изображений, где LSEP также показал существенные улучшения. #### Значимость Наш подход имеет широкое применение в области генерации изображений и анализа изображений. Он позволяет обойти ограничения стратегий выравнивания представлений,

Annotation:

Efficient training strategies for large-scale diffusion models have recently emphasized the importance of improving discriminative feature representations in these models. A central line of work in this direction is representation alignment with features obtained from powerful external encoders, which improves the representation quality as assessed through linear probing. Alignment-based approaches show promise but depend on large pretrained encoders, which are computationally expensive to obtai...

ID: 2509.21565v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 What Happens Next? Anticipating Future Motion by Generating Point Trajectories

2025-09-30

Авторы:

Gabrijel Boduljak, Laurynas Karazija, Iro Laina, Christian Rupprecht, Andrea Vedaldi

## Контекст Исследование формулируется в рамках проблемы прогнозирования движения объектов в сценах, основываясь только на одном кадре изображения. Такой подход требует не только определения текущего состояния объектов, но и прогнозирования их дальнейших движений на основе логики сцены. Несмотря на развитие моделей генерации видео, текущие стандарты стремятся выводить подробные изображения, вместо того, чтобы напрямую прогнозировать движение в виде точечных траекторий. Поэтому, установлена мотивация для развития моделей, которые бы специализировались на построении траекторий, способствуя точности и универсальности прогнозирования движения в различных сценах. ## Метод Методология основывается на архитектуре моделей генерации видео, но расширяется для определения точечных траекторий. Обучение модели осуществляется с использованием данных симуляций, включающих различные физические сцены, например, падение предметов, тележки, роботов. Архитектура строится на основе современных моделей видеогенерации, но вместо вывода изображений, она прогнозирует точечные движущиеся точки. Это позволяет модели сфокусироваться на движении, объединяя в себе векторные описания пространственных движений. Модель также учитывает неопределенность в движении, обеспечивая более точные и разнообразные прогнозы. ## Результаты Использование симуляционных данных позволяет сравнить модель с предыдущими подходами. Было проведено тестирование на имитированных физических сценах, включающих различные типы движения и интеракций. Результаты показали, что модель предлагает более точные прогнозы в сравнении с использованием генерации видео. Также были продемонстрированы результаты на данных реальных физических сцен. Модель показала высокую точность в прогнозировании движения в различных условиях, в том числе при падении предметов или взаимодействии механических объектов. Она также имеет возможность предсказания вариантов движения, учитывая различные варианты поведения системы. ## Значимость Полученная модель может использоваться в различных областях, включая машинное зрение, робототехнику, графику и интерфейсы. У нее есть потенциал для улучшения динамических сцен, в которых требуется точное формирование прогнозов о движении. Что значительно отличает данную модель от предыдущих, так это её точность и способность работать с неопределенностью, что позволяет получать более разнообразные и универсальные прогнозы. Будущие исследования могут быть нацелены на расширение модели для работы с более сложными сценами, в том числе тех, которые включают

Annotation:

We consider the problem of forecasting motion from a single image, i.e., predicting how objects in the world are likely to move, without the ability to observe other parameters such as the object velocities or the forces applied to them. We formulate this task as conditional generation of dense trajectory grids with a model that closely follows the architecture of modern video generators but outputs motion trajectories instead of pixels. This approach captures scene-wide dynamics and uncertainty...

ID: 2509.21592v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 MORPH: Shape-agnostic PDE Foundation Models

2025-09-30

Авторы:

Mahindra Singh Rautela, Alexander Most, Siddharth Mansingh, Bradley C. Love, Ayan Biswas, Diane Oyen, Earl Lawrence

#### Контекст В настоящее время сложность исследований в области научных вычислений, в основе которых лежат численное решение частных дифференциальных уравнений (PDE), значительно растет. Одной из основных задач является обработка разнородных данных, относящихся к различным физическим полям, на разных размерностях пространства и времени, что приводит к необходимости развития моделей, которые могут эффективно обрабатывать такие данные. Более того, существуют проблемы с масштабируемостью и эффективностью обучения моделей. Необходимо создать модели, которые могут обучаться на небольших объемах данных и при этом успешно применяться к различным задачам. Таким образом, введение моделей, которые могут обрабатывать разнородные данные в PDE, является ключевым мотивом для создания MORPH. #### Метод MORPH — это авторегрессионная фондаментальная модель для PDE, основанная на конvolutional vision transformer. Она также обладает широким спектром возможностей по обработке разных видов данных, включая 1D, 2D и 3D, а также различные физические поля, которые могут иметь скалярные и векторные компоненты. Модель имеет множество новых архитектурных решений: (i) компонентное конvolution — обработка скалярных и векторных каналов, (ii) cross-attention между полями, которая позволяет передавать информацию между различными физическими полями, и (iii) axial attention — разделение полного spatiotemporal self-attention на отдельные спациальные и временные оси для сокращения вычислительной сложности, при этом не теряя экспрессивности. Эти архитектурные решения позволяют MORPH обрабатывать разнородные данные, преодолевая традиционные ограничения моделей. #### Результаты Модель была протестирована на разных наборах данных, включающих обобщенные PDE, а также подготовлена на разных PDE-датасетах. Были проведены эксперименты, показавшие, что MORPH показывает высокую точность в задачах нулевого запуска (zero-shot) и предобученных моделей (full-shot). Она показала лучшие результаты в сравнении с другими моделями, в том числе и с результатами последних состояний технологий. Были проведены исследования, показавшие, что MORPH может эффективно обрабатывать данные разных размерностей и выполнять предсказания в различных физических задачах. Это подтверждает широкую многообразие применений и высокую точность. #### Значимость MORPH представляет собой готовую модель для обработки разнородных данных в PDE. Она может быть применена в различных областях, включая уравнения городского теплового режима, оптики, физики жидкостей и др. Эта модель также может использоваться для различных задач, в том числе задач сбора данных, эффективного обучения в режиме нулевого запуска (zero-shot), а также для работы с небольшими объема

Annotation:

We introduce MORPH, a shape-agnostic, autoregressive foundation model for partial differential equations (PDEs). MORPH is built on a convolutional vision transformer backbone that seamlessly handles heterogeneous spatiotemporal datasets of varying data dimensionality (1D--3D) at different resolutions, multiple fields with mixed scalar and vector components. The architecture combines (i) component-wise convolution, which jointly processes scalar and vector channels to capture local interactions, ...

ID: 2509.21670v1 cs.CV, cs.AI, cs.LG, physics.comp-ph

arXiv PDF

📄 HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models

2025-09-30

Авторы:

Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber

## Контекст Технологии изображения, основанные на диффузионных моделях, показали впечатляющий прогресс в области генерации реалистичных изображений. Однако, даже с последними достижениями, их выходы могут оставаться неполными или недостаточно детализированными, особенно при использовании меньшего количества нейронных оценок (NFEs) или низких уровней гида. Эти ограничения становятся особенно заметными при запуске моделей на устройствах с ограниченными ресурсами. Для улучшения качества и эффективности генерации изображений необходимо разработать методы, которые бы повысили точность и эффективность, не требуя дополнительных вычислительных ресурсов. ## Метод Мы предлагаем **History-Guided Sampling (HiGS)**, моментум-подобный подход, который интегрирует недавние модельные предсказания в каждый шаг инференции. Основная идея заключается в том, чтобы отслеживать и использовать разницу между текущим предсказанием и взвешенным средним предыдущих предсказаний. Эта разница используется для управления процессом диффузии, чтобы улучшить качество и детализацию изображения. HiGS включает в себя минимальные изменения в существующую архитектуру диффузионных моделей и не требует дополнительного обучения или тюнинга. Он может быть легко интегрирован в любую существующую систему. ## Результаты Мы проверили HiGS на разных моделях диффузии и задачах генерации изображений. Наши эксперименты показали, что HiGS повышает качество изображений в разных сценариях, включая сценарии с низким NFE и малым гидом. Особенно заметного улучшения было замечено при использовании 256x256 ImageNet модели, где HiGS достиг нового рекорда FID (Frechet Inception Distance) в 1.61 за 30 шагов, вместо обычных 250, показывая его эффективность при ограниченных вычислительных ресурсах. ## Значимость HiGS представляет собой значительное улучшение для стандартных диффузионных моделей. Он позволяет повысить качество изображений, уменьшить количество нейронных оценок и уменьшить время генерации. Этот подход имеет широкие применения в области AI-генерации изображений, в том числе генерации высококачественных изображений в реальном времени, создании высококачественных графических моделей, а также в сфере машинного обучения на устройствах с ограниченным объемом ресурсов. ## Выводы HiGS подтверждает свою эффективность как мощный инструмент для улучшения качества изображений в диффузионных моделях. Он обеспечивает быструю генерацию высококачественных изображений с меньшим количеством нейронных оценок. В дальнейшем, HiGS может быть расширен для работы с различными типами моделей и задачах,

Annotation:

While diffusion models have made remarkable progress in image generation, their outputs can still appear unrealistic and lack fine details, especially when using fewer number of neural function evaluations (NFEs) or lower guidance scales. To address this issue, we propose a novel momentum-based sampling technique, termed history-guided sampling (HiGS), which enhances quality and efficiency of diffusion sampling by integrating recent model predictions into each inference step. Specifically, HiGS ...

ID: 2509.22300v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Fast-SEnSeI: Lightweight Sensor-Independent Cloud Masking for On-board Multispectral Sensors

2025-09-27

Авторы:

Jan Kněžík, Jonáš Herec, Rado Pitoňák

## Контекст Область исследования астрономии и космонавтики широко использует спутниковые данные для анализа земной поверхности и внеземных объектов. Одной из ключевых задач в этой области является обнаружение и исключение облаков из изображений, так как они могут серьезно затруднить выполнение таких задач, как картирование поверхности, измерение температурных параметров и другие. Несмотря на появление различных моделей глубокого обучения для облачного очистки, они часто сталкиваются с проблемами, связанными с необходимостью настройки для конкретных спутниковых сенсоров и их ограничениями по количеству спектральных каналов. Эта ситуация приводит к относительному ограничению гибкости и эффективности их применения в реальных условиях. В этом контексте было создано новое решение, Fast-SEnSeI, которое предлагает многоцелевой подход к облачному очистке, основанным на гибкой, сенсорно независимой архитектуре. ## Метод Fast-SEnSeI представляет собой новую модель, которая использует легковесную архитектуру предобработки для сенсорно независимого облачного очистки. Эта модель состоит из модуля Fast-SEnSeI-Encoder, который способен обрабатывать спектральные данные многоканальных сенсоров, независимо от их конфигурации. Используя усовершенствованный спектральный дескриптор, новая модель может обрабатывать данные с различными частотными диапазонами, включая нестандартные варианты. Для финальной сегментации облаков используется компактная модель сегментации на основе модифицированного U-Net, которая оптимизирована для работы на FPGA. Модель весьма эффективна и может быть развернута на пространственно-квалифицированном оборудовании. Для повышения эффективности, Fast-SEnSeI применяет аппаратно-программную архитектуру, в которой модуль обработки данных работает на CPU, а модель сегментации запускается на FPGA, обеспечивая высокую производительность и низкий потребление энергии. ## Результаты Для оценки эффективности Fast-SEnSeI проводились эксперименты на двух наборах данных: Sentinel-2 и Landsat 8. Эти данные отличаются различными конфигурациями спектральных каналов и различными условиями облачности. Результаты показали, что модель Fast-SEnSeI демонстрирует высокую точность разделения облаков, независимо от конфигурации сенсора, и показывает высокую скорость работы на эмбеддденных процессорах. Также было проверено, что модель хорошо справляется с разными условиями облачности, включая сложные сцены с миксем облаков и земной поверхности. ## Значимость Результаты Fast-SEnSeI могут быть применены в различных сферах, таких как картирование земли, измерение температурных параметров, изучение природных ресурсо

Annotation:

Cloud segmentation is a critical preprocessing step for many Earth observation tasks, yet most models are tightly coupled to specific sensor configurations and rely on ground-based processing. In this work, we propose Fast-SEnSeI, a lightweight, sensor-independent encoder module that enables flexible, on-board cloud segmentation across multispectral sensors with varying band configurations. Building upon SEnSeI-v2, Fast-SEnSeI integrates an improved spectral descriptor, lightweight architecture,...

ID: 2509.20991v1 cs.CV, cs.AI, cs.LG, cs.PF

arXiv PDF

1
2
22
23
24
25
26
35
36

Показано 231 - 240 из 358 записей