📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Farid Tasharofi, Fuxin Fan, Melika Qahqaie, Mareike Thies, Andreas Maier

#### Контекст Металлические имплантаты, используемые в медицинских процедурах, часто вызывают металлические искажения в компьютерной томографии (CT). Эти искажения существенно затрудняют диагностику и планирование лечения. Известные методы, такие как билинейные интерполяции и суперрезолюционные нейронные сети, не всегда удачно справляются с выполнением двойной задачи: удаления металлических искажений и сохранения анатомических деталей. Этот факт подчеркивает необходимость развития более эффективных методов Metal Artifact Reduction (MAR). Мотивация для FIND-Net заключается в создании метода, который бы стабильно подходил к устранению металлических искажений без ущерба для качества структуры изображений. #### Метод FIND-Net (Fourier-Integrated Network with Dictionary Kernels) представляет собой современный подход к MAR, который объединяет обработку в пространственном и частотном доменах. Основной идеей является использование Fast Fourier Convolution (FFC) для преобразования в частотном домене и trainable Gaussian filtering для нормализации разброса в пространстве сигнала. Эта архитектура обеспечивает глобальную контекстуализацию и фильтрацию в выбранных частотных областях. Эталонные методы, такие как RED-CNN и HarmonicNet, используются для сравнения, но FIND-Net расширяет возможности, объединяя фильтрацию в пространстве и частотном доменах в единое решение. #### Результаты На синтетических данных FIND-Net показал статистически значимые улучшения по отношению к современным методам. Измерения показали снижение Mean Absolute Error (MAE) на 3.07%, увеличение Structural Similarity Index Measure (SSIM) на 0.18%, а также улучшение Peak Signal-to-Noise Ratio (PSNR) на 0.90%. Эти результаты указывают на то, что FIND-Net эффективно устраняет металлические искажения, сохраняя анатомические детали. На реальных клинических данных FIND-Net также продемонстрировал высокую точность, подтвердив способность минимизировать изменения чистых областей, не затрагивая их в процессе удаления искажений. #### Значимость Подход FIND-Net открывает новые возможности в области медицинского изображения. Он может быть применен в различных сценариях, где металлические искажения негативно влияют на качество изображений. Особенно значимым является его применение в случаях критической лечебной необходимости, где четкость диагностики критична. Преимущества FIND-Net включают улучшенную точность, устойчивость к различным степеням искажений и штамповка стандартов клинической практики. #### Выводы FIND-Net достигает значительных улучшений в MAR, объединяя два домена — пространственный и частотный — в одном фреймворке. Этот подход не только повышает эффективность удаления искажений, но и обеспечивает сохранение
Annotation:
Metal artifacts, caused by high-density metallic implants in computed tomography (CT) imaging, severely degrade image quality, complicating diagnosis and treatment planning. While existing deep learning algorithms have achieved notable success in Metal Artifact Reduction (MAR), they often struggle to suppress artifacts while preserving structural details. To address this challenge, we propose FIND-Net (Fourier-Integrated Network with Dictionary Kernels), a novel MAR framework that integrates fre...
ID: 2508.10617v1 cs.CV, eess.IV
Авторы:

Weijian Mai, Jiamin Wu, Yu Zhu, Zhouheng Yao, Dongzhan Zhou, Andrew F. Luo, Qihao Zheng, Wanli Ouyang, Chunfeng Song

## Контекст Понимание того, как визуальные стимулы преобразуются в кровеносные ответы в мозгу, является важной проблемой в компьютерных науках и нейронауке. Этот процесс характеризуется биологической вариабельностью: одинаковые визуальные стимулы вызывают разные ответы в мозгу, зависящие от контекста, субъекта и ситуации. Традиционные методы, ориентированные на детерминированное моделирование, сталкиваются с трудностями, связанными с этим неопределенностью. Это снижает точность и предсказуемость моделей, ограничивая их применение в нейронаучных исследованиях. Моделирование этой нерегулярности в сочетании с функциональной согласованностью необходимо для более точного понимания нейробиологических механизмов. ## Метод Мы предлагаем SynBrain — новую программную структуру, основанную на принципах проблемы задачи обучения с учителем и генеративной моделирования. Основная идея заключается в том, чтобы представить нейронные ответы в виде продольных вероятностных распределений, что позволяет сохранить функциональную согласованность и представлять биологические вариации. Главные компоненты SynBrain: (i) **BrainVAE** — модель, представляющая нейронные ответы с помощью вероятностных профилей, что обеспечивает продольную вариативность. (ii) **Semantic-to-Neural Mapper** — слой, проецирующий визуальные семантические признаки на нейронный манифолд, что обеспечивает высокую точность воспроизведения ответов в fMRI. Эта архитектура объединяет в себе мощь продольного моделирования и интерпретируемость биологических процессов. ## Результаты Мы провели подробные эксперименты на обширных данных, включая fMRI сигналы и визуальные стимулы. Модель SynBrain показала превосходство над другими подходами в задачах визуально-ниронного отображения. Оценки были проведены по метрикам качества, таким как PSNR, SSIM и correlation coefficient. Модель отлично справляется с неопределенностью в данных и позволяет эффективно адаптироваться к новым субъектам с небольшим количеством данных. Мы также проанализировали возможность SynBrain для улучшения обратных задач, таких как fMRI-to-image decoding. Наши результаты подтверждают, что модель SynBrain не только точно воспроизводит ответы, но и выделяет биологически значимые шаблоны. ## Значимость Перспективы SynBrain касаются широкого спектра применений в нейронауке и разработке интеллектуальных систем. Модель может быть использована для создания более точных моделей нейронной деятельности, улучшения диагностики и терапии неврологических заболеваний. Благодаря способности SynBrain адаптироваться к новым субъектам с минимальным объемом данных, она оказывается важной для решения про
Annotation:
Deciphering how visual stimuli are transformed into cortical responses is a fundamental challenge in computational neuroscience. This visual-to-neural mapping is inherently a one-to-many relationship, as identical visual inputs reliably evoke variable hemodynamic responses across trials, contexts, and subjects. However, existing deterministic methods struggle to simultaneously model this biological variability while capturing the underlying functional consistency that encodes stimulus informatio...
ID: 2508.10298v1 cs.LG, cs.CV, eess.IV
Авторы:

Chongke Bi, Xin Gao, Jiangkang Deng, Guan Li, Jun Han

## Контекст Исследования в области трёхмерных симуляций требуют существенных ресурсов для получения высококвалифицированных временно вы mющих данных (TVD). В качестве эффективного пост-процессингового метода, супер-разрешение существенно снижает затраты на получение HR-данных. Однако существующие методы требуют больших объёмов HR-данных для обучения, что ограничивает их применимость к различным сценариям симуляций. Для решения этой проблемы, мы предлагаем CD-TVD — новую модель, которая объединяет контрастное обучение и усовершенствованную модель супер-разрешения на основе диффузии, чтобы получить точные 3D-супер-разрешения, используя ограниченные данные с высокой разрешённостью. ## Метод CD-TVD использует контрастное обучение для изучения деградационных паттернов между высоко- и низкоразрешёнными данными. В ходе предварительного обучения, контрастный энкодер и модель диффузии изучают эти паттерны, чтобы получить чёткие характеристики как для HR, так и для LR-данных. Во время тренировочного процесса, модель диффузии с локальным механизмом внимания тюнится на основе новой генерируемой HR-последовательности. Это позволяет использовать минимальное количество HR-данных, уменьшая зависимость от больших HR-данных и сохраняя возможность восстановления тонких деталей. ## Результаты Мы проверили CD-TVD на данных из симуляций жидкости и атмосферы. Эксперименты показали, что модель предоставляет точные результаты супер-разрешения, используя гораздо меньше HR-данных по сравнению с другими методами. Например, на симуляциях жидкости, CD-TVD демонстрирует точность, которая превосходит существующие модели на 15-20% при использовании только одного HR-шага. Эти результаты подтверждают эффективность CD-TVD в уменьшении затрат на ресурсы при подготовке HR-данных. ## Значимость Наша модель имеет широкие приложения в области генерации 3D-данных для симуляций в различных дисциплинах, таких как гидродинамика, аэродинамика и биология. Основное преимущество CD-TVD заключается в своей возможности получать точные результаты супер-разрешения с минимальным объёмом HR-данных, что снижает затраты на ресурсы. Это может привести к улучшению производительности в различных симуляционных проектах. ## Выводы Мы представили CD-TVD — усовершенствованную модель супер-разрешения, которая обеспечивает точный результат с минимальными затратами на HR-данные. Наши результаты показывают, что CD-TVD может быть использована в различных сценариях симуляций, где HR-данные ограничены. Будущие исследования будут фокусироваться на расширении применений модели на дру
Annotation:
Large-scale scientific simulations require significant resources to generate high-resolution time-varying data (TVD). While super-resolution is an efficient post-processing strategy to reduce costs, existing methods rely on a large amount of HR training data, limiting their applicability to diverse simulation scenarios. To address this constraint, we proposed CD-TVD, a novel framework that combines contrastive learning and an improved diffusion-based super-resolution model to achieve accurate 3D...
ID: 2508.08173v2 cs.CV, eess.IV
Авторы:

Jingyun Liang, Jingkai Zhou, Shikai Li, Chenjie Cao, Lei Sun, Yichen Qian, Weihua Chen, Fan Wang

#### Контекст Генерация видео с реалистичными и контролируемыми движениями является важной и сложной задачей в области компьютерного зрения и глубокого обучения. Несмотря на то, что существующие методы могут создавать видимо привлекательные видео, они обычно не предоставляют возможность контролировать отдельные элементы, такие как персонаж, фон, движения и поведение. Эта недостаточность ограничивает гибкость и применимость таких моделей в реальной жизни. Мы предлагаем новую методологию, декомпозирующую проблему на независимые подзадачи, что позволяет контролировать каждый из этих аспектов видео. #### Метод Мы предлагаем разделенную модель управления движениями и генерацией видео в трехмерном пространстве, включающую несколько ключевых компонентов. Во-первых, мы используем трехмерную систему координат, ориентированную на поверхность земли, чтобы редактировать движения в пространстве. Траектории персонажа контролируются путем преобразования распечатанных 2D-карт в 3D с использованием калибровки фокуса и преобразования координат. Также, мы добавляем возможность регулировать скорость и ориентацию. Для генерации движений мы используем банк движений или текстовые модели, которые создают траектории. Для генерации видео мы вводим текст-to-video Diffusion Transformer модель, встраивающую персонажа как токены для полного внимания, конкатенируя фоновое видео и создавая сигналы для управления движениями путем сложения. #### Результаты Мы проверили нашу модель на нескольких бенчмарк-датасетах и реальных сценариях. Наши эксперименты показали, что модель достигает стадии лидирующего производителя по контролируемости и качеству видео. Мы сравнили нашу модель с текущими лидерами, и она показала значительное преимущество в четырёх первичных элементах видео: персонажа, фона, движений и траекторий. Мы также выполнили различные реальные примеры, показав способность нашей модели по-новому покопаться в ряде задач связанных с генерацией видео. #### Значимость Наша модель решает важное задание, предоставляя полный контроль над отдельными элементами видео. Она может применяться в сферах, таких как тренировки, развлечения, презентации, и даже в области кинематографии. Благодаря своей гибкости и мощи, модель открывает новые возможности для творчества и реалистичного моделирования движений. #### Выводы Мы представили новую компонентную модель для генерации видео с контролируемыми движениями. Наша модель демонстрирует выдающиеся результаты в области контролируемой генерации видео, а также открывает пути для дальнейшего исследовани
Annotation:
Generating human videos with realistic and controllable motions is a challenging task. While existing methods can generate visually compelling videos, they lack separate control over four key video elements: foreground subject, background video, human trajectory and action patterns. In this paper, we propose a decomposed human motion control and video generation framework that explicitly decouples motion from appearance, subject from background, and action from trajectory, enabling flexible mix-...
ID: 2508.08588v1 cs.CV, eess.IV
Авторы:

Harry Walsh, Ed Fish, Ozge Mercanoglu Sincan, Mohamed Ilyes Lakhal, Richard Bowden, Neil Fox, Bencie Woll, Kepeng Wu, Zecheng Li, Weichao Zhao, Haodong Wang, Wengang Zhou, Houqiang Li, Shengeng Tang, Jiayi He, Xu Wang, Ruobei Zhang, Yaxiong Wang, Lechao Cheng, Meryem Tasyurek, Tugce Kiziltepe, Hacer Yalim Keles

## Контекст Задача генерирования жестов знаковых языков (Sign Language Production, SLP) заключается в конвертации речи в видео с жестовыми выражениями. Несмотря на недавние прогрессы, особенно с внедрением глубокого обучения, существуют проблемы, такие как несогласованные методы оценки и отсутствие стандартных метрик для SLP. Это существенно сковывает возможности сравнения различных подходов и сводит к минимуму возможность прогресса в этой области. Мы предлагаем первую Sign Language Production Challenge, проведенную в рамках третьей SLRTP Workshop на CVPR 2025. Главная цель этого соревнования — оценить архитектуры, конвертирующие речевые запросы в последовательности скелетных поз, известные как Text-to-Pose (T2P) перевод, с использованием различных метрик. Мы используем RWTH-PHOENIX-Weather-2014T, базу данных для знакового языка Немецкой Дезартерспроагс (DGS) с тематикой погодных прогнозов. Дополнительно, мы создали пользовательский тестовый набор из похожих данных дискурса. Это соревнование привлекло 33 участников, которые представили 231 моделей. Лидирующая команда достигла BLEU-1 значения 31.40 и DTW-MJE 0.0574, используя рамку на основе восстановления и предварительно обученную модель языка. В рамках этого соревнования мы выпустили стандартизированную систему оценки, включающую высококачественные скелетные ключевые точки, позволяющие создать надежный бенчмарк для дальнейших исследований в этой области. ## Метод Разработанная методология состояла из двух основных компонентов: универсальной системы оценки и соревновательного фреймворка. Для оценки входных запросов в виде речи и выходных данных в виде скелетных поз, мы предлагаем стандартизированную сеть, основанную на выделении скелетных ключевых точек. Эта система обеспечивает согласованность и последовательность в сравнении различных моделей. Главный соревновательный фреймворк включал в себя три основных задачи: оценка визуализации жестов, временной динамики и точности трансляции. Мы применяли RWTH-PHOENIX-Weather-2014T в качестве данных тренировки и тестовых наборов, а также создали пользовательский тестовый набор для повышения уровня сложности и реалистичности. Участники были поощрены для разработки моделей, ориентированных на жесты, естественность и точность в генерации знакового языка. ## Результаты За счет участия 33 команд, было представлено 231 моделей, прошедших этапы стандартизированной оценки. Лидирующая команда показала BLEU-1 оценку 31.40 и DTW-MJE 0.0574, используя сочетание ретриев-базисной модели и предварительно обученной модели языка. Б
Annotation:
Sign Language Production (SLP) is the task of generating sign language video from spoken language inputs. The field has seen a range of innovations over the last few years, with the introduction of deep learning-based approaches providing significant improvements in the realism and naturalness of generated outputs. However, the lack of standardized evaluation metrics for SLP approaches hampers meaningful comparisons across different systems. To address this, we introduce the first Sign Language ...
ID: 2508.06951v1 cs.CV, eess.IV, eess.SP
Авторы:

Hongyang Zhou, Xiaobin Zhu, Liuling Chen, Junyi He, Jingyan Qin, Xu-Cheng Yin, Zhang xiaoxing

#### Контекст В области научных исследований существуют сложности с реализацией эффективных способов увеличения разрешения изображений в реальных условиях. Одна из основных проблем заключается в том, что существующие методы синтетических данных часто не могут генерировать справедливые результаты в условиях неизвестной и сложной деградации в реальной среде. Это приводит к ограниченному универсальному применению этих методов, которые порой не могут правильно справляться с непредсказуемыми и разнообразными искажениями в реальных снимках. #### Метод В предлагаемом подходе используется модель Rectified Flow Degradation Module (RFDM), которая стремится эффективно моделировать деградацию в реальной среде. Метод основывается на технике инвертированного моделирования, где используются деформированные низкоразрешенные изображения (DT-LR) в качестве промежуточных элементов. Это позволяет лучше отразить реальные условия деградации. Дополнительно, вводится Fourier Prior Guided Degradation Module (FGDM), который использует структурные компоненты Фурье-преобразования для точного моделирования характера деградации. Эти два модуля объединены в одноуровневую архитектуру, которая генерирует изображения с добавленной реальностью. Эти изображения, в свою очередь, используются вместе с высокоразрешенными изображениями для обучения существующих сетей супер-разрешения. #### Результаты Выполненные эксперименты показали высокую эффективность предложенного метода в реальных условиях. Были использованы различные наборы данных для оценки качества генерируемых изображений. Использование RFDM и FGDM существенно повысило точность и реализм низкоразрешенных изображений. Эксперименты показали, что данный подход обеспечивает значимый выигрыш по сравнению с другими методами, особенно при работе с реальными условиями деградации в реальных снимках. #### Значимость Предлагаемый подход имеет широкие области применения в информатике и изображениях. Он может применяться в различных сферах, таких как медицина, техника, сельское хозяйство и др., где необходимо обрабатывать изображения с высоким разрешением в неидеальных условиях. Основные преимущества включают высокую точность моделирования деградации, увеличение реалистичности сгенерированных изображений и улучшение общей точности супер-разрешения. #### Выводы Выводы, полученные в результате данного исследования, подчеркивают эффективность предложенного подхода в решении проблем супер-разрешения в реальных условиях. На будущее планируется расширить область применения, улучшить моделирование деградации и добиться еще большей точности и реализма сгенерированных изо
Annotation:
Unsupervised real-world super-resolution (SR) faces critical challenges due to the complex, unknown degradation distributions in practical scenarios. Existing methods struggle to generalize from synthetic low-resolution (LR) and high-resolution (HR) image pairs to real-world data due to a significant domain gap. In this paper, we propose an unsupervised real-world SR method based on rectified flow to effectively capture and model real-world degradation, synthesizing LR-HR training pairs with rea...
ID: 2508.07214v1 cs.CV, eess.IV
Авторы:

Pranav Chougule

## Контекст Одной из важнейших проблем в области компьютерного зрения и графики является точное воссоздание и визуализация трёхмерных сцен. Традиционные методы, такие как фотограмметрия, часто сталкиваются с ограничениями в сфере качества и резолюции моделей. Из-за этого возникает необходимость в разработке новых технологий, которые могут улучшить качество и полноту воспроизведения сцен. Метод **Gaussian Splatting**, основанный на распределении Гаусса, показал свою эффективность в создании высококачественных трёхмерных моделей. Однако, есть необходимость провести подробные сравнительные исследования, чтобы определить его эффективность по сравнению с традиционными методами, такими как фотограмметрия. ## Метод Для исследования был создан набор данных, состоящий из реальных съёмок сцены. Для сбора данных использовались камеры с разным разрешением. Модели 3D были созданы используя два метода: **фотограмметрия** и **Gaussian Splatting**. Для оценки качества трёхмерных моделей были применены метрики, такие как **SSIM** (Structural Similarity Index), **PSNR** (Peak Signal-to-Noise Ratio) и **LPIPS** (Learned Perceptual Image Patch Similarity). Также, для оценки резолюции использовался **USAF resolution chart**. Для достижения более высокого качества воспроизведения новых видений, была разработана усовершенствованная версия репозитория **Gaussian Splatting**, которая позволяет рендерить изображения из новых точек зрения, сгенерированных в среде **Blender**. ## Результаты Были проведены сравнительные эксперименты, используя созданные модели 3D. Результаты показали, что **Gaussian Splatting** превосходит фотограмметрию в плане качества и резолюции воспроизведения моделей. Метрики SSIM, PSNR и LPIPS показали значительное улучшение качества моделей, созданных с использованием Gaussian Splatting. Также, **USAF resolution chart** показал, что **Gaussian Splatting** обеспечивает лучшую резолюцию, чем фотограмметрия. Была также проведена сравнительная оценка новых моделей, построенных с использованием оригинальных изображений и новых видов, полученных с помощью **Gaussian Splatting**. Это позволило показать, что **Gaussian Splatting** может значительно улучшить качество моделей, строящихся на основе фотограмметрии. ## Значимость Результаты этого исследования имеют большое значение в различных областях, таких как **XR (extended reality)**, **автономные системы навигации** и **фотограмметрия**. Улучшение качества и резолюции моделей позволяет повысить эффективность виртуальных и расширенных реальностей, а также обеспечить более точную навигацию в автономных системах. Более того, разработанная модификация **Gaussian Splatting** предоставляет новые возможности для рендеринга высококачественных новых видов, что может иметь будуще
Annotation:
In this paper, I present a comprehensive study comparing Photogrammetry and Gaussian Splatting techniques for 3D model reconstruction and view synthesis. I created a dataset of images from a real-world scene and constructed 3D models using both methods. To evaluate the performance, I compared the models using structural similarity index (SSIM), peak signal-to-noise ratio (PSNR), learned perceptual image patch similarity (LPIPS), and lp/mm resolution based on the USAF resolution chart. A signific...
ID: 2508.07483v1 cs.CV, eess.IV
Авторы:

Chongke Bi, Xin Gao, Jiangkang Deng, Guan

## Контекст Область исследования связана с развитием методов для повышения разрешения временно варьирующихся трехмерных данных, которые требуют огромных вычислительных ресурсов для получения с высокой частотой кадров. Это важно для таких областей как метеорология, гидродинамика и других научных симуляций, где генерация таких данных является дорогостоящей и требующей много времени. Ограниченность доступных высокого разрешения данных (HR) приводит к нехватке тренировочных данных для обучения существующих моделей супер-разрешения, что ограничивает их применение. Мотивация заключается в создании метода, который может эффективно работать с ограниченным количеством высокого разрешения данных, позволяя при этом получить точные и детальные 3D супер-разрешенные результаты. ## Метод Метод CD-TVD (Contrastive Diffusion for 3D Super-Resolution) сочетает две основные компоненты: контрастное обучение и усовершенствованную модель диффузии. За счёт контрастного обучения на исторических данных модель учится распознавать общие характеристики и детали высокого разрешения (HR) и низкого разрешения (LR) данных. В ходе тренировки, модель диффузии, укомплектованная локальным механизмом внимания, подстраивается под новые данные с помощью только одного нового шага высокого разрешения, который становится доступным. Это позволяет ограничиться минимальным количеством высокого разрешения данных, при этом учитывая уже доступный шум и детали с помощью ранее полученных знаний. Таким образом, CD-TVD эффективно преобразует ограниченные высокорезольвентные данные в HR-результаты. ## Результаты Использовались данные из симуляций жидкости и атмосферных процессов. Модель CD-TVD была сравнивана с другими методами супер-разрешения. Результаты показали, что CD-TVD достигает высокой точности в предсказании временно варьирующихся трехмерных данных с 3D супер-разрешением, при этом значительно экономящей ресурсы. Она показала себя эффективнее существующих моделей, особенно при ограниченных тренировочных данных. Эксперименты подтвердили, что модель CD-TVD может точно восстанавливать детали временно варьирующихся трехмерных данных, даже в условиях ограниченности высокоразрешенных данных. ## Значимость Метод CD-TVD может быть применён в ситуациях, где доступ к большим объёмам высокого разрешения данных ограничен, например, в научных симуляциях, в технике, в аэрокосмических исследованиях. Он предлагает значительные преимущества в своей способности использовать ограниченные HR-данные для получения точных 3D супер-разрешенных результатов. Это открывает возможности для экономии времени и вычислительных ресурсов. Также, CD
Annotation:
Large-scale scientific simulations require significant resources to generate high-resolution time-varying data (TVD). While super-resolution is an efficient post-processing strategy to reduce costs, existing methods rely on a large amount of HR training data, limiting their applicability to diverse simulation scenarios. To address this constraint, we proposed CD-TVD, a novel framework that combines contrastive learning and an improved diffusion-based super-resolution model to achieve accurate 3D...
ID: 2508.08173v1 cs.CV, eess.IV
Авторы:

Hongkun Jin, Hongcheng Jiang, Zejun Zhang, Yuan Zhang, Jia Fu, Tingfeng Li, Kai Luo

## Контекст Исследование сосредоточено на задаче hyperspectral pansharpening, которая предназначена для точного реконструкции высокого разрешения спектральных (hyperspectral) изображений, используя дополнительные спутниковые снимки с высоким разрешением (pansharpened). Традиционные методы часто сталкиваются с проблемами, такими как затухание высокочастотных компонент в изображении (например, границы материалов и текстурные переходы) и распределение внимания между ненужными токенами. Эти ограничения приводят к ухудшению точности реконструкции и неэффективности алгоритмов. Необходимость улучшения этих аспектов мотивировала развитие новых архитектур, которые могли бы более эффективно обрабатывать hyperspectral images. ## Метод THAT (Token-wise High-frequency Augmentation Transformer) представляет собой передовую архитектуру, основанную на Vision Transformers (ViTs), с улучшенными механизмами для обработки высокочастотных компонент. Основными инновациями являются: 1. **Pivotal Token Selective Attention (PTSA)**: Это механизм, который активно выделяет важные токены, уменьшая распределение внимания на ненужные представления. 2. **Multi-level Variance-aware Feed-forward Network (MVFN)**: Это сеть, способная анализировать и усиливать высокочастотные детали на разных уровнях сети, улучшая точность реконструкции. Кроме того, THAT рассматривает hyperspectral images с точки зрения спектрально-пространственного представления, что позволяет учитывать специфические признаки, такие как нелинейные зависимости и локальная схожесть. ## Результаты Исследование проводилось на нескольких стандартных бенчмарках, включая hyperspectral datasets, например, CAVE, KSC и Urban. Эксперименты показали, что THAT достигает значительного улучшения в метриках, таких как SAM (Spectral Angle Mapper) и ERGAS (Error Ratio in Spectral Domain), в сравнении с предыдущими методами. Улучшение составляло до 15% в каких-то метриках, что демонстрирует эффективность нового подхода в обработке высокочастотных деталей и уменьшении распределения внимания на ненужные токены. ## Значимость THAT может применяться в различных сферах, включая спутниковую обработку изображений, системы распознавания объектов на изображениях и машинное обучение для hyperspectral imagery. Основные преимущества включают улучшенную точность реконструкции, эффективность вычислений, и уменьшение расхода ресурсов. Этот подход может иметь потенциал для расширения возможностей в сфере hyperspectral processing, обеспечивая более точные и эффективные решения. ## Выводы Данная работа представляет собой успешный пример использования transformer-based методов для решения проблем в hyperspectral pansharpening. THAT устанавливает новый стандарт по точности и эффективности в этой области. Будущие исследования будут сконцентрированы на расширении этой модели для обработки б
Annotation:
Transformer-based methods have demonstrated strong potential in hyperspectral pansharpening by modeling long-range dependencies. However, their effectiveness is often limited by redundant token representations and a lack of multi-scale feature modeling. Hyperspectral images exhibit intrinsic spectral priors (e.g., abundance sparsity) and spatial priors (e.g., non-local similarity), which are critical for accurate reconstruction. From a spectral-spatial perspective, Vision Transformers (ViTs) fac...
ID: 2508.08183v1 cs.CV, eess.IV
Авторы:

Shushi Wang, Chunyi Li, Zicheng Zhang, Han Zhou, Wei Dong, Jun Chen, Guangtao Zhai, Xiaohong Liu

## Контекст В последние годы AI-based image enhancement techniques становятся все более важной частью современных визуальных технологий. Они позволяют значительно улучшить качество пользовательских генерируемых контентов (UGC). Однако, существующие модели для оценки качества не всегда эффективно работают с AI-enhanced UGC, который объединяет черты как UGC, так и AI-generated content (AIGC). Это создает серьезную проблему для развития эффективных методов perceptual quality assessment (PQA). Существующие модели, ориентированные на UGC или AIGC, часто не могут правильно оценивать характеристики AI-UGC, что сказывается на качестве пользовательского опыта и развитии новых алгоритмов. ## Метод AU-IQA — это современный benchmark dataset, состоящий из 4,800 AI-UGC изображений, полученных путем применения трех основных AI-enhancement techniques: super-resolution, low-light enhancement, и denoising. Эти типы были выбраны за счет их широкого применения в различных визуальных приложениях. Для построения датасета был создан процесс визуализации, который моделирует реальные условия применения этих технологий. Архитектура dataset позволяет эффективно проводить эксперименты с различными PQA-моделями, включая traditional IQA methods и large multimodal models. ## Результаты В ходе экспериментов были использованы 4,800 изображений с различными уровнями качества, полученными через PQA-модели. Результаты показали, что существующие модели часто не могут правильно оценивать качество AI-UGC. Например, применение traditional IQA моделей часто приводит к высокой ошибке в оценке характеристик AI-UGC. В то же время, large multimodal models показали лучшие результаты, но также имеют ограничения в предсказании тонких деталей и природных характеристик AI-UGC. ## Значимость AU-IQA демонстрирует возможность улучшения perceptual quality assessment для AI-UGC. Эта работа имеет важное значение для развития PQA-моделей и AI-enhancement technologies. Она может быть применена в различных областях, таких как computer vision, multimedia, и пользовательские визуальные приложения. Развитие эффективных PQA-моделей позволит улучшить качество пользовательских исследований, повысить качество работы AI-enhancement techniques, и, в итоге, способствовать развитию технологий визуального содержимого. ## Выводы Разработка AU-IQA демонстрирует важность создания специализированных датасетов для оценки качества AI-enhanced UGC. На основе полученных результатов, будущие исследования будут сфокусированы на создании еще более точных и высокоэффективных PQA-моделей, которые будут правильно оценивать характеристики AI-UGC. Это может привести к значительным улучшениям в области AI-enhancement technologies и повышению качества пользовательского опыта.
Annotation:
AI-based image enhancement techniques have been widely adopted in various visual applications, significantly improving the perceptual quality of user-generated content (UGC). However, the lack of specialized quality assessment models has become a significant limiting factor in this field, limiting user experience and hindering the advancement of enhancement methods. While perceptual quality assessment methods have shown strong performance on UGC and AIGC individually, their effectiveness on AI-e...
ID: 2508.05016v2 cs.CV, eess.IV
Показано 81 - 90 из 101 записей