RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization

2508.09459v1 cs.CV, cs.AI 2025-08-15

Авторы:

Wen Huang, Jiarui Yang, Tao Dai, Jiawei Li, Shaoxiong Zhan, Bin Wang, Shu-Tao Xia

Резюме на русском

#### Контекст Современные цифровые медиа позволяют легко создавать и распространять злонамеренно отредактированное или поддельное видео и фотографии. Такие манипуляции могут использоваться для распространения лживой информации, дестабилизации общества или злоупотреблений в сфере правосудия. Таким образом, задача **визуальной манипуляции локализации (Visual Manipulation Localization, VML)** — определение областей, подвергшихся изменениям в изображениях и видео — становится ключевым вопросом в области цифрового форензического анализа. Однако существующие решения часто страдают от недостатка универсальности и не могут эффективно обрабатывать высокорезольвентные или длинные видеопотоки. #### Метод Мы предлагаем **RelayFormer**, современную модульную архитектуру для решения задачи VML, которая объединяет локальные и глобальные модели автономного внимания. Основной инновационной частью является **Global-Local Relay Attention (GLoRA)**, которая позволяет эффективно обрабатывать входные данные с различными разрешениями и продолжительностью. RelayFormer может быть легко дополнен чувствительностью к масштабу и резолюции благодаря упрощенным модулям адаптации для уже имеющихся Transformer-based backbones, таких как ViT и SegFormer. Для ускорения обработки видео, мы предлагаем небольшой модуль, основанный на запросах, который позволяет выполнять одновременную интерпретацию всей последовательности в линейном времени. #### Результаты Мы проверили RelayFormer на нескольких стандартных бенчмарках для VML, таких как Deepfake Detection Benchmark и COUGH. Наши эксперименты показали, что RelayFormer не только опережает текущие методы по достоверности и точности локализации, но и демонстрирует выдающуюся скорость и разрешаемую силу обучения. Мы также проверили его на видео с разным разрешением и продолжительностью, получив показатели, которые дальше текущих алгоритмов. Наши результаты показали, что RelayFormer не только эффективен в обработке высокорезольвентных входов, но и может легко интегрироваться в существующие системы. #### Значимость Разработанная архитектура влияет на различные сферы, включая **цифровой форензический анализ**, **сетевую безопасность** и **редактирование цифровых средств массовой информации**. RelayFormer обеспечивает стабильную и модульную архитектуру, которая может быть легко адаптирована к различным видам данных. Она позволяет улучшить производительность и эффективность VML, снижая необходимость ресурсоемких вычислений. Мы также отмечаем, что RelayFormer может способствовать развитию **машинного зрения** в области борьбы с распространением лживых медиа. #### Выводы Мы представили RelayFormer, мощную и универсальную архитектуру для VML, ко

Abstract

Visual manipulation localization (VML) -- across both images and videos -- is a crucial task in digital forensics that involves identifying tampered regions in visual content. However, existing methods often lack cross-modal generalization and struggle to handle high-resolution or long-duration inputs efficiently. We propose RelayFormer, a unified and modular architecture for visual manipulation localization across images and videos. By leveraging flexible local units and a Global-Local Relay Attention (GLoRA) mechanism, it enables scalable, resolution-agnostic processing with strong generalization. Our framework integrates seamlessly with existing Transformer-based backbones, such as ViT and SegFormer, via lightweight adaptation modules that require only minimal architectural changes, ensuring compatibility without disrupting pretrained representations. Furthermore, we design a lightweight, query-based mask decoder that supports one-shot inference across video sequences with linear complexity. Extensive experiments across multiple benchmarks demonstrate that our approach achieves state-of-the-art localization performance, setting a new baseline for scalable and modality-agnostic VML. Code is available at: https://github.com/WenOOI/RelayFormer.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация