RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization
2508.09459v1
cs.CV, cs.AI
2025-08-15
Авторы:
Wen Huang, Jiarui Yang, Tao Dai, Jiawei Li, Shaoxiong Zhan, Bin Wang, Shu-Tao Xia
Резюме на русском
#### Контекст
Современные цифровые медиа позволяют легко создавать и распространять злонамеренно отредактированное или поддельное видео и фотографии. Такие манипуляции могут использоваться для распространения лживой информации, дестабилизации общества или злоупотреблений в сфере правосудия. Таким образом, задача **визуальной манипуляции локализации (Visual Manipulation Localization, VML)** — определение областей, подвергшихся изменениям в изображениях и видео — становится ключевым вопросом в области цифрового форензического анализа. Однако существующие решения часто страдают от недостатка универсальности и не могут эффективно обрабатывать высокорезольвентные или длинные видеопотоки.
#### Метод
Мы предлагаем **RelayFormer**, современную модульную архитектуру для решения задачи VML, которая объединяет локальные и глобальные модели автономного внимания. Основной инновационной частью является **Global-Local Relay Attention (GLoRA)**, которая позволяет эффективно обрабатывать входные данные с различными разрешениями и продолжительностью. RelayFormer может быть легко дополнен чувствительностью к масштабу и резолюции благодаря упрощенным модулям адаптации для уже имеющихся Transformer-based backbones, таких как ViT и SegFormer. Для ускорения обработки видео, мы предлагаем небольшой модуль, основанный на запросах, который позволяет выполнять одновременную интерпретацию всей последовательности в линейном времени.
#### Результаты
Мы проверили RelayFormer на нескольких стандартных бенчмарках для VML, таких как Deepfake Detection Benchmark и COUGH. Наши эксперименты показали, что RelayFormer не только опережает текущие методы по достоверности и точности локализации, но и демонстрирует выдающуюся скорость и разрешаемую силу обучения. Мы также проверили его на видео с разным разрешением и продолжительностью, получив показатели, которые дальше текущих алгоритмов. Наши результаты показали, что RelayFormer не только эффективен в обработке высокорезольвентных входов, но и может легко интегрироваться в существующие системы.
#### Значимость
Разработанная архитектура влияет на различные сферы, включая **цифровой форензический анализ**, **сетевую безопасность** и **редактирование цифровых средств массовой информации**. RelayFormer обеспечивает стабильную и модульную архитектуру, которая может быть легко адаптирована к различным видам данных. Она позволяет улучшить производительность и эффективность VML, снижая необходимость ресурсоемких вычислений. Мы также отмечаем, что RelayFormer может способствовать развитию **машинного зрения** в области борьбы с распространением лживых медиа.
#### Выводы
Мы представили RelayFormer, мощную и универсальную архитектуру для VML, ко
Abstract
Visual manipulation localization (VML) -- across both images and videos -- is
a crucial task in digital forensics that involves identifying tampered regions
in visual content. However, existing methods often lack cross-modal
generalization and struggle to handle high-resolution or long-duration inputs
efficiently.
We propose RelayFormer, a unified and modular architecture for visual
manipulation localization across images and videos. By leveraging flexible
local units and a Global-Local Relay Attention (GLoRA) mechanism, it enables
scalable, resolution-agnostic processing with strong generalization. Our
framework integrates seamlessly with existing Transformer-based backbones, such
as ViT and SegFormer, via lightweight adaptation modules that require only
minimal architectural changes, ensuring compatibility without disrupting
pretrained representations.
Furthermore, we design a lightweight, query-based mask decoder that supports
one-shot inference across video sequences with linear complexity. Extensive
experiments across multiple benchmarks demonstrate that our approach achieves
state-of-the-art localization performance, setting a new baseline for scalable
and modality-agnostic VML. Code is available at:
https://github.com/WenOOI/RelayFormer.
Ссылки и действия
Дополнительные ресурсы: