Propose and Rectify: A Forensics-Driven MLLM Framework for Image Manipulation Localization

2508.17976v1 cs.CV, eess.IV 2025-08-27

Авторы:

Keyang Zhang, Chenqi Kong, Hui Liu, Bo Ding, Xinghao Jiang, Haoliang Li

Резюме на русском

#### Контекст Современные технологии манипуляции с изображениями достигли высокой степени отработки, что привело к появлению сложных методов обмана. Это приводит к критической потребности в эффективных методах локализации манипуляций. Традиционные подходы часто имеют ограниченную точность и недостаточно широкую область применения. Многомодальные большие языковые модели (MLLMs) отличаются своей способностью использовать контекстное понимание и семантические связи для обнаружения манипуляций. Однако они часто недостаточно чувствительны к тонким характеристикам, которые требуются для точной локализации. Это создает важность разработки новых систем, которые могли бы синтезировать семантическое понимание и специализированные методы форграфического анализа. #### Метод Методология, предлагаемая в работе, состоит из двух этапов. В первой фазе используется процедура "предлагать" (Propose), в которой применяется модифицированная модель LLaVA, которая обладает способностью понимать текстовые запросы и выдавать начальные аналитические пропозиции. Эта модель основывается на глубоком понимании текста и контекстной разметке. Во второй фазе, "корректировать" (Rectify), введен модуль Forensics Rectification, который использует многомерный анализ форграфических признаков. Модуль также включает Enhanced Segmentation Module, который интегрирует конкретные элементы форграфического анализа в механизм кодирования изображений. Это позволяет улучшить точность локализации, устранив основные недостатки моделей семантического анализа. #### Результаты Работа представляет эксперименты, проведенные на нескольких выборках данных, в том числе на популярных датасетах манипуляций с изображениями. Модель показала сильное превосходство по отношению к существующим подходам в области локализации манипуляций. Результаты показали высокую точность и широкий диапазон применяемости, даже в случаях с высокой трудностью изображений. Данные эксперименты подтвердили значительный улучшение качества локализации благодаря использованию многомодального подхода и систематической верификации на основе форграфического анализа. #### Значимость Предложенный подход имеет расширенные возможности в области цифровой аутентификации и защиты информации. Он может применяться в сфере безопасности информации, а также в профессиональных сферах, таких как полиграфия и юридический анализ. Основное преимущество заключается в способности объединить семантическую и техническую аналитику, что приводит к более точной локализации манипуляций. Это может повысить эффективность распознавания и обработки цифровых подделок, что имеет значитель

Abstract

The increasing sophistication of image manipulation techniques demands robust forensic solutions that can both reliably detect alterations and precisely localize tampered regions. Recent Multimodal Large Language Models (MLLMs) show promise by leveraging world knowledge and semantic understanding for context-aware detection, yet they struggle with perceiving subtle, low-level forensic artifacts crucial for accurate manipulation localization. This paper presents a novel Propose-Rectify framework that effectively bridges semantic reasoning with forensic-specific analysis. In the proposal stage, our approach utilizes a forensic-adapted LLaVA model to generate initial manipulation analysis and preliminary localization of suspicious regions based on semantic understanding and contextual reasoning. In the rectification stage, we introduce a Forensics Rectification Module that systematically validates and refines these initial proposals through multi-scale forensic feature analysis, integrating technical evidence from several specialized filters. Additionally, we present an Enhanced Segmentation Module that incorporates critical forensic cues into SAM's encoded image embeddings, thereby overcoming inherent semantic biases to achieve precise delineation of manipulated regions. By synergistically combining advanced multimodal reasoning with established forensic methodologies, our framework ensures that initial semantic proposals are systematically validated and enhanced through concrete technical evidence, resulting in comprehensive detection accuracy and localization precision. Extensive experimental validation demonstrates state-of-the-art performance across diverse datasets with exceptional robustness and generalization capabilities.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Propose and Rectify: A Forensics-Driven MLLM Framework for Image Manipulation Localization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Ultra-lightweight Neural Video Representation Compression

TinyViT: Field Deployable Transformer Pipeline for Solar Panel Surface Fault and...

Video Object Recognition in Mobile Edge Networks: Local Tracking or Edge Detecti...

Data Augmentation Strategies for Robust Lane Marking Detection

The Determinant Ratio Matrix Approach to Solving 3D Matching and 2D Orthographic...

Навигация