Propose and Rectify: A Forensics-Driven MLLM Framework for Image Manipulation Localization
2508.17976v1
cs.CV, eess.IV
2025-08-27
Авторы:
Keyang Zhang, Chenqi Kong, Hui Liu, Bo Ding, Xinghao Jiang, Haoliang Li
Резюме на русском
#### Контекст
Современные технологии манипуляции с изображениями достигли высокой степени отработки, что привело к появлению сложных методов обмана. Это приводит к критической потребности в эффективных методах локализации манипуляций. Традиционные подходы часто имеют ограниченную точность и недостаточно широкую область применения. Многомодальные большие языковые модели (MLLMs) отличаются своей способностью использовать контекстное понимание и семантические связи для обнаружения манипуляций. Однако они часто недостаточно чувствительны к тонким характеристикам, которые требуются для точной локализации. Это создает важность разработки новых систем, которые могли бы синтезировать семантическое понимание и специализированные методы форграфического анализа.
#### Метод
Методология, предлагаемая в работе, состоит из двух этапов. В первой фазе используется процедура "предлагать" (Propose), в которой применяется модифицированная модель LLaVA, которая обладает способностью понимать текстовые запросы и выдавать начальные аналитические пропозиции. Эта модель основывается на глубоком понимании текста и контекстной разметке. Во второй фазе, "корректировать" (Rectify), введен модуль Forensics Rectification, который использует многомерный анализ форграфических признаков. Модуль также включает Enhanced Segmentation Module, который интегрирует конкретные элементы форграфического анализа в механизм кодирования изображений. Это позволяет улучшить точность локализации, устранив основные недостатки моделей семантического анализа.
#### Результаты
Работа представляет эксперименты, проведенные на нескольких выборках данных, в том числе на популярных датасетах манипуляций с изображениями. Модель показала сильное превосходство по отношению к существующим подходам в области локализации манипуляций. Результаты показали высокую точность и широкий диапазон применяемости, даже в случаях с высокой трудностью изображений. Данные эксперименты подтвердили значительный улучшение качества локализации благодаря использованию многомодального подхода и систематической верификации на основе форграфического анализа.
#### Значимость
Предложенный подход имеет расширенные возможности в области цифровой аутентификации и защиты информации. Он может применяться в сфере безопасности информации, а также в профессиональных сферах, таких как полиграфия и юридический анализ. Основное преимущество заключается в способности объединить семантическую и техническую аналитику, что приводит к более точной локализации манипуляций. Это может повысить эффективность распознавания и обработки цифровых подделок, что имеет значитель
Abstract
The increasing sophistication of image manipulation techniques demands robust
forensic solutions that can both reliably detect alterations and precisely
localize tampered regions. Recent Multimodal Large Language Models (MLLMs) show
promise by leveraging world knowledge and semantic understanding for
context-aware detection, yet they struggle with perceiving subtle, low-level
forensic artifacts crucial for accurate manipulation localization. This paper
presents a novel Propose-Rectify framework that effectively bridges semantic
reasoning with forensic-specific analysis. In the proposal stage, our approach
utilizes a forensic-adapted LLaVA model to generate initial manipulation
analysis and preliminary localization of suspicious regions based on semantic
understanding and contextual reasoning. In the rectification stage, we
introduce a Forensics Rectification Module that systematically validates and
refines these initial proposals through multi-scale forensic feature analysis,
integrating technical evidence from several specialized filters. Additionally,
we present an Enhanced Segmentation Module that incorporates critical forensic
cues into SAM's encoded image embeddings, thereby overcoming inherent semantic
biases to achieve precise delineation of manipulated regions. By
synergistically combining advanced multimodal reasoning with established
forensic methodologies, our framework ensures that initial semantic proposals
are systematically validated and enhanced through concrete technical evidence,
resulting in comprehensive detection accuracy and localization precision.
Extensive experimental validation demonstrates state-of-the-art performance
across diverse datasets with exceptional robustness and generalization
capabilities.
Ссылки и действия
Дополнительные ресурсы: