ORCA: Agentic Reasoning For Hallucination and Adversarial Robustness in Vision-Language Models

2509.15435v1 cs.CV, cs.AI, cs.MA 2025-09-22

Авторы:

Chung-En Johnny Yu, Hsuan-Chih, Chen, Brian Jalaian, Nathaniel D. Bastian

Резюме на русском

## Контекст Огромные языково-визуальные модели (Large Vision-Language Models, LVLMs) обладают выдающимися возможностями в области обработки многомодальных данных, но остаются уязвимыми к ошибкам внутреннего происхождения (hallucinations) и адверсарным атакам. Эти проблемы снижают надежность таких моделей в реальном мире, особенно в критически важных задачах, где точность и достоверность ключевые. Ограничения, связанные с этими проблемами, проявляются в задачах, таких как оценка точности текстовых описаний изображений и сопротивление атакам. Развитие методов, способных улучшить точность и устойчивость таких моделей, является актуальным и востребованным заданием. ## Метод Мы предлагаем ORCA, рамочное решение, основанное на агентском логическом рассуждении, для улучшения точности и устойчивости LVLMs. ORCA работает через цикл Observe--Reason--Critique--Act (Обследовать--Рассуждать--Критиковать--Действовать). Он запрашивает визуальные модели малого размера (менее 3 миллиардов параметров) с помощью информационных вопросов, проверяет консистентность ответов, анализирует потенциальные несоответствия и совершает итеративные корректировки. Этот процесс не требует доступа к внутренним работам моделей или их переобучению. Более того, ORCA регистрирует все промежуточные логические шаги, обеспечивая прозрачность и аудитность решений. Алгоритм ORCA ориентирован прежде всего на устранение ошибок в узлах объектов, но способен за счет своего многопроцессорного подхода эффективно справляться с внешними атаками. ## Результаты Мы проверили ORCA на трех сценариях: (1) работе с чистыми изображениями, (2) атаках адверсарными помехами без защитных методов, и (3) атаках с применением защитных методов. На POPE hallucination benchmark, ORCA показал разность до +40.67% в точности для различных подмножеств. В условиях адверсарных нападений на POPE, ORCA повысил среднюю точность моделей LVLM на +20.11%. Кроме того, при использовании защитных методов на AMBER изображениях, ORCA повысил точность LVLM от +1.20% до +48.00%, зависимо от выбранных метрик. Эти результаты демонстрируют эффективность ORCA в улучшении надежности и сопротивляемости языково-визуальных моделей. ## Значимость ORCA может быть применено в многообразных областях, где важна надежность лингвистических выводов на основе визуальных данных, в том числе в области медицины, юриспруденции, автоматизации производственных процессов и безопасности. ORCA значительно повышает точность и сопротивляемость существующих LVLMs, уменьшая риск ошибок и повышая доверие пользователей. Его потенциальное влияние заключается в том, что он может стать основой для развити

Abstract

Large Vision-Language Models (LVLMs) exhibit strong multimodal capabilities but remain vulnerable to hallucinations from intrinsic errors and adversarial attacks from external exploitations, limiting their reliability in real-world applications. We present ORCA, an agentic reasoning framework that improves the factual accuracy and adversarial robustness of pretrained LVLMs through test-time structured inference reasoning with a suite of small vision models (less than 3B parameters). ORCA operates via an Observe--Reason--Critique--Act loop, querying multiple visual tools with evidential questions, validating cross-model inconsistencies, and refining predictions iteratively without access to model internals or retraining. ORCA also stores intermediate reasoning traces, which supports auditable decision-making. Though designed primarily to mitigate object-level hallucinations, ORCA also exhibits emergent adversarial robustness without requiring adversarial training or defense mechanisms. We evaluate ORCA across three settings: (1) clean images on hallucination benchmarks, (2) adversarially perturbed images without defense, and (3) adversarially perturbed images with defense applied. On the POPE hallucination benchmark, ORCA improves standalone LVLM performance by +3.64\% to +40.67\% across different subsets. Under adversarial perturbations on POPE, ORCA achieves an average accuracy gain of +20.11\% across LVLMs. When combined with defense techniques on adversarially perturbed AMBER images, ORCA further improves standalone LVLM performance, with gains ranging from +1.20\% to +48.00\% across evaluation metrics. These results demonstrate that ORCA offers a promising path toward building more reliable and robust multimodal systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ORCA: Agentic Reasoning For Hallucination and Adversarial Robustness in Vision-Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Concept-RuleNet: Grounded Multi-Agent Neurosymbolic Reasoning in Vision Language...

Agentic Reasoning for Robust Vision Systems via Increased Test-Time Compute

MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling

Навигация