Agentic Reasoning for Robust Vision Systems via Increased Test-Time Compute

2509.16343v1 cs.CV, cs.AI, cs.MA 2025-09-24

Авторы:

Chung-En, Yu, Brian Jalaian, Nathaniel D. Bastian

Резюме на русском

########################## ## Контекст ########################## В последние годы интеллектуальные системы визуального восприятия нашли применение во многих высокорисковых областях, включая удаленное сенсорное обследование и медицинскую диагностику. Однако достижение высокой надежности и устойчивости таких систем остается вызовом. Несмотря на развитие сложных моделей, таких как vision-language models (VLM) и pure vision systems, они часто страдают от недостатка устойчивости к нестандартным входным данным и непредсказуемости результатов. Эти проблемы напряженно влияют на реальности, где ответственность и надежность критически важны. Более того, текущие методы часто требуют значительных ресурсов для повторного обучения или тюнинга моделей, что повышает затраты и сложность их применения в быстро меняющихся условиях. Из-за этого требуется разработка более простых, гибких и надёжных подходов, которые могут усилить надежность таких систем без изменения основного обучения. ########################## ## Метод ########################## Мы предлагаем **Visual Reasoning Agent (VRA)**, новый гибкий фреймворк, который способен усилить надежность искусственных визуальных систем без необходимости повторного обучения. Фреймворк VRA оперирует существующими vision-language и pure vision моделями, включая их в цикл решения задач по шагам **Think--Critique--Act**. Цикл работает следующим образом: 1. **Think**: Система визуального восприятия выполняет первичное распознавание и оценку входных данных. 2. **Critique**: На основе результатов первого шага, VRA применяет дополнительные агентские модели для критического анализа и корректировки вывода. 3. **Act**: Базируясь на результатах анализа, система принимает окончательное решение. Этот процесс позволяет использовать тестирующую вычислительную мощность для оптимизации решений во время выполнения, без изменения моделей подготовки. ########################## ## Результаты ########################## Мы проверили VRA на нескольких стандартных бенчмарках визуального разума, включая ObjectNet и Visual Reasoning for Real Life (VRR). Наши эксперименты показали, что VRA увеличивает точность на 20-40% в зависимости от задачи и сложности набора данных. Это достигается благодаря критическому анализу и улучшенной интеграции входных данных в момент выполнения. Данные результаты были получены с использованием внедрения дополнительного тестирующего вычислительного мощности. Однако, несмотря на повышенный overhead, результаты показывают, что VRA может значительно повысить надёжность искусственных визуальных систем в высокорисковых областях. ########################## ## Значимость ########################## Предложенный подход может быть применён в различных высокорисковых сферах, включая медицинское визуальное восприятие, системы безопасности, автомобильные технологии и даже сектор

Abstract

Developing trustworthy intelligent vision systems for high-stakes domains, \emph{e.g.}, remote sensing and medical diagnosis, demands broad robustness without costly retraining. We propose \textbf{Visual Reasoning Agent (VRA)}, a training-free, agentic reasoning framework that wraps off-the-shelf vision-language models \emph{and} pure vision systems in a \emph{Think--Critique--Act} loop. While VRA incurs significant additional test-time computation, it achieves up to 40\% absolute accuracy gains on challenging visual reasoning benchmarks. Future work will optimize query routing and early stopping to reduce inference overhead while preserving reliability in vision tasks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Agentic Reasoning for Robust Vision Systems via Increased Test-Time Compute

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Concept-RuleNet: Grounded Multi-Agent Neurosymbolic Reasoning in Vision Language...

ORCA: Agentic Reasoning For Hallucination and Adversarial Robustness in Vision-L...

MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling

Навигация