MARIC: Multi-Agent Reasoning for Image Classification
2509.14860v1
cs.CV, cs.AI, cs.CL, cs.MA
2025-09-20
Авторы:
Wonduk Seo, Minhyeong Yu, Hyunjin An, Seunghyun Lee
Резюме на русском
#### Контекст
Область исследований в области изображений и классификации в последние годы доминируется требованиями к большим данным и высокопараметричным моделям. Альтернативные подходы, такие как Vision Language Models (VLMs), упрощают задачу, но часто не могут ловко обрабатывать сложные объекты или несогласованные аспекты в изображениях. Это ограничение приводит к неэффективности или недостоверности результатов. Целью настоящего исследования является развитие метода, который может лучше учитывать глобальный контекст и подробные отдельные аспекты в изображениях, обеспечивая более точную интерпретируемую классификацию.
#### Метод
MARIC представляет собой новую архитектуру, основанную на многоагентном подходе. Основные компоненты включают: **Outliner Agent**, который определяет глобальный контекст изображения и формирует задачи для других агентов; **Aspect Agents**, которые специализируются на определенных аспектах изображения (например, цвет, форма, текстура); и **Reasoning Agent**, который объединяет все полученные выводы в единую модель. Задачи этих агентов образуют совокупность, призванную улучшить интерпретируемость и точность классификации. Реализация включает не только глубокую нейронную архитектуру, но и специально организованные процессы синтеза вывода.
#### Результаты
В экспериментах использовались такие датасеты, как CIFAR, ImageNet и др. Замеры показали, что MARIC превосходит существующие модели, в том числе VLMs, в показателях точности и интерпретируемости. Были проведены анализы по сравнению с параметрическими моделями и VLMs, демонстрируя преимущество MARIC в объеме данных и прозрачности решений. Эти результаты демонстрируют, что MARIC может эффективно обрабатывать трудные изображения, объединяя компоненты взаимодействия между агентами.
#### Значимость
Метод MARIC может быть применен в различных областях, включая медицину, робототехнику и анализ изображений для соцсетей. В отличие от традиционных моделей, MARIC предоставляет более гибкий и точный подход к классификации, с учетом множества аспектов изображения. Он также демонстрирует возможность интерактивного взаимодействия с пользователем для корректировки результатов. Это может открыть новые пути в интеллектуальной обработке изображений, где точность и интерпретированность ключевые факторы.
#### Выводы
Результаты экспериментов подтверждают, что MARIC представляет собой эффективный подход для многоагентной классификации изображений. Он успешно обходит ограничения традиционных моделей, в то же время сочетая точность и понятность. Будущие исследования будут на
Abstract
Image classification has traditionally relied on parameter-intensive model
training, requiring large-scale annotated datasets and extensive fine tuning to
achieve competitive performance. While recent vision language models (VLMs)
alleviate some of these constraints, they remain limited by their reliance on
single pass representations, often failing to capture complementary aspects of
visual content. In this paper, we introduce Multi Agent based Reasoning for
Image Classification (MARIC), a multi agent framework that reformulates image
classification as a collaborative reasoning process. MARIC first utilizes an
Outliner Agent to analyze the global theme of the image and generate targeted
prompts. Based on these prompts, three Aspect Agents extract fine grained
descriptions along distinct visual dimensions. Finally, a Reasoning Agent
synthesizes these complementary outputs through integrated reflection step,
producing a unified representation for classification. By explicitly
decomposing the task into multiple perspectives and encouraging reflective
synthesis, MARIC mitigates the shortcomings of both parameter-heavy training
and monolithic VLM reasoning. Experiments on 4 diverse image classification
benchmark datasets demonstrate that MARIC significantly outperforms baselines,
highlighting the effectiveness of multi-agent visual reasoning for robust and
interpretable image classification.