MARIC: Multi-Agent Reasoning for Image Classification

2509.14860v1 cs.CV, cs.AI, cs.CL, cs.MA 2025-09-20
Авторы:

Wonduk Seo, Minhyeong Yu, Hyunjin An, Seunghyun Lee

Резюме на русском

#### Контекст Область исследований в области изображений и классификации в последние годы доминируется требованиями к большим данным и высокопараметричным моделям. Альтернативные подходы, такие как Vision Language Models (VLMs), упрощают задачу, но часто не могут ловко обрабатывать сложные объекты или несогласованные аспекты в изображениях. Это ограничение приводит к неэффективности или недостоверности результатов. Целью настоящего исследования является развитие метода, который может лучше учитывать глобальный контекст и подробные отдельные аспекты в изображениях, обеспечивая более точную интерпретируемую классификацию. #### Метод MARIC представляет собой новую архитектуру, основанную на многоагентном подходе. Основные компоненты включают: **Outliner Agent**, который определяет глобальный контекст изображения и формирует задачи для других агентов; **Aspect Agents**, которые специализируются на определенных аспектах изображения (например, цвет, форма, текстура); и **Reasoning Agent**, который объединяет все полученные выводы в единую модель. Задачи этих агентов образуют совокупность, призванную улучшить интерпретируемость и точность классификации. Реализация включает не только глубокую нейронную архитектуру, но и специально организованные процессы синтеза вывода. #### Результаты В экспериментах использовались такие датасеты, как CIFAR, ImageNet и др. Замеры показали, что MARIC превосходит существующие модели, в том числе VLMs, в показателях точности и интерпретируемости. Были проведены анализы по сравнению с параметрическими моделями и VLMs, демонстрируя преимущество MARIC в объеме данных и прозрачности решений. Эти результаты демонстрируют, что MARIC может эффективно обрабатывать трудные изображения, объединяя компоненты взаимодействия между агентами. #### Значимость Метод MARIC может быть применен в различных областях, включая медицину, робототехнику и анализ изображений для соцсетей. В отличие от традиционных моделей, MARIC предоставляет более гибкий и точный подход к классификации, с учетом множества аспектов изображения. Он также демонстрирует возможность интерактивного взаимодействия с пользователем для корректировки результатов. Это может открыть новые пути в интеллектуальной обработке изображений, где точность и интерпретированность ключевые факторы. #### Выводы Результаты экспериментов подтверждают, что MARIC представляет собой эффективный подход для многоагентной классификации изображений. Он успешно обходит ограничения традиционных моделей, в то же время сочетая точность и понятность. Будущие исследования будут на

Abstract

Image classification has traditionally relied on parameter-intensive model training, requiring large-scale annotated datasets and extensive fine tuning to achieve competitive performance. While recent vision language models (VLMs) alleviate some of these constraints, they remain limited by their reliance on single pass representations, often failing to capture complementary aspects of visual content. In this paper, we introduce Multi Agent based Reasoning for Image Classification (MARIC), a multi agent framework that reformulates image classification as a collaborative reasoning process. MARIC first utilizes an Outliner Agent to analyze the global theme of the image and generate targeted prompts. Based on these prompts, three Aspect Agents extract fine grained descriptions along distinct visual dimensions. Finally, a Reasoning Agent synthesizes these complementary outputs through integrated reflection step, producing a unified representation for classification. By explicitly decomposing the task into multiple perspectives and encouraging reflective synthesis, MARIC mitigates the shortcomings of both parameter-heavy training and monolithic VLM reasoning. Experiments on 4 diverse image classification benchmark datasets demonstrate that MARIC significantly outperforms baselines, highlighting the effectiveness of multi-agent visual reasoning for robust and interpretable image classification.

Ссылки и действия