Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems

2508.12026v1 cs.AI, cs.CV, cs.LG 2025-08-19
Авторы:

Szymon Pawlonka, Mikołaj Małkiński, Jacek Mańdziuk

Резюме на русском

## Контекст Бонгард-РВР+: Реальность в Формах Догадки — Научная Статья, Опубликованная В 2024 Году -------------------------------------------------------------------------------------- В статье рассматривается создание новых тестовых датасетов для эмпирической оценки моделей глубокого визуального рассуждения, основываясь на Бонгардских проблемах (BPs). Бонгардские проблемы — это система задач, требующих визуального рассуждения для определения абстрактных понятий на основе небольшого количества примеров и описания их естественным языком. Данная работа построена на предыдущих исследованиях, где использовались синтетические изображения для описания абстрактных понятий. Впервые была предложена методология для построения реального зоопарка абстрактных понятий с помощью генеративных моделей визуальной лингвистики. ## Метод Бонгард-РВР+ данных созданы на основе живых изображений, созданных с помощью Пиктрал-12B (Pixtral-12B), генеративной модели текста, которая берет существующие изображения и описания, а затем генерирует новые изображения, которые соответствуют заданным описаниям. Далее, Flux.1-dev (Flux.1-dev) — модель, генерирующая изображения на основе текстовых описаний — используется для создания подробных, живых изображений, которые подкрепляют текстовые описания заданных понятий. Эти изображения тщательно проверяются вручную, чтобы убедиться в том, что они соответствуют предполагаемым абстрактным понятиям. ## Результаты Было проведено несколько экспериментов с различными моделями визуальной лингвистики, включая CLIP, Stable Diffusion, и другие. Эти модели были оценены на изначальной задаче — распознавании и описании абстрактных понятий в синтетических изображениях. Оказалось, что модели способны распознавать широкие классы абстрактных понятий, но в то же время сталкиваются с трудностями при распознавании тонких различий в абстрактных характеристиках, что вызывает недостаточную точность в решении задач. ## Значимость Бонгард-РВР+ может быть применен в различных областях, таких как тонкое визуальное рассуждение, глубокое понимание естественного языка, а также в обучении моделей, которые должны понимать тонкие абстрактные различия в изображениях. Этот датасет может стать важным инструментом для развития моделей, которые не только распознают широкие классы объектов, но и умеют работать с тонкими различиями в описании этих объектов. ## Выводы В итоге, Бонгард-РВР+ — это новый тестовый датасет, который обогащает набор данных для тестирования моделей визуального рассуждения, используя реальные

Abstract

Bongard Problems (BPs) provide a challenging testbed for abstract visual reasoning (AVR), requiring models to identify visual concepts fromjust a few examples and describe them in natural language. Early BP benchmarks featured synthetic black-and-white drawings, which might not fully capture the complexity of real-world scenes. Subsequent BP datasets employed real-world images, albeit the represented concepts are identifiable from high-level image features, reducing the task complexity. Differently, the recently released Bongard-RWR dataset aimed at representing abstract concepts formulated in the original BPs using fine-grained real-world images. Its manual construction, however, limited the dataset size to just $60$ instances, constraining evaluation robustness. In this work, we introduce Bongard-RWR+, a BP dataset composed of $5\,400$ instances that represent original BP abstract concepts using real-world-like images generated via a vision language model (VLM) pipeline. Building on Bongard-RWR, we employ Pixtral-12B to describe manually curated images and generate new descriptions aligned with the underlying concepts, use Flux.1-dev to synthesize images from these descriptions, and manually verify that the generated images faithfully reflect the intended concepts. We evaluate state-of-the-art VLMs across diverse BP formulations, including binary and multiclass classification, as well as textual answer generation. Our findings reveal that while VLMs can recognize coarse-grained visual concepts, they consistently struggle with discerning fine-grained concepts, highlighting limitations in their reasoning capabilities.

Ссылки и действия