CABENCH: Benchmarking Composable AI for Solving Complex Tasks through Composing Ready-to-Use Models
2508.02427v1
cs.AI, cs.SE
2025-08-09
Авторы:
Tung-Thuy Pham, Duy-Quan Luong, Minh-Quan Duong, Trung-Hieu Nguyen, Thu-Trang Nguyen, Son Nguyen, Hieu Dinh Vo
Резюме на русском
Задача создания композируемых решений в AI, основанных на готовых моделях, является важной, но еще недооцененной областью исследований. Одной из основных проблем является отсутствие систематических подходов для оценки таких решений. В статье представлено CABENCH — первый открытый бенчмарк, состоящий из 70 реалистичных задач для композитного AI, а также пула 700 готовых моделей, покрывающих различные модальности и домены. Для поддержки исследований CABENCH включает оценочный фреймворк для полного анализа решений. Работа также предлагает ручные решения для сравнения с LLM-подходами, показав быстроту развития композитного AI, но также выявляя необходимость развития методов для автоматического генерирования эффективных композиций моделей. Это способствует решению реальных задач и иллюстрирует потенциал композитного AI.
Abstract
Composable AI offers a scalable and effective paradigm for tackling complex
AI tasks by decomposing them into sub-tasks and solving each sub-task using
ready-to-use well-trained models. However, systematically evaluating methods
under this setting remains largely unexplored. In this paper, we introduce
CABENCH, the first public benchmark comprising 70 realistic composable AI
tasks, along with a curated pool of 700 models across multiple modalities and
domains. We also propose an evaluation framework to enable end-to-end
assessment of composable AI solutions. To establish initial baselines, we
provide human-designed reference solutions and compare their performance with
two LLM-based approaches. Our results illustrate the promise of composable AI
in addressing complex real-world problems while highlighting the need for
methods that can fully unlock its potential by automatically generating
effective execution pipelines.
Ссылки и действия
Дополнительные ресурсы: