CABENCH: Benchmarking Composable AI for Solving Complex Tasks through Composing Ready-to-Use Models

2508.02427v1 cs.AI, cs.SE 2025-08-09

Авторы:

Tung-Thuy Pham, Duy-Quan Luong, Minh-Quan Duong, Trung-Hieu Nguyen, Thu-Trang Nguyen, Son Nguyen, Hieu Dinh Vo

Резюме на русском

Задача создания композируемых решений в AI, основанных на готовых моделях, является важной, но еще недооцененной областью исследований. Одной из основных проблем является отсутствие систематических подходов для оценки таких решений. В статье представлено CABENCH — первый открытый бенчмарк, состоящий из 70 реалистичных задач для композитного AI, а также пула 700 готовых моделей, покрывающих различные модальности и домены. Для поддержки исследований CABENCH включает оценочный фреймворк для полного анализа решений. Работа также предлагает ручные решения для сравнения с LLM-подходами, показав быстроту развития композитного AI, но также выявляя необходимость развития методов для автоматического генерирования эффективных композиций моделей. Это способствует решению реальных задач и иллюстрирует потенциал композитного AI.

Abstract

Composable AI offers a scalable and effective paradigm for tackling complex AI tasks by decomposing them into sub-tasks and solving each sub-task using ready-to-use well-trained models. However, systematically evaluating methods under this setting remains largely unexplored. In this paper, we introduce CABENCH, the first public benchmark comprising 70 realistic composable AI tasks, along with a curated pool of 700 models across multiple modalities and domains. We also propose an evaluation framework to enable end-to-end assessment of composable AI solutions. To establish initial baselines, we provide human-designed reference solutions and compare their performance with two LLM-based approaches. Our results illustrate the promise of composable AI in addressing complex real-world problems while highlighting the need for methods that can fully unlock its potential by automatically generating effective execution pipelines.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CABENCH: Benchmarking Composable AI for Solving Complex Tasks through Composing Ready-to-Use Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

GovBench: Benchmarking LLM Agents for Real-World Data Governance Workflows

TaskEval: Synthesised Evaluation for Foundation-Model Tasks

PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing,...

Learning to Debug: LLM-Organized Knowledge Trees for Solving RTL Assertion Failu...

Natural Emergent Misalignment from Reward Hacking in Production RL

Навигация