Inclusion Arena: An Open Platform for Evaluating Large Foundation Models with Real-World Apps

2508.11452v1 cs.AI, cs.CL, cs.HC 2025-08-19
Авторы:

Kangyu Wang, Hongliang He, Lin Liu, Ruiqi Liang, Zhenzhong Lan, Jianguo Li

Резюме на русском

#### Контекст Large Language Models (LLMs) и Multimodal Large Language Models (MLLMs) обеспечили всплеск развития искусственного интеллекта, достигая близкого к человеческому уровня эффективности в различных задачах. Несмотря на это, большинство существующих бенчмарков и рейтинговых платформ (например, MMLU и Chatbot Arena) опираются на статические данные или подборку общедоступных задач, не отражающих настоящие сценарии применения в реальной жизни. Это существенно ограничивает возможность оценить реальное качество и применимость моделей. Инновационная платформа Inclusion Arena призвана устранить этот фактор, предлагая новый подход к оценке моделей на основе реальных пользовательских интеракций. #### Метод Inclusion Arena представляет собой платформу для live leaderboard, где модели оцениваются на основе парного сравнения, внедренного непосредственно в приложения, использующие AI. Методология основывается на двух ключевых инновациях: (1) **Placement Matches**, механизм, позволяющий быстро оценить новые модели при их внедрении в платформу; и (2) **Proximity Sampling**, стратегия сравнения моделей, выделяющая модели с близким уровнем качества, чтобы увеличить точность и стабильность рейтингов. Архитектура платформы интегрирует эти методы в натуральные пользовательские интеракции, обеспечивая действительно практические оценки моделей. #### Результаты Платформа провела широкие эмпирические эксперименты, используя стандартные и пользовательские данные в различных сценариях. Результаты показали, что Inclusion Arena достигает более высокой детерминированности рейтингов по сравнению с традиционными подходами. Метод Placement Matches позволяет быстро создавать надежные оценки для новых моделей, а Proximity Sampling увеличивает уровень информативности сравнения, уменьшая риск неточности рейтинга. Также тесты показали, что Inclusion Arena значительно снижает риск внешних вмешательств или манипуляций. #### Значимость Inclusion Arena может использоваться в различных областях, где требуется оценка моделей для реальных приложений, таких как NLP, обработка мультимодальных данных, интеллектуальные системы рекомендаций или системы взаимодействия с пользователем. Основные преимущества заключаются в том, что платформа использует реальные данные интеракций, обеспечивает более точные рейтинги, и снижает риск выполнять нечестные или неэффективные модели. Потенциальное влияние заключается в улучшении качества моделей AI, их применимости и стабильности в реальных сценариях. #### Выводы Inclusion Arena успешно ставит под угрозу традиционные подходы к оценке моделей, предлагая новый, более функциональный метод, основанный на реальных пользовательских данных. На данном этапе, плат

Abstract

Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have ushered in a new era of AI capabilities, demonstrating near-human-level performance across diverse scenarios. While numerous benchmarks (e.g., MMLU) and leaderboards (e.g., Chatbot Arena) have been proposed to help evolve the development of LLMs and MLLMs, most rely on static datasets or crowdsourced general-domain prompts, often falling short of reflecting performance in real-world applications. To bridge this critical gap, we present Inclusion Arena, a live leaderboard that ranks models based on human feedback collected directly from AI-powered applications. Our platform integrates pairwise model comparisons into natural user interactions, ensuring evaluations reflect practical usage scenarios. For robust model ranking, we employ the Bradley-Terry model augmented with two key innovations: (1) Placement Matches, a cold-start mechanism to quickly estimate initial ratings for newly integrated models, and (2) Proximity Sampling, an intelligent comparison strategy that prioritizes battles between models of similar capabilities to maximize information gain and enhance rating stability. Extensive empirical analyses and simulations demonstrate that Inclusion Arena yields reliable and stable rankings, exhibits higher data transitivity compared to general crowdsourced datasets, and significantly mitigates the risk of malicious manipulation. By fostering an open alliance between foundation models and real-world applications, Inclusion Arena aims to accelerate the development of LLMs and MLLMs truly optimized for practical, user-centric deployments. The platform is publicly accessible at https://doraemon.alipay.com/model-ranking.

Ссылки и действия