Inclusion Arena: An Open Platform for Evaluating Large Foundation Models with Real-World Apps
2508.11452v1
cs.AI, cs.CL, cs.HC
2025-08-19
Авторы:
Kangyu Wang, Hongliang He, Lin Liu, Ruiqi Liang, Zhenzhong Lan, Jianguo Li
Резюме на русском
#### Контекст
Large Language Models (LLMs) и Multimodal Large Language Models (MLLMs) обеспечили всплеск развития искусственного интеллекта, достигая близкого к человеческому уровня эффективности в различных задачах. Несмотря на это, большинство существующих бенчмарков и рейтинговых платформ (например, MMLU и Chatbot Arena) опираются на статические данные или подборку общедоступных задач, не отражающих настоящие сценарии применения в реальной жизни. Это существенно ограничивает возможность оценить реальное качество и применимость моделей. Инновационная платформа Inclusion Arena призвана устранить этот фактор, предлагая новый подход к оценке моделей на основе реальных пользовательских интеракций.
#### Метод
Inclusion Arena представляет собой платформу для live leaderboard, где модели оцениваются на основе парного сравнения, внедренного непосредственно в приложения, использующие AI. Методология основывается на двух ключевых инновациях: (1) **Placement Matches**, механизм, позволяющий быстро оценить новые модели при их внедрении в платформу; и (2) **Proximity Sampling**, стратегия сравнения моделей, выделяющая модели с близким уровнем качества, чтобы увеличить точность и стабильность рейтингов. Архитектура платформы интегрирует эти методы в натуральные пользовательские интеракции, обеспечивая действительно практические оценки моделей.
#### Результаты
Платформа провела широкие эмпирические эксперименты, используя стандартные и пользовательские данные в различных сценариях. Результаты показали, что Inclusion Arena достигает более высокой детерминированности рейтингов по сравнению с традиционными подходами. Метод Placement Matches позволяет быстро создавать надежные оценки для новых моделей, а Proximity Sampling увеличивает уровень информативности сравнения, уменьшая риск неточности рейтинга. Также тесты показали, что Inclusion Arena значительно снижает риск внешних вмешательств или манипуляций.
#### Значимость
Inclusion Arena может использоваться в различных областях, где требуется оценка моделей для реальных приложений, таких как NLP, обработка мультимодальных данных, интеллектуальные системы рекомендаций или системы взаимодействия с пользователем. Основные преимущества заключаются в том, что платформа использует реальные данные интеракций, обеспечивает более точные рейтинги, и снижает риск выполнять нечестные или неэффективные модели. Потенциальное влияние заключается в улучшении качества моделей AI, их применимости и стабильности в реальных сценариях.
#### Выводы
Inclusion Arena успешно ставит под угрозу традиционные подходы к оценке моделей, предлагая новый, более функциональный метод, основанный на реальных пользовательских данных. На данном этапе, плат
Abstract
Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs)
have ushered in a new era of AI capabilities, demonstrating near-human-level
performance across diverse scenarios. While numerous benchmarks (e.g., MMLU)
and leaderboards (e.g., Chatbot Arena) have been proposed to help evolve the
development of LLMs and MLLMs, most rely on static datasets or crowdsourced
general-domain prompts, often falling short of reflecting performance in
real-world applications. To bridge this critical gap, we present Inclusion
Arena, a live leaderboard that ranks models based on human feedback collected
directly from AI-powered applications. Our platform integrates pairwise model
comparisons into natural user interactions, ensuring evaluations reflect
practical usage scenarios. For robust model ranking, we employ the
Bradley-Terry model augmented with two key innovations: (1) Placement Matches,
a cold-start mechanism to quickly estimate initial ratings for newly integrated
models, and (2) Proximity Sampling, an intelligent comparison strategy that
prioritizes battles between models of similar capabilities to maximize
information gain and enhance rating stability. Extensive empirical analyses and
simulations demonstrate that Inclusion Arena yields reliable and stable
rankings, exhibits higher data transitivity compared to general crowdsourced
datasets, and significantly mitigates the risk of malicious manipulation. By
fostering an open alliance between foundation models and real-world
applications, Inclusion Arena aims to accelerate the development of LLMs and
MLLMs truly optimized for practical, user-centric deployments. The platform is
publicly accessible at https://doraemon.alipay.com/model-ranking.
Ссылки и действия
Дополнительные ресурсы: