mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning

2508.10137v1 cs.CL, cs.AI 2025-08-16
Авторы:

Nghia Trung Ngo, Franck Dernoncourt, Thien Huu Nguyen

Резюме на русском

## Контекст Область исследования включает в себя изучение многоязычного коммонсенс-разума, который относится к возможности логического смысления и решения проблем в разных языковых и культурных контекстах. Несмотря на недавние успехи в развитии Reasoning-Reinforced Large Language Models (LLMs), способности этих моделей в области многоязычного коммонсенс-разума остаются мало изученными. Это приводит к проблемам в распознавании и применении гуманского знания о мире в разных языковых и культурных окружениях. Этот недостаток может сказаться на решении задач в значительной мере зависящих от культурного контекста. Наша мотивация заключается в разработке бенчмарка, который способен тестировать и анализировать многоязычные модели разума. ## Метод Мы предлагаем **MultiLingual and Scalable Benchmark for Skill-based Commonsense Reasoning (mSCoRe)**, основанный на трех основных компонентах: (1) **новая таксономия**, позволяющая детально проанализировать разные аспекты моделей разума, (2) **синтетическая пайплайн-данных**, специально разработанная для оценки коммонсенс-разума, и (3) **класса сложности**, который динамически меняет сложность задач в зависимости от развития моделей. Эти компоненты гарантируют точное и широкое тестирование моделей в многоязычном контексте. ## Результаты Были проведены эксперименты с восемью современными LLMs разного размера и обучаемости. Результаты показали, что даже самые продвинутые модели сталкиваются с трудностями при решении задач на высоком уровне сложности, особенно в области многоязычного коммонсенс-разума. Эти модели сталкиваются с проблемами в понимании тонкостей культурного контекста и сложных логических задач, которые требуют совершенствования. ## Значимость **mSCoRe** может применяться в различных областях, таких как развитие более сильных многоязычных моделей разума, улучшение систем перевода, создание интеллектуальных систем обработки естественного языка. Он предоставляет уникальные возможности для анализа моделей разума, помогая идентифицировать слабые места в их работе. Потенциальное влияние заключается в улучшении многоязычного понимания и возможности создания культурно ориентированных решений. ## Выводы **mSCoRe** подтвердило сложность многоязычного коммонсенс-разума и выявил узкие места существующих моделей. Будущие исследования будут сконцентрированы на улучшении моделей разума, ориентированных на многоязычность, и внедрении методов позволяющих лучше адаптировать модели к различным культурным окружениям.

Abstract

Recent advancements in reasoning-reinforced Large Language Models (LLMs) have shown remarkable capabilities in complex reasoning tasks. However, the mechanism underlying their utilization of different human reasoning skills remains poorly investigated, especially for multilingual commonsense reasoning that involves everyday knowledge across different languages and cultures. To address this gap, we propose a \textbf{M}ultilingual and Scalable Benchmark for \textbf{S}kill-based \textbf{Co}mmonsense \textbf{Re}asoning (\textbf{mSCoRe}). Our benchmark incorporates three key components that are designed to systematically evaluate LLM's reasoning capabilities, including: (1) a novel taxonomy of reasoning skills that enables fine-grained analysis of models' reasoning processes, (2) a robust data synthesis pipeline tailored specifically for commonsense reasoning evaluation, and (3) a complexity scaling framework allowing task difficulty to scale dynamically alongside future improvements in LLM abilities. Extensive experiments on eights state-of-the-art LLMs of varying sizes and training approaches demonstrate that \textbf{mSCoRe} remains significantly challenging for current models, particularly at higher complexity levels. Our results reveal the limitations of such reasoning-reinforced models when confronted with nuanced multilingual general and cultural commonsense. We further provide detailed analysis on the models' reasoning processes, suggesting future directions for improving multilingual commonsense reasoning capabilities.

Ссылки и действия