mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning
2508.10137v1
cs.CL, cs.AI
2025-08-16
Авторы:
Nghia Trung Ngo, Franck Dernoncourt, Thien Huu Nguyen
Резюме на русском
## Контекст
Область исследования включает в себя изучение многоязычного коммонсенс-разума, который относится к возможности логического смысления и решения проблем в разных языковых и культурных контекстах. Несмотря на недавние успехи в развитии Reasoning-Reinforced Large Language Models (LLMs), способности этих моделей в области многоязычного коммонсенс-разума остаются мало изученными. Это приводит к проблемам в распознавании и применении гуманского знания о мире в разных языковых и культурных окружениях. Этот недостаток может сказаться на решении задач в значительной мере зависящих от культурного контекста. Наша мотивация заключается в разработке бенчмарка, который способен тестировать и анализировать многоязычные модели разума.
## Метод
Мы предлагаем **MultiLingual and Scalable Benchmark for Skill-based Commonsense Reasoning (mSCoRe)**, основанный на трех основных компонентах: (1) **новая таксономия**, позволяющая детально проанализировать разные аспекты моделей разума, (2) **синтетическая пайплайн-данных**, специально разработанная для оценки коммонсенс-разума, и (3) **класса сложности**, который динамически меняет сложность задач в зависимости от развития моделей. Эти компоненты гарантируют точное и широкое тестирование моделей в многоязычном контексте.
## Результаты
Были проведены эксперименты с восемью современными LLMs разного размера и обучаемости. Результаты показали, что даже самые продвинутые модели сталкиваются с трудностями при решении задач на высоком уровне сложности, особенно в области многоязычного коммонсенс-разума. Эти модели сталкиваются с проблемами в понимании тонкостей культурного контекста и сложных логических задач, которые требуют совершенствования.
## Значимость
**mSCoRe** может применяться в различных областях, таких как развитие более сильных многоязычных моделей разума, улучшение систем перевода, создание интеллектуальных систем обработки естественного языка. Он предоставляет уникальные возможности для анализа моделей разума, помогая идентифицировать слабые места в их работе. Потенциальное влияние заключается в улучшении многоязычного понимания и возможности создания культурно ориентированных решений.
## Выводы
**mSCoRe** подтвердило сложность многоязычного коммонсенс-разума и выявил узкие места существующих моделей. Будущие исследования будут сконцентрированы на улучшении моделей разума, ориентированных на многоязычность, и внедрении методов позволяющих лучше адаптировать модели к различным культурным окружениям.
Abstract
Recent advancements in reasoning-reinforced Large Language Models (LLMs) have
shown remarkable capabilities in complex reasoning tasks. However, the
mechanism underlying their utilization of different human reasoning skills
remains poorly investigated, especially for multilingual commonsense reasoning
that involves everyday knowledge across different languages and cultures. To
address this gap, we propose a \textbf{M}ultilingual and Scalable Benchmark for
\textbf{S}kill-based \textbf{Co}mmonsense \textbf{Re}asoning (\textbf{mSCoRe}).
Our benchmark incorporates three key components that are designed to
systematically evaluate LLM's reasoning capabilities, including: (1) a novel
taxonomy of reasoning skills that enables fine-grained analysis of models'
reasoning processes, (2) a robust data synthesis pipeline tailored specifically
for commonsense reasoning evaluation, and (3) a complexity scaling framework
allowing task difficulty to scale dynamically alongside future improvements in
LLM abilities. Extensive experiments on eights state-of-the-art LLMs of varying
sizes and training approaches demonstrate that \textbf{mSCoRe} remains
significantly challenging for current models, particularly at higher complexity
levels. Our results reveal the limitations of such reasoning-reinforced models
when confronted with nuanced multilingual general and cultural commonsense. We
further provide detailed analysis on the models' reasoning processes,
suggesting future directions for improving multilingual commonsense reasoning
capabilities.
Ссылки и действия
Дополнительные ресурсы: