Test Set Quality in Multilingual LLM Evaluation
2508.02635v1
cs.CL
2025-08-09
Авторы:
Kranti Chalamalasetti, Gabriel Bernier-Colborne, Yvan Gauthier, Sowmya Vajjala
Резюме на русском
**Резюме**
В статье рассматривается проблема качества test set'ов в оценке многоязычных моделей текстового понимания (LLM). Авторы анализируют несколько многоязычных датасетов, сформированных семи-автоматически, и выявляют ошибки в них, в том числе в наборах для языков французский и телугу. Они проводят сравнение результатов LLM с оригинальными и версиями с исправленными ошибками, отмечая заметные различия (до 10%) в различных условиях.
Основываясь на этих находках, авторы предлагают, чтобы test set'ы не считались неизменными, а должны были быть пересматриваемыми и очищаемыми. Они также рекомендуют разработчикам датасетов и их потребителям принять меры для улучшения качества датасетов. Эти выводы подчеркивают важность внимания к качеству датасетов в многоязычной оценке моделей, чтобы гарантировать более точные и надежные результаты.
Abstract
Several multilingual benchmark datasets have been developed in a
semi-automatic manner in the recent past to measure progress and understand the
state-of-the-art in the multilingual capabilities of Large Language Models.
However, there is not a lot of attention paid to the quality of the datasets
themselves, despite the existence of previous work in identifying errors in
even fully human-annotated test sets. In this paper, we manually analyze recent
multilingual evaluation sets in two languages - French and Telugu, identifying
several errors in the process. We compare the performance difference across
several LLMs with the original and revised versions of the datasets and
identify large differences (almost 10% in some cases) in both languages). Based
on these results, we argue that test sets should not be considered immutable
and should be revisited, checked for correctness, and potentially versioned. We
end with some recommendations for both the dataset creators as well as
consumers on addressing the dataset quality issues.
Ссылки и действия
Дополнительные ресурсы: