Cetvel: A Unified Benchmark for Evaluating Language Understanding, Generation and Cultural Capacity of LLMs for Turkish

2508.16431v1 cs.CL, cs.AI, I.2.7 2025-08-26

Авторы:

Yakup Abrek Er, Ilker Kesen, Gözde Gül Şahin, Aykut Erdem

Резюме на русском

## Контекст Турецкий язык, являющийся речью миллионов человек, обладает уникальными грамматическими чертами, богатой историей и культурным контекстом. Несмотря на представление в многоязычных моделях, турецкий язык часто игнорируется в отдельных исследованиях, в том числе в разработке и тестировании бо LLM. Это приводит к проблемам с представительностью, точностью и культурной адекватностью моделей. Была разработана Cetvel, комплексная бенчмарк-среда, предназначенная для оценки широкого спектра возможностей LLMs в турецком языке. Её главная цель - устранить пробелы в существующих тестах, обеспечив разнообразие задач и отражение культурного богатства турецкого языка. ## Метод Cetvel состоит из 23 задач, разделенных на 7 категорий. Она включает в себя исправление грамматических ошибок, машинный перевод, вопрос-ответ, в том числе по темам истории и идиоматического языка турецкого языка. Эта бенчмарк-среда содержит как дискриминативные, так и генерирующие задачи, обеспечивая полнотеконевкий подход к тестированию LLMs. Были оценены 33 LLMs с параметрами до 70B, принадлежащие разным семействам моделей и инструкционным парадигмам. Такая широкая охватность позволяет получить глубокое понимание способностей LLMs в решении задач, относящихся к турецкому языку. ## Результаты В ходе экспериментов показано, что турецко-центрические модели инструкционного трюна уступают в производительности многоязычным и общепринятым моделям, таким как Llama 3 и Mistral. Особенно сильное различие замечено в таких задачах, как исправление грамматических ошибок и вопрос-ответ, где модели инструкционного трюна показали низкую точность. Этот результат показывает необходимость улучшения турецких моделей инструкций и признает важность интеграции культурных контекстов в процесс обучения. ## Значимость Cetvel представляет собой важное инструментальное средство для развития LLMs, ориентированных на турецкий язык. Он обеспечивает разнообразие задач и культурно-ориентированное тестирование, что позволяет лучше понять сильные и слабые стороны моделей. Этот подход может быть использован для развития моделей, которые не только точно работают с текстом, но и отражают культурное богатство турецкого языка. В будущем могут быть проведены исследования в области улучшения моделей с использованием Cetvel и расширения его задач для других языков. ## Выводы Cetvel достигает значительных достижений в развитии LLMs для турецкого языка, предлагая первый полный бенчмар

Abstract

We introduce Cetvel, a comprehensive benchmark designed to evaluate large language models (LLMs) in Turkish. Existing Turkish benchmarks often lack either task diversity or culturally relevant content, or both. Cetvel addresses these gaps by combining a broad range of both discriminative and generative tasks ensuring content that reflects the linguistic and cultural richness of Turkish language. Cetvel covers 23 tasks grouped into seven categories, including tasks such as grammatical error correction, machine translation, and question answering rooted in Turkish history and idiomatic language. We evaluate 33 open-weight LLMs (up to 70B parameters) covering different model families and instruction paradigms. Our experiments reveal that Turkish-centric instruction-tuned models generally underperform relative to multilingual or general-purpose models (e.g. Llama 3 and Mistral), despite being tailored for the language. Moreover, we show that tasks such as grammatical error correction and extractive question answering are particularly discriminative in differentiating model capabilities. Cetvel offers a comprehensive and culturally grounded evaluation suite for advancing the development and assessment of LLMs in Turkish.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Cetvel: A Unified Benchmark for Evaluating Language Understanding, Generation and Cultural Capacity of LLMs for Turkish

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Direct Semantic Communication Between Large Language Models via Vector Translati...

Detecting Data Contamination in LLMs via In-Context Learning

LASTIST: LArge-Scale Target-Independent STance dataset

PerCoR: Evaluating Commonsense Reasoning in Persian via Multiple-Choice Sentence...

A Use-Case Specific Dataset for Measuring Dimensions of Responsible Performance ...

Навигация