Cetvel: A Unified Benchmark for Evaluating Language Understanding, Generation and Cultural Capacity of LLMs for Turkish
2508.16431v1
cs.CL, cs.AI, I.2.7
2025-08-26
Авторы:
Yakup Abrek Er, Ilker Kesen, Gözde Gül Şahin, Aykut Erdem
Резюме на русском
## Контекст
Турецкий язык, являющийся речью миллионов человек, обладает уникальными грамматическими чертами, богатой историей и культурным контекстом. Несмотря на представление в многоязычных моделях, турецкий язык часто игнорируется в отдельных исследованиях, в том числе в разработке и тестировании бо LLM. Это приводит к проблемам с представительностью, точностью и культурной адекватностью моделей. Была разработана Cetvel, комплексная бенчмарк-среда, предназначенная для оценки широкого спектра возможностей LLMs в турецком языке. Её главная цель - устранить пробелы в существующих тестах, обеспечив разнообразие задач и отражение культурного богатства турецкого языка.
## Метод
Cetvel состоит из 23 задач, разделенных на 7 категорий. Она включает в себя исправление грамматических ошибок, машинный перевод, вопрос-ответ, в том числе по темам истории и идиоматического языка турецкого языка. Эта бенчмарк-среда содержит как дискриминативные, так и генерирующие задачи, обеспечивая полнотеконевкий подход к тестированию LLMs. Были оценены 33 LLMs с параметрами до 70B, принадлежащие разным семействам моделей и инструкционным парадигмам. Такая широкая охватность позволяет получить глубокое понимание способностей LLMs в решении задач, относящихся к турецкому языку.
## Результаты
В ходе экспериментов показано, что турецко-центрические модели инструкционного трюна уступают в производительности многоязычным и общепринятым моделям, таким как Llama 3 и Mistral. Особенно сильное различие замечено в таких задачах, как исправление грамматических ошибок и вопрос-ответ, где модели инструкционного трюна показали низкую точность. Этот результат показывает необходимость улучшения турецких моделей инструкций и признает важность интеграции культурных контекстов в процесс обучения.
## Значимость
Cetvel представляет собой важное инструментальное средство для развития LLMs, ориентированных на турецкий язык. Он обеспечивает разнообразие задач и культурно-ориентированное тестирование, что позволяет лучше понять сильные и слабые стороны моделей. Этот подход может быть использован для развития моделей, которые не только точно работают с текстом, но и отражают культурное богатство турецкого языка. В будущем могут быть проведены исследования в области улучшения моделей с использованием Cetvel и расширения его задач для других языков.
## Выводы
Cetvel достигает значительных достижений в развитии LLMs для турецкого языка, предлагая первый полный бенчмар
Abstract
We introduce Cetvel, a comprehensive benchmark designed to evaluate large
language models (LLMs) in Turkish. Existing Turkish benchmarks often lack
either task diversity or culturally relevant content, or both. Cetvel addresses
these gaps by combining a broad range of both discriminative and generative
tasks ensuring content that reflects the linguistic and cultural richness of
Turkish language. Cetvel covers 23 tasks grouped into seven categories,
including tasks such as grammatical error correction, machine translation, and
question answering rooted in Turkish history and idiomatic language. We
evaluate 33 open-weight LLMs (up to 70B parameters) covering different model
families and instruction paradigms. Our experiments reveal that Turkish-centric
instruction-tuned models generally underperform relative to multilingual or
general-purpose models (e.g. Llama 3 and Mistral), despite being tailored for
the language. Moreover, we show that tasks such as grammatical error correction
and extractive question answering are particularly discriminative in
differentiating model capabilities. Cetvel offers a comprehensive and
culturally grounded evaluation suite for advancing the development and
assessment of LLMs in Turkish.
Ссылки и действия
Дополнительные ресурсы: