TASE: Token Awareness and Structured Evaluation for Multilingual Language Models
2508.05468v1
cs.CL
2025-08-09
Авторы:
Chenzhuo Zhao, Xinda Wang, Yue Huang, Junting Lu, Ziqian Liu
Резюме на русском
Несмотря на выдающиеся результаты на высокоуровневых задачах, большинство LLMs сталкиваются с трудностями при тонкой, токен-уровневой обработке и структурном рассуждении — важных для приложений, требующих точности и контроля. Для решения этой проблемы предложен TASE, комплексный бенчмарк, оценивающий возможности LLMs по токен-уровневому восприятию и структурному анализу в китайском, английском и корейском. TASE включает 10 задач в 2 категории: токен-осознанность и структурное понимание, используя 35,927 экземпляров для тестирования и синтетическую генерацию данных для обучения. Задачи включают графическое числование, выравнивание токенов, парсинг синтаксических структур и соблюдение длинных ограничений. Оценка 30 лидирующих LLMs показала, что людские результаты превышают их результаты, демонстрируя слабые места в токен-уровневой обработке. Этот бенчмарк становится новым диагностическим средством для улучшения мелкоуровневой понимания языка и кросс-языковой общности. Данные и код доступны по ссылке.
Abstract
While large language models (LLMs) have demonstrated remarkable performance
on high-level semantic tasks, they often struggle with fine-grained,
token-level understanding and structural reasoning--capabilities that are
essential for applications requiring precision and control. We introduce TASE,
a comprehensive benchmark designed to evaluate LLMs' ability to perceive and
reason about token-level information across languages. TASE covers 10 tasks
under two core categories: token awareness and structural understanding,
spanning Chinese, English, and Korean, with a 35,927-instance evaluation set
and a scalable synthetic data generation pipeline for training. Tasks include
character counting, token alignment, syntactic structure parsing, and length
constraint satisfaction. We evaluate over 30 leading commercial and open-source
LLMs, including O3, Claude 4, Gemini 2.5 Pro, and DeepSeek-R1, and train a
custom Qwen2.5-14B model using the GRPO training method. Results show that
human performance significantly outpaces current LLMs, revealing persistent
weaknesses in token-level reasoning. TASE sheds light on these limitations and
provides a new diagnostic lens for future improvements in low-level language
understanding and cross-lingual generalization. Our code and dataset are
publicly available at https://github.com/cyzcz/Tase .
Ссылки и действия
Дополнительные ресурсы: