CharBench: Evaluating the Role of Tokenization in Character-Level Tasks

2508.02591v2 cs.CL 2025-08-09
Авторы:

Omri Uzan, Yuval Pinter

Резюме на русском

Многие современные языковые модели сталкиваются с трудностями при выполнении задач, требующих разумавания на уровне символов, таких как подсчет или расположение символов в словах. Основной причиной этого считается то, что эти модели основываются на подходе к токенизации на основе подслов, а не на символьных уровнях. Однако ранее проведенные исследования дают неоднозначные результаты, что затрудняет определение фактического влияния токенизации на эффективность моделей в таких задачах. Чтобы разрешить этот вопрос, ученые представили CharBench — большую по объёму б BENCHMARK для оценки способности моделей выполнять характеристические задачи. Исследование показало, что CharBench представляет собой серьёзную проблему для современных моделей, с малым успехом (средняя точность — 43,6% и 32,3% на некоторых задачах). Анализ показал, что для задач, требующих подсчета, длина токенов и длина слова важнее токенизации. Для задач, требующих расположения внутри слова, длина токена, содержащего символ, снижает точность моделей. Эти выводы могут помочь в развитии моделей, улучшении их способности к работе с символьными задачами.

Abstract

Tasks that require character-level reasoning, such as counting or locating characters within words, remain challenging for contemporary language models. A common conjecture is that language models' reliance on subword units, rather than characters, contributes to their struggles with character-level tasks, yet recent studies offer conflicting conclusions about the role of tokenization, leaving its impact unclear. To address this gap, we introduce CharBench, a comprehensive benchmark of character-level tasks that is two orders of magnitude larger than existing alternatives. We evaluate a diverse range of leading open-weight and proprietary models on CharBench and find that it presents a significant challenge to modern LLMs, with an average accuracy of 43.6% and 32.3% on some tasks. We present an in-depth analysis of how intrinsic properties of words and their segmentations into tokens correspond to model performance. For counting tasks, we find that tokenization properties are weakly correlated with correctness, while the length of the queried word and the actual character count play a more significant part. In contrast, for tasks requiring intra-word positional understanding, performance is negatively correlated with the length of the token containing the queried character, suggesting that longer tokens obscure character position information for LLMs. We encourage future work to build on the benchmark and evaluation methodology introduced here as tools for improving model performance on such tasks.

Ссылки и действия