Long Chain-of-Thought Reasoning Across Languages

2508.14828v1 cs.CL, cs.AI, cs.LG 2025-08-22

Авторы:

Josh Barua, Seun Eisape, Kayo Yin, Alane Suhr

Резюме на русском

#### Контекст Огромный рост мощности и гибкости технологий машинного обучения в последние годы способствовал развитию технологий естественного языка, но при этом был отмечен значительный языковый фокус на английский. Даже самые совершенные модели раскладывают свою эффективность на языках, отличных от английского. Особенно трудности возникают в случае языков с более низким ресурсом, где модели часто сталкиваются с проблемами в понимании задач и выполнении адекватного рассуждения. Наше исследование Long Chain-of-Thought Reasoning Across Languages концентрируется на расширении возможностей рассуждения в LLMs (large language models) на разных языках, включая русский, французский, испанский, и т.д. Мы видим, что существуют существенные проблемы с корректным пониманием и выполнением рассуждений в основном вне англоязычного пространства. Наша мотивация заключается в том, чтобы создать более универсальную модель, которая могла бы оперировать не только на английском, но и на других языках с разными уровнями ресурсов. #### Метод Чтобы достичь этой цели, мы придумали методологию, основанную на переводе и адаптации существующих данных. Мы выбрали два популярных англоязычных датасета, перевели их на целевые языки, и использовали несколько моделей, в том числе Qwen 2.5 (7B) и Qwen 3 (8B). Мы внедрили технический подход, включающий в себя fine-tuning моделей на многоязычных датасетах с различным количеством данных. Например, мы проводили эксперименты с короткими и длинными chain-of-thought reasoning на языках, таких как латынь, французский, японский и свахили. При этом мы придерживались двух основных подходов: 1) узконаправленный fine-tuning, который использовал более качественные, но меньшие данные; 2) более общий подход с использованием многоязычных датасетов, но с меньшим количеством тренировочных данных. Мы также проводили эксперименты с настройкой для конкретных языков, включая русский, чтобы оптимизировать производительность модели для разных языковых структур. #### Результаты Мы получили несколько основных выводов. Во-первых, мы обнаружили, что при использовании английского языка как pivot-языка, который может помочь в выполнении рассуждений, результаты варьируются в зависимости от целевого языка. Например, для французского языка английский не приносил дополнительных выгод, но для японского и латыньи он давал существенный подъем в производительности. Во-вторых, предварительное обучение на многоязычных датасетах (multilingual pretraining) помогло уменьшить разрыв в производительности между разными языками, но не смог пол

Abstract

Scaling inference through long chains-of-thought (CoTs) has unlocked impressive reasoning capabilities in large language models (LLMs), yet the reasoning process remains almost exclusively English-centric. We construct translated versions of two popular English reasoning datasets, fine-tune Qwen 2.5 (7B) and Qwen 3 (8B) models, and present a systematic study of long CoT generation across French, Japanese, Latvian, and Swahili. Our experiments reveal three key findings. First, the efficacy of using English as a pivot language varies by language: it provides no benefit for French, improves performance when used as the reasoning language for Japanese and Latvian, and proves insufficient for Swahili where both task comprehension and reasoning remain poor. Second, extensive multilingual pretraining in Qwen 3 narrows but does not eliminate the cross-lingual performance gap. A lightweight fine-tune using only 1k traces still improves performance by over 30\% in Swahili. Third, data quality versus scale trade-offs are language dependent: small, carefully curated datasets suffice for English and French, whereas larger but noisier corpora prove more effective for Swahili and Latvian. Together, these results clarify when and why long CoTs transfer across languages and provide translated datasets to foster equitable multilingual reasoning research.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Long Chain-of-Thought Reasoning Across Languages

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация