TIBSTC-CoT: A Multi-Domain Instruction Dataset for Chain-of-Thought Reasoning in Language Models
2508.01977v1
cs.CL, cs.AI
2025-08-09
Авторы:
Fan Gao, Cheng Huang, Nyima Tashi, Yutong Liu, Xiangxiang Wang, Thupten Tsering, Ban Ma-bao, Renzeg Duojie, Gadeng Luosang, Rinchen Dongrub, Dorje Tashi, Xiao Feng, Hao Wang, Yongbin Yu
Резюме на русском
Текущая доступность данных в низкоресурсных языках, таких как тибетский, ограничивает развитие моделей естественного языка в этих регионах. В статье представлен TIBSTC-CoT, разработанный как крупномасштабный, многодоменный тибетский датасет, строительство которого основывается на цепных мыслей (chain-of-thought prompting) с использованием больших лингвистических моделей. Этот датасет позволяет создавать репрезентативные ресурсы для тибетского языка, открывая возможности для развития моделей с цепной мыслью. На основе этого датасета разработана серия моделей Sunshine-thinking, которые способны выполнять цепные мысли в тибетском языке и демонстрируют стойкий результат в решении задач, близкий к лучшим многоязыковым моделям. Этот проект является важной шагу к повышению доступности AI в недостаточно изученных языках.
Abstract
To address the severe data scarcity in Tibetan, a low-resource language
spoken by over six million people, we introduce TIBSTC-CoT, the large-scale,
multi-domain Tibetan dataset automatically constructed via chain-of-thought
prompting with large language models (LLMs). TIBSTC-CoT establishes a scalable
and reproducible framework for dataset creation in low-resource settings,
covering diverse domains and reasoning patterns essential for language
understanding and generation. Building on this dataset, we develop the
Sunshine-thinking LLM family, a series of Tibetan-centric LLMs equipped with
chain-of-thought capabilities. Trained entirely on TIBSTC-CoT,
Sunshine-thinking has demonstrated strong reasoning and generation performance,
comparable to state-of-the-art (SOTA) multilingual LLMs. Our work marks a
significant step toward inclusive AI by enabling high-quality Tibetan language
processing through both resource creation and model innovation. All data are
available: https://github.com/Vicentvankor/sun-shine.
Ссылки и действия
Дополнительные ресурсы: