The TUB Sign Language Corpus Collection
2508.05374v1
cs.CL
2025-08-09
Авторы:
Eleftherios Avramidis, Vera Czehmann, Fabian Deckert, Lorenz Hufe, Aljoscha Lipski, Yuni Amaloa Quintero Villalobos, Tae Kwon Rhee, Mengqian Shi, Lennart Stölting, Fabrizio Nunnari, Sebastian Möller
Резюме на русском
Трудность в изучении некоторых языков, включая знаковые (sign languages), часто возникает из-за недостатка качественных данных для обучения и оценки моделей. В статье "The TUB Sign Language Corpus Collection" представлен коллекция параллельных корпусов 12 знаковых языков, собранных из записей новостных телеканалов, веб-ресурсов правительств и образовательных интернет-ресурсов. Эти корпуса включают более 1,300 часов видео и 14 миллионов токенов в подписях на 12 языках, что является значительным ресурсом для изучения знаковых языков. Особенностью коллекции является первый полностью согласованный параллельный корпус для 8 латинскоамериканских знаковых языков и в тенфолд большей коллекции немецкого знакового языка по сравнению с предыдущими коллекциями. Эта коллекция является важной ресурсом для глубокого понимания и изучения знаковых языков, а также для развития технологий узнавания и анализа знаковых сигналов.
Abstract
We present a collection of parallel corpora of 12 sign languages in video
format, together with subtitles in the dominant spoken languages of the
corresponding countries. The entire collection includes more than 1,300 hours
in 4,381 video files, accompanied by 1,3~M subtitles containing 14~M tokens.
Most notably, it includes the first consistent parallel corpora for 8 Latin
American sign languages, whereas the size of the German Sign Language corpora
is ten times the size of the previously available corpora. The collection was
created by collecting and processing videos of multiple sign languages from
various online sources, mainly broadcast material of news shows, governmental
bodies and educational channels. The preparation involved several stages,
including data collection, informing the content creators and seeking usage
approvals, scraping, and cropping. The paper provides statistics on the
collection and an overview of the methods used to collect the data.
Ссылки и действия
Дополнительные ресурсы: