DIVERS-Bench: Evaluating Language Identification Across Domain Shifts and Code-Switching

2509.17768v1 cs.CL, cs.AI, cs.LG 2025-09-24
Авторы:

Jessica Ojo, Zina Kamel, David Ifeoluwa Adelani

Резюме на русском

Описание области исследования, существующих проблем и мотивации ## Контекст Language Identification (LID) — это основная задача в области многоязычного NLP, которая играет ключевую роль в различных приложениях, таких как распознавание речи, текстовое оформление и моделирование языка. Однако существующие модели часто переобучаются к чистому, монолюгистическому тексту, что приводит к снижению качества работы в реальных условиях. Это связано с тем, что многие системы не тренируются на шумных, информальных или код-переключающихся текстах, которые являются типичными для реальных сценариев. Это ограничение особенно заметно при обработке многоязычных данных, где текст может монолингвально и код-переключающимся языками. Мотивация для этого исследования заключается в разработке более зернистого и включающего LID-системы, которые могут справляться с такими трудностями в реальных условиях. Детальное описание методологии, технических решений и архитектуры ## Метод DIVERS-Bench — это комплексный подход к оценке новых моделей LID, который охватывает следующие домены: речи, веб-текст, социальные медиа, детские стихи и код-референция. Мы также представляем DIVERS-CS, новый набор данных для код-переключения, содержащий 10 пар языков. Для выполнения экспериментов использовались три типовые модели LID: mBERT, XLM-R и DistilBERT. Мы оцениваем их производительность в условиях чистого текста и шумных входных данных. Для решения проблемы код-переключения в DIVERS-CS разработана специальная архитектура, которая использует многоязычные представления для определения слов на разных языках. Эта методика позволяет модели более точно обнаруживать и разделять языки в контексте управления. Описание экспериментов, используемых данных и полученных результатов ## Результаты Исследования показали, что хотя LID-системы показывают высокий уровень точности на традиционных, чистых данных, их производительность снижается в шумных условиях. На DIVERS-Bench, модели достигли точности 96-98% на чистых данных, но эта точность упала до 60-70% на шумных и код-переключающихся данных. Это свидетельствует о слабой способности моделей обрабатывать неструктурированные и многоязычные данные. В DIVERS-CS, модели также сталкивались с трудностями при попытке обнаружить и разделять языки в контексте код-переключения. Например, точность распознавания слов на разных языках в одном предложении оказалась ниже 50% для большинства моделей. Эти результаты подтверждают необходимость развития LID-систем, которые могут обрабатывать более широкий спектр реальных сценариев

Abstract

Language Identification (LID) is a core task in multilingual NLP, yet current systems often overfit to clean, monolingual data. This work introduces DIVERS-BENCH, a comprehensive evaluation of state-of-the-art LID models across diverse domains, including speech transcripts, web text, social media texts, children's stories, and code-switched text. Our findings reveal that while models achieve high accuracy on curated datasets, performance degrades sharply on noisy and informal inputs. We also introduce DIVERS-CS, a diverse code-switching benchmark dataset spanning 10 language pairs, and show that existing models struggle to detect multiple languages within the same sentence. These results highlight the need for more robust and inclusive LID systems in real-world settings.

Ссылки и действия