Learning the Topic, Not the Language: How LLMs Classify Online Immigration Discourse Across Languages
2508.06435v1
cs.CL, cs.AI
2025-08-12
Авторы:
Andrea Nasuto, Stefano Maria Iacus, Francisco Rowe, Devika Jain
Резюме на русском
Давайте создадим максимально подробное резюме научной статьи по выбранной тематике.
## Контекст
В последние годы нейронные сети, особенно большие модели языка (LLM), приобрели важное место в области социальных наук. Они позволяют проводить более точные и масштабные анализы в различных направлениях. Однако возникает вопрос о том, могут ли эти модели, получившись на одних языках, адаптироваться к другим языкам, которые не участвовали в их обучении. Этот вопрос особенно актуален при работе с дискурсом, который характеризуется культурными и политическими особенностями. Например, проблемы иммиграции — это тема, которая очень сильно варьируется в её характере в разных странах. В связи с этим, в исследовании используется модель LLaMA 3.2-3B, которая была приспособлена для работы с тематикой иммиграции, протестированная на 13 языках. Цель — выявить, может ли модель работать на новых языках, если была подготовлена только на нескольких. Также исследуется вопрос, можно ли исправить предрасположения модели к определенным языкам и темам с помощью целенаправленного обучения на других языках.
## Метод
Чтобы провести исследование, применялась модель LLaMA 3.2-3B, которая была приспособлена для обработки данных, связанных с иммиграцией. Модель была обучена на данных из социальных сетей, а именно — X/Twitter. Использовались данные на 13 языках, включая как широко распространенные, так и менее известные. Особое внимание было уделено исследованию того, может ли модель научиться распознавать иммиграционные темы, произносимые на других языках, не приспособляясь именно к ним во время обучения. Было проверено, насколько значительно меняется результат, если во время обучения добавлять целенаправленно новые языки. Также были изучены признаки предрасположений модели к определенным языкам и темам, которые могут возникать при обучении на ограниченном наборе данных.
## Результаты
Исследование показало, что модель, обученная на одном или двух языках, впоследствии может достаточно точно различать иммиграционные темы на новых языках. Это означает, что модель способна понять "тему" — без необходимости знать все деталиы языка. Однако, в то же время, модель показала лучшие результаты в классификации позиций (про- или анти-иммиграционные), когда была приспособлена к нескольким языкам одновременно. Изучение предрасположений показало, что модель склоняется к темам, которые являются более популярными в широком обществе. Однако, даже небольшое добавление данных на непредставленные языки во время обучения приво
Abstract
Large language models (LLMs) are transforming social-science research by
enabling scalable, precise analysis. Their adaptability raises the question of
whether knowledge acquired through fine-tuning in a few languages can transfer
to unseen languages that only appeared during pre-training. To examine this, we
fine-tune lightweight LLaMA 3.2-3B models on monolingual, bilingual, or
multilingual data sets to classify immigration-related tweets from X/Twitter
across 13 languages, a domain characterised by polarised, culturally specific
discourse. We evaluate whether minimal language-specific fine-tuning enables
cross-lingual topic detection and whether adding targeted languages corrects
pre-training biases. Results show that LLMs fine-tuned in one or two languages
can reliably classify immigration-related content in unseen languages. However,
identifying whether a tweet expresses a pro- or anti-immigration stance
benefits from multilingual fine-tuning. Pre-training bias favours dominant
languages, but even minimal exposure to under-represented languages during
fine-tuning (as little as $9.62\times10^{-11}$ of the original pre-training
token volume) yields significant gains. These findings challenge the assumption
that cross-lingual mastery requires extensive multilingual training: limited
language coverage suffices for topic-level generalisation, and structural
biases can be corrected with lightweight interventions. By releasing
4-bit-quantised, LoRA fine-tuned models, we provide an open-source,
reproducible alternative to proprietary LLMs that delivers 35 times faster
inference at just 0.00000989% of the dollar cost of the OpenAI GPT-4o model,
enabling scalable, inclusive research.
Ссылки и действия
Дополнительные ресурсы: