Learning the Topic, Not the Language: How LLMs Classify Online Immigration Discourse Across Languages

2508.06435v1 cs.CL, cs.AI 2025-08-12
Авторы:

Andrea Nasuto, Stefano Maria Iacus, Francisco Rowe, Devika Jain

Резюме на русском

Давайте создадим максимально подробное резюме научной статьи по выбранной тематике. ## Контекст В последние годы нейронные сети, особенно большие модели языка (LLM), приобрели важное место в области социальных наук. Они позволяют проводить более точные и масштабные анализы в различных направлениях. Однако возникает вопрос о том, могут ли эти модели, получившись на одних языках, адаптироваться к другим языкам, которые не участвовали в их обучении. Этот вопрос особенно актуален при работе с дискурсом, который характеризуется культурными и политическими особенностями. Например, проблемы иммиграции — это тема, которая очень сильно варьируется в её характере в разных странах. В связи с этим, в исследовании используется модель LLaMA 3.2-3B, которая была приспособлена для работы с тематикой иммиграции, протестированная на 13 языках. Цель — выявить, может ли модель работать на новых языках, если была подготовлена только на нескольких. Также исследуется вопрос, можно ли исправить предрасположения модели к определенным языкам и темам с помощью целенаправленного обучения на других языках. ## Метод Чтобы провести исследование, применялась модель LLaMA 3.2-3B, которая была приспособлена для обработки данных, связанных с иммиграцией. Модель была обучена на данных из социальных сетей, а именно — X/Twitter. Использовались данные на 13 языках, включая как широко распространенные, так и менее известные. Особое внимание было уделено исследованию того, может ли модель научиться распознавать иммиграционные темы, произносимые на других языках, не приспособляясь именно к ним во время обучения. Было проверено, насколько значительно меняется результат, если во время обучения добавлять целенаправленно новые языки. Также были изучены признаки предрасположений модели к определенным языкам и темам, которые могут возникать при обучении на ограниченном наборе данных. ## Результаты Исследование показало, что модель, обученная на одном или двух языках, впоследствии может достаточно точно различать иммиграционные темы на новых языках. Это означает, что модель способна понять "тему" — без необходимости знать все деталиы языка. Однако, в то же время, модель показала лучшие результаты в классификации позиций (про- или анти-иммиграционные), когда была приспособлена к нескольким языкам одновременно. Изучение предрасположений показало, что модель склоняется к темам, которые являются более популярными в широком обществе. Однако, даже небольшое добавление данных на непредставленные языки во время обучения приво

Abstract

Large language models (LLMs) are transforming social-science research by enabling scalable, precise analysis. Their adaptability raises the question of whether knowledge acquired through fine-tuning in a few languages can transfer to unseen languages that only appeared during pre-training. To examine this, we fine-tune lightweight LLaMA 3.2-3B models on monolingual, bilingual, or multilingual data sets to classify immigration-related tweets from X/Twitter across 13 languages, a domain characterised by polarised, culturally specific discourse. We evaluate whether minimal language-specific fine-tuning enables cross-lingual topic detection and whether adding targeted languages corrects pre-training biases. Results show that LLMs fine-tuned in one or two languages can reliably classify immigration-related content in unseen languages. However, identifying whether a tweet expresses a pro- or anti-immigration stance benefits from multilingual fine-tuning. Pre-training bias favours dominant languages, but even minimal exposure to under-represented languages during fine-tuning (as little as $9.62\times10^{-11}$ of the original pre-training token volume) yields significant gains. These findings challenge the assumption that cross-lingual mastery requires extensive multilingual training: limited language coverage suffices for topic-level generalisation, and structural biases can be corrected with lightweight interventions. By releasing 4-bit-quantised, LoRA fine-tuned models, we provide an open-source, reproducible alternative to proprietary LLMs that delivers 35 times faster inference at just 0.00000989% of the dollar cost of the OpenAI GPT-4o model, enabling scalable, inclusive research.

Ссылки и действия