ToxiFrench: Benchmarking and Enhancing Language Models via CoT Fine-Tuning for French Toxicity Detection
2508.11281v1
cs.CL, cs.AI, cs.CY, 68T50, I.2.7
2025-08-19
Авторы:
Axel Delaval, Shujian Yang, Haicheng Wang, Han Qiu, Jialiang Lu
Резюме на русском
## Контекст
Детектирование токсичности в текстах является важной задачей, особенно в современных социальных сетях. Хотя большой прогресс осуществился в этой области на английском языке, задача детектирования токсичности на французском остается недоработанной, в основном из-за отсутствия культурно ориентированных и крупномасштабных данных. Таким образом, необходимо развитие методик и ресурсов для эффективного обнаружения токсичности на французском языке.
## Метод
Для решения этой проблемы был создан новый публичный бенчмарк ToxiFrench, состоящий из 53 622 комментариев на французском языке. Данный бенчмарк был построен с помощью семи-автоматической аннотационной технологии, которая снизила участие человеческого аналитика до 10%, используя высокоточные модели языка. Для контроля качества использовалась ручная проверка. Была осуществлена оценка различных моделей, включая стандартные и большие модели, такие как GPT-40, и получены результаты, демонстрирующие значительные различия в производительности. Для улучшения моделей был предложен новый подход Chain-of-Thought (CoT) fine-tuning с динамическим взвешенным значением подсказок, который позволяет модели лучше понимать и развивать свой собственный логический подход к задаче.
## Результаты
Эксперименты показали, что наиболее важным фактором повышения удобочитаемости является не только размер модели, но и ее способность к логическому изложению своих выводов. Доказано, что Small Language Models (SLMs) вы most promising models. Например, одна из SLM-моделей показала острое улучшение в F1-мерсе с 13% в сравнении с целью Fine-tuning. Кроме того, эта модель показала свою многоязычную способность, показывая свою эффективность на других языках, что демонстрирует перспективы для расширения этого подхода.
## Значимость
Результаты демонстрируют, что этот подход может быть более эффективен для обнаружения токсичности сравнительно с большими моделями, и что он может быть использован в других языках. Эта методика может быть применена в сферах, где важно обеспечить безопасность и отсутствие насилия в онлайн-коммуникации. Это может привести к развитию безопасных интернет-платформ, предупреждению беспричинного насилия и улучшению общественного благосостояния.
## Выводы
Полученные результаты показывают, что динамично взвешенный CoT fine-tuning может существенно повысить качество моделей для задач обнаружения токсичности, даже при использовании небольших моделей. Этот подход может быть применен для развития методик обнаружения токсичности на других языках, что может стать значительным шагом в обеспечении безопасности и правильности многояз
Abstract
Detecting toxic content using language models is crucial yet challenging.
While substantial progress has been made in English, toxicity detection in
French remains underdeveloped, primarily due to the lack of culturally
relevant, large-scale datasets. In this work, we introduce TOXIFRENCH, a new
public benchmark of 53,622 French online comments, constructed via a
semi-automated annotation pipeline that reduces manual labeling to only 10%
through high-confidence LLM-based pre-annotation and human verification. Then,
we benchmark a broad range of models and uncover a counterintuitive insight:
Small Language Models (SLMs) outperform many larger models in robustness and
generalization under the toxicity detection task. Motivated by this finding, we
propose a novel Chain-of-Thought (CoT) fine-tuning strategy using a dynamic
weighted loss that progressively emphasizes the model's final decision,
significantly improving faithfulness. Our fine-tuned 4B model achieves
state-of-the-art performance, improving its F1 score by 13% over its baseline
and outperforming LLMs such as GPT-40 and Gemini-2.5. Further evaluation on a
cross-lingual toxicity benchmark demonstrates strong multilingual ability,
suggesting that our methodology can be effectively extended to other languages
and safety-critical classification tasks.