📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 ToxiFrench: Benchmarking and Enhancing Language Models via CoT Fine-Tuning for French Toxicity Detection

2025-08-19

Авторы:

Axel Delaval, Shujian Yang, Haicheng Wang, Han Qiu, Jialiang Lu

## Контекст Детектирование токсичности в текстах является важной задачей, особенно в современных социальных сетях. Хотя большой прогресс осуществился в этой области на английском языке, задача детектирования токсичности на французском остается недоработанной, в основном из-за отсутствия культурно ориентированных и крупномасштабных данных. Таким образом, необходимо развитие методик и ресурсов для эффективного обнаружения токсичности на французском языке. ## Метод Для решения этой проблемы был создан новый публичный бенчмарк ToxiFrench, состоящий из 53 622 комментариев на французском языке. Данный бенчмарк был построен с помощью семи-автоматической аннотационной технологии, которая снизила участие человеческого аналитика до 10%, используя высокоточные модели языка. Для контроля качества использовалась ручная проверка. Была осуществлена оценка различных моделей, включая стандартные и большие модели, такие как GPT-40, и получены результаты, демонстрирующие значительные различия в производительности. Для улучшения моделей был предложен новый подход Chain-of-Thought (CoT) fine-tuning с динамическим взвешенным значением подсказок, который позволяет модели лучше понимать и развивать свой собственный логический подход к задаче. ## Результаты Эксперименты показали, что наиболее важным фактором повышения удобочитаемости является не только размер модели, но и ее способность к логическому изложению своих выводов. Доказано, что Small Language Models (SLMs) вы most promising models. Например, одна из SLM-моделей показала острое улучшение в F1-мерсе с 13% в сравнении с целью Fine-tuning. Кроме того, эта модель показала свою многоязычную способность, показывая свою эффективность на других языках, что демонстрирует перспективы для расширения этого подхода. ## Значимость Результаты демонстрируют, что этот подход может быть более эффективен для обнаружения токсичности сравнительно с большими моделями, и что он может быть использован в других языках. Эта методика может быть применена в сферах, где важно обеспечить безопасность и отсутствие насилия в онлайн-коммуникации. Это может привести к развитию безопасных интернет-платформ, предупреждению беспричинного насилия и улучшению общественного благосостояния. ## Выводы Полученные результаты показывают, что динамично взвешенный CoT fine-tuning может существенно повысить качество моделей для задач обнаружения токсичности, даже при использовании небольших моделей. Этот подход может быть применен для развития методик обнаружения токсичности на других языках, что может стать значительным шагом в обеспечении безопасности и правильности многояз

Annotation:

Detecting toxic content using language models is crucial yet challenging. While substantial progress has been made in English, toxicity detection in French remains underdeveloped, primarily due to the lack of culturally relevant, large-scale datasets. In this work, we introduce TOXIFRENCH, a new public benchmark of 53,622 French online comments, constructed via a semi-automated annotation pipeline that reduces manual labeling to only 10% through high-confidence LLM-based pre-annotation and human...

ID: 2508.11281v1 cs.CL, cs.AI, cs.CY, 68T50, I.2.7

arXiv PDF