Model-Agnostic Sentiment Distribution Stability Analysis for Robust LLM-Generated Texts Detection

2508.06913v1 cs.CL, cs.LG 2025-08-13
Авторы:

Siyuan Li, Xi Lin, Guangyan Li, Zehao Liu, Aodu Wulianghai, Li Ding, Jun Wu, Jianhua Li

Резюме на русском

## Контекст В последние годы развитие больших языковых моделей (LLMs) позволило создавать высококачественный AI-генерируемый текст, что создало серьезные проблемы в распознавании таких текстов от текстов, написанных людьми. Существующие методы распознавания, основанные на лексических хитростях или предварительно обученных классификаторах, часто обладают ограниченной общительностью и являются чувствительными к парафразированию, адверсартам и переходам между доменами. Мы предлагаем SentiDetect, модельно-независимую фреймворк, которая анализирует расхождения в стабильности распределения чувств для распознавания AI-генерируемого текста. Мы наблюдали, что AI-генерируемые тексты обычно имеют консистентные эмоциональные ударения, в то время как тексты, написанные людьми, характеризуются более высокой эмоциональной разнообразностью. ## Метод Мы определяем две комплиментарные метрики: **сентиментное распределение сохранения согласованности** и **сентиментное распределение сохранения постоянства**, чтобы измерить стабильность эмоционального распределения под влиянием сентиментных и семантически сохраняющих преобразований. Мы применяем эти метрики к распределениям чувств, полученных с помощью алгоритма Sentiment Distribution Analysis (SDA), чтобы отличать AI-генерируемые тексты от текстов, написанных людьми. ## Результаты Мы провели эксперименты на пяти разных датасетах с широким спектром LLMs, включая Gemini-1.5-Pro, Claude-3, GPT-4-0613 и LLaMa-3.3. SentiDetect показал существенное превосходство над состоянием технологий с выигрышем более 16% в F1-метрике на Gemini-1.5-Pro и более 11% на GPT-4-0613. Также SentiDetect продемонстрировал высокую устойчивость к парафразированию, адверсартам и изменениям длины текста, преобразовываясь в лучшую альтернативу для более сложных сценариев. ## Значимость SentiDetect может быть применен в различных сферах, включая мониторинг креативных контентов, верификацию текстов в образовательных и судебных процессах, а также в области безопасности информации. Его преимущество в том, что он модельно независим и имеет высокую устойчивость к различным формам атак и изменений текста. Он также может нести большой потенциал для развития инструментов автоматизированного контроля качества текстов. ## Выводы Мы представляем SentiDetect, новая модельно-независимая фреймворк, для распознавания AI-генерируемого текста через анализ стабильности распределения чувств. Эксперименты показали выдающиеся результаты в сравнении с современными методами. Будущие исследования будут сконцентрированы на улучшении точности распознавания для бо

Abstract

The rapid advancement of large language models (LLMs) has resulted in increasingly sophisticated AI-generated content, posing significant challenges in distinguishing LLM-generated text from human-written language. Existing detection methods, primarily based on lexical heuristics or fine-tuned classifiers, often suffer from limited generalizability and are vulnerable to paraphrasing, adversarial perturbations, and cross-domain shifts. In this work, we propose SentiDetect, a model-agnostic framework for detecting LLM-generated text by analyzing the divergence in sentiment distribution stability. Our method is motivated by the empirical observation that LLM outputs tend to exhibit emotionally consistent patterns, whereas human-written texts display greater emotional variability. To capture this phenomenon, we define two complementary metrics: sentiment distribution consistency and sentiment distribution preservation, which quantify stability under sentiment-altering and semantic-preserving transformations. We evaluate SentiDetect on five diverse datasets and a range of advanced LLMs,including Gemini-1.5-Pro, Claude-3, GPT-4-0613, and LLaMa-3.3. Experimental results demonstrate its superiority over state-of-the-art baselines, with over 16% and 11% F1 score improvements on Gemini-1.5-Pro and GPT-4-0613, respectively. Moreover, SentiDetect also shows greater robustness to paraphrasing, adversarial attacks, and text length variations, outperforming existing detectors in challenging scenarios.

Ссылки и действия