Model-Agnostic Sentiment Distribution Stability Analysis for Robust LLM-Generated Texts Detection
2508.06913v1
cs.CL, cs.LG
2025-08-13
Авторы:
Siyuan Li, Xi Lin, Guangyan Li, Zehao Liu, Aodu Wulianghai, Li Ding, Jun Wu, Jianhua Li
Резюме на русском
## Контекст
В последние годы развитие больших языковых моделей (LLMs) позволило создавать высококачественный AI-генерируемый текст, что создало серьезные проблемы в распознавании таких текстов от текстов, написанных людьми. Существующие методы распознавания, основанные на лексических хитростях или предварительно обученных классификаторах, часто обладают ограниченной общительностью и являются чувствительными к парафразированию, адверсартам и переходам между доменами. Мы предлагаем SentiDetect, модельно-независимую фреймворк, которая анализирует расхождения в стабильности распределения чувств для распознавания AI-генерируемого текста. Мы наблюдали, что AI-генерируемые тексты обычно имеют консистентные эмоциональные ударения, в то время как тексты, написанные людьми, характеризуются более высокой эмоциональной разнообразностью.
## Метод
Мы определяем две комплиментарные метрики: **сентиментное распределение сохранения согласованности** и **сентиментное распределение сохранения постоянства**, чтобы измерить стабильность эмоционального распределения под влиянием сентиментных и семантически сохраняющих преобразований. Мы применяем эти метрики к распределениям чувств, полученных с помощью алгоритма Sentiment Distribution Analysis (SDA), чтобы отличать AI-генерируемые тексты от текстов, написанных людьми.
## Результаты
Мы провели эксперименты на пяти разных датасетах с широким спектром LLMs, включая Gemini-1.5-Pro, Claude-3, GPT-4-0613 и LLaMa-3.3. SentiDetect показал существенное превосходство над состоянием технологий с выигрышем более 16% в F1-метрике на Gemini-1.5-Pro и более 11% на GPT-4-0613. Также SentiDetect продемонстрировал высокую устойчивость к парафразированию, адверсартам и изменениям длины текста, преобразовываясь в лучшую альтернативу для более сложных сценариев.
## Значимость
SentiDetect может быть применен в различных сферах, включая мониторинг креативных контентов, верификацию текстов в образовательных и судебных процессах, а также в области безопасности информации. Его преимущество в том, что он модельно независим и имеет высокую устойчивость к различным формам атак и изменений текста. Он также может нести большой потенциал для развития инструментов автоматизированного контроля качества текстов.
## Выводы
Мы представляем SentiDetect, новая модельно-независимая фреймворк, для распознавания AI-генерируемого текста через анализ стабильности распределения чувств. Эксперименты показали выдающиеся результаты в сравнении с современными методами. Будущие исследования будут сконцентрированы на улучшении точности распознавания для бо
Abstract
The rapid advancement of large language models (LLMs) has resulted in
increasingly sophisticated AI-generated content, posing significant challenges
in distinguishing LLM-generated text from human-written language. Existing
detection methods, primarily based on lexical heuristics or fine-tuned
classifiers, often suffer from limited generalizability and are vulnerable to
paraphrasing, adversarial perturbations, and cross-domain shifts. In this work,
we propose SentiDetect, a model-agnostic framework for detecting LLM-generated
text by analyzing the divergence in sentiment distribution stability. Our
method is motivated by the empirical observation that LLM outputs tend to
exhibit emotionally consistent patterns, whereas human-written texts display
greater emotional variability. To capture this phenomenon, we define two
complementary metrics: sentiment distribution consistency and sentiment
distribution preservation, which quantify stability under sentiment-altering
and semantic-preserving transformations. We evaluate SentiDetect on five
diverse datasets and a range of advanced LLMs,including Gemini-1.5-Pro,
Claude-3, GPT-4-0613, and LLaMa-3.3. Experimental results demonstrate its
superiority over state-of-the-art baselines, with over 16% and 11% F1 score
improvements on Gemini-1.5-Pro and GPT-4-0613, respectively. Moreover,
SentiDetect also shows greater robustness to paraphrasing, adversarial attacks,
and text length variations, outperforming existing detectors in challenging
scenarios.
Ссылки и действия
Дополнительные ресурсы: