How do Language Models Generate Slang: A Systematic Comparison between Human and Machine-Generated Slang Usages

2509.15518v1 cs.CL, cs.AI, cs.LG 2025-09-23
Авторы:

Siyang Wu, Zhewei Sun

Резюме на русском

#### Контекст Языковые модели (LLMs) становятся все более эффективными в целях понимания и генерации информации, включая информализированные языковые формы, такие как сленг. Однако сленг, широко используемый в разговорной речи, представляет собой сложную структурную проблему для NLP-систем. Несмотря на то, что LLMs показали качественные результаты в задачах сленговой детекции и интерпретации, их общействовательная значимость определяется точностью и глубиной хранящейся ими информации о сленге. Мы сравниваем гуманные и машиннойсgenerated slang usages (сленговые формы), чтобы изучить соответствие генерируемых моделями сленга типичным гуманным употреблениям. #### Метод Мы использовали два типа данных: сленговые формы из Online Slang Dictionary (OSD) и генерируемые моделями GPT-4 и Llama-3. Для сравнения анализировали три основных аспекта: 1) систематические ошибки в осмыслении LLMs, которые отражаются в сленговых формах; 2) творческой потенциал моделей, отображаемый в новых терминах и использований слов, а также 3) информативность моделей, использованных для моделирования и улучшения генерации сленга. #### Результаты Наше анализируемое сравнение показало, что LLMs эффективно генерируют сленг со структурными сходствами с гуманным сленгом, но существуют заметные ошибки в структуре и ранжировании сленга. Модели хорошо работают в генерации новых терминов, но не достигают полного соответствия лингвистическим моделям, требуемым для анализа. Испытания показали, что LLMs не достаточно многообразны и не отображают социальных и культурных контекстов, которые являются ключевыми для понимания сленга. #### Значимость Наш результат имеет значительное значение во многих областях, включая дизайн языковых моделей, моделирование социальных процессов в машинном обучении и создание более гибких инструментов для интерпретации информализированных текстов. Мы показываем, что LLMs могут расширять свои знания сленга, но для приложениив реальной жизни требуется повышение точности и учет социокультурных контекстов. #### Выводы Наше исследование показало, что, хотя LLMs широко используемы в задачах сленга, они еще не достигли совершенства в генерации и разборе сленга. Будучи ограничены структурными моделями, LLMs не могут выходить за рамки тренировочных данных. Наше исследование указывает на необходимость добавления более широкой социальной и культурной компоненты в обучение моделей, чтобы улучшить их генерацию и анализ сленга

Abstract

Slang is a commonly used type of informal language that poses a daunting challenge to NLP systems. Recent advances in large language models (LLMs), however, have made the problem more approachable. While LLM agents are becoming more widely applied to intermediary tasks such as slang detection and slang interpretation, their generalizability and reliability are heavily dependent on whether these models have captured structural knowledge about slang that align well with human attested slang usages. To answer this question, we contribute a systematic comparison between human and machine-generated slang usages. Our evaluative framework focuses on three core aspects: 1) Characteristics of the usages that reflect systematic biases in how machines perceive slang, 2) Creativity reflected by both lexical coinages and word reuses employed by the slang usages, and 3) Informativeness of the slang usages when used as gold-standard examples for model distillation. By comparing human-attested slang usages from the Online Slang Dictionary (OSD) and slang generated by GPT-4o and Llama-3, we find significant biases in how LLMs perceive slang. Our results suggest that while LLMs have captured significant knowledge about the creative aspects of slang, such knowledge does not align with humans sufficiently to enable LLMs for extrapolative tasks such as linguistic analyses.

Ссылки и действия