Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation

2509.08825v1 cs.CL, cs.AI, cs.LG 2025-09-12
Авторы:

Joachim Baumann, Paul Röttger, Aleksandra Urman, Albert Wendsjö, Flor Miriam Plaza-del-Arco, Johannes B. Gruber, Dirk Hovy

Резюме на русском

#### Контекст Large language models (LLMs) значительно изменяют область социологических исследований, автоматизируя трудоемкие задачи, такие как аннотация данных и текстовый анализ. Однако выводы LLMs зависят от решений, которые принимают исследователи, таких как выбор модели, стратегия подсказок или настройки температуры. Эти отличия могут привести к систематическим уклонкам и случайным ошибкам, которые влияют на дальнейший анализ и приводят к ошибкам различного рода (Type I, Type II, Type S или Type M). Название этого явления — LLM hacking. Цель нашего исследования — оценить риски LLM hacking и разработать методы его снижения. #### Метод Мы проводили эксперименты с 37 задачами аннотации данных из 21 публикаций в области социальных наук, используя 18 различных LLMs. Обработав 13 миллионов меток, мы тестировали 2 361 гипотез, определяя, как различные реализационные решения влияют на статистические выводы. Наши эксперименты охватывают многие реалистичные сценарии использования LLMs в социологических исследованиях. #### Результаты Мы обнаружили, что примерно в треть случаев, если использовать выводы стандартных моделей, ведут к неверным статистическим выводам. У меньших моделей этот процент достигает половины. Мы обнаружили, что высокая точность модели и лучшая общая модельная качество снижают риск LLM hacking, но даже высокоточные модели не могут полностью исключить это риско. Также мы обнаружили, что чем больше эффектный размер, тем меньше риска ошибок, что подтверждает нужду в более строгих проверках значимости. Мы также проанализировали множество методов снижения LLM hacking, таких как жесткое верифицирование результатов, и показали, что значительное улучшение может быть достигнуто с помощью ручных аннотаций. #### Значимость Наше исследование имеет значительные приложения в социологических исследованиях, а также в других областях, где LLMs используются для автоматизации задач текстового анализа. Мы показали, что LLM hacking может привести к серьезным ошибкам в исследовательских выводах, что требует большей внимательности к процессу верификации данных. Мы также выявили преимущества использования ручных аннотаций в снижении false positive результатов и улучшении выбора моделей. Наши результаты также послужат основой для будущих исследований в области снижения LLM hacking. #### Выводы Наши исследования подтвердили, что LLM hacking является значительной проблемой для социологических исследований, но его риски могут быть существенно снижены при необходимости в строгих проверках значимости и поддержке ручных аннотаций. Мы также выявили, что LLM hacking требует новых подходов в области методо

Abstract

Large language models (LLMs) are rapidly transforming social science research by enabling the automation of labor-intensive tasks like data annotation and text analysis. However, LLM outputs vary significantly depending on the implementation choices made by researchers (e.g., model selection, prompting strategy, or temperature settings). Such variation can introduce systematic biases and random errors, which propagate to downstream analyses and cause Type I, Type II, Type S, or Type M errors. We call this LLM hacking. We quantify the risk of LLM hacking by replicating 37 data annotation tasks from 21 published social science research studies with 18 different models. Analyzing 13 million LLM labels, we test 2,361 realistic hypotheses to measure how plausible researcher choices affect statistical conclusions. We find incorrect conclusions based on LLM-annotated data in approximately one in three hypotheses for state-of-the-art models, and in half the hypotheses for small language models. While our findings show that higher task performance and better general model capabilities reduce LLM hacking risk, even highly accurate models do not completely eliminate it. The risk of LLM hacking decreases as effect sizes increase, indicating the need for more rigorous verification of findings near significance thresholds. Our extensive analysis of LLM hacking mitigation techniques emphasizes the importance of human annotations in reducing false positive findings and improving model selection. Surprisingly, common regression estimator correction techniques are largely ineffective in reducing LLM hacking risk, as they heavily trade off Type I vs. Type II errors. Beyond accidental errors, we find that intentional LLM hacking is unacceptably simple. With few LLMs and just a handful of prompt paraphrases, anything can be presented as statistically significant.

Ссылки и действия