The Provenance Problem: LLMs and the Breakdown of Citation Norms
2509.13365v1
cs.CY, cs.AI
2025-09-19
Авторы:
Brian D. Earp, Haotian Yuan, Julian Koplin, Sebastian Porsdam Mann
Резюме на русском
## Контекст
В последние годы появились новые возможности для научного написания текстов благодаря развитию генеративных искусственных интеллектов (LLMs). Эти технологии позволяют достичь высокого качества текстов, но при этом порождают серьезные проблемы с атрибуцией и интеллектуальным дарованием. Тексты, сгенерированные с помощью таких систем, могут включать в себя идеи, непосредственно заимствованные из малоизвестных источников, недоступных автору. Это приводит к проблеме происхождения (provenance problem), когда авторские идеи не получают должного атрибута. Эта проблема отличается от традиционного плагиата, так как не включает злоумышленности, но всё же приводит к потере интеллектуального кредита. Таким образом, возникают новые атрибутивные вопросы, не покрытые существующими нормами этики и профессионального сообщества. Эта проблема становится крайне актуальной в свет распространения генеративных технологий в науке.
## Метод
Для изучения этой проблемы используется комбинация теоретического анализа и прикладных исследований. Авторы проводят анализ классических понятий авторства и атрибуции в науке, анализируют существующие проблемы в нормах авторства и атрибуции, которые не учитывают новые технологии. Также в исследовании принято во внимание развитие доказательств на основе генеративных моделей AI. Исследование затрагивает различные сферы научного написания, включая тексты, которые могут быть сгенерированы с помощью AI-систем без предварительного рассмотрения исходных источников.
## Результаты
В ходе исследования обнаружено, что генеративные AI-системы могут сгенерировать тексты, содержащие идеи, которые не были предварительно просмотрены автором и не получили интеллектуальный кредит. Эта проблема наблюдается в различных научных областях, включая юридическое, медицинское и техническое научное написание. Полученные результаты показывают, что тексты сгенерированные с помощью AI могут не только иметь включенные идеи, но и способствовать распространению идей без должного атрибута, что ведёт к потере интеллектуального дарования.
## Значимость
Вопрос происхождения имеет значимость в различных областях науки, где хранится научная информация. Этот подход может использоваться для развития новых норм атрибуции и авторства, чтобы сохранить научную честность и эпистемический справедливость. Области применения включают литературное анализирование, медицинское научное написание, юридический документирование и другие. Также имеет потенциал для изменения норм этики в научных статьях
Abstract
The increasing use of generative AI in scientific writing raises urgent
questions about attribution and intellectual credit. When a researcher employs
ChatGPT to draft a manuscript, the resulting text may echo ideas from sources
the author has never encountered. If an AI system reproduces insights from, for
example, an obscure 1975 paper without citation, does this constitute
plagiarism? We argue that such cases exemplify the 'provenance problem': a
systematic breakdown in the chain of scholarly credit. Unlike conventional
plagiarism, this phenomenon does not involve intent to deceive (researchers may
disclose AI use and act in good faith) yet still benefit from the uncredited
intellectual contributions of others. This dynamic creates a novel category of
attributional harm that current ethical and professional frameworks fail to
address. As generative AI becomes embedded across disciplines, the risk that
significant ideas will circulate without recognition threatens both the
reputational economy of science and the demands of epistemic justice. This
Perspective analyzes how AI challenges established norms of authorship,
introduces conceptual tools for understanding the provenance problem, and
proposes strategies to preserve integrity and fairness in scholarly
communication.
Ссылки и действия
Дополнительные ресурсы: