From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI Ecosystem
2509.09873v1
cs.SE, cs.AI
2025-09-16
Авторы:
James Jewitt, Hao Li, Bram Adams, Gopi Krishnan Rajbahadur, Ahmed E. Hassan
Резюме на русском
#### Контекст
Открытый исходный код (open-source) широко используется в развитии искусственного интеллекта (AI), но существуют серьёзные риски, связанные с несоответствием лицензий. Недостаток данных о частоте этих несоответствий, их источниках и воздействии на сообщества существенно ограничивает возможности легальных и этичных решений. Наша исследовательская цель — понять, как часто возникают несоответствия лицензий в AI, какие проблемы они представляют и как их можно автоматизировать.
#### Метод
Мы проводили полную аудитную процедуру для лицензий на данные и модели на платформе Hugging Face, а также их интеграции в GitHub-проекты. Исследование охватило 364 тысяч наборов данных, 1,6 миллиона моделей и 140 тысяч GitHub-репозиториев. Мы разработали расширяемую систему, которая использует 197 правил для обнаружения несоответствий лицензий, включая типичные SPDX-правила и модели-специфичные условия. Эта система демонстрирует эффективность в решении 86,4% несоответствий.
#### Результаты
Наши эмпирические данные показывают, что 35,5% переходов моделей в приложения приводит к устранению ограничительных условий лицензий за счёт перехода к более простым условиям, таким как MIT или BSD. Мы также обнаружили, что несоответствия часто возникают в результате непреднамеренного отсутствия ясности в процессе интеграции. Наши вычисления позволили определить, какие сообщества и проекты в AI-экосистеме подвержены наибольшим рискам.
#### Значимость
Наше исследование имеет большое значение для разных аспектов. Во-первых, оно помогает осведомлённым организациям уменьшить риски лицензионных споров и повысить соблюдение нормативных требований. Во-вторых, мы демонстрируем, как AI может быть применено для автоматического обнаружения и устранения несоответствий лицензий. Наконец, наши результаты могут способствовать улучшению целостности и прозрачности AI-экосистемы.
#### Выводы
Мы показали, что несоответствия лицензий являются серьёзной проблемой в AI-экосистеме, требующей активного решения. Наша работа создаёт новые возможности для автоматического мониторинга и устранения несоответствий. Мы планируем расширить нашу работу, включив более широкий круг моделей и данных, а также создать более продвинутые инструменты для автоматизации процессов соблюдения лицензий.
Abstract
Hidden license conflicts in the open-source AI ecosystem pose serious legal
and ethical risks, exposing organizations to potential litigation and users to
undisclosed risk. However, the field lacks a data-driven understanding of how
frequently these conflicts occur, where they originate, and which communities
are most affected. We present the first end-to-end audit of licenses for
datasets and models on Hugging Face, as well as their downstream integration
into open-source software applications, covering 364 thousand datasets, 1.6
million models, and 140 thousand GitHub projects. Our empirical analysis
reveals systemic non-compliance in which 35.5% of model-to-application
transitions eliminate restrictive license clauses by relicensing under
permissive terms. In addition, we prototype an extensible rule engine that
encodes almost 200 SPDX and model-specific clauses for detecting license
conflicts, which can solve 86.4% of license conflicts in software applications.
To support future research, we release our dataset and the prototype engine.
Our study highlights license compliance as a critical governance challenge in
open-source AI and provides both the data and tools necessary to enable
automated, AI-aware compliance at scale.
Ссылки и действия
Дополнительные ресурсы: