From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI Ecosystem

2509.09873v1 cs.SE, cs.AI 2025-09-16
Авторы:

James Jewitt, Hao Li, Bram Adams, Gopi Krishnan Rajbahadur, Ahmed E. Hassan

Резюме на русском

#### Контекст Открытый исходный код (open-source) широко используется в развитии искусственного интеллекта (AI), но существуют серьёзные риски, связанные с несоответствием лицензий. Недостаток данных о частоте этих несоответствий, их источниках и воздействии на сообщества существенно ограничивает возможности легальных и этичных решений. Наша исследовательская цель — понять, как часто возникают несоответствия лицензий в AI, какие проблемы они представляют и как их можно автоматизировать. #### Метод Мы проводили полную аудитную процедуру для лицензий на данные и модели на платформе Hugging Face, а также их интеграции в GitHub-проекты. Исследование охватило 364 тысяч наборов данных, 1,6 миллиона моделей и 140 тысяч GitHub-репозиториев. Мы разработали расширяемую систему, которая использует 197 правил для обнаружения несоответствий лицензий, включая типичные SPDX-правила и модели-специфичные условия. Эта система демонстрирует эффективность в решении 86,4% несоответствий. #### Результаты Наши эмпирические данные показывают, что 35,5% переходов моделей в приложения приводит к устранению ограничительных условий лицензий за счёт перехода к более простым условиям, таким как MIT или BSD. Мы также обнаружили, что несоответствия часто возникают в результате непреднамеренного отсутствия ясности в процессе интеграции. Наши вычисления позволили определить, какие сообщества и проекты в AI-экосистеме подвержены наибольшим рискам. #### Значимость Наше исследование имеет большое значение для разных аспектов. Во-первых, оно помогает осведомлённым организациям уменьшить риски лицензионных споров и повысить соблюдение нормативных требований. Во-вторых, мы демонстрируем, как AI может быть применено для автоматического обнаружения и устранения несоответствий лицензий. Наконец, наши результаты могут способствовать улучшению целостности и прозрачности AI-экосистемы. #### Выводы Мы показали, что несоответствия лицензий являются серьёзной проблемой в AI-экосистеме, требующей активного решения. Наша работа создаёт новые возможности для автоматического мониторинга и устранения несоответствий. Мы планируем расширить нашу работу, включив более широкий круг моделей и данных, а также создать более продвинутые инструменты для автоматизации процессов соблюдения лицензий.

Abstract

Hidden license conflicts in the open-source AI ecosystem pose serious legal and ethical risks, exposing organizations to potential litigation and users to undisclosed risk. However, the field lacks a data-driven understanding of how frequently these conflicts occur, where they originate, and which communities are most affected. We present the first end-to-end audit of licenses for datasets and models on Hugging Face, as well as their downstream integration into open-source software applications, covering 364 thousand datasets, 1.6 million models, and 140 thousand GitHub projects. Our empirical analysis reveals systemic non-compliance in which 35.5% of model-to-application transitions eliminate restrictive license clauses by relicensing under permissive terms. In addition, we prototype an extensible rule engine that encodes almost 200 SPDX and model-specific clauses for detecting license conflicts, which can solve 86.4% of license conflicts in software applications. To support future research, we release our dataset and the prototype engine. Our study highlights license compliance as a critical governance challenge in open-source AI and provides both the data and tools necessary to enable automated, AI-aware compliance at scale.

Ссылки и действия