📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Benjamin Laufer, Hamidah Oderinwale, Jon Kleinberg

## Контекст Область исследования состоит в изучении создания и развития моделей машинного обучения (ML), особенно в контексте генеративных моделей и искусственного интеллекта (AI). За последние годы возрастает интерес к разработке и применению таких моделей в различных сферах. Однако ограниченное количество эмпирических исследований посвящено изучению структуры взаимодействий при развитии и применении этих моделей. Это затрудняет понимание эволюционных процессов, происходящих в экосистеме ML. Учитывая растущий объем моделей и их взаимосвязей, необходимо получить более глубокие аналитические сведения о том, как эти модели создаются, адаптируются и используются. Задача этого исследования — получить эмпирические подтверждения для понимания логики того, как генеративные модели развиваются, и выделить направления для будущих исследований. ## Метод Для изучения структуры и эволюции моделей ML было использовано данные с платформы Hugging Face, ведущей платформы для разработки моделей ML. Исследователи разработали архитектуру подхода, основанную на изучении "деревьев моделей" — структур, которые связывают между собой модели, основанные на базовых моделях или "родительские" модели. Для измерения генетической схожести использовались метаданные моделей и "карточки моделей" (model cards), которые содержат сведения о метаданных, наименовании и описании моделей. Методом анализа было применено подходы, подобные эволюционной биологии, для изучения сходства моделей, их взаимодействия и уровня мутаций. Эта методология позволила получить новые подходы к изучению взаимосвязей в ML-экосистемах. ## Результаты Исследование охватило 1.86 миллиона моделей, размещенных на Hugging Face. Отдельным аспектом было изучение "деревьев моделей", показавших разнообразие структур и размеров этих сетей. Изучив семейные сходства моделей, исследователи обнаружили, что модели, принадлежащие к одной семье, демонстрируют большую генетическую схожесть, но это сходство отличается от стандартных моделей по аксельсорсной репродукции. Так, две "сестринские" модели чаще всего более похожи друг на друга, чем родительская и дочерняя модель. Эволюционные анализы также выявили некоторые интересные тенденции в экосистеме ML. Например, модели часто перемещаются от ограничительных коммерческих лицензий к более открытым, таким как последовательные (copyleft) или менее ограничительные лицензии, что порой противоречит условиям "родительских" лицензий. Также обнаружена тенденция к уменьшению размера моделей, превращению в англоязычные, а также к стандартизации моделе
Annotation:
Many have observed that the development and deployment of generative machine learning (ML) and artificial intelligence (AI) models follow a distinctive pattern in which pre-trained models are adapted and fine-tuned for specific downstream tasks. However, there is limited empirical work that examines the structure of these interactions. This paper analyzes 1.86 million models on Hugging Face, a leading peer production platform for model development. Our study of model family trees -- networks tha...
ID: 2508.06811v1 cs.SI, cs.AI, cs.CY, cs.LG