📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Benjamin Laufer, Hamidah Oderinwale, Jon Kleinberg
## Контекст
Область исследования состоит в изучении создания и развития моделей машинного обучения (ML), особенно в контексте генеративных моделей и искусственного интеллекта (AI). За последние годы возрастает интерес к разработке и применению таких моделей в различных сферах. Однако ограниченное количество эмпирических исследований посвящено изучению структуры взаимодействий при развитии и применении этих моделей. Это затрудняет понимание эволюционных процессов, происходящих в экосистеме ML. Учитывая растущий объем моделей и их взаимосвязей, необходимо получить более глубокие аналитические сведения о том, как эти модели создаются, адаптируются и используются. Задача этого исследования — получить эмпирические подтверждения для понимания логики того, как генеративные модели развиваются, и выделить направления для будущих исследований.
## Метод
Для изучения структуры и эволюции моделей ML было использовано данные с платформы Hugging Face, ведущей платформы для разработки моделей ML. Исследователи разработали архитектуру подхода, основанную на изучении "деревьев моделей" — структур, которые связывают между собой модели, основанные на базовых моделях или "родительские" модели. Для измерения генетической схожести использовались метаданные моделей и "карточки моделей" (model cards), которые содержат сведения о метаданных, наименовании и описании моделей. Методом анализа было применено подходы, подобные эволюционной биологии, для изучения сходства моделей, их взаимодействия и уровня мутаций. Эта методология позволила получить новые подходы к изучению взаимосвязей в ML-экосистемах.
## Результаты
Исследование охватило 1.86 миллиона моделей, размещенных на Hugging Face. Отдельным аспектом было изучение "деревьев моделей", показавших разнообразие структур и размеров этих сетей. Изучив семейные сходства моделей, исследователи обнаружили, что модели, принадлежащие к одной семье, демонстрируют большую генетическую схожесть, но это сходство отличается от стандартных моделей по аксельсорсной репродукции. Так, две "сестринские" модели чаще всего более похожи друг на друга, чем родительская и дочерняя модель. Эволюционные анализы также выявили некоторые интересные тенденции в экосистеме ML. Например, модели часто перемещаются от ограничительных коммерческих лицензий к более открытым, таким как последовательные (copyleft) или менее ограничительные лицензии, что порой противоречит условиям "родительских" лицензий. Также обнаружена тенденция к уменьшению размера моделей, превращению в англоязычные, а также к стандартизации моделе
Annotation:
Many have observed that the development and deployment of generative machine
learning (ML) and artificial intelligence (AI) models follow a distinctive
pattern in which pre-trained models are adapted and fine-tuned for specific
downstream tasks. However, there is limited empirical work that examines the
structure of these interactions. This paper analyzes 1.86 million models on
Hugging Face, a leading peer production platform for model development. Our
study of model family trees -- networks tha...