📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Anatomy of a Machine Learning Ecosystem: 2 Million Models on Hugging Face

2025-08-13

Авторы:

Benjamin Laufer, Hamidah Oderinwale, Jon Kleinberg

## Контекст Область исследования состоит в изучении создания и развития моделей машинного обучения (ML), особенно в контексте генеративных моделей и искусственного интеллекта (AI). За последние годы возрастает интерес к разработке и применению таких моделей в различных сферах. Однако ограниченное количество эмпирических исследований посвящено изучению структуры взаимодействий при развитии и применении этих моделей. Это затрудняет понимание эволюционных процессов, происходящих в экосистеме ML. Учитывая растущий объем моделей и их взаимосвязей, необходимо получить более глубокие аналитические сведения о том, как эти модели создаются, адаптируются и используются. Задача этого исследования — получить эмпирические подтверждения для понимания логики того, как генеративные модели развиваются, и выделить направления для будущих исследований. ## Метод Для изучения структуры и эволюции моделей ML было использовано данные с платформы Hugging Face, ведущей платформы для разработки моделей ML. Исследователи разработали архитектуру подхода, основанную на изучении "деревьев моделей" — структур, которые связывают между собой модели, основанные на базовых моделях или "родительские" модели. Для измерения генетической схожести использовались метаданные моделей и "карточки моделей" (model cards), которые содержат сведения о метаданных, наименовании и описании моделей. Методом анализа было применено подходы, подобные эволюционной биологии, для изучения сходства моделей, их взаимодействия и уровня мутаций. Эта методология позволила получить новые подходы к изучению взаимосвязей в ML-экосистемах. ## Результаты Исследование охватило 1.86 миллиона моделей, размещенных на Hugging Face. Отдельным аспектом было изучение "деревьев моделей", показавших разнообразие структур и размеров этих сетей. Изучив семейные сходства моделей, исследователи обнаружили, что модели, принадлежащие к одной семье, демонстрируют большую генетическую схожесть, но это сходство отличается от стандартных моделей по аксельсорсной репродукции. Так, две "сестринские" модели чаще всего более похожи друг на друга, чем родительская и дочерняя модель. Эволюционные анализы также выявили некоторые интересные тенденции в экосистеме ML. Например, модели часто перемещаются от ограничительных коммерческих лицензий к более открытым, таким как последовательные (copyleft) или менее ограничительные лицензии, что порой противоречит условиям "родительских" лицензий. Также обнаружена тенденция к уменьшению размера моделей, превращению в англоязычные, а также к стандартизации моделе

Annotation:

Many have observed that the development and deployment of generative machine learning (ML) and artificial intelligence (AI) models follow a distinctive pattern in which pre-trained models are adapted and fine-tuned for specific downstream tasks. However, there is limited empirical work that examines the structure of these interactions. This paper analyzes 1.86 million models on Hugging Face, a leading peer production platform for model development. Our study of model family trees -- networks tha...

ID: 2508.06811v1 cs.SI, cs.AI, cs.CY, cs.LG

arXiv PDF

📄 Propagation Tree Is Not Deep: Adaptive Graph Contrastive Learning Approach for Rumor Detection

2025-08-13

Авторы:

Chaoqun Cui, Caiyan Jia

## Контекст Современные социальные сети являются важной источником информации, но при этом являются местом распространения слухов и неточной информации. Детекция слухов (rumor detection) является важной задачей для обеспечения надежности информации и защиты общества от вредоносных влияний. Несмотря на то, что существуют ряд моделей, основанных на графах, для решения этой задачи, они часто исходят из предположения, что деревья распространения лжи (rumor propagation trees, RPTs) имеют глубокие структуры. Однако статистический анализ данных реальных социальных сетей показывает, что большинство узлов RPT имеют очень глубины 1 или 2, что отличается от предположений этих моделей. Эта несоответствие моделей к реальным данным создает мотивацию для развития более эффективных подходов к обучению. ## Метод Мы предлагаем метод Rumor Adaptive Graph Contrastive Learning (RAGCL), который адаптивно увеличивает подграфы с помощью сгенерированных видов (views), опираясь на центральность узлов. Этот подход нацелен на то, чтобы сосредоточить обучение на ключевых подграфах, характеризующихся более высокой структурной интенсивностью. Мы определили три принципа для адаптивного увеличения подграфов: 1. Исключение корневых узлов из аугментации. 2. Удержание узлов с глубиной 1 или выше. 3. Отбор узлов из глубин, где их порядок не слишком сильно отличается от корня. Для генерирования видов мы применяем методы случайного удаления узлов, маскирования атрибутов и удаления ребер, при этом веса удаления определяются прототипов центральности. Это позволяет создавать разные виды для обучения модели, что улучшает ее устойчивость и точность. ## Результаты Мы проводили эксперименты на четырьмя бенчмарковыми наборами данных, которые широко используются для задачи детекции слухов. Модель RAGCL демонстрирует превосходство по метрикам F1-score и AUC в сравнении с текущими лидерами, такими как GCN, GAT и GraphSAGE. Эти результаты подтверждают то, что RAGCL эффективно учитывает широкую структуру RPTs и устойчив к изменениям в структуре данных. ## Значимость Результаты RAGCL имеют значительное влияние на область детекции слухов в социальных сетях. Они позволяют улучшить точность и стабильность моделей, опираясь на более точное понимание структуры данных. Более того, адаптивные техники аугментации, предложенные в рамках этой модели, могут быть применены в других задачах, включая обработку данных с деревовой структурой, например, в моделях для логического семантического понимания текста или биоинформатики. ## Выводы В результате нашего исследования мы показали, что RPTs в реальных дан

Annotation:

Rumor detection on social media has become increasingly important. Most existing graph-based models presume rumor propagation trees (RPTs) have deep structures and learn sequential stance features along branches. However, through statistical analysis on real-world datasets, we find RPTs exhibit wide structures, with most nodes being shallow 1-level replies. To focus learning on intensive substructures, we propose Rumor Adaptive Graph Contrastive Learning (RAGCL) method with adaptive view augment...

ID: 2508.07201v1 cs.SI, cs.AI, cs.CL

arXiv PDF

📄 Quasi-Clique Discovery via Energy Diffusion

2025-08-09

Авторы:

Yu Zhang, Yilong Luo, Mingyuan Ma, Yao Chen, Enqiang Zhu, Jin Xu, Chanjuan Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Графовое майнинг — это область, которая играет ключевую роль в анализе сетей, включая социальные сети, биоинформатику и электронную коммерцию. Одним из фундаментальных задач в этой области является обнаружение квази-клики, то есть подграфов, где плотность ребер не меньше заданного порогового значения. Такие подграфы характеризуют структурную когезию и могут быть интерпретированы как группы сильно связанных элементов, что делает их применимыми в различных приложениях, от анализа социальных взаимодействий до прогнозирования взаимодействий в электронной коммерции. Традиционные методы обнаружения квази-клик обычно основываются на жадных правилах, мерах подобия или метаэвристиках поиска. Однако эти методы сталкиваются с серьезными ограничениями. Например, они могут быть неэффективными при обработке больших и разнообразных графов, а также не всегда гарантируют согласованность решений при изменении наборов данных. Эти недостатки осложняют применение существующих решений в реальных сценариях, где необходимо обеспечить высокую производительность и качество результатов. В связи с этим, требуется разработка новых подходов, которые могли бы обеспечить более эффективное и надежное обнаружение квази-клик в различных типах графов. Новый подход должен упростить процесс поиска без необходимости подробной настройки для конкретных наборов данных или перебора всех возможных кандидатов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе представлен новый алгоритм EDQC (Energy Diffusion for Quasi-Clique Discovery), который использует концепцию энергодиффузии для обнаружения квази-клик. Основная идея заключается в том, чтобы вместо явного перебора всех кандидатов на подграфы, проводить стохастическую диффузию энергии из исходных вершин. Эта диффузия естественно концентрирует энергию в регионах, которые являются структурно когезивными, то есть обладают высокой плотностью ребер. Алгоритм EDQC работает следующим образом: из начальных вершин (источников) энергия распространяется по графу, при этом регионы с высокой когезией получают больше энергии за счет своей структурной природы. Этот процесс позволяет выделять потенциальные квази-клики без необходимости явного перебора всех возможных подмножеств вершин. Этот подход не только эффективен в вычислительном плане, но и устраняет необходимость в настройке алгоритма для конкретных наборов данных, что делает его более универсальным по отношению к различным типам графов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности алгоритма EDQC проведены эксперименты на 30 реальных наборах данных, которые включают графы различного масштаба и структурной сложности. Результаты экспериментов показывают, что EDQC позволяет обнаруживать квази-клики, которые значительно больше по размеру, по сравнению с состоянием искусства базовыми методами, на большинстве из использованных наборов данных. Кроме того, EDQC демонстрирует меньшую дисперсию в качестве решений, что указывает на более стабильные и надежные результаты. Авторы также отмечают, что EDQC является первым методом, который интегрирует концепцию энергодиффузии в задачу обнаружения квази-клик, что делает его уникальным в своем подходе. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод EDQC может быть применен в различных областях, где необходимо выявлять структурно когезивные подграфы. В социальных сетях, например, это может помочь выявить группы пользователей, которые активно взаимодействуют друг с другом. В биоинформатике, EDQC может быть использован для выявления сетей взаимодействия между биологическими сущностями. Для электронной коммерции, этот метод может помочь определять группы товаров или пользователей, которые сильно связаны друг с другом, что может быть полезно для рекомендаций и анализа поведения покупателей. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен новый алгоритм EDQC, который использует энергодиффузию для обнаружения квази-клик. EDQC демонстрирует высокую эффективность и стабильность решений на различных типах графов. Будущие исследования могут быть направлены на дальнейшее улучшение алгоритма, включая оптимизацию его производительности и применение к более сложным типам графов, таким как темпоральные и мультимодальные сети.

Annotation:

Discovering quasi-cliques -- subgraphs with edge density no less than a given threshold -- is a fundamental task in graph mining, with broad applications in social networks, bioinformatics, and e-commerce. Existing heuristics often rely on greedy rules, similarity measures, or metaheuristic search, but struggle to maintain both efficiency and solution consistency across diverse graphs. This paper introduces EDQC, a novel quasi-clique discovery algorithm inspired by energy diffusion. Instead of e...

ID: 2508.04174v1 cs.SI, cs.AI

arXiv PDF

Показано 31 - 33 из 33 записей