📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Parameter-Efficient Routed Fine-Tuning: Mixture-of-Experts Demands Mixture of Adaptation Modules

2025-08-09

Авторы:

Yilun Liu, Yunpu Ma, Yuetian Lu, Shuo Chen, Zifeng Ding, Volker Tresp

Многоэкспертные модели (MoE) используют динамический механизм маршрутизации для распределения задач между специализированными экспертами, что позволяет эффективно оптимизировать их обучение и использование. Однако существующие стратегии Parameter-Efficient Fine-Tuning (PEFT) не учитывают этот аспект, что приводит к потерям в эффективности. В статье рассматривается вопрос о том, должны ли модули подготовки включать в себя механизмы маршрутизации, чтобы лучше адаптироваться к архитектуре MoE. Описывается анализ динамики PEFT при использовании в моделях MoE и изучаются различные стратегии маршрутизации. Исследования проводились на моделях OLMoE-1B-7B и Mixtral-8x7B, адаптированных к задачам смыслового понимания и математического рассуждения. На основе экспериментов доказано, что маршрутизируемые модули позволяют достичь более высокой эффективности и точности. На основе этих результатов даны рекомендации по оптимальной конфигурации для различных сценариев и применения MoE в реальных задачах.

Annotation:

Mixture-of-Experts (MoE) benefits from a dynamic routing mechanism among their specialized experts, which existing Parameter- Efficient Fine-Tuning (PEFT) strategies fail to leverage. This motivates us to investigate whether adaptation modules themselves should incorporate routing mechanisms to align with MoE's multi-expert architecture. We analyze dynamics of core components when applying PEFT to MoE language models and examine how different routing strategies affect adaptation effectiveness. E...

ID: 2508.02587v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 StructSynth: Leveraging LLMs for Structure-Aware Tabular Data Synthesis in Low-Data Regimes

2025-08-09

Авторы:

Siyi Liu, Yujia Zheng, Yongqi Zhang

**Резюме** В области машинного обучения применение методов к табулярным данным сталкивается с ограничением данных, что снижает эффективность моделей. Хотя генерирующие модели могут устранить эту проблему, они часто не учитывают структуру табличных данных в узких данных, что приводит к низкокачественным синтетическим данным. Мы предлагаем StructSynth, новую рамочную архитектуру, которая комбинирует мощь Лангуажных Моделей (LLM) с определенным управлением структурой. Она включает два этапа: обнаружение структуры с использованием графа типа DAG из доступных данных и использование этой структуры для управления процессом генерации LLM. Это позволяет гарантировать, что генерируемые данные сохраняют логику зависимостей между признаками. Наши эксперименты показали, что StructSynth выдает синтетические данные с более высокой структурной точностью и удовлетворяющими целям уменьшения рисков при разглашении. Это делает её привлекательной для сложных сценариев с низким объёмом данных.

Annotation:

The application of machine learning on tabular data in specialized domains is severely limited by data scarcity. While generative models offer a solution, traditional methods falter in low-data regimes, and recent Large Language Models (LLMs) often ignore the explicit dependency structure of tabular data, leading to low-fidelity synthetics. To address these limitations, we introduce StructSynth, a novel framework that integrates the generative power of LLMs with robust structural control. Struct...

ID: 2508.02601v1 cs.LG, cs.AI

arXiv PDF

📄 Entity Representation Learning Through Onsite-Offsite Graph for Pinterest Ads

2025-08-09

Авторы:

Jiayin Jin, Zhimeng Pan, Yang Tang, Jiarui Feng, Kungang Li, Chongyuan Xiang, Jiacheng Li, Runze Su, Siping Ji, Han Sun, Ling Leng, Prathibha Deshikachar

В статье предлагается метод улучшения обучения представлений сущностей для рекламных моделей, ориентированных на оптимизацию CTR и CVR в Pinterest Ads. Основная проблема заключается в том, что существующие модели неэффективно интегрируют знания из графа, состоящего из onsite и offsite активностей пользователей. Разработанное решение включает в себя построение крупномасштабного графа, сочетающего onsite-обращения пользователей в рекламных кампаниях и offsite-конверсии. Для эффективного обработки этого графа предложен TransRA, усовершенствованная модель Knowledge Graph Embedding (KGE), которая активно использует аттестационные механизмы для объединения эмбеддингов в рекомендательную модель. Чтобы повысить пользу от KGE в реальных задачах рекламного ориентированного ранжирования, введены техники Large ID Embedding Table и fine-tuning KGE. Эксперименты показали повышение AUC в CTR и CVR на 2.69% и 1.34% соответственно, а также сокращение CPC. Эти технологии могут быть использованы для улучшения моделей в других индустриальных системах рекомендаций.

Annotation:

Graph Neural Networks (GNN) have been extensively applied to industry recommendation systems, as seen in models like GraphSage\cite{GraphSage}, TwHIM\cite{TwHIM}, LiGNN\cite{LiGNN} etc. In these works, graphs were constructed based on users' activities on the platforms, and various graph models were developed to effectively learn node embeddings. In addition to users' onsite activities, their offsite conversions are crucial for Ads models to capture their shopping interest. To better leverage of...

ID: 2508.02609v2 cs.LG, cs.AI, cs.SE

arXiv PDF

📄 AutoML-Med: A Framework for Automated Machine Learning in Medical Tabular Data

2025-08-09

Авторы:

Riccardo Francia, Maurizio Leone, Giorgio Leonardi, Stefania Montani, Marzio Pennisi, Manuel Striani, Sandra D'Alfonso

Задача обработки данных в медицине сталкивается с рядом сложностей, включая отсутствие значений, несбалансированные классы, разнообразие типов признаков и малое количество выборок в отношении большого числа признаков. Эти факторы сильно влияют на качество работы машинного обучения. В статье представлено решение — AutoML-Med, фреймворк для автоматизации машинного обучения, ориентированный на решения вышеупомянутых проблем. Он использует латинскую гиперкубную выборку для поиска наилучших препроцессинговых методов, тренирует модели и использует Partial Rank Correlation Coefficient (PRCC) для оптимизации наиболее важных этапов препроцессинга. Авторы продемонстрировали эффективность AutoML-Med в двух клинических сценариях, где он показал лучшую балансированную точность и чувствительность по сравнению с другими инструментами. Этот фреймворк может значительно упростить применение машинного обучения в сфере здравоохранения, особенно в условиях данных с пропусками и несбалансированными классами.

Annotation:

Medical datasets are typically affected by issues such as missing values, class imbalance, a heterogeneous feature types, and a high number of features versus a relatively small number of samples, preventing machine learning models from obtaining proper results in classification and regression tasks. This paper introduces AutoML-Med, an Automated Machine Learning tool specifically designed to address these challenges, minimizing user intervention and identifying the optimal combination of prepro...

ID: 2508.02625v1 cs.LG, cs.AI

arXiv PDF

📄 Beyond Least Squares: Robust Regression Transformer (R2T)

2025-08-09

Авторы:

Roman Gutierrez, Tony Kai Tang, Isabel Gutierrez

Обычное наименьшие квадраты (LS) — популярный метод регрессии, но он существенно страдает в условиях асимметрического структурированного шума. Мы предложили гибридную архитектуру, объединяющую нейронные и символические подходы. Нейросетевой модуль (Transformer) обрабатывает последовательности чисел, а символьный модуль предсказывает параметры, позволяя восстановить оригинальную последовательность с помощью фиксированного символического выражения. Модель обучается на синтетических данных, где цель — восстановить первоначальные данные после добавления асимметричного структурированного шума. Это позволяет модели учиться гибкому символьному приближению, учитывающему нейронные оценки параметров. На синтетических данных R2T показала значительное улучшение регрессионной MSE — от 6e-6 до 3.5e-5 в сравнении с LS, Huber loss и другими методами. Результаты указывают на эффективность гибридного подхода для решения задач регрессии в условиях сильного шума.

Annotation:

Robust regression techniques rely on least-squares optimization, which works well for Gaussian noise but fails in the presence of asymmetric structured noise. We propose a hybrid neural-symbolic architecture where a transformer encoder processes numerical sequences, a compression NN predicts symbolic parameters, and a fixed symbolic equation reconstructs the original sequence. Using synthetic data, the training objective is to recover the original sequence after adding asymmetric structured nois...

ID: 2508.02874v1 cs.LG, cs.AI, stat.ML, 68T30, 65D10, 62J02, 68T07, 62F35, 62J02, I.2.6; G.1.2; G.3

arXiv PDF

📄 CauKer: classification time series foundation models can be pretrained on synthetic data only

2025-08-09

Авторы:

Shifeng Xie, Vasilii Feofanov, Marius Alonso, Ambroise Odonnat, Jianfeng Zhang, Themis Palpanas, Ievgen Redko

Многие time series foundation models (TSFMs) требуют дорогостоящую и вычислительно трудоемкую процедуру предобучения на больших коллекциях реальных временных рядов, что ограничивает их применение. В статье предлагается CauKer — алгоритм для генерации синтетических временных рядов, обладающих реалистичными трендами, сезонностью и нелинейными взаимодействиями. CauKer основывается на композиции гауссовых процессов и структурных каузальных моделей, обеспечивая высокую разнообразность и приросту данных. Эксперименты показали, что CauKer-generated datasets следуют четким законам масштабирования как по объему данных (от 10 тысяч до 10 миллионов примеров), так и по моделируемой модели (от 1 миллиона до 783 миллионов параметров). Вывод: синтетические данные, генерируемые CauKer, эффективно заменяют реальные для выгодного предобучения TSFMs, улучшая их масштабируемость и экономию ресурсов.

Annotation:

Time series foundation models (TSFMs) have recently gained significant attention due to their strong zero-shot capabilities and widespread real-world applications. Such models typically require a computationally costly pretraining on large-scale, carefully curated collections of real-world sequences. To allow for a sample-efficient pretraining of TSFMs, we propose CauKer, a novel algorithm designed to generate diverse, causally coherent synthetic time series with realistic trends, seasonality, a...

ID: 2508.02879v2 cs.LG, cs.AI

arXiv PDF

📄 GrandJury: A Collaborative Machine Learning Model Evaluation Protocol for Dynamic Quality Rubrics

2025-08-09

Авторы:

Arthur Cho

Многоуровневые генеративные модели теперь лежат в основе многих AI-систем, включая создание текстов, суммаризацию, многоходовое рассуждение и контекстуальные диалоги. Однако существующие методы оценки этих моделей основываются на статичных тестах, которые не отражают динамичность пользовательских потребностей и меняющихся реальностей. Мы предлагаем GrandJury — протокол оценки, который использует временную агрегацию, доказательство целостности, а также атрибуцию задач и многокритерийную оценку человеческими оценщиками. Этот подход позволяет создавать многообразные, отчетливые и ответственные оценки, отражающие эволюцию согласия и выявляющий различия в мнениях. Мы предоставили открытый инструментарий и общедоступный набор данных для демонстрации нашего подхода. GrandJury предлагает новый подход к эффективной оценке моделей без абсолютных правдивых ответов.

Annotation:

Generative Machine Learning models have become central to modern systems, powering applications in creative writing, summarization, multi-hop reasoning, and context-aware dialogue. These models underpin large-scale AI assistants, workflow automation, and autonomous decision-making. In such domains, acceptable response is rarely absolute or static, but plural and highly context-dependent. Yet standard evaluation regimes still rely on static, benchmark-style tests, incentivizing optimization towar...

ID: 2508.02926v2 cs.LG, cs.AI, cs.HC, I.2.6; I.2.7

arXiv PDF

📄 VRPO: Rethinking Value Modeling for Robust RL Training under Noisy Supervision

2025-08-09

Авторы:

Dingwei Zhu, Shihan Dou, Zhiheng Xi, Senjie Jin, Guoqiang Zhang, Jiazheng Zhang, Junjie Ye, Mingxu Chai, Enyu Zhou, Ming Zhang, Caishuang Huang, Yunke Zhang, Yuran Wang, Tao Gui

**Резюме** В текущих Reinforcement Learning from Human Feedback (RLHF) системах значительная проблема заключается в том, что наградная информация часто шумная и неточная, что приводит к проблемам с устойчивостью политики и ее общей работоспособностью. Особенно остро это проявляется при использовании моделей текстовых ответов, где неточности в награде могут привести к неверному принятию решений. В данной работе авторы показывают, что значительная часть этих проблем может быть решена путем улучшения значимости значения (value model). Они предлагают VRPO — новую архитектуру, которая стремится сделать значение модели более устойчивой к шумам с помощью двух основных элементов: (1) аугментации тренировочного процесса с помощью генерации слов и оценки энтропии, (2) использование информационного ограничения вариационного буттлнейка. Эти изменения превращают значение модели из простого предсказателя в активного регулятора шума, что позволяет политике более точно отсеивать мешающие сигналы. Эксперименты показали, что VRPO выдает значительно лучшие результаты по сравнению с PPO и GRPO на задачах математического разума, специальных вопросов и разговорных диалогах. Это подтверждает важность значения модели в RLHF и предлагает эффективный подход для борьбы с шумом в наградах.

Annotation:

Reinforcement Learning from Human Feedback (RLHF) often suffers from noisy or imperfect reward supervision in real-world settings, which undermines policy stability and generalization. Such noise may cause models to lose attention on key words during advantage estimation. While prior work focuses on reward denoising or filtering poor data, it often overlooks the critical role of the value model in policy optimization. In this work, we show that a strong value model is essential for mitigating no...

ID: 2508.03058v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 HiTeC: Hierarchical Contrastive Learning on Text-Attributed Hypergraph with Semantic-Aware Augmentation

2025-08-09

Авторы:

Mengting Pan, Fan Li, Xiaoyang Wang, Wenjie Zhang, Xuemin Lin

Недавние развития в области контрастивного обучения (CL) на графах и гиперграфах позволили создавать эффективные модели без требований к меток. Однако для текстовоатрибутированных гиперграфов (TAHGs), в которых узлы связаны с богатым текстовым контекстом, существуют существенные ограничения. Недостаточное использование контекста текста вместе с топологией гиперграфа приводит к ограниченным представлениям. Дополнительно, случайные датасеты и ограничение на узлы и hyperedges не позволяют раскрыть все возможности CL. Таким образом, предлагается HiTeC — двухэтапный фреймворк с семантически ориентированным усилением (semantically-aware augmentation). В первой стадии вводится структурно-ориентированный контраст для текстового энкодера, во второй — семантически обогащенные методы генерации противоположностей. Новая многомерная квота позволяет учитывать длинные зависимости. Эксперименты подтверждают, что HiTeC эффективно расширяет границы CL для TAHGs, обеспечивая лучшую точность и сложность представлений.

Annotation:

Contrastive learning (CL) has become a dominant paradigm for self-supervised hypergraph learning, enabling effective training without costly labels. However, node entities in real-world hypergraphs are often associated with rich textual information, which is overlooked in prior works. Directly applying existing CL-based methods to such text-attributed hypergraphs (TAHGs) leads to three key limitations: (1) The common use of graph-agnostic text encoders overlooks the correlations between textual ...

ID: 2508.03104v1 cs.LG, cs.AI

arXiv PDF

📄 Pseudo-label Induced Subspace Representation Learning for Robust Out-of-Distribution Detection

2025-08-09

Авторы:

Tarhib Al Azad, Faizul Rakib Sayem, Shahana Ibrahim

**Резюме** Out-of-distribution (OOD) detection является ключевым аспектом создания надежных и устойчивых систем машинного обучения. Несмотря на развитие многих методов, основывающихся на особенностях признакового пространства, они часто ограничены рестриктивными предположениями, которые сужают сепарабельность между in-distribution (ID) и OOD примерами. В данной работе предлагается новый подход к OOD-детекции, основанный на псевдомаркировке субпространств (pseudo-label-induced subspace representation). Работающий под более гнущими признаками, этот метод вводит простую, но эффективную критерию обучения, которая объединяет кросс-энтропийный термин для ID-классификации и регуляризационный термин для повышения различий между ID и OOD примерами в субпространстве. Эксперименты подтверждают эффективность предложенного подхода, демонстрируя его подходящую сепарабельность и устойчивость к OOD-примерам.

Annotation:

Out-of-distribution (OOD) detection lies at the heart of robust artificial intelligence (AI), aiming to identify samples from novel distributions beyond the training set. Recent approaches have exploited feature representations as distinguishing signatures for OOD detection. However, most existing methods rely on restrictive assumptions on the feature space that limit the separability between in-distribution (ID) and OOD samples. In this work, we propose a novel OOD detection framework based on ...

ID: 2508.03108v1 cs.LG, cs.AI

arXiv PDF

Показано 2821 - 2830 из 2901 записей