📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня

📄 MoKA: Mixture of Kronecker Adapters

2025-08-06

Авторы:

Mohammadreza Sadeghi, Mahsa Ghazvini Nejad, MirHamed Jafarzadeh Asl, Yu Gu, Yuanhao Yu, Masoud Asgharian, Vahid Partovi Nia

Методы параметрически-эффективной дообучения (PEFT) снижают затраты адаптации LLM, но низкоранговые адаптеры теряют точность из-за ограниченной выразительности. Авторы предлагают Mixture of Kronecker Adapters (MoKA) — новый тип Kronecker-адаптера, где обновления весов представлены как смесь продуктов Кронекера с вентильным механизмом, оценивающим значение каждого сомножителя. Переформулировав вычисления Кронекера через стандартные матричные операции, авторы добились аппаратной эффективности на GPU. Эксперименты на дообучении инструкций и здравомысленном рассуждении при помощи квантованных LLaMA2-7B и LLaMA3-8B показали, что MoKA превосходит все PEFT-базовые методы, уменьшая число обучаемых параметров до 27× и обеспечивая новое SOTA соотношение точность/эффективность.

Annotation:

Parameter-efficient fine-tuning (PEFT) is essential for reducing the computational overhead of large language models (LLMs). Low-rank family adapters are commonly used to control the parameter size efficiently while maintaining the generative power of LLMs. However, their limited expressiveness due to the rank constraint often restricts their performance on complex tasks. We propose Mixture of Kronecker Adapters (MoKA), a new generation of Kronecker adapters that addresses this limitation by mod...

ID: 2508.03527v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Forest vs Tree: The $(N, K)$ Trade-off in Reproducible ML Evaluation

2025-08-06

Авторы:

Deepak Pandita, Flip Korn, Chris Welty, Christopher M. Homan

Вопрос воспроизводимости оценки моделей ML осложняется тем, что эталонные метки собирают у людей, а люди расходятся во мнениях. При ограниченном бюджете чаще жертвуют числом аннотаций на пример (K) ради числа примеров (N). Авторы исследуют оптимальный компромисс (N, K) при фиксированном бюджете N×K. На 10 категориальных датасетах с множественной разметкой показано, что достаточный уровень надёжности достигается при N×K≤1000 и K>10. Чувствительные к распределению метрики (Brier, log-loss) требуют высокого K, а «жёсткие» (Accuracy, F1) — высокого N. Предложенный инструмент помогает практикам выбирать метрику и N, K для максимальной надёжности при заданном бюджете.

Annotation:

Reproducibility is a cornerstone of scientific validation and of the authority it confers on its results. Reproducibility in machine learning evaluations leads to greater trust, confidence, and value. However, the ground truth responses used in machine learning often necessarily come from humans, among whom disagreement is prevalent, and surprisingly little research has studied the impact of effectively ignoring disagreement in these responses, as is typically the case. One reason for the lack o...

ID: 2508.03663v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward

2025-08-06

Авторы:

Shudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen

Современные фреймворки оценки LLM полагаются на hand-crafted регулярные выражения или тяжёлые генеративные LLM, что ведёт к хрупкости и высоким расходам. Проблема усугубляется отсутствием систематического бенчмарка для верификаторов. Авторы представляют CompassVerifier — компактную (≤7B) специализированную модель-верификатор, обученную на новом бенчмарке VerifierBench, охватывающем математику, знания и логические задачи. Верификатор устойчив к edge-case ответам (мульти-подзадачи, формулы, бессмысленные вывода) и обобщается на разные домены без настройки. Эксперименты показывают, что CompassVerifier превосходит как rule-based, так и LLM-основанные подходы по точности и вычислительной эффективности, обеспечивая надёжную метрику для оценки и reward-модель для RL.

Annotation:

Answer verification is crucial not only for evaluating large language models (LLMs) by matching their unstructured outputs against standard answers, but also serves as the reward model to guide LLM optimization. Most evaluation frameworks rely on regularized matching or employ general LLMs for answer verification, which demands extensive, repetitive customization for regex rules or evaluation prompts. Two fundamental limitations persist in current methodologies: 1) the absence of comprehensive b...

ID: 2508.03686v1 cs.CL, cs.AI

arXiv PDF

Показано 7601 - 7603 из 7603 записей