📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Yuma Ichikawa, Yudai Fujimoto, Akira Sakai

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Post-training quantization (PTQ) aims to preserve model-level behavior; however, most methods focus on individual linear layers. Even recent extensions, such as QEP and LoaQ, which mitigate error propagation or target specific submodules, still rely on layer-wise formulations and fail to capture the behavior of larger submodules. We introduce Layer-Projected Coordinate Descent (LPCD), a unified framework that extends PTQ beyond layers by optimizing relaxed objectives across arbitrary submodules ...
ID: 2512.01546v1 stat.ML, cs.AI, cs.CL, cs.LG
Авторы:

Zineddine Tighidet, Lazhar Labiod, Mohamed Nadif

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The mixture model is undoubtedly one of the greatest contributions to clustering. For continuous data, Gaussian models are often used and the Expectation-Maximization (EM) algorithm is particularly suitable for estimating parameters from which clustering is inferred. If these models are particularly popular in various domains including image clustering, they however suffer from the dimensionality and also from the slowness of convergence of the EM algorithm. However, the Classification EM (CEM) ...
ID: 2511.18992v1 stat.ML, cs.AI, cs.CL, cs.LG
Авторы:

Soufiane Hayou

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We provide the first proof of learning rate transfer with width in a linear multi-layer perceptron (MLP) parametrized with $\mu$P, a neural network parameterization designed to ``maximize'' feature learning in the infinite-width limit. We show that under $\mu P$, the optimal learning rate converges to a \emph{non-zero constant} as width goes to infinity, providing a theoretical explanation to learning rate transfer. In contrast, we show that this property fails to hold under alternative parametr...
ID: 2511.01734v1 stat.ML, cs.AI, cs.CL, cs.LG
Авторы:

Fan Chen, Audrey Huang, Noah Golowich, Sadhika Malladi, Adam Block, Jordan T. Ash, Akshay Krishnamurthy, Dylan J. Foster

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Language models demonstrate remarkable abilities when pre-trained on large text corpora and fine-tuned for specific tasks, but how and why pre-training shapes the success of the final model remains poorly understood. Notably, although pre-training success is often quantified by cross entropy loss, cross-entropy can be a poor predictor of downstream performance. Instead, we provide a theoretical perspective on this relationship through the lens of \emph{coverage}, which quantifies the probability...
ID: 2510.15020v1 stat.ML, cs.AI, cs.CL, cs.LG, math.ST, stat.TH
Авторы:

Zhexiao Lin, Yuanyuan Li, Neeraj Sarna, Yuanyuan Gao, Michael von Gablenz

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large language models have achieved impressive performance across diverse tasks. However, their tendency to produce overconfident and factually incorrect outputs, known as hallucinations, poses risks in real world applications. Conformal prediction provides finite-sample, distribution-free coverage guarantees, but standard conformal prediction breaks down under domain shift, often leading to under-coverage and unreliable prediction sets. We propose a new framework called Domain-Shift-Aware Confo...
ID: 2510.05566v1 stat.ML, cs.AI, cs.CL, cs.LG, stat.AP
Авторы:

Gen Li, Yuling Yan

## Контекст Reinforcement learning with human feedback (RLHF) является важной парадигмой для выравнивания больших языковых моделей (LLM) с целями и приоритетами человека. Однако в RLHF существуют сложности с эффективным исследованием окружения, которые необходимо решить для улучшения качества получаемых моделями решений. Основной проблемой является недостаточная эффективность сбора новых данных о предпочтениях, что приводит к плохой оптимизации политики и недостаточной информативности модели награды. Это сказывается на практической реализации RLHF, где необходимо минимизировать стоимость сбора данных и повысить эффективность оптимизации. ## Метод Мы предлагаем новую методологию для эффективного исследования окружения в среде RLHF. Алгоритм строится на основе оптимистических принципов исследования, но в отличие от существующих подходов, он направляет предпочтения в направлениях, которые максимально сильно влияют на повышение качества политики. Для этого мы предлагаем новую схему оптимизации, которая минимизирует неопределенность в отношении различий в наградах, связанных с наиболее важными действиями. Это подход не только улучшает эффективность сбора данных, но и позволяет избежать высокой стоимости сбора данных, которая характерна для ранее использовавшихся методов. ## Результаты Мы провели эксперименты на синтетических и реальных данных, которые подтвердили высокую эффективность нового подхода. На практических задачах, таких как выравнивание больших языковых моделей, наши результаты показали существенное повышение качества модели в сравнении с традиционными методами. Мы также показали, что уменьшение неопределенности в различиях наград приводит к более точному определению политики, что улучшает стабильность и эффективность RLHF. ## Значимость Наш подход может быть применен в различных областях применения RLHF, включая настройку больших языковых моделей, управление роботами и другие приложения, требующие эффективного управления сложными окружениями. Он позволяет снизить стоимость сбора данных, улучшить качество решений и уменьшить время обучения модели. Это открывает пути к более эффективной и практичной реализации RLHF в практических приложениях. ## Выводы Мы предложили новую методологию для эффективного исследования окружения в RLHF, которая позволяет уменьшить неопределенность в различиях наград. Наши результаты показали, что этот подход эффективен и может применяться в различных приложениях RLHF. Мы также обсудили перспективы будущих исследований в этой области, в частности, исследования новых стратегий эффективного исследования для более сложных задач.
Annotation:
Reinforcement learning with human feedback (RLHF), which learns a reward model from human preference data and then optimizes a policy to favor preferred responses, has emerged as a central paradigm for aligning large language models (LLMs) with human preferences. In this paper, we investigate exploration principles for online RLHF, where one seeks to adaptively collect new preference data to refine both the reward model and the policy in a data-efficient manner. By examining existing optimism-ba...
ID: 2509.22633v1 stat.ML, cs.AI, cs.CL, cs.LG, math.ST, stat.TH