📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Yuma Ichikawa, Yudai Fujimoto, Akira Sakai
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Post-training quantization (PTQ) aims to preserve model-level behavior; however, most methods focus on individual linear layers. Even recent extensions, such as QEP and LoaQ, which mitigate error propagation or target specific submodules, still rely on layer-wise formulations and fail to capture the behavior of larger submodules. We introduce Layer-Projected Coordinate Descent (LPCD), a unified framework that extends PTQ beyond layers by optimizing relaxed objectives across arbitrary submodules ...
Авторы:
Zineddine Tighidet, Lazhar Labiod, Mohamed Nadif
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The mixture model is undoubtedly one of the greatest contributions to clustering. For continuous data, Gaussian models are often used and the Expectation-Maximization (EM) algorithm is particularly suitable for estimating parameters from which clustering is inferred. If these models are particularly popular in various domains including image clustering, they however suffer from the dimensionality and also from the slowness of convergence of the EM algorithm. However, the Classification EM (CEM) ...
Авторы:
Soufiane Hayou
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We provide the first proof of learning rate transfer with width in a linear
multi-layer perceptron (MLP) parametrized with $\mu$P, a neural network
parameterization designed to ``maximize'' feature learning in the
infinite-width limit. We show that under $\mu P$, the optimal learning rate
converges to a \emph{non-zero constant} as width goes to infinity, providing a
theoretical explanation to learning rate transfer. In contrast, we show that
this property fails to hold under alternative parametr...
Авторы:
Fan Chen, Audrey Huang, Noah Golowich, Sadhika Malladi, Adam Block, Jordan T. Ash, Akshay Krishnamurthy, Dylan J. Foster
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Language models demonstrate remarkable abilities when pre-trained on large
text corpora and fine-tuned for specific tasks, but how and why pre-training
shapes the success of the final model remains poorly understood. Notably,
although pre-training success is often quantified by cross entropy loss,
cross-entropy can be a poor predictor of downstream performance. Instead, we
provide a theoretical perspective on this relationship through the lens of
\emph{coverage}, which quantifies the probability...
Авторы:
Zhexiao Lin, Yuanyuan Li, Neeraj Sarna, Yuanyuan Gao, Michael von Gablenz
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large language models have achieved impressive performance across diverse
tasks. However, their tendency to produce overconfident and factually incorrect
outputs, known as hallucinations, poses risks in real world applications.
Conformal prediction provides finite-sample, distribution-free coverage
guarantees, but standard conformal prediction breaks down under domain shift,
often leading to under-coverage and unreliable prediction sets. We propose a
new framework called Domain-Shift-Aware Confo...
Авторы:
Gen Li, Yuling Yan
## Контекст
Reinforcement learning with human feedback (RLHF) является важной парадигмой для выравнивания больших языковых моделей (LLM) с целями и приоритетами человека. Однако в RLHF существуют сложности с эффективным исследованием окружения, которые необходимо решить для улучшения качества получаемых моделями решений. Основной проблемой является недостаточная эффективность сбора новых данных о предпочтениях, что приводит к плохой оптимизации политики и недостаточной информативности модели награды. Это сказывается на практической реализации RLHF, где необходимо минимизировать стоимость сбора данных и повысить эффективность оптимизации.
## Метод
Мы предлагаем новую методологию для эффективного исследования окружения в среде RLHF. Алгоритм строится на основе оптимистических принципов исследования, но в отличие от существующих подходов, он направляет предпочтения в направлениях, которые максимально сильно влияют на повышение качества политики. Для этого мы предлагаем новую схему оптимизации, которая минимизирует неопределенность в отношении различий в наградах, связанных с наиболее важными действиями. Это подход не только улучшает эффективность сбора данных, но и позволяет избежать высокой стоимости сбора данных, которая характерна для ранее использовавшихся методов.
## Результаты
Мы провели эксперименты на синтетических и реальных данных, которые подтвердили высокую эффективность нового подхода. На практических задачах, таких как выравнивание больших языковых моделей, наши результаты показали существенное повышение качества модели в сравнении с традиционными методами. Мы также показали, что уменьшение неопределенности в различиях наград приводит к более точному определению политики, что улучшает стабильность и эффективность RLHF.
## Значимость
Наш подход может быть применен в различных областях применения RLHF, включая настройку больших языковых моделей, управление роботами и другие приложения, требующие эффективного управления сложными окружениями. Он позволяет снизить стоимость сбора данных, улучшить качество решений и уменьшить время обучения модели. Это открывает пути к более эффективной и практичной реализации RLHF в практических приложениях.
## Выводы
Мы предложили новую методологию для эффективного исследования окружения в RLHF, которая позволяет уменьшить неопределенность в различиях наград. Наши результаты показали, что этот подход эффективен и может применяться в различных приложениях RLHF. Мы также обсудили перспективы будущих исследований в этой области, в частности, исследования новых стратегий эффективного исследования для более сложных задач.
Annotation:
Reinforcement learning with human feedback (RLHF), which learns a reward
model from human preference data and then optimizes a policy to favor preferred
responses, has emerged as a central paradigm for aligning large language models
(LLMs) with human preferences. In this paper, we investigate exploration
principles for online RLHF, where one seeks to adaptively collect new
preference data to refine both the reward model and the policy in a
data-efficient manner. By examining existing optimism-ba...