📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Mitigating Premature Exploitation in Particle-based Monte Carlo for Inference-Time Scaling

2025-10-09

Авторы:

Giorgio Giannone, Guangxuan Xu, Nikhil Shivakumar Nayak, Rohan Mahesh Awhad, Shivchander Sudalairaj, Kai Xu, Akash Srivastava

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Inference-Time Scaling (ITS) improves language models by allocating more computation at generation time. Particle Filtering (PF) has emerged as a strong ITS method for complex mathematical reasoning tasks, but it is vulnerable when guided by process reward models, which often assign overconfident scores early in the reasoning process. This causes PF to suffer from premature exploitation: it myopically commits to locally promising trajectories, prunes potentially correct hypotheses, and converges...

ID: 2510.05825v1 cs.LG, cs.AI, cs.CL, stat.ML

arXiv PDF

📄 Does higher interpretability imply better utility? A Pairwise Analysis on Sparse Autoencoders

2025-10-08

Авторы:

Xu Wang, Yan Hu, Benyou Wang, Difan Zou

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Sparse Autoencoders (SAEs) are widely used to steer large language models (LLMs), based on the assumption that their interpretable features naturally enable effective model behavior steering. Yet, a fundamental question remains unanswered: does higher interpretability indeed imply better steering utility? To answer this question, we train 90 SAEs across three LLMs (Gemma-2-2B, Qwen-2.5-3B, Gemma-2-9B), spanning five architectures and six sparsity levels, and evaluate their interpretability and s...

ID: 2510.03659v1 cs.LG, cs.AI, cs.CL, stat.ML

arXiv PDF

📄 Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning

2025-10-08

Авторы:

Ziyan Wang, Zheng Wang, Jie Fu, Xingwei Qu, Qi Cheng, Shengpu Tang, Minjia Zhang, Xiaoming Huo

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Reinforcement learning (RL) has become central to enhancing reasoning in large language models (LLMs). Yet on-policy algorithms such as Group Relative Policy Optimization (GRPO) often suffer in early training: noisy gradients from low-quality rollouts lead to unstable updates and inefficient exploration. We introduce Slow-Fast Policy Optimization (SFPO), a simple yet efficient framework to address these limitations via decomposing each step into three stages: a short fast trajectory of inner ste...

ID: 2510.04072v1 cs.LG, cs.AI, cs.CL, stat.ML

arXiv PDF

📄 Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

2025-10-08

Авторы:

Wei Xiong, Chenlu Ye, Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian, Nan Jiang, Tong Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously...

ID: 2510.04996v1 cs.LG, cs.AI, cs.CL, stat.ML

arXiv PDF

📄 Learning to Reason as Action Abstractions with Scalable Mid-Training RL

2025-10-02

Авторы:

Shenao Zhang, Donghan Yu, Yihao Feng, Bowen Jin, Zhaoran Wang, John Peebles, Zirui Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models excel with reinforcement learning (RL), but fully unlocking this potential requires a mid-training stage. An effective mid-training phase should identify a compact set of useful actions and enable fast selection among them through online RL. We formalize this intuition by presenting the first theoretical result on how mid-training shapes post-training: it characterizes an action subspace that minimizes both the value approximation error from pruning and the RL error during ...

ID: 2509.25810v1 cs.LG, cs.AI, cs.CL, stat.ML

arXiv PDF

📄 Explore-Execute Chain: Towards an Efficient Structured Reasoning Paradigm

2025-10-01

Авторы:

Kaisen Yang, Lixuan He, Rushi Shah, Kaicheng Yang, Qinwei Ma, Dianbo Liu, Alex Lamb

#### Контекст Структурированное рассуждение — одна из ключевых задач в области технологий искусственного интеллекта, направленных на решение сложных задач, требующих логического и стратегического подхода. На сегодняшний день, существующие модели рассуждений, такие как Chain-of-Thought (CoT) и его разновидности, достигли определенных успехов. Однако, эти модели страдают от неэффективности вычислений, ограниченного рассмотрения возможных разумами и недостаточной транспарентности. Эти проблемы являются результатом того, что высокоуровневая стратегия и шаг-по-шагное выполнение смешаны в одной архитектуре. Для решения этих проблем, мы предлагаем $E^2C$ (Explore-Execute Chain) — новую модель, которая разделяет рассуждение на две отдельных фазы: эксплоре (эксплорейшн) и выполнение (экзекушн). #### Метод Методология $E^2C$ предлагает декомпозировать процесс рассуждений на два этапа: эксплоре и эксукшн. В первой фазе, $E^2C$ использует **Stochastic Exploration**, которая генерирует монолитные и краткие планы. Эти планы затем используются на этапе выполнения, где детерминированный алгоритм выполняет шаги, определяемые планом. Для обучения, мы применяем **Supervised Fine-Tuning (SFT)** с уникальным алгоритмом для строгого соблюдения планов. Далее, мы используем **Reinforcement Learning (RL)**, чтобы усилить информативность эксплоре и точность выполнения. В результате, $E^2C$ позволяет эффективно использовать ресурсы, делая рассуждение более транспаренным и эффективным. #### Результаты Мы провели эксперименты с помощью данных из AIME'2024, где $E^2C$ показал значительные улучшения в производительности. Например, в тестовой стадии, $E^2C$ Test Time Scaling достиг 58.1% точности, используя менее 10% токенов, в сравнении с другими методами (например, Forest-of-Thought). Благодаря EF-SFT (Exploration-Focused SFT), мы достигли до 14.5% выше точности на медицинских бенчмарках, чем стандартный SFT, при использовании лишь 3.5% токенов. Эти результаты демонстрируют высокую эффективность, сильное общезначимость и повышенную транспарентность $E^2C$. #### Значимость Наши результаты открывают новые возможности в области структурированного рассуждения, особенно в задачах, требующих высокого уровня транспарентности и эффективности. $E^2C$ может быть применен в различных областях, включая медицину, финансы и робототехнику. Преимущества $E^2C$ заключаются в снижении самоссогласованности, повышение точности и эффективности рассуждений. Это модель может значительно влиять на развитие ИИ в сложных интеллек

Annotation:

Chain-of-Thought (CoT) and its variants have markedly advanced the reasoning abilities of Large Language Models (LLMs), yet their monolithic and auto-regressive architecture inherently conflates high-level strategic planning with low-level step-by-step execution, leading to computational inefficiency, limited exploration of reasoning paths, and reduced interpretability. To overcome these issues, we propose the Explore-Execute Chain ($E^2C$), a structured reasoning framework that decouples reason...

ID: 2509.23946v2 cs.LG, cs.AI, cs.CL, stat.ML

arXiv PDF

📄 Bridging Human and LLM Judgments: Understanding and Narrowing the Gap

2025-08-20

Авторы:

Felipe Maia Polo, Xinhe Wang, Mikhail Yurochkin, Gongjun Xu, Moulinath Banerjee, Yuekai Sun

## Контекст Large language models (LLMs) становятся все более популярными в качестве автоматизированных систем для оценки моделей. Однако их оценки часто сильно отличаются от человеческих оценок. Это может быть вызвано разными факторами, такими как различия в понимании языка, алгоритмов или наборах данных. Это расхождение приводит к проблемам в подготовке моделей и оценке их качества. Необходимо разработать методы, уменьшающие это расхождение и повышающие точность и достоверность автоматизированных оценок. ## Метод Разработана методология "Bridge", которая предлагает статистический подход для синхронизации оценок LLMs с человеческими оценками. Основная идея заключается в том, чтобы предположить скрытую ценность каждого пара prompt-response и определить, как это скрытое значение меняется в зависимости от различных ковариатов, влияющих на расхождения между LLM и человеческими оценками. Алгоритм Bridge использует модель линейных преобразований для предсказания и изменения значений, чтобы уменьшить расхождение. Также предлагается эффективный алгоритм для спецификации модели, обеспечивающий асимптотическую точность и интерпретируемость. ## Результаты Использовались шесть моделей LLM с двумя специальными наборами данных для оценки: BigGen Bench и Chatbot Arena. Результаты показали, что метод Bridge достиг более высокой точности и калибровки в сравнении с человеческими оценками. Он также удалось выявить места сильных расхождений между LLM и людьми, показав, где и почему происходят эти отклонения. Это позволило корректировать и оптимизировать модели, улучшая их соответствие реальным предпочтениям людей. ## Значимость Bridge может быть применен в различных областях, где необходимо автоматизированное оценочное жюри, такие как оценка текстовых моделей, принятие решений в юридических делах или анализ данных. Метод предоставляет значительные преимущества, такие как высокая точность, способность выявлять и оптимизировать расхождения, а также уменьшение времени и стоимости сбора человеческих данных. Потенциально, он может существенно повлиять на будущие направления в искусственном интеллекте, обеспечивая более точное и достоверное автоматизированное оценивание. ## Выводы Bridge представляет собой эффективный способ связать оценки LLMs с человеческими предпочтениями, уменьшив расхождения между ними. Он доказал свою эффективность на практике, повысив точность и калибровку оценок. Будущие исследования будут сфокусированы на расширении применимости Bridge к другим типам моделей и данных, а также на его использовании в широких областях применения.

Annotation:

Large language models are increasingly used as judges (LLM-as-a-judge) to evaluate model outputs at scale, but their assessments often diverge systematically from human judgments. We present Bridge, a unified statistical framework that explicitly bridges human and LLM evaluations under both absolute scoring and pairwise comparison paradigms. Bridge posits a latent human preference score for each prompt-response pair and models LLM deviations as linear transformations of covariates that capture s...

ID: 2508.12792v1 cs.LG, cs.AI, cs.CL, stat.ML

arXiv PDF

Показано 11 - 17 из 17 записей