📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Learning to Reason as Action Abstractions with Scalable Mid-Training RL

2025-10-02

Авторы:

Shenao Zhang, Donghan Yu, Yihao Feng, Bowen Jin, Zhaoran Wang, John Peebles, Zirui Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models excel with reinforcement learning (RL), but fully unlocking this potential requires a mid-training stage. An effective mid-training phase should identify a compact set of useful actions and enable fast selection among them through online RL. We formalize this intuition by presenting the first theoretical result on how mid-training shapes post-training: it characterizes an action subspace that minimizes both the value approximation error from pruning and the RL error during ...

ID: 2509.25810v1 cs.LG, cs.AI, cs.CL, stat.ML

arXiv PDF

📄 Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation

2025-10-02

Авторы:

Ziniu Li, Congliang Chen, Tianyun Yang, Tian Ding, Ruoyu Sun, Ge Zhang, Wenhao Huang, Zhi-Quan Luo

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models (LLMs) can self-improve through reinforcement learning, where they generate trajectories to explore and discover better solutions. However, this exploration process is computationally expensive, often forcing current methods to assign limited exploration budgets to each task. This uniform allocation creates problematic edge cases: easy tasks consistently succeed while difficult tasks consistently fail, both producing zero gradients during training updates for the widely use...

ID: 2509.25849v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Adaptive Margin RLHF via Preference over Preferences

2025-10-01

Авторы:

Yaswanth Chittepu, Prasann Singhal, Greg Durrett, Scott Niekum

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Margin-based optimization is fundamental to improving generalization and robustness in classification tasks. In the context of reward model learning from preferences within Reinforcement Learning from Human Feedback (RLHF), existing methods typically rely on no margins, fixed margins, or margins that are simplistic functions of preference ratings. However, such formulations often fail to account for the varying strengths of different preferences, for example some preferences are associated with ...

ID: 2509.22851v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Tracing the Representation Geometry of Language Models from Pretraining to Post-training

2025-10-01

Авторы:

Melody Zixuan Li, Kumar Krishna Agrawal, Arna Ghosh, Komal Kumar Teru, Adam Santoro, Guillaume Lajoie, Blake A. Richards

## Контекст Modern language models (LMs), особенно те, что имеют масштабируемую архитектуру, превзошли человеческие показатели во многих задачах обработки естественного языка. Однако, несмотря на их высокую эффективность, стандартные метрики обучения, такие как loss, оказываются недостаточными для точного описания появления высокоспециализированных качеств, таких как языковое понимание и творческая генерация. Это ставит перед учеными задачу расширения понимания механизмов, которые способствуют появлению этих качеств. Работа предлагает использовать **спектральный подход** для исследования геометрии представлений внутри LMs, подход, который может предоставить более глубокий взгляд на эту проблему. ## Метод Для исследования геометрии представлений, авторы применяют спектральные меры, такие как **effective rank (RankMe)** и **eigenspectrum decay ($\alpha$-ReQ)**. Эти показатели помогают изучить структуру внутренних представлений моделей в процессе обучения. Используются две модели: **OLMo (1B–7B параметров)** и **Pythia (160M–12B параметров)**. Для оценки этих моделей, авторы используют данные, собранные во время **autoregressive pretraining**, что позволяет исследовать появление и изменение представлений во время разных этапов тренировки. Также, они проводят эксперименты с **post-training**, в том числе **supervised fine-tuning (SFT)**, **directed pre-training (DPO)** и **reward-guided learning (RLVR)**, чтобы изучить как пост-тренировка влияет на геометрию представлений. ## Результаты Авторы выявили **три основных геометрических фазы** в процессе autoregressive pretraining. Каждая фаза имеет свои характеристики: 1. **Warmup phase**: здесь представления сжимаются, что соответствует отбору самых важных контекстных сигналов. 2. **Entropy-seeking phase**: в этой фазе, представления расширяются, что соответствует увеличению диапазона генерируемых значений. 3. **Compression-seeking phase**: в последней фазе, представления становятся более аносиотропными (избирательными), что приводит к поддержанию только самых важных составляющих. Эти фазы соответствуют разным стадиям развития модели, включая улучшение в downstream tasks. **Post-training** также оказывает свой вклад в изменение геометрии: **supervised fine-tuning (SFT)** и **directed pre-training (DPO)** учат модель работать с конкретными данными, что улучшает показатели на задачах внутри распределения, но может снизить общую универсальность. В то же время, **reward-guided learning (RLVR)** улучшает геометрию в плане выполнения конкретных задач, но может снизить диверситет генерации. ## Значимость Результаты имеют большое значение для осмысления и оптимизации процесса обучения моделей. Работа показывает, что **cross-entropy optimization** и **representational bottlenecks** (когда размерность представл

Annotation:

Standard training metrics like loss fail to explain the emergence of complex capabilities in large language models. We take a spectral approach to investigate the geometry of learned representations across pretraining and post-training, measuring effective rank (RankMe) and eigenspectrum decay ($\alpha$-ReQ). With OLMo (1B-7B) and Pythia (160M-12B) models, we uncover a consistent non-monotonic sequence of three geometric phases during autoregressive pretraining. The initial "warmup" phase exhibi...

ID: 2509.23024v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Causally-Enhanced Reinforcement Policy Optimization

2025-10-01

Авторы:

Xiangqi Wang, Yue Huang, Yujun Zhou, Xiaonan Luo, Kehan Guo, Xiangliang Zhang

#################### ## Контекст #################### Проблема обучения бо LLM (large language models) с помощью реинфорсментных оптимизаций часто приводит к получению ответов, которые только оказываются верными на первый взгляд. Этот эффект достигается благодаря приему несуществующих связей или использованию способов, которые не соответствуют реальным причинным связям. Это приводит к деградации качества моделей в ситуациях, когда мелкие изменения в логике приводят к существенным изменениям в ответах. Данное исследование адресуется таким моделям, которые часто полагаются на заглушки и не учитывают действительные причины, что снижает надежность и качество решения задач. #################### ## Метод #################### Для устранения проблемы недостоверных ответов в моделях был предложен Causally-Enhanced Policy Optimization (CE-PO), что является новым методом, основанным на технике политики-оптимизации. Алгоритм CE-PO включает в себя следующие этапы: 1. **Разметка генерируемых ответов**. С помощью Jacobian-based sensitivities алгоритм оценивает внутренние влияния в процессе генерации ответа. 2. **Создание сигналов для сущностей**. Он твердо учитывает причины, отвлекаясь от незначительных корреляций. 3. **Устойчивость к фальшивым соотношениям причины-следствие**. CE-PO улучшает способность модели отличать причины и следствия, позволяя поддаваться менее заметным изменениям в данных. 4. **Интеграция с PPO/GRPO**. Метод может быть использован в существующих системах с политикой-оптимизацией без необходимости изменять архитектуру модели. #################### ## Результаты #################### Авторы провели эксперименты на 4 различных данных и показали, что CE-PO увеличивает точность ответов до 9.58% в сравнении с базовым алгоритмом. Кроме того, было показано, что CE-PO способен обнаруживать и предотвращать некорректные выводы, которые могут возникнуть из-за изменений в корреляционных связях. Это улучшение достигается с минимальным ущербом точности ответов (near-parity accuracy). #################### ## Значимость #################### Есть ряд областей применения данного развития. В первую очередь, CE-PO может быть использован в области работы с данными, где необходимо строить долгие цепочки причин и следствий, например, в медицине, бизнесе и юриспруденции. Также, CE-PO может повысить качество ответов в системах, которым требуется высокая надежность в выводе, такие как системы рекомендаций, системы поиска и виртуальные помощники. В последнем случае это может способствовать улучшению пользовательского опыта и увеличению доверия к модели. #################### ## Выводы #################### В итоге, CE-PO является эффективным инструментом для повышения устойчивости и надежности моделей, уменьшая последствия недостоверных выводов. Будущие исследования могут б

Annotation:

Large language models (LLMs) trained with reinforcement objectives often achieve superficially correct answers via shortcut strategies, pairing correct outputs with spurious or unfaithful reasoning and degrading under small causal perturbations. We introduce Causally-Enhanced Policy Optimization (CE-PO), a drop-in reward-shaping framework that augments policy optimization with a differentiable proxy for causal coherence along the generation pathway from prompt (Z) to rationale (X) to answer (Y)....

ID: 2509.23095v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 RHYTHM: Reasoning with Hierarchical Temporal Tokenization for Human Mobility

2025-10-01

Авторы:

Haoyu He, Haozheng Luo, Yan Chen, Qi R. Wang

## Контекст Предсказание гуманных движений является непростым заданием, поскольку оно включает в себя сложные зависимости в пространстве и времени, а также многомерные периодические модели. Существующие методы часто сталкиваются с ограничениями в своей способности ловля длинных-диапазонных зависимостей или в учении циклических моделей. Эти ограничения приводят к неточности в предсказаниях, особенно в тех случаях, когда движение человека тесно связано с циклическими периодами, такими как дни недели или рабочие часы. Развитие более точных и эффективных моделей предсказания поведения человека является ключевой мотивацией для этой статьи. ## Метод RHYTHM (Reasoning with Hierarchical Temporal Tokenization for Human Mobility) представляет собой современный фреймворк, который использует лёгкие языковые модели (LLMs) для обработки пространственно-временных данных. Основной идеей является использование **хиерархической токенизации временных последовательностей** для разбиения каждой траектории на дневные сегменты. Эти сегменты представлены в виде дискретных токенов, позволяющих гибко учитывать как дневные, так и недельные зависимости. Для улучшения токенов добавляются предварительно вычисленные универсальные признаки, такие как **embeddings для сегментов траекторий и целевых значений**, которые обрабатываются с помощью замороженной LLM. Эта модель реализует **сжатие последовательности** без потери важной информации, такой как циклические модели. Кроме того, в RHYTHM используется **кеширование бокалки**, чтобы сократить вычислительные затраты на время обучения. ## Результаты В экспериментах RHYTHM была проверена на трёх реальных датасетах с данными о движении людей. Модель показала существенное улучшение в предсказании по сравнению с другими методами. Общая точность увеличилась на 2.4%, тогда как на выходных днях достигался значительный прирост на 5.0%. Более того, RHYTHM показала значительную экономию времени обучения — на 24.6%. Эти результаты доказывают, что модель эффективно учитывает циклические модели в движении людей и уменьшает затраты ресурсов. ## Значимость Результаты RHYTHM открывают новые возможности для предсказания гуманных движений в различных сферах, таких как транспорт, городское планирование и мобильные приложения. Модель позволяет оптимизировать транспортные системы, сократить время поиска наземных парковонок и улучшить уровень сервиса в мобильных приложениях. Эффективность и быстрота обучения RHYTHM делают её привлекательной для реального применения в сложных ситуациях, где точность и скорость предсказания критичны. ## Выводы RHYTHM доказывает свою эффективность в пред

Annotation:

Predicting human mobility is inherently challenging due to complex long-range dependencies and multi-scale periodic behaviors. To address this, we introduce RHYTHM (Reasoning with Hierarchical Temporal Tokenization for Human Mobility), a unified framework that leverages large language models (LLMs) as general-purpose spatio-temporal predictors and trajectory reasoners. Methodologically, RHYTHM employs temporal tokenization to partition each trajectory into daily segments and encode them as discr...

ID: 2509.23115v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 C$^2$GSPG: Confidence-calibrated Group Sequence Policy Gradient towards Self-aware Reasoning

2025-10-01

Авторы:

Haotian Liu, Shuo Wang, Hongteng Xu

## Контекст Область исследования, связанная с reinforcement learning, становится все более актуальной в связи с попытками создания умных и самосознательных моделей решительности. Одной из основных проблем в этой области является предрасположенность моделей к перебору или, в противоположность этому, высокой ошибке в решении задач. Также существуют затруднения с подготовкой данных и зафиксированными токенами, которые могут влиять на точность моделей. Эти проблемы вызывают необходимость в разработке моделей, которые могут исправлять свои ошибки в процессе обучения и учитывать контекст во время выполнения. ## Метод Методология, предложенная в работе, основывается на новом подходе, называемом Group Sequence Policy Gradient (GSPG). Он состоит в том, что модель поддерживает набор последовательных решений и вычисляет доверительные показатели каждого решения с помощью секвенсовского штрафа. Таким образом, модель может выявлять и устранять свои ошибки с помощью этих корректировок. Для избежания слишком высокой доверительности, которая может привести к ошибкам, вводится дополнительный регуляризатор, который уменьшает риск переобучения. Архитектура включает механизмы, которые позволяют гибко корректировать модель в зависимости от сложности задачи. ## Результаты Для проверки метода предложенный подход был применен к различным задачам, включая логические и математические задачи. Результаты показали, что C$^2$GSPG превосходит другие методы по точности решения задач и калибровке доверия. Эксперименты были проведены на различных данных, включая корпусы логических задач и тесты математических умений. Эти результаты подтверждают, что модель не только улучшает точность, но и стремится к более уверенному и точному решению задач. ## Значимость Предложенный подход может быть применен в различных областях, таких как роботология, системы рекомендации и системы управления. Выгоды предложенного подхода заключаются в его универсальности и точности, что может существенно улучшить качество работы моделей в реальных условиях. Будущие исследования могут быть направлены на расширение применения C$^2$GSPG к более сложным задачам и интеграцию его с другими подходами в области машинного обучения. ## Выводы Метод C$^2$GSPG представляет собой прорыв в области самосознательного машинного обучения. Он успешно устраняет проблему ошибок в моделях и позволяет достичь высокой точности и уверенности в решении задач. Будущие работы будут направлены на расширение гибкости и эффективности этого подхода для дальнейшего улучшения моделей автоматизированного решения задач.

Annotation:

Reinforcement Learning (RL) methods, exemplified by Group Relative Policy Optimization (GRPO) and its variants, play a central role in developing reasoning models. However, these methods often suffer from a critical overconfidence issue, which prevents them from achieving self-aware reasoning models. In this study, we propose a simple yet effective confidence-calibration group sequence policy gradient method, called C$^2$GSPG, which simultaneously enhances reasoning performance while suppressing...

ID: 2509.23129v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 SPEC-RL: Accelerating On-Policy Reinforcement Learning via Speculative Rollouts

2025-10-01

Авторы:

Bingshuai Liu, Ante Wang, Zijun Min, Liang Yao, Haibo Zhang, Yang Liu, Anxiang Zeng, Jinsong Su

#### Контекст Large Language Models (LLMs) широко применяются в различных областях, включая машинное обучение, обработку текстов и решение задач. Одна из ключевых задач для таких моделей — обучение с подкреплением (Reinforcement Learning, RL), которое предполагает применение верифицируемых наград (RLVR). Тем не менее, обучение моделей с помощью RLVR сталкивается с значительными вычислительными затратами, особенно в этапе роллаутов (rollout). Эта проблема становится все более актуальной при увеличении размера моделей и сложности задач. Наиболее популярные подходы, такие как параллельное выполнение задач, модификации целевых функций, использование реплей-буферов, продемонстрировали ограниченную эффективность или привлекли нежелательные побочные эффекты, такие как введение биаса. Таким образом, возникает необходимость в разработке методов, которые бы оптимизировали этот процесс без потери качества решения. #### Метод Мы предлагаем **SPEC-RL** — новую архитектуру, которая интегрирует **speculative decoding** (предсказание спекулятивного траектории) с этапом роллаутов в RL. SPEC-RL основывается на двух главных компонентах: **draft-and-verify mechanism** и **speculative prefixes**. Фундаментальная идея заключается в том, чтобы использовать предыдущие траектории роллаутов из предыдущих эпох обучения как начальные сегменты для нового роллаута. Эти сегменты (speculative prefixes) проверяются и дополняются с помощью новых данных, что позволяет избежать повторного вычисления дублирующихся участков. Таким образом, SPEC-RL ускоряет процесс роллаутов, сохраняя точность и качество решений. Это расширяет возможности RLVR, особенно для моделей с большим количеством параметров и высокой сложности задач. #### Результаты Мы провели эксперименты на нескольких задачах, включая math reasoning, generalization и смешанные задачи (math and generalization). Были использованы такие бенчмарки, как GSM8K, MATH-500, OlympiadBench, MMLU-STEM. Результаты показали, что SPEC-RL увеличивает производительность, сокращая время роллаутов в 2–3 раза в сравнении с конкурентными подходами. Это достигается без какого-либо потери качества решений или политики (policy). Таким образом, SPEC-RL демонстрирует свою эффективность в значительном сокращении вычислительных затрат при сохранении высокого качества решений. #### Значимость SPEC-RL может быть применено в различных областях, где требуется высокая производительность в RLVR, такие как обработка изображений, текстов, автоматизация процессов и даже системы управления. Одним из основных преимуществ является существенное сокращение времени вычислений, что позволяет увеличить скорость обучения и уменьшить затраты ресурсов. Это делает SPEC-RL привлекательным для применения в реальных системах, где требуется высока

Annotation:

Large Language Models (LLMs) increasingly rely on reinforcement learning with verifiable rewards (RLVR) to elicit reliable chain-of-thought reasoning. However, the training process remains bottlenecked by the computationally expensive rollout stage. Existing acceleration methods-such as parallelization, objective- and data-driven modifications, and replay buffers-either incur diminishing returns, introduce bias, or overlook redundancy across iterations. We identify that rollouts from consecutive...

ID: 2509.23232v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Towards a Comprehensive Scaling Law of Mixture-of-Experts

2025-10-01

Авторы:

Guoliang Zhao, Yuhan Fu, Shuaipeng Li, Xingwu Sun, Ruobing Xie, An Wang, Weidong Han, Zhen Yang, Weixuan Sun, Yudong Zhang, Cheng-zhong Xu, Di Wang, Jie Jiang

#### Контекст Микстов-экспертов (MoE) — это модели глубокого обучения, обладающие высокой эффективностью в обработке больших наборов данных за счет распределения вычислительной нагрузки на несколько подпространств экспертов. Их применение позволяет эффективно масштабировать модели, оптимизировать ресурсы и уменьшить затраты. Однако существующие законы масштабирования для разносторонных моделей не применимы к MoE, так как эти модели имеют уникальные характеристики, такие как нелинейное взаимодействие между факторами и их немонотонное влияние на производительность. Таким образом, требуется подробное изучение масштабирования MoE для построения удобных и эффективных моделей. #### Метод Мы предприняли систематическое разделение MoE-моделей на ключевые факторы, влияющие на их производительность. Эти факторы включают размер выборки (D), общий размер модели (N), активированный размер модели (Na), количество активных экспертов (G) и пропорцию общих экспертов (S). Для каждого фактора мы провели эксперименты, контролируя влияние каждого из них на модель. Эти исследования были объединены в широкую модель, учитывающую все факторы. Мы также исследовали теоретически оптимальные значения G, S и Na/N, а также оптимальные конфигурации с учетом практических ограничений. #### Результаты Мы провели 446 экспериментов для определения влияния каждого фактора на производительность модели. Наша модель позволила определить оптимальные значения G и S, которые не зависят от размера данных и архитектуры модели. Мы также обнаружили, что при увеличении размера модели (N), оптимальная пропорция активных экспертов (Na/N) становится более разредкой. Эти результаты позволяют оптимизировать конфигурацию MoE-моделей для максимальной эффективности. #### Значимость Наша работа имеет значительное значение для оптимизации разработки MoE-моделей. Мы предоставили гибкую и точную модель, которая может быть использована для предсказания лучших параметров для конкретных задач. Это включает в себя уменьшение затрат на обучение и использование ресурсов, благодаря точной оптимизации количества активных экспертов и их пропорций. Наше исследование также открывает путь к будущим исследованиям в области масштабирования моделей и их применений в различных областях, таких как текстовое машинное обучение и глубокое обучение. #### Выводы Мы представили новую модель для масштабирования MoE, учитывающую все ключевые факторы влияющие на производительность. Мы также получили оптимальные значения для активных экспертов и пропорции общих экспертов, которые могут

Annotation:

Mixture-of-Experts (MoE) models have become the consensus approach for enabling parameter-efficient scaling and cost-effective deployment in large language models. However, existing scaling laws for dense models are inapplicable to MoE models, which stems from three critical challenges: the multiplicity of influencing factors, their intricate coupling relationships and the non-monotonic nature of their performance impacts. They collectively necessitate a fine-grained investigation into MoE-speci...

ID: 2509.23678v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Knowledge Homophily in Large Language Models

2025-10-01

Авторы:

Utkarsh Sahu, Zhisheng Qi, Mahantesh Halappanavar, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt, Yu Zhang, Yao Ma, Yu Wang

#### Контекст Large Language Models (LLMs) являются мощными инструментами для поддержки знаний-интенсивных приложений, таких как вопрос-ответ и проверка фактов. Однако структура, в которой хранится их знание, пока остается недостаточно изученной. Это ограничивает возможности для эффективного управления и расширения знаний внутри этих моделей. Наблюдения из когнитивной науки, такие как семантическое кластеризация и прайминг, описывают связь между знаниями, при которой знание одного факта повышает вероятность помнить связанные с ним факты. Эта теория подсказывает, что LLMs также могут иметь аналогичную структуру. Несмотря на высокую точность LLMs, неясно, как их знания организованы, что делает необходимым подробное исследование. Наша мотивация заключается в выявлении и использовании этой структуры для улучшения эффективности и точности работы LLMs. #### Метод Для изучения структуры знаний в LLMs мы представляем их в виде графа, где узлы представляют собой сущности, а рёбра — отношения между ними, определяемые знаниями, которые модель обладает. Для построения этого графа используется техника знаний-проверки на двух уровнях: триплетах и сущностях. Это позволяет определить, насколько хорошо LLM знает отдельные факты и отношения. Затем мы проводим анализ взаимосвязи знаний между сущностями, определяя, насколько знания одной сущности похожи на знания её соседних в графе. Это позволяет выделить тренд: ближайшие в графе сущности имеют более похожие уровни знаний. Основываясь на этой идее, мы предложили Graph Neural Network (GNN) для регрессионной оценки уровня знаний для каждого триплета, используя знания соседей в графе. #### Результаты Мы провели эксперименты с широким спектром данных, включая TripleGraph и внешние ресурсы, чтобы проверить эффективность нашей модели. Результаты показали, что GNN-модель успешно предсказывает уровень знаний для триплетов, оптимизируя покрытие знаний в пределах ограниченного бюджета. Это приводит к улучшению активного метода лейблинга, который требуется для развития модели. Также, мы продемонстрировали, что наш подход повышает эффективность рассуждений в задачах вопроса-ответа, позволяя лучше организовывать поиск путей во многоступенчатых задачах. #### Значимость Предложенный подход имеет широкие потенциальные применения в области знаний-интенсивных приложений. Он позволяет улучшить эффективность активного лейблинга, обеспечивая более точный выбор триплетов для лейблинга, чтобы получить максимальное покрытие новых знаний с минимальными зат

Annotation:

Large Language Models (LLMs) have been increasingly studied as neural knowledge bases for supporting knowledge-intensive applications such as question answering and fact checking. However, the structural organization of their knowledge remains unexplored. Inspired by cognitive neuroscience findings, such as semantic clustering and priming, where knowing one fact increases the likelihood of recalling related facts, we investigate an analogous knowledge homophily pattern in LLMs. To this end, we m...

ID: 2509.23773v1 cs.LG, cs.AI, cs.CL, cs.SI

arXiv PDF

Показано 171 - 180 из 278 записей