📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Zhixin Zhang, Zeming Wei, Meng Sun

#### Контекст Catastrophic forgetting является ключевой проблемой в области последовательного обучения для больших языковых моделей (LLM). Эта проблема возникает при последовательном обучении модели на новых задачах, когда она постепенно забывает всё, что узнала ранее. Это особенно актуально при обучении без доступа к исходным данным, что становится типичным сценарием для применения LLMs в реальных ситуациях. Отсутствие эффективных методов для решения этой проблемы ставит под угрозу широкое применение LLMs в сценариях, где необходима стабильная память и результаты обучения. Многие существующие регуляризационные подходы стремятся сдерживать этот эффект, но часто оказываются недостаточно эффективными для долгосрочного обучения. #### Метод Мы предлагаем метод **Dynamic Orthogonal Continual (DOC)** fine-tuning, который адрессирует проблему непостоянства функциональных направлений во время обучения. Метод DOC отслеживает эти направления и динамически обновляет их во время обучения. Для того, чтобы уменьшить взаимодействие между новыми и старыми задачами, мы адаптируем градиенты новых задач так, чтобы они были ортогональны к уже отслеженным направлениям. Это позволяет минимизировать интерференцию и сохранить память о прошлых задачах. Метод DOC сочетает эффективность и простоту, используя ортогональность в качестве ключевого механизма для решения проблемы catastrophic forgetting. #### Результаты Мы проверили наш метод на нескольких LLM continual learning benchmark-результатах, включая широкий диапазон задач и наборов данных. Мы сравнили DOC с другими подходами, включая стандартные регуляризационные методы. Результаты показали, что DOC не только существенно снижает уровень catastrophic forgetting, но и показывает более высокую точность и гладкость результатов. Особенно заметны преимущества в ситуациях, когда данных для исходных задач недоступно. Это демонстрирует то, что DOC может обеспечить стабильность и эффективность в процессе последовательного обучения. #### Значимость Метод DOC может быть применен в различных областях применения LLMs, где необходимы стабильные результаты и модели должны постоянно обучаться на новых данных. Например, он может применяться в области NLP-сервисов, где нужно постоянно обновлять модели на базе новых данных, но при этом сохранять знания о предыдущих задачах. Также, он может быть применен в обучении моделей для большого количества данных, когда размер данных не позволяет хранить всю историю. Данный подход значительно увеличивает гибкость и эффективность последовательного обучения, обеспечивая более устойчивые и постоянные модели. #### Выводы DOC является эффективным подходом для уменьшения catastrophic forgetting в случае последовательного обучения LLMs. Он продемонстриро
Annotation:
Catastrophic forgetting remains a critical challenge in continual learning for large language models (LLMs), where models struggle to retain performance on historical tasks when fine-tuning on new sequential data without access to past datasets. In this paper, we first reveal that the drift of functional directions during the fine-tuning process is a key reason why existing regularization-based methods fail in long-term LLM continual learning. To address this, we propose Dynamic Orthogonal Conti...
ID: 2509.23893v1 cs.LG, cs.AI, cs.CL, cs.CR, math.OC
Авторы:

Kaisen Yang, Lixuan He, Rushi Shah, Kaicheng Yang, Qinwei Ma, Dianbo Liu, Alex Lamb

#### Контекст Структурированное рассуждение — одна из ключевых задач в области технологий искусственного интеллекта, направленных на решение сложных задач, требующих логического и стратегического подхода. На сегодняшний день, существующие модели рассуждений, такие как Chain-of-Thought (CoT) и его разновидности, достигли определенных успехов. Однако, эти модели страдают от неэффективности вычислений, ограниченного рассмотрения возможных разумами и недостаточной транспарентности. Эти проблемы являются результатом того, что высокоуровневая стратегия и шаг-по-шагное выполнение смешаны в одной архитектуре. Для решения этих проблем, мы предлагаем $E^2C$ (Explore-Execute Chain) — новую модель, которая разделяет рассуждение на две отдельных фазы: эксплоре (эксплорейшн) и выполнение (экзекушн). #### Метод Методология $E^2C$ предлагает декомпозировать процесс рассуждений на два этапа: эксплоре и эксукшн. В первой фазе, $E^2C$ использует **Stochastic Exploration**, которая генерирует монолитные и краткие планы. Эти планы затем используются на этапе выполнения, где детерминированный алгоритм выполняет шаги, определяемые планом. Для обучения, мы применяем **Supervised Fine-Tuning (SFT)** с уникальным алгоритмом для строгого соблюдения планов. Далее, мы используем **Reinforcement Learning (RL)**, чтобы усилить информативность эксплоре и точность выполнения. В результате, $E^2C$ позволяет эффективно использовать ресурсы, делая рассуждение более транспаренным и эффективным. #### Результаты Мы провели эксперименты с помощью данных из AIME'2024, где $E^2C$ показал значительные улучшения в производительности. Например, в тестовой стадии, $E^2C$ Test Time Scaling достиг 58.1% точности, используя менее 10% токенов, в сравнении с другими методами (например, Forest-of-Thought). Благодаря EF-SFT (Exploration-Focused SFT), мы достигли до 14.5% выше точности на медицинских бенчмарках, чем стандартный SFT, при использовании лишь 3.5% токенов. Эти результаты демонстрируют высокую эффективность, сильное общезначимость и повышенную транспарентность $E^2C$. #### Значимость Наши результаты открывают новые возможности в области структурированного рассуждения, особенно в задачах, требующих высокого уровня транспарентности и эффективности. $E^2C$ может быть применен в различных областях, включая медицину, финансы и робототехнику. Преимущества $E^2C$ заключаются в снижении самоссогласованности, повышение точности и эффективности рассуждений. Это модель может значительно влиять на развитие ИИ в сложных интеллек
Annotation:
Chain-of-Thought (CoT) and its variants have markedly advanced the reasoning abilities of Large Language Models (LLMs), yet their monolithic and auto-regressive architecture inherently conflates high-level strategic planning with low-level step-by-step execution, leading to computational inefficiency, limited exploration of reasoning paths, and reduced interpretability. To overcome these issues, we propose the Explore-Execute Chain ($E^2C$), a structured reasoning framework that decouples reason...
ID: 2509.23946v2 cs.LG, cs.AI, cs.CL, stat.ML
Авторы:

Chaorui Yao, Yanxi Chen, Yuchang Sun, Yushuo Chen, Wenhao Zhang, Xuchen Pan, Yaliang Li, Bolin Ding

## Контекст Off-policy reinforcement learning (RL) для больших языковых моделей (LLM) в последнее время привлек внимание вследствие практических ограничений в реальных приложениях, высокой сложности инфраструктуры LLM-RL и необходимости развития методологий RL. Несмотря на то, что классическая REINFORCE и ее современные модификации, такие как Group Relative Policy Optimization (GRPO), обычно рассматриваются как выбранные в методике on-policy, имеющие ограниченную устойчивость к off-policyness, текущая работа предлагает новую точку зрения. Мы предлагаем фундаментальное обоснование для GRPO без предпосылок о распределении тренировочных данных, показывая, что он естественно поддается off-policy интерпретации. Этот новый взгляд позволяет разработать общие принципы для адаптации REINFORCE к off-policy задачам: регуляризацию обновлений политики и активное управление распределением данных. Мы также предлагаем теоретическое обоснование некоторых используемых алгоритмами стратегий влияния распределения данных, которые ранее считались тривиальными. ## Метод Мы предлагаем новую теоретическую модель для группного обновления REINFORCE, позволяющую его адаптировать к off-policy задачам. Наша модель основывается на первоосновных уравнениях RL, которые позволяют свести GRPO к политике-объекту. Мы развиваем модель с учетом того, чтобы обеспечить корректное управление распределением тренировочных данных и использование регуляризации, чтобы повысить стабильность обучения. Мы также рассматриваем два алгоритма, Online Policy Mirror Descent (OPMD) и Asymmetric REINFORCE (AsymRE), и показываем, что они могут быть репрезентованы как формы GRPO с уточненными регуляризаторами и стратегиями влияния данных. ## Результаты Мы провели эксперименты на нескольких задачах RL с языковыми моделями, включая задачу сбора предложений на тему "Когда я был маленьким" и задачу сбора рецептов. Мы сравнили GRPO с существующими методами, включая OPMD и AsymRE, а также с классическими on-policy методами. Наши результаты показывают, что GRPO не только совместим с off-policy данными, но и показывает высокую стабильность и эффективность, превосходя другие методы в задачах с ограниченным объемом данных и сложностью инфраструктуры. Мы также проверили эффективность наших регуляризационных алгоритмов и стратегий влияния данных. ## Значимость Наша работа имеет значительное значение для RL в LLMs в следующих аспектах: 1. Она развивает новые теоретические основы для GRPO, позволяющие использовать его в off-policy задачах. 2. Мы демонстрируем, что GRPO может значительно улучшить эффективность в задачах с ограниченными данными и сложной инфраструктурой. 3. Наши результаты имеют применение в раз
Annotation:
Off-policy reinforcement learning (RL) for large language models (LLMs) is attracting growing interest, driven by practical constraints in real-world applications, the complexity of LLM-RL infrastructure, and the need for further innovations of RL methodologies. While classic REINFORCE and its modern variants like Group Relative Policy Optimization (GRPO) are typically regarded as on-policy algorithms with limited tolerance of off-policyness, we present in this work a first-principles derivation...
ID: 2509.24203v1 cs.LG, cs.AI, cs.CL
Авторы:

Sanxing Chen, Xiaoyin Chen, Yukun Huang, Roy Xie, Bhuwan Dhingra

## Контекст Увеличение возможностей Large Language Models (LLMs) в системах автономного принятия решений является актуальной и сложной задачей. Несмотря на их значительные достижения в обработке естественного языка, эти модели часто испытывают проблемы при построении эффективных стратегий исследования в процессе последовательного принятия решений. Особенно это заметно в задачах, похожих на многорукий бандит (multi-armed bandit). Ранее предложенные подходы, такие как настройка супервизором (supervised fine-tuning, SFT) или обучение с подкреплением (reinforcement learning, RL), не полностью удаляют эти проблемы. Наша мотивация заключается в достижении более эффективных стратегий исследования и понимании, как они влияют на поведение моделей в различных условиях. ## Метод Мы использовали два основных подхода для улучшения стратегии исследования в LLMs: настройка супервизором (SFT) и RL. Для SFT мы обучали модели на основе последовательностей действий, обнаруженных экспертом. Для RL использовались различные виды наград, включая стратегические награды, снижающие дисперсию, и алгоритмические награды, воспроизводящие стратегии профессиональных экспертов. Мы сравнивали эти подходы с традиционными методами, такими как Upper Confidence Bound (UCB) и Thompson Sampling. Для экспериментов использовались синтетические и реальные данные, а результаты были оценены по критериям, таким как средняя награда, достигнутая диапазон действий и генерализация в условиях более длительных хронологических интервалов. ## Результаты Наши эксперименты показали, что SFT и RL могут значительно улучшить производительность LLMs в задаче многорукий бандит. Например, модели, обученные с помощью RL, достигли высокой точности в сценариях с гораздо дольшей хронологической длительностью. Однако наш анализ поведения показал, что оба подхода могут привести к сильному увеличению проблем со стороны эксплоритации: модели часто прекращают раннее исследование и склонны к катастрофическим ошибкам. Мы также выявили, что модели, обученные клонировать стратегии UCB, могут превосходить их во время исполнения, используя более агрессивные стратегии исследования. ## Значимость Наши результаты показывают, что обучение моделей с помощью SFT и RL может быть полезно в различных сценариях, включая приложения в области рекомендаций, смс-маркетинга и других задачах последовательного принятия решений. Однако результаты также подчеркивают необходимость в развитии более стратегичных систем награждения и оценки, чтобы сбалансировать эксплорацию и эксплоитацию. Наши находки могут помочь в будущих исследованиях, направленных на создание более устойчивых и эффектив
Annotation:
While Large Language Models (LLMs) hold promise to become autonomous agents, they often explore suboptimally in sequential decision-making. Recent work has sought to enhance this capability via supervised fine-tuning (SFT) or reinforcement learning (RL), improving regret on the classic multi-armed bandit task. However, it remains unclear how these learning methods shape exploration strategies and how well they generalize. We investigate both paradigms by training LLMs with SFT on expert trajecto...
ID: 2509.24923v1 cs.LG, cs.AI, cs.CL
Авторы:

Shane Bergsma, Bin Claire Zhang, Nolan Dey, Shaheer Muhammad, Gurpreet Gosal, Joel Hestness

## Контекст Обучение больших лингвистических моделей (LLM) требует стабильности и эффективности, чтобы обеспечить результаты, которые могут быть проверены и воспроизведены. Одной из ключевых проблем является то, что поведение модели во время обучения часто отличается, когда мы масштабируем модели разными способами (например, увеличивая их глубину или ширину). Это может привести к непредсказуемости и трудностям в оптимизации. Недавние исследования показали, что поведение модели может быть предсказуемым, если оптимизационные параметры выбираются в соответствии с эмпирическими законами масштабирования. Однако, пока неясно, сохраняется ли такая предсказуемость при масштабировании моделей при реальных условиях, когда несколько параметров масштабируются одновременно. Мы исследуем этот вопрос, чтобы установить, можно ли использовать предсказуемость для эффективного обучения LLM и как это может повлиять на практику. ## Метод Мы исследуем свойство "обвала" (collapse) тренировочных кривых, когда оптимизационные параметры выбираются в соответствии с набором рекомендаций по масштабированию. Для этого мы сравниваем поведение моделей различных размеров, когда используются оптимальные параметры, и оцениваем, насколько хорошо они соответствуют общей тренировочной траектории. Мы также используем инструменты анализа вывода (forward inference) для оценки того, на сколько модели эффективно обучаются. Мы проводим эксперименты с различными моделями, изменяя ширину, глубину моделей, гиперпараметры обучения, и изучаем, насколько хорошо прогнозируется их поведение при разных масштабированиях. ## Результаты Мы обнаружили, что при использовании оптимальных параметров масштабирования кривые тренировки моделей разных размеров приходят в одну общую траекторию (collapse). Это поведение указывает на то, что модели обучаются эффективно и согласно предсказаниям эмпирических законов. Более того, мы проверили, насколько предсказуемым является поведение модели во время обучения. Мы также проверили, насколько хорошо модели соответствуют теоретическим ожиданиям, и обнаружили, что при оптимальном масштабировании потери (loss) моделей уменьшаются с ожидаемым порядком, что указывает на то, что они обучаются эффективно и предсказуемо. ## Значимость Наша работа показывает, что при оптимальном масштабировании модели не только обучаются быстрее, но и предоставляют предсказуемый результат. Это может быть полезно в сценариях, где необходима эффективность и точность, например, при обучении моделей для трансляции или описания текста. Мы также показываем, что этот подход может быть
Annotation:
Effective LLM training relies on *consistency*, meaning that key quantities -- such as final losses and optimal hyperparameters -- scale predictably across model sizes. Qiu et al. (2025) recently showed that this consistency extends beyond scalars: whole training loss curves can *collapse* onto a universal trajectory after a simple normalization. What remains unclear is whether this phenomenon holds for LLM families trained under *practical scaling recipes*, where width, depth, learning rate, ba...
ID: 2509.25087v1 cs.LG, cs.AI, cs.CL
Авторы:

Aasheesh Singh, Vishal Vaddina, Dagnachew Birru

#### Контекст Глубокое обучение с машинными моделями естественного языка (LLM) позволяет решать многочисленные задачи в области обработки текстов. Однако оптимальный подход к обучению новых моделей часто ограничен размером обучающих выборок и вычислительными ресурсами. Распространённым решением этой проблемы является метод копирования знаний (Knowledge Distillation, KD). Он предполагает передачу знаний от мощной "учительской" модели к менее вычислительно-требовательной "ученицей". Однако традиционные подходы часто не учитывают разнообразие разума модели, что приводит к потере важных сведений. Наша исследовательская группа предлагает новый подход, который сочетает в себе разнообразие методов и улучшает процесс передачи знаний, особенно при работе с моделями разных архитектур. #### Метод Мы предлагаем ORPO-Distill, метод, который оптимизирует предпочтения в результатах учителя и ученика на основе Odds-Ratio Preference Optimization. Такой подход позволяет сопоставлять выходы учителя и ученика, учитывая все возможные различия в их рассуждениях. Для улучшения эффективности, ORPO-Distill использует "многополитическую" стратегию, которая включает в себя широкий спектр поведений ученика. Этот подход не только учитывает разнообразие, но и позволяет модели ученика улучшить свои результаты, даже при работе с моделями-учителями разных архитектур. #### Результаты Мы проверили ORPO-Distill на пяти различных наборах данных, используя модели различных размеров, от малых до крупных. Наши результаты показали, что данный подход превосходит другие методы, включая обычные KD-методы, как на больших, так и на малых моделях. Особенно выдающимися результатами показался ORPO-Distill при работе с моделями разных архитектур, где он демонстрирует значительное улучшение производительности в сравнении с другими существующими KD-методами. #### Значимость Предлагаемый подход может применяться в различных областях, где требуется эффективная передача знаний между моделями разных размеров и архитектур. Это может быть использовано в обучении моделей с учётом ограничений ресурсов, в нейронных сетях для текстового понимания, а также в задачах, где требуется эффективное использование многообразия разума. Мы считаем, что ORPO-Distill может стать одним из ключевых инструментов в развитии технологий машинного обучения, особенно при решении задач, требующих продолжительного обучения и большого расхода ресурсов. #### Выводы Мы представили ORPO-Distill, новый подход к копированию знаний в среде машинного обучения. Наши результаты показали, что этот подход позволяет достичь значительных улучшений в производительности, о
Annotation:
We introduce ORPO-Distill, a general-purpose method for cross-architecture LLM distillation that formulates the problem as a preference optimization task. Unlike standard CoT distillation, the approach transfers knowledge through diverse reasoning traces. It employs an Odds-Ratio Preference Optimization objective that contrasts teacher and student traces for more effective learning, and adopts a mixed-policy strategy for utilizing student-generated outputs, outperforming both off- and on-policy ...
ID: 2509.25100v1 cs.LG, cs.AI, cs.CL
Авторы:

Yuxian Jiang, Yafu Li, Guanxu Chen, Dongrui Liu, Yu Cheng, Jing Shao

#### Контекст Повышение мощности и эффективности ло LRM-ами (Large Reasoning Models) является текущим направлением в искусственном интеллекте. Одной из ключевых задач в этой области является повышение разума LRM-ами через интроспекционный подход, который позволяет моделям стабильно и действительно повышать свои возможности. Реинфорсмент с верификацией наград (RLVR) является одним из таких подходов, который позволяет моделям решать сложные задачи, но сталкивается с проблемами, такими как задержки и коллапс энтропии. Эти проблемы приводят к нестабильности обучения и ухудшению качества ответов. Наше исследование направлено на изучение этих проблем и разработку эффективных методов для их решения. #### Метод Для устранения проблемы коллапса энтропии в RLVR мы предлагаем метод SIREN (SelectIve entRropy rEgularizatioN). SIREN отличается двумя основными инновационными аспектами: **топо-п маском** и **пиковой энтропией**. Топо-п маска позволяет ограничить энтропию только в определенном диапазоне активных действий, а пиковая энтропия добирает наиболее важные состояния и действия. Также мы предлагаем преобразовать регуляризацию в самозацепляющую форму, чтобы сделать обучение более стабильным. Эти методы учитывают особенности LRM, включая огромное пространство действий и длинные траектории, которые обычно вызывают задержки энтропии. #### Результаты Мы провели эксперименты с пятью различными математическими бенчмарками, включая AIME24/25, на LRM Qwen2.5-Math-7B. Результаты показали, что SIREN значительно превосходит другие методы регуляризации энтропии в RLVR. Например, SIREN повысил maj@k на +6.6 сравниваясь с традиционными подходами. Также SIREN сохраняет более высокий уровень диверсии ответов и позволяет LRM удерживать необходимый уровень энтропии, чтобы предотвратить преждевременную конвергенцию. Эти результаты доказывают эффективность SIREN в решении проблем энтропии и улучшении качества ответов LRM-ами. #### Значимость Метод SIREN может быть применен в различных областях, где требуется повышать мощность моделей моделей моделей, в том числе в робототехнике, диагностике и системах рекомендаций. Кроме того, SIREN показывает преимущество в своей способности удерживать баланс между энтропией и точностью, что не только повышает качество ответов, но и снижает риск преждевременной конвергенции. Это может открыть новые возможности для более эффективного использования LRM-ами в различных приложениях. #### Выводы Мы представили SIREN — метод, который значительно повышает качество ответов LRM-ами, реша
Annotation:
Reinforcement learning with verifiable rewards (RLVR) has shown great promise in enhancing the reasoning abilities of large reasoning models (LRMs). However, it suffers from a critical issue: entropy collapse and premature convergence. Naive entropy regularization, a common approach for encouraging exploration in the traditional RL literature, fails to address this problem in the context of LRM. Our analysis reveals that this failure stems from the vast action space and long trajectories in LRMs...
ID: 2509.25133v1 cs.LG, cs.AI, cs.CL
Авторы:

Hude Liu, Jerry Yao-Chieh Hu, Jennifer Yuntong Zhang, Zhao Song, Han Liu

## Контекст Генерирующие модели, такие как текстовые модели и генераторы изображений, широко применяются в различных областях, но сталкиваются с проблемами, известными как "халлуцинации" (hallucinations). Это возникают, когда модель генерирует выводы, которые не имеют никакого подкрепления в данных или в реальности. Хотя такие модели достигли высокого качества в обработке естественного языка и генерации изображений, халлуцинации остаются недоизбежным недочетом. Необходимо понять причины этого явления и его влияния на качество использования моделей в реальной жизни. Мотивацией для исследования является поиск ответа на вопрос, являются ли халлуцинации просто мерой недостатка моделей или есть в ней структурные причины, связанные с оптимальным оцениванием. ## Метод В данном исследовании проводится формализация халлуцинаций в генерирующих моделях как ситуации, когда модель не может привязать свой вывод к какому-либо реальному или возможному причинам. Методология включает в себя анализ метода оптимального оценивания, используя теории вероятности и математические модели. Архитектура исследования основывается на теории контрольных точек и анализе структурных несовпадений между потерями в моделях и желаемым поведением для пользователей. Для тестирования использовались различные методы, включая модели текста и изображений, а также ситуации с открытым вопросом (open-ended QA). ## Результаты Исследование показало, что даже при оптимальном оценивании модели продолжают проявлять халлуцинации. Это связано с тем, что модели стремятся к минимизации потерь, но это не всегда идеально соответствует потребностям и ожиданиям пользователей. Эксперименты проводились с использованием разных данных, включая модели текста и генерации изображений, а также задачи открытых вопросов. Результаты показали, что халлуцинации являются структурным мизалингалом между потерями в модели и выводами, которые приемлемы для человека. Также была построена общая нижняя оценка на частоту халлуцинаций для различных данных. ## Значимость Результаты имеют большую значимость в области глубокого обучения, так как они помогают понять природу проблемы халлуцинаций и не только. Это может привести к разработке новых методов, которые будут учитывать не только оптимальность оценивания, но и качество выводов с точки зрения пользователя. Такой подход может повысить доверие к моделям и улучшить их применение в реальных ситуациях, таких как системы открытого вопроса, генерация текста и изображений. Также это открывает путь к развитию более интеллектуальных, качественных и поня
Annotation:
We formalize hallucinations in generative models as failures to link an estimate to any plausible cause. Under this interpretation, we show that even loss-minimizing optimal estimators still hallucinate. We confirm this with a general high probability lower bound on hallucinate rate for generic data distributions. This reframes hallucination as structural misalignment between loss minimization and human-acceptable outputs, and hence estimation errors induced by miscalibration. Experiments on coi...
ID: 2509.21473v1 cs.LG, cs.AI, cs.CL, cs.CV, stat.ML
Авторы:

Peter Shaw, James Cohan, Jacob Eisenstein, Kristina Toutanova

## Контекст Трансформеры — популярная архитектура нейросетей, применяемая в различных областях, таких как текстовый пониманий, перевода и синтеза речи. Однако их обучение и оптимизация оставляют значительные проблемы, в частности, узкое соотношение сложности модели и ее общественной области применения. Минимум Оккама — принцип, который используется для снижения сложности моделей, но применить его к трансформерам сложно из-за отсутствия общепринятой меры сложности моделей. Это приводит к необходимости разработки новых методов, которые могут более эффективно учитывать сложность и сжатие моделей. ## Метод Работа предлагает новый подход, основанный на теории Колмогорова и принципе МДЛ (минимум описательной длины). Основной идеей является поиск целей оптимизации, которые обеспечивают максимальное сжатие данных с минимальной сложностью модели. Для этого авторы предлагают адаптивную цель оптимизации, основанную на гауссовской смеси. Она позволяет эффективно отражать сложность модели и сжать данные. Эта цель является разностным целевым функционалом, который гарантирует сжатие в некоторых ограниченных ресурсных условиях. ## Результаты Авторы проводили эксперименты на текстовой задаче Категоризации Семантики. Они применяли найденные цели оптимизации к трансформерам и показали, что такие модели могут достичь более эффективного сжатия и улучшенной общей области применения. Однако они также отметили, что обычные оптимизаторы не всегда могут найти такие решения, что указывает на необходимость развития более сложных методов оптимизации. ## Значимость Результаты демонстрируют значительный потенциал нового подхода в области обучения трансформеров. Он может быть использован для создания моделей с более высоким компрессионным потенциалом и улучшенной генерализацией. Это может иметь значительное влияние на развитие нейросетей в области текстового понимания, перевода и других задач. ## Выводы Работа представляет значительный шаг вперед в теории и практике обучения трансформеров. Она продемонстрировала, что модели могут быть значительно сжаты с помощью новых оптимизационных целей. Будущие исследования будут сфокусированы на развитии более эффективных методов оптимизации и расширении применений этого подхода к другим моделям и задачам.
Annotation:
The Minimum Description Length (MDL) principle offers a formal framework for applying Occam's razor in machine learning. However, its application to neural networks such as Transformers is challenging due to the lack of a principled, universal measure for model complexity. This paper introduces the theoretical notion of asymptotically optimal description length objectives, grounded in the theory of Kolmogorov complexity. We establish that a minimizer of such an objective achieves optimal compres...
ID: 2509.22445v1 cs.LG, cs.AI, cs.CL
Авторы:

Yulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun

#### Контекст Reinforcement learning (RL) является ключевым подходом для развития стратегических навыков у глубоких нейронных сетей над задачами с длинным горизонтом и редкими наградами. Однако он сталкивается с проблемой trade-off между exploration (исследованием) и exploitation (использованием), которая мешает эффективному обучению. Предыдущие исследования стимулируют exploration с помощью максимизации политики, но это проблематично из-за потенциальной instability при многократном shiftе дистрибуции. В данной работе мы фокусируемся на стабильном балансе между exploration и exploitation, используя собственные опыты агента. #### Метод Мы предлагаем SPEAR — curriculum-based self-imitation learning (SIL) framework, который расширяет vanilla SIL, хранящий self-generated promising trajectories в replay buffer для off-policy обновления. SPEAR включает curriculum-based steering для управления process exploration. Он использует intrinsic rewards для skill-level exploration и action-level exploration через SIL. В начале, reward-based reward помогает агенту накопить tool-use skills, расширяя его exposure к разным средствам среды с растущим entropy. Затем, self-imitation усиливается для эксплуатации успешных шагов из replay buffer, ускоряя iterative solution. Для stabilizing обучения, мы recalibrate advantages в replay buffer и вводим regularizations, такие как clipping high-covariance tokens, уменьшая over-confidence. #### Результаты Мы провели эксперименты на сетях с agentic capabilities, используя сложные задачи с горизонтом действий. SPEAR стабилизировал training и улучшил exploration-exploitation balance, показав значительное превосходство по metricам в сравнении с baselineami. Мы также проанализировали качество решений, наблюдая улучшение в динамической среде. #### Значимость SPEAR может применяться в областях, где требуется агентское поведение, такие как robotics, game-playing и conversational agents. Он обеспечивает более стабильное обучение, эффективное использование ресурсов и лучшую adaptability в разных средах. Potential implications включают улучшение agentic skills в широком диапазоне задач. #### Выводы SPEAR достигает стабильного и эффективного обучения agentic RL через self-imitation и progressive exploration. Наши результаты открывают новые направления в исследованиях обучения с agentic capabilities, направленных на улучшение stability и adaptability в RL. Будущие работы будут фокусироваться на улучшении curriculum design и exploration strategies для устранения препятствий в итоге.
Annotation:
Reinforcement learning (RL) is the dominant paradigm for sharpening strategic tool use capabilities of LLMs on long-horizon, sparsely-rewarded agent tasks, yet it faces a fundamental challenge of exploration-exploitation trade-off. Existing studies stimulate exploration through the lens of policy entropy, but such mechanical entropy maximization is prone to RL training instability due to the multi-turn distribution shifting. In this paper, we target the progressive exploration-exploitation balan...
ID: 2509.22601v1 cs.LG, cs.AI, cs.CL, cs.CV, cs.MA
Показано 181 - 190 из 278 записей