📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Zhipeng Chen, Xiaobo Qin, Youbin Wu, Yue Ling, Qinghao Ye, Wayne Xin Zhao, Guang Shi

## Контекст Область исследования сосредоточена на Reinforcement Learning with Verifiable Rewards (RLVR), который использует Pass@1 в качестве награды. Однако это подход сталкивается с проблемой достижения баланса между эксплорированием и эксплойтингом, что приводит к затухающему интересу к поиску новых решений и схождению к локальному оптимуму. Выбор подходящей метрики награды является ключевым для решения этой проблемы. Хотя Pass@k часто используется в оценке, его взаимосвязь с возможностью эксплорирования в RLVR остается недостаточно исследована. Мотивация исследования заключается в поиске решения этой проблемы и оптимизации политик поведения моделей с помощью более эффективных наградных метрик. ## Метод Исследование основывается на использовании Pass@k в качестве награды для обучения политики модели (Pass@k Training). Методология включает в себя аналитическую модель для вывода преимуществ Pass@k Training, что позволяет эффективно настраивать поведение модели. Реализация включает использование глубоких нейронных сетей для оценки возможности эксплорения. Анализ показывает, что Pass@k Training не только улучшает эксплорнацию, но и способствует более эффективному использованию локальных оптималов. Данный подход также рассматривается как применимость проектирования функций выгоды в RLVR. ## Результаты Эксперименты проводились на различных данных с разным уровнем сложности. Использовались модели с различным числом классов и размеров. Увеличение Pass@k в качестве награды позволило улучшить показатели эксплорейтинга и получить более сбалансированные решения. Отчет о результатах включал метрики, такие как F1-score и Pass@k, что позволило показать, как улучшение Pass@k влияет на эффективность политики модели. Результаты показали, что Pass@k Training приводит к более разумному балансу между эксплорной и эксплойтинговой стратегией. ## Значимость Полученные результаты имеют широкие применения в области глубокого обучения, в частности для large language models (LLMs). Этот подход позволяет улучшить не только эксплорейтинг, но и эксплойтинг, что делает поведение модели более универсальным. Известны преимущества Pass@k Training, в том числе улучшение разрешения сложных задач и уменьшение утечки информации во время обучения. В будущем можно рассмотреть проектирование более усовершенствованных функций выгоды, которые могут дать еще более эффективные результаты в RLVR и задачах связанных с ним. ## Выводы Основной достижением является установление того, что Pass@k Training может эффективно сбалансировать exploration и exploitation в RLVR. Также было показано, что этот подход может применяться к различным моделям и задачам. Будущими направлениями исследований является развитие более сложных функций выгоды
Annotation:
Reinforcement learning with verifiable rewards (RLVR), which typically adopts Pass@1 as the reward, has faced the issues in balancing exploration and exploitation, causing policies to prefer conservative actions, converging to a local optimum. Identifying an appropriate reward metric is therefore crucial. Regarding the prior work, although Pass@k has been used in evaluation, its connection to LLM exploration ability in RLVR remains largely overlooked. To investigate this, we first use Pass@k as ...
ID: 2508.10751v1 cs.LG, cs.AI, cs.CL
Авторы:

Maxime Heuillet, Yufei Cui, Boxing Chen, Audrey Durand, Prasanna Parthasarathi

## Контекст Улучшение моделей языковых моделей (LLMs) в сложных областях, таких как математическое моделирование, требует эффективных методов обучения с подenом награды (Reinforcement Learning, RL). Одним из таких подходов является reinforced fine-tuning (ReFT), в котором модель генерирует несколько концовок для задачи, а затем эти концовки оцениваются с помощью ревард-функции. Хотя такой подход продемонстрировал выдающиеся результаты, его вычислительная стоимость возникает из-за необходимости многократного выполнения модели для каждой итерации обучения. Это становится особенно важно при обучении больших моделей. Мы предлагаем Nested-ReFT, новый подход к ReFT, который уменьшает вычислительные затраты за счет использования слоев модели в качестве "поведенческой" модели для генерации концовок в процессе обучения. ## Метод Nested-ReFT использует многоуровневую архитектуру, в которой некоторые слои модели используются для генерации концовок заданий, в то время как другие слои отвечают за оценку этих концовок. Это позволяет эффективно использовать модель, не требуя генерации концовок на каждой итерации. Мы также ввели технику "динамического пропуска слоев", которая позволяет еще больше сократить вычислительные затраты. Для обеспечения точности решения мы предлагаем три варианта устранения биаса в обучении с off-policy данными, которые позволяют сохранить высокий уровень производительности. ## Результаты Мы провели эксперименты на нескольких математических задачах и моделях различных размеров. Результаты показали, что Nested-ReFT выполняет большое количество подсчетов задач за секунду (tokens/sec) в сравнении с стандартными ReFT-методами, что демонстрирует его высокую эффективность. Также, мы проанализировали эффективность различных стратегий устранения биаса, показав, что они позволяют сохранить точность решения на уровне ReFT-методов с полной моделью. ## Значимость Nested-ReFT открывает новые возможности для эффективного обучения моделей языковых моделей в сложных областях. Его применимость распространяется на такие области, как математическое моделирование, логические задачи и другие сложные решения, для которых требуется высокая точность и эффективность. Он обеспечивает выигрыш в скорости обучения и уменьшает количество вычислительных ресурсов, что может сделать эти модели более доступными для ученых и разработчиков. ## Выводы Мы представили Nested-ReFT, новый эффективный подход к обучению моделей языковых моделей с использованием RL. Наши результаты показали, что использование слоев модели в качестве поведенческой модели не только уменьшает накладные расходы, но и позволяет достичь высокой точности решения. Наше исследова
Annotation:
Advanced reasoning in LLMs on challenging domains like mathematical reasoning can be tackled using verifiable rewards based reinforced fine-tuning (ReFT). In standard ReFT frameworks, a behavior model generates multiple completions with answers per problem, for the answer to be then scored by a reward function. While such RL post-training methods demonstrate significant performance improvements across challenging reasoning domains, the computational cost of generating completions during training...
ID: 2508.10123v1 cs.LG, cs.AI, cs.CL
Авторы:

Birong Pan, Mayi Xu, Qiankun Pi, Jianhao Chen, Yuanyuan Zhu, Ming Zhong, Tieyun Qian

#### Контекст Современные Large Language Models (LLMs) обладают высоким потенциалом в различных областях, но сталкиваются с систематическими проблемами, связанными с безопасностью и качеством. Одной из ключевых проблем является нехватка баланса между безопасностью и полезностью. На данный момент используются методы, ориентированные на грубые вмешательства в слои моделей. Они не могут гарантировать точную корректировку действий модели в ответ на безопасность и качество. Данная проблема требует развития более тонких методов корректировки модели, которые бы позволили достичь сбалансированного взаимодействия между безопасностью и полезностью. #### Метод Предлагаемый метод NeuronTune основывается на тонкой модификации сигналов специфичных нейронов для достижения баланса между безопасностью и полезностью. Метод начинает с атрибуции, чтобы определить безопасность-критичные и полезность-критичные нейроны во всех слоях. Затем, NeuronTune применяет методы мета-обучения для адаптивного усиления сигналов безопасности и торможения сигналов полезности. Одним из ключевых преимуществ является то, что NeuronTune позволяет гибко контролировать степень вмешательства в функционировании модели, корректируя количество модифицируемых нейронов. Это делает NeuronTune универсальным инструментом для применения в различных сценариях, где требуется высокая безопасность или высокая полезность. #### Результаты На широком наборе экспериментов, включающих задачи с текстом и задачи безопасности, NeuronTune показал существенный выигрыш по сравнению с текущими технологиями. Он улучшил безопасность модели, сократив частоту провалов в тестах на вредоносные запросы, при этом сохранив высокую качественную генерацию текста и задачу, которые традиционно негативно отражаются после других методов корректировки. Эти результаты подтверждают, что NeuronTune является эффективным методом для достижения баланса между безопасностью и полезностью в LLMs. #### Значимость NeuronTune может быть применен в различных областях, где необходима высокая безопасность и качество текста. Например, в области медицины, юриспруденции, финансов, где любая деформация текста может привести к серьезным последствиям. Также NeuronTune позволяет решать проблемы, связанные с нежелательной генерацией ненормативной лексики или вранья, что является важной задачей для многих систем текстового понимания. Использование NeuronTune помогает сделать LLMs более надежными и стабильными в различных областях их применения. #### Выводы Результаты экспериментов подтверждают, что NeuronTune является эффектив
Annotation:
Ensuring robust safety alignment while preserving utility is critical for the reliable deployment of Large Language Models (LLMs). However, current techniques fundamentally suffer from intertwined deficiencies: insufficient robustness against malicious attacks, frequent refusal of benign queries, degradation in generated text quality and general task performance--the former two reflecting deficits in robust safety and the latter constituting utility impairment. We trace these limitations to the ...
ID: 2508.09473v1 cs.LG, cs.AI, cs.CL
Авторы:

Peter Phan, Dhruv Agarwal, Kavitha Srinivas, Horst Samulowitz, Pavan Kapanipathi, Andrew McCallum

#### Контекст Много платформенных языковых моделей (LLMs) становятся важной частью решения задач смешанного типа, таких как программная синтезирование, оптимизация молекул и поиск абстрактных решений. Однако применение этих моделей к задачам поиска многоугольников часто сталкивается с проблемами баланса между исследованием новых решений и использованием высокооплачиваемых решений. Традиционные подходы, такие как in-context learning, либо неэффективны в этих задачах, либо требуют большого количества ресурсов для поиска индивидуально настроенных решений. Дополнительно, некоторые методы, такие как test-time training (TTT), широко используются для улучшения решений, но часто требуют ручной подготовки специальной данных, что снижает их выгоду в процессе интеграции. Наша мотивация заключается в создании метода, который использует LLMs для решения сложных задач без необходимости подготовки данных заранее. #### Метод Мы предлагаем метод **MiGrATe** (Mixed-Policy GRPO for Adaptation at Test-Time), который работает как гибкий поисковый алгоритм, используя LLMs в качестве ядра поиска. Метод MiGrATe оперирует с помощью процедуры сборки групп микшированной политики (mixed-policy group construction procedure), которая сочетает в себе два типа сбора данных: greedy sampling (выбор лучших решений из прошлых итераций) и neighborhood sampling (поиск решений, структурно похожих на высокооплачиваемые). Эти две техники дают возможность применить больше внимания к высокооплачиваемым решениям и поддерживать эксплорaцию новых решений при использовании LLMs. Метод MiGrATe также включает в себя применение GRPO (Group Policy Optimization) для оптимизации групповой политики в реальном времени. #### Результаты Мы провели эксперименты на трех реальных задачах: поиск слов, оптимизация молекул и индукция программ+абстракций на датасетом ARC. Метод MiGrATe показал значительное улучшение качества решений в сравнении с традиционными TTT-методами и методами, не использовавшими тестируемую данную. Благодаря использованию смешанных политик в поиске, MiGrATe удалось эффективно оптимизировать решения без необходимости дополнительной подготовки данных, что демонстрирует мощь TTT-подходов для решения задач поиска без внешнего наблюдения. #### Значимость Метод MiGrATe может быть применен в сложных сетевых задачах, таких как оптимизация программ, поиск решений в лабораториях и молекул, а также в области моделирования абстрактных решений. Он предлагает значительные преимущества, включая более эффективное применение LLMs для решения задач без ручной подготовки данных, а также гибкость применения к разнообразным задачам. Метод MiGrATe может иметь будущее в широком спектре приложений, включая лаборатории, где требуется эффективное
Annotation:
Large language models (LLMs) are increasingly being applied to black-box optimization tasks, from program synthesis to molecule design. Prior work typically leverages in-context learning to iteratively guide the model towards better solutions. Such methods, however, often struggle to balance exploration of new solution spaces with exploitation of high-reward ones. Recently, test-time training (TTT) with synthetic data has shown promise in improving solution quality. However, the need for hand-cr...
ID: 2508.08641v1 cs.LG, cs.AI, cs.CL
Авторы:

Jiaxin Ju, Yizhen Zheng, Huan Yee Koh, Can Wang, Shirui Pan

#### Контекст Аккуратная предсказание свойств молекул является ключевой проблемой в области химии, материаловедения и наук о лекарствах. Существующие методы, такие как фингерпринты и графовые нейронные сети (GNN), достигли выдающихся результатов, оперируя функциональными признаками молекул. Однако они часто игнорируют значительные объемы семантической и контекстуальной информации, накопленной в течение десятков лет исследований. Недавние достижения в области больших языковых моделей (LLM) показали, что они обладают выдающимися рассудочными способностями и могут применяться к различным задачам в научных дисциплинах. Идея: LLMs могут генерировать богатые представления молекул, если будут способны обобщаться в разных сферах. #### Метод Мы предлагаем $\text{M}^{2}$LLM — продолжение продолжение идеи "многоперспективного" узнавания, которая интегрирует три основных перспективы молекул: 1) микроскопическая — структурная модель, 2) макроскопическая — задачи, с которыми связана молекула, 3) абстрактная — правила, определяющие свойства молекул. Данные представления соединены динамически, чтобы можно было приспособится к разным задачам. Благодаря тому, что LLM генерирует молекулярные представления, характеризующиеся векторами, и применяет расширенные методы рассуждения, $\text{M}^{2}$LLM показывает новый уровень качества в задачах классификации и регрессии. #### Результаты Мы провели эксперименты на нескольких бенчмарках, проверяя $\text{M}^{2}$LLM на задачах классификации и регрессии. Результаты показали, что модель достигла лидирующих показателей, превосходя существующие методы. Особенно выдающимся оказался показатель качества представлений, которые были получены благодаря возможностям LLM в генерации и анализе молекулярных данных. Это демонстрирует, что LLMs могут значительно улучшить обработку и предсказание молекулярных свойств. #### Значимость $\text{M}^{2}$LLM может применяться во многих областях — от науки о лекарствах до материаловедения. Особым преимуществом является ее универсальность и адаптивность к различным задачам. Функциональность, связанная с генерацией и обобщением молекулярных представлений, позволяет получать точные результаты. Это может способствовать развитию новых лекарств, ускорению циклов исследований и повышению эффективности технологий в материаловедении. #### Выводы $\text{M}^{2}$LLM достигает новых высот в предсказании свойств молекул, используя три перспективы и новые возможности LLMs. Будущие исследования будут сфокусированы на повышении точности и о
Annotation:
Accurate molecular property prediction is a critical challenge with wide-ranging applications in chemistry, materials science, and drug discovery. Molecular representation methods, including fingerprints and graph neural networks (GNNs), achieve state-of-the-art results by effectively deriving features from molecular structures. However, these methods often overlook decades of accumulated semantic and contextual knowledge. Recent advancements in large language models (LLMs) demonstrate remarkabl...
ID: 2508.08657v1 cs.LG, cs.AI, cs.CL
Авторы:

Lixuan He, Jie Feng, Yong Li

## Контекст В последние годы Large Language Models (LLMs) стали неотъемлемой частью различных интеллектуальных задач, таких как математическое моделирование, визуальное рассуждение и взаимодействие с визуальными средами. Однако достижение высокого уровня производительности в этих областях часто требует сложной подготовки моделей, включающей в себя и супервизированную оптимизацию (SFT), и реинфорсмент (RL). Несмотря на выгоды от удовлетворения параллельных потребностей моделей, существуют затруднения в достижении гармоничного баланса, что приводит к таким проблемам, как катастрофическое забывание, неоптимальный баланс между имитацией и экспериментом, а также сложности в выборе правильной стратегии для конкретных задач. Эти трудности приводят к увеличению времени обучения и снижению стабильности результатов. В этой работе мы применяем теоретическое осмысление гибкого имплицитного механизма регулирования взаимодействия SFT и RL для лучшего достижения баланса. ## Метод Мы предлагаем новую модель **Adaptive Meta Fine-Tuning (AMFT)**, которая представляет собой уникальную методологию для улучшения баланса между SFT и RL. Центральная идея заключается в том, чтобы трактовать SFT и RL не как независимые технологии, а как взаимосвязанные регуляторы, зависящие от задачи. AMFT вводит **мета-градиентный адаптивный контроллер**, который анализирует и динамически создает веса для SFT и RL, максимизируя не только производительность, но и стабильность. Особенностью метода является ввод **политии энтропии** для повышения стабильности тренировочного процесса, что позволяет модели автоматически выбирать наиболее подходящую стратегию в зависимости от специфических входных данных. Данная архитектура гарантирует оптимальный режим тренировки и сохраняет достаточную гибкость для решения OOD-задач. ## Результаты Мы проводим эксперименты на трех основных типах задач: математическом рассуждении, визуальном рассуждении (в том числе General Points) и взаимодействии с визуальными средами (V-IRL). В результате, AMFT демонстрирует значительные улучшения по сравнению с другими существующими методами. Мы исследуем эффективность мета-контроллера и производительность модели в многостадийных ситуациях. Эксперименты показывают, что AMFT не только повышает общую производительность, но и демонстрирует более стабильные результаты в нестандартных ситуациях. Анализ динамики обучения подтверждает, что мета-контроллер не только улучшает скорость обучения, но и помогает модели избегать потерь связанных с катастрофическим забыванием. ## Значимость AMFT демонстрирует потенциал для использования в широком
Annotation:
Large Language Models (LLMs) are typically fine-tuned for reasoning tasks through a two-stage pipeline of Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL), a process fraught with catastrophic forgetting and suboptimal trade-offs between imitation and exploration. Recent single-stage methods attempt to unify SFT and RL using heuristics, but lack a principled mechanism for dynamically balancing the two paradigms. In this paper, we reframe this challenge through the theoretical ...
ID: 2508.06944v2 cs.LG, cs.AI, cs.CL, cs.CV
Авторы:

Zhenpeng Su, Leiyu Pan, Xue Bai, Dening Liu, Guanting Dong, Jiaming Huang, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou

## Контекст Модель рассуждений с длинным цепным соображением (long Chain-of-Thought, long CoT) является ключевым инструментом для решения сложных задач, требующих логического и последовательного мышления. Однако существует ряд проблем в области инноваций в этих моделях, включая неполное раскрытие деталей обучения, что ограничивает возможность воспроизведения высокопроизводительных моделей. Более того, существуют проблемы с текущими механизмами ограничения (clipping) в технике оптимизации с подкреплением (reinforcement learning, RL), такие как подавление критических сигналов эксплорирования и игнорирование неоптимальных траекторий. Эти проблемы способствуют неэффективности моделей в обучении с учителем и расширении их возможностей. ## Метод Klear-Reasoner представляет собой модель с логическим рассуждением, основанную на полной видимости процесса обучения. Методы включают: 1. **Длинное Chain-of-Thought Supervised Fine-Tuning (long CoT SFT):** Эта техника использует выборку высококачественных данных, чтобы тренировать модель на расстановке последовательности соображений. 2. **Reinforcement Learning with Gradient-Preserving Clipping Policy Optimization (GPPO):** Эта оптимизационная политика использует градиентные сигналы, проходящие через отсеченные токены, что позволяет улучшить эффективность модели при работе с неоптимальными траекториями. 3. **Абляционные исследования:** Эксперименты проводились для оценки каждого элемента рабочего процесса, включая различные варианты данных и методов оптимизации. ## Результаты Klear-Reasoner показала впечатляющие результаты в нескольких бенчмарках: 90.5% на AIME 2024, 83.2% на AIME 2025, 66.0% на LiveCodeBench V5 и 58.1% на LiveCodeBench V6. Эта модель отличается своей способностью логически соображать и решать проблемы в области математики и программирования. Анализ показал, что сборка высококачественных данных для SFT лучше воспроизводит высокую производительность, чем объемные данные, а GPPO повышает модельную эффективность в обучении на неоптимальных траекториях. ## Значимость Klear-Reasoner имеет широкие перспективы применения в области интеллектуальных технологий, в том числе в образовательных системах, прогнозировании и решении задач, требующих высокой логической способности. Ее преимущество в том, что она может обучаться более эффективно, используя меньше ресурсов, чем другие модели. Будущие исследования будут нацелены на расширение этих технологий на другие задачи, а также на повышение точности и эффективности решений. ## Выводы Klear-Reasoner доказала свою высокую эффективность в решении задач, требующих длинных рассуждений. Она способна обучаться более эффективно, благодаря GP
Annotation:
We present Klear-Reasoner, a model with long reasoning capabilities that demonstrates careful deliberation during problem solving, achieving outstanding performance across multiple benchmarks. Although there are already many excellent works related to inference models in the current community, there are still many problems with reproducing high-performance inference models due to incomplete disclosure of training details. This report provides an in-depth analysis of the reasoning model, covering...
ID: 2508.07629v2 cs.LG, cs.AI, cs.CL
Авторы:

Ihor Stepanov, Mykhailo Shtopko, Dmytro Vodianytskyi, Oleksandr Lukashov, Alexander Yavorskyi, Mykyta Yaroshenko

#### Контекст Классификация является одной из самых распространенных задач в искусственном интеллекте, используемой для фильтрации, сортировки и категоризации данных. В современных AI-системах, обрабатывающих огромные объемы входных данных, ключевым требованием является высокая точность и эффективность. Это становится особенно важной для раннего этапа ввода, где ошибки могут повлиять на всю последующую обработку. Динамические изменения потребностей пользователей подчеркивают необходимость моделей с сильными zero-shot и few-shot способностями. Хотя генеративные модели типа LLMs стали стандартом для zero-shot классификации благодаря их гибкости, они страдают от непоследовательного поведения и высокой вычислительной сложности. Cross-encoders, широко используемые в RAG-решениях, страдают от высокой сложности обработки больших наборов меток. Эмбеддинг-базисные способы эффективны, но в трудных сценариях с логическими и семантическими ограничениями часто ограничиваются. Мы предлагаем GLiClass — метод, основанный на GLiNER, который адаптирован для последовательной классификации. Он обеспечивает высокую точность и эффективность, не per-token-based, что позволяет ему сочетать гибкость zero-shot с эффективностью. #### Метод GLiClass основывается на GLiNER (Global-Local Interaction-based NER), архитектуре, которая использует маркированные токены для глобальной интеракции и локальных линейных моделей для семантического сжатия. Для классификации последовательностей мы преобразуем задачу в серию NER-подобных подзадач, используя маркированные токены для всех классов в тренировочных данных. Это позволяет модели воспринимать все вероятности классов в каждом токене как новый мета-класс. Мы также внедрили PPO для обучения моделей с помощью human-in-the-loop, что улучшает качество в случае недостатка данных. Таким образом, GLiClass выполняет сравнение между текстом и мета-классами в целом, что позволяет получать устойчивые и точные результаты в разных условиях. #### Результаты Мы провели эксперименты на нескольких популярных датасетах (AGNews, DBPedia) и сравнили GLiClass с LSTM, Transformer, cross-encoders и embedding-based моделями. Говоря об эффективности, GLiClass показал почти одинаковую точность с моделями типа embedding-based, но с значительно более высокой скоростью. Он также демонстрирует сильные результаты при few-shot обучении, превосходя другие архитектуры в сценариях с недостатком данных. Более того, PPO-обучение демонстрирует его устойчивость в сценариях с необходимостью обучения на основе корпоративного опыта или руководства пользователя. #### Значимость GLiClass может использоваться в широком кругу приложений, включая рекомендательные систем
Annotation:
Classification is one of the most widespread tasks in AI applications, serving often as the first step in filtering, sorting, and categorizing data. Since modern AI systems must handle large volumes of input data and early pipeline stages can propagate errors downstream, achieving high efficiency and accuracy is critical. Moreover, classification requirements can change dynamically based on user needs, necessitating models with strong zero-shot capabilities. While generative LLMs have become mai...
ID: 2508.07662v1 cs.LG, cs.AI, cs.CL
Авторы:

Haowen Wang, Yun Yue, Zhiling Ye, Shuowen Zhang, Lei Fan, Jiaxin Liang, Jiadi Jiang, Cheng Wei, Jingyuan Deng, Xudong Han, Ji Li, Chunxiao Guo, Peng Wei, Jian Wang, Jinjie Gu

## Контекст Одним из ключевых направлений развития языковых моделей является улучшение их возможностей алигментации. Это позволяет моделям лучше понимать и воспроизводить человеческие предпочтения в различных контекстах. Существующие подходы, такие как супервизованная тонкая настройка (SFT) и оптимизация политики с использованием опыта (PPO), имеют свои ограничения. SFT обеспечивает высокую точность, но не может эффективно адаптироваться к новым задачам. PPO, в свою очередь, предлагает более гибкий подход, но требует большого объема вычислительных ресурсов и высококачественных основных моделей. Эти ограничения поднимают вопрос о создании более универсального и эффективного подхода к алигментации. ## Метод Мы предлагаем **GRAO (Group Relative Alignment Optimization)** — унифицированный фреймворк, который объединяет сильные стороны SFT и RL. Фундаментальной идеей является использование **групповой оценки качества** и **относительной алигментации**. Метод включает следующие ключевые компоненты: 1. **Множественное генерирование сравнительного анализа**: модель генерирует несколько вариантов ответов и сравнивает их с помощью внешнего рейтинга, чтобы определить качество. 2. **Новая формула Group Direct Alignment Loss**: включает в себя весовую оценку внутригрупповых отношений, чтобы улучшить точность. 3. **Управление параметрами с учетом справочных данных**: адаптирует модель на основе параметров, которые учитывают предпочтения пользователя в динамическом режиме. Теоретические обоснования подтверждают, что GRAO обеспечивает более эффективную оптимизацию и высокую точность в сравнении с существующими методами. ## Результаты Мы провели эксперименты на множестве задач, включая комплексные задачи выравнивания на основе человеческих оценок. GRAO показал следующие результаты по сравнению с базовыми подходами: - **SFT**: 57.70% дополнительное улучшение в выполнении задач. - **DPO**: 17.65% улучшение в точности. - **PPO**: 7.95% уменьшение времени обучения. - **GRPO**: 5.18% увеличение эффективности. Эти результаты подтверждают эффективность GRAO в решении задач, где требуется быстрая и точная алигментация. ## Значимость GRAO может применяться в таких областях, как диалоговые системы, трансляторы и системы поиска информации. Он обеспечивает: - Более эффективную алигментацию за счет интеграции лучших аспектов SFT и RL. - Улучшенную точность и ресурсоснимаемость, что делает его привлекательным для реальных приложений. - Устойчивость к новым задачам без необходимости частых дорогостоящих тюнингов. ## Выводы GRAO
Annotation:
Alignment methodologies have emerged as a critical pathway for enhancing language model alignment capabilities. While SFT (supervised fine-tuning) accelerates convergence through direct token-level loss intervention, its efficacy is constrained by offline policy trajectory. In contrast, RL(reinforcement learning) facilitates exploratory policy optimization, but suffers from low sample efficiency and stringent dependency on high-quality base models. To address these dual challenges, we propose GR...
ID: 2508.07750v1 cs.LG, cs.AI, cs.CL
Авторы:

Qiang He, Setareh Maghsudi

#### Контекст Large language models (LLMs) в настоящее время широко применяются в реальных сценариях, требующих оптимального баланса между несколькими часто противоречащимися целями, такими как информативность и краткость или полезность и творчество. Однако существующие методы выравнивания LLMs, основанные на reinforcement learning from human feedback (RLHF), оптимизируют модели только по отношению к одной функции награды. Это приводит к довольно жесткому поведению модели, которое не может учесть сложность и разнообразие человеческих предпочтений. Это ограничение снижает гибкость и адаптивность LLMs в реальной жизни, делая необходимым развитие методов многоцелевого выравнивания (MOA). Мы предлагаем Pareto Multi-Objective Alignment (PAMA) — новую, эффективную методологию, которая преобразует задачу многоцелевого оптимизационного RLHF в задачу системы концентрических точек. Это позволяет получать более универсальное и гибкое взаимодействие модели с пользователем. #### Метод PAMA является алгоритмом, основанным на системе концентрических точек, которая достигается за счет преобразования задачи многоцелевого RLHF в задачу аддитивной награды. Она использует технику спроецированного градиентного спуска, которая позволяет достичь высокой скорости расчета. Метод PAMA гарантирует совпадение с решениями многоцелевой оптимизации (MOO), но с меньшим количеством вычислительных ресурсов. Теоретически, PAMA будет работать, пока не будет достигнута точка парето, где ни одну функцию нельзя улучшить без ухудшения другой. Это гарантирует баланс между целями модели. Мы проверяли PAMA по размерам моделей от 125M до 7B параметров, и он показывал высокую эффективность и гибкость в решении MOA проблемы. #### Результаты Мы провели эксперименты с PAMA на моделях с различными размерами параметров, включая 125M, 350M, 1.3B и 7B. Результаты показали, что PAMA эффективно решает задачу многоцелевого выравнивания, создавая балансированные модели, которые соответствуют различным целям пользователей. Наши эксперименты подтвердили, что PAMA не только значительно эффективнее существующих MOO-методов, но и способен быстро решать задачи на больших моделях. В результате, PAMA демонстрирует свою эффективность в живых сценариях, где необходимо быстрое решение MOA-задач. #### Значимость PAMA предлагает новый подход к решению проблемы многоцелевого выравнивания в LLMs, который может быть применен во многих реальных сценариях, где необходимы совместимые решения для нескольких целей. Решение PAMA позволяет использовать модели более гибко, увеличивая их применение в сферах, таких ка
Annotation:
Large language models (LLMs) are increasingly deployed in real-world applications that require careful balancing of multiple, often conflicting, objectives, such as informativeness versus conciseness, or helpfulness versus creativity. However, current alignment methods, primarily based on RLHF, optimize LLMs toward a single reward function, resulting in rigid behavior that fails to capture the complexity and diversity of human preferences. This limitation hinders the adaptability of LLMs to prac...
ID: 2508.07768v1 cs.LG, cs.AI, cs.CL
Показано 251 - 260 из 278 записей