📚 Саммари научных статей из arXiv

Найдено 370 результатов по запросу 'cs.CL, cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Self-Speculative Biased Decoding for Faster Live Translation

2025-09-30

Авторы:

Linxiao Zeng, Haoyun Deng, Kangyuan Shu, Shizhen Wang

## Контекст Стремительный развитость технологий и рост интереса к многоязычным платформам позволили вступить в новую эру в области текстовой генерации и перевода. Large Language Models (LLMs) доказали свою выдающуюся мощь в различных текстовых задачах. Однако их применение в реальном времени, например в live translation, становится значительным техническим вызовом. Требования к высокой точности и минимальной задержке накладывают труднотипизируемые ограничения на модели. Эти ограничения становятся актуальными в streaming applications, где требуется непрерывное обновление текста в реальном времени, опираясь на постоянно растущий входной контекст. Разработка методов, которые обеспечат высокую производительность без компромиссов в отношении качества, является ключевым мотивом для дальнейших исследований. ## Метод Self-Speculative Biased Decoding — это новая парадигма для Decoding, разработанная для ускорения live translation. Основная идея заключается в использовании наиболее свежего выхода модели как "черновика" для выхода в текущем контексте. Этот "черновик" проверяется на соответствие, и если он проходит, он принимается без повторных вычислений. Этот подход минимизирует "фликаринг" (смены текста), что улучшает удобочитаемость, и оказывает влияние на увеличение скорости вывода. Изначально, модель продолжает работу после проверки, используя существующие механизмы до тех пор, пока не будет достигнуто условие завершения трансляции. Отличие от других спекулятивных алгоритмов заключается в том, что данный подход не требует создания черновика, что делает его модельно-независимым и легко интегрируемым в различные модели. ## Результаты Проведены эксперименты на задаче simultaneous text-to-text re-translation. Результаты показали, что Self-Speculative Biased Decoding увеличивает скорость вывода до 1.7x в сравнении с традиционными авторегрессионными методами, не ухудшая качество трансляции. Наблюдался существенный снижение ритмичности текста на 80% при использовании метода mask-k, который ограничивает отображение только необходимого текста. Этот подход оказался эффективным в сокращении количества редактирований, что положительно сказалось на качестве пользовательского опыта. ## Значимость Предлагаемый подход представляет собой значительный шаг вперед в области real-time NLP applications. Он не только ускоряет процесс перевода, но и улучшает качество взаимодействия с пользователем, выступая в качестве модельно-независимой и простой в интеграции системы. Этот метод может быть применен в таких областях, как автоматический перевод, ассистенты на основе NLP, и другие стриминговые приложения, где нужно быстро обрабатывать и преобразовывать текст. В будущем, данный подход может быть расширен для включ

Annotation:

Large Language Models (LLMs) have recently demonstrated impressive capabilities in various text generation tasks. However, it remains challenging to use them off-the-shelf in streaming applications (such as live translation), where the output must continually update as the input context expands, while still maintaining a reasonable computational cost to meet the latency requirement. In this work, we reexamine the re-translation approach to simultaneous translation and propose Self-Speculative ...

ID: 2509.21740v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

2025-09-30

Авторы:

Thanh-Long V. Le, Myeongho Jeon, Kim Vu, Viet Lai, Eunho Yang

## Контекст В последние несколько лет Large Language Models (LLMs) стали одним из ключевых инструментов в процессе улучшения умственных способностей и решения различных задач. Однако их применение к задачам, требующим высокой точности и реакции на логические ошибки, остается трудной задачей. Этот факт мотивирует развитие фреймворков, позволяющих улучшить логические способности LLMs, в частности с использованием reinforcement learning (RL). Одна из проблем в этой области — неэффективное использование отрицательных ответов в RL, в частности, zero-variance prompts, которые не оказывают достаточного влияния на обучение. Такие проблемы влекут за собой предметно-специфический характер и мотивируют разработку новых подходов. ## Метод В этой работе предлагается новый подход для использования zero-variance prompts в RL с использованием LLMs. Методология основывается на RL with Zero-Variance Prompts (RL-ZVP), который использует сигналы из zero-variance prompts для правильных решений. Алгоритм RL-ZVP реализует преобразования на уровне токенов, чтобы извлечь тонкую, информативную информацию из синхронных ответов на проблемы. Эта архитектура включает модификацию функции вознаграждения и преобразование отрицательных сигналов в полезные для обучения. Таким образом, RL-ZVP может извлекать значимость даже из "неинформативных" ответов. ## Результаты Проведенные эксперименты демонстрируют высокую эффективность RL-ZVP на шести математических бенчмарках. Алгоритм показал улучшение до 8.61% в точности и до 7.77% в пройденных тестах по сравнению с GRPO. Кроме того, RL-ZVP оказался выигрышным в сравнении с другими методами, подходящими к обработке zero-variance prompts. Эти результаты подтверждают полезность использования zero-variance prompts в RLVR. ## Значимость Результаты этой работы имеют значительное значение для развития RL с LLMs в сфере математических и логических задач. Использование zero-variance prompts позволяет извлекать полезные сигналы для обучения, даже в тех случаях, когда ответы на входные данные не отличаются. Это может привести к улучшению логических способностей LLMs в области решения задач, требующих высокой точности и логической корректности. Таким образом, RL-ZVP может быть применен в различных приложениях, где необходимо работать с высокоточными данными. ## Выводы Результаты работы RL-ZVP подтверждают значимость использования zero-variance prompts в RLVR для улучшения логических способностей LLMs. Будущие исследования будут сосредоточены на расширении этого подхода на другие задачи, необходимые для улучшения глубиного разума LLMs. Эти разработки могут способствовать улучшению технологий, использующихся в области машинного обучения, логического тестирования и систем управ

Annotation:

Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful framework for improving the reasoning abilities of Large Language Models (LLMs). However, current methods such as GRPO rely only on problems where the model responses to the same input differ in correctness, while ignoring those where all responses receive the same reward - so-called zero-variance prompts. In this work, we argue that such prompts are not useless but can, in fact, provide meaningful feedback for policy optimizati...

ID: 2509.21880v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Elastic MoE: Unlocking the Inference-Time Scalability of Mixture-of-Experts

2025-09-30

Авторы:

Naibin Gu, Zhenyu Zhang, Yuchen Feng, Yilong Chen, Peng Fu, Zheng Lin, Shuohuan Wang, Yu Sun, Hua Wu, Weiping Wang, Haifeng Wang

#### Контекст Микстура экспертов (Mixture-of-Experts, MoE) — это модель глубокого обучения, широко применяемая в задачах классификации и регрессии. В рамках этой модели выделяются несколько экспертов, каждый из которых специализируется на разных подзадачах. Однако во время обучения и инференса активируется только ограниченное число экспертов. Несмотря на очевидную идею, что увеличение числа активированных экспертов при инференсе должно улучшить качество модели, на практике это приводит к деградации результатов, которая происходит из-за несостоятельного обучения экспертов к оптимальной синергии. Это ограничение ставит под сомнение эффективность MoE в высокомасштабных сценариях. Наша мотивация заключается в развитии нового подхода, который позволит эффективно развивать модель MoE во время инференса, не прибегая к дополнительному обучению. #### Метод Мы предлагаем Elastic Mixture-of-Experts (EMoE) — новую методологию, которая расширяет возможности MoE за счет увеличения числа активированных экспертов на этапе инференса. Метод EMoE включает два ключевых элемента: 1. **Синергическое обучение экспертов**: эксперты обучаются так, чтобы оптимально работать не только в изоляции, но и в сочетании с другими экспертами. Это достигается путем введения дополнительных функционалов в учебный процесс, которые стимулируют коммуникативность экспертов. 2. **Улучшение механизма маршрутизации (Router)**: мы внедрили дополнительные меры, нацеленные на повышение качества выбора экспертов во время инференса. Это позволяет модели более точно адаптироваться к различным задачам и вычислительным ограничениям. #### Результаты Мы провели эксперименты на различных данных, включая образцы из реальных задач классификации и регрессии. Наша модель EMoE показала возможность расширения диапазона мощности модели при инференсе до 2-3 раз по сравнению с обучающим режимом. Это было достигнуто без ухудшения качества или увеличения обучающего времени. Также было проведено сравнение с другими моделями MoE, включая стандартный алгоритм, в котором при инференсе можно активировать больше экспертов. Наши результаты показали, что EMoE обеспечивает стабильно высокое качество и более широкий диапазон эффективности. #### Значимость EMoE открывает новые горизонты для применения MoE в высокомасштабных сценариях. Она позволяет эффективно использовать ресурсы вычисления во время инференса, не ухудшая качество решения задачи. Это может быть применено в сферах, где требуется высокая точность модели, но при этом есть ограничения на вычислительные мощности. Например, в мобильных приложениях или реальном времени, где быстродействие критич

Annotation:

Mixture-of-Experts (MoE) models typically fix the number of activated experts $k$ at both training and inference. Intuitively, activating more experts at inference $k'$ (where $k'> k$) means engaging a larger set of model parameters for the computation and thus is expected to improve performance. However, contrary to this intuition, we find the scaling range to be so narrow that performance begins to degrade rapidly after only a slight increase in the number of experts. Further investigation rev...

ID: 2509.21892v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Transformers Can Learn Connectivity in Some Graphs but Not Others

2025-09-30

Авторы:

Amit Roy, Abulhair Saparov

## Контекст В последние годы трансформеры стали одной из самых популярных архитектур в области машинного обучения, особенно в сфере генерирования текста и обработки естественного языка. Одна из их ключевых сильных сторон — возможность выделять и обрабатывать зависимости в данных. Несмотря на это, их поverие в логических задачах, таких как распознавание транзитивных отношений, остается темной площадью. Транзитивные отношения — это отношения, которые можно вывести из других отношений, например, если известно, что "A вызывает B" и "B вызывает C", то "A вызывает C". Интерес к этой области возникает из-за важности логического разума для систем, которым требуется принятие обоснованных решений. Однако имеются ограничения в способности трансформеров решить такие задачи, особенно при работе с большими и неструктурированными данными. Это исследование фокусируется на рассмотрении способности трансформеров распознавать транзитивные отношения в различных типах графов. ## Метод Для изучения способности трансформеров распознавать транзитивные отношения были использованы директивные графы, которые представляют собой сетки (grid) с разным числом узлов и различной структурой связей. Сетки были сгенерированы в разных размерах, что позволило оценить возможности трансформеров в зависимости от размера и сложности графа. Были изучены модели различных размеров, чтобы провести сравнение моделей с меньшим и большим числом параметров. Для каждой модели был проведен тренировочный процесс, где модели получали графы в качестве входных данных, и тестировочный процесс, где они стремились извлечь транзитивные отношения. На основе этих экспериментов был проведен анализ показателей обучения и обобщения моделей. ## Результаты Результаты исследования показали, что трансформеры могут успешно учить и применять транзитивные отношения на "равномерных" графах вида сетка (grid), где каждый узел может быть вложен в низкоразмерное подпространство, а транзитивность легко выводится из позиций узлов. Такие графы хорошо соответствуют трансформерским моделям, которые способны обнаруживать такие структуры в данных. Однако, когда графы имели более сложную структуру, включая разбиение на отдельные компоненты, у трансформеров возникали серьезные трудности. Это особенно приметно при работе с большими графами, которые содержат много несоединенных компонент. Было также выявлено, что увеличение размера модели приводит к лучшей модели общей силы и полноте в области графов-сетей. ## Значимость Результаты экспериментов имеют важно

Annotation:

Reasoning capability is essential to ensure the factual correctness of the responses of transformer-based Large Language Models (LLMs), and robust reasoning about transitive relations is instrumental in many settings, such as causal inference. Hence, it is essential to investigate the capability of transformers in the task of inferring transitive relations (e.g., knowing A causes B and B causes C, then A causes C). The task of inferring transitive relations is equivalent to the task of connectiv...

ID: 2509.22343v1 cs.CL, cs.AI, cs.LG, cs.LO

arXiv PDF

📄 Evaluating the Limits of Large Language Models in Multilingual Legal Reasoning

2025-09-30

Авторы:

Antreas Ioannou, Andreas Shiamishis, Nora Hollenstein, Nezihe Merve Gürel

## Контекст В последние годы широко распространение получили бо Large Language Models (LLMs), которые используются в различных областях, включая правовое дело. Несмотря на высокую точность LLMs в задачах универсального текстового понимания, таких как XNLI, их качество в задачах специальной сферы, такой как правовой рассуждений (legal reasoning), остается неоднозначным. Это объясняется тем, что LLMs часто не подстраиваются под многоязычную среду, различные правовые системы и ситуации, где нужна индивидуальная оценка аргументов и доказательств. Это проблема особенно актуальна в случае адверсарских техник, где текст может быть взвешенно изменен для достижения ложного результата. Исследование этих ограничений важно для понимания потенциала и ограничений LLMs в критически важных областях, таких как право, где ценность точности и достоверности высока. ## Метод Для исследования моделей LLaMA и Gemini использована модульная оценочная архитектура, позволяющая проводить эксперименты с различными сетями и данными. Основными техническими решениями были: 1. **LLM-as-a-Judge**: подход, в котором модель работает как судья, принимая решения, корректность которых оценивается человеком. 2. **Multilingual Benchmarking Pipeline**: система, позволяющая проводить задачи, включая классификацию, суммирование текстов, открытые вопросы и общий рассуждающий анализ. 3. **Adversarial Testing**: использование методов, таких как внесение характеристичных перестроек текста (character-level и word-level perturbations), для проверки устойчивости моделей к адверсарским методам. Для экспериментов использовались две модели: LLaMA и Gemini. Данные включали как юридические, так и неюридические тексты, а данные для юридических задач были взяты из LEXam-benchmark. ## Результаты Оценка LLaMA и Gemini показала, что точность LLMs в задачах юридического рассуждения значительно ниже, чем в общих текстовых задачах. Например, LLaMA показала точность 40-45% на LEXam, в то время как на XNLI точность была выше 70%. Gemini показала значительно более высокую точность, средний прирост составил около 24% в сравнении с LLaMA. Проанализировав результаты, было выявлено, что локальные особенности языка, такие как синтаксическая схожесть с английским, влияют на качество моделей. Также была отмечена высокая сенситивность LLMs к предложенным запросам (prompt design), что может привести к нестабильным результатам. Была также установлена важность адверсарских методов, таких как замена символов и слов, которые могут привести к недооценке или переоценке результатов в задачах юридического рассуждения. ## Значимость Полученные результаты показывают, что, несмотря на развитие LLMs, в обла

Annotation:

In an era dominated by Large Language Models (LLMs), understanding their capabilities and limitations, especially in high-stakes fields like law, is crucial. While LLMs such as Meta's LLaMA, OpenAI's ChatGPT, Google's Gemini, DeepSeek, and other emerging models are increasingly integrated into legal workflows, their performance in multilingual, jurisdictionally diverse, and adversarial contexts remains insufficiently explored. This work evaluates LLaMA and Gemini on multilingual legal and non-le...

ID: 2509.22472v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 StateX: Enhancing RNN Recall via Post-training State Expansion

2025-09-30

Авторы:

Xingyu Shen, Yingfa Chen, Zhen Leng Thai, Xu Han, Zhiyuan Liu, Maosong Sun

## Контекст Появление трансформер-базированных моделей стало ключевым моментом в развитии естественного языкового процессинга. Они предлагают выдающиеся результаты во многих задачах, но работа с длинными контекстами остается вызовом из-за их высокой сложности. Альтернативой могут служить реCURRENT neural networks (RNNs), которые обладают постоянной стоимостью обработки токена, что делает их более эффективными для обработки длинных последовательностей. Однако, RNNs сталкиваются с проблемами в точной запоминании данных из длинных контекстов, так как вся информация компрессирована в состояние размера константы. Ранее установлено, что увеличение размера состояния может улучшить recall, но прямой увеличением размера состояния во время обучения связаны высокие затраты. В данной работе мы предлагаем StateX, мощную методологию для эффективного расширения состояний RNNs в рамках пост-обучения. ## Метод StateX представляет собой новую архитектуру для пост-обучения RNNs, которая увеличивает размер состояния без необходимости масштабирования модели. Для линейной аттенции и моделей state space, основной инновацией является расширение рекуррентного состояния через добавление постоянного размера, не прибегая к изменению оптимизации модели. Метод эффективно использует готовые предварительно обученные модели, способствуя повышению их recall-возможностей, не создавая дополнительный финансовый нагрузки или ухудшая другие параметры модели. Это предлагает новый подход к улучшению RNNs, затрагивая их глубину запоминания. ## Результаты Мы проводили эксперименты на популярных рекуррентных моделях, таких как linear attention и state space models, с параметрами до 1.3 миллиардов. Результаты показали, что StateX существенно улучшает recall-возможности в задачах типа in-context learning, когда задачи требуют аккуратной запоминании данных последовательностей. Эксперименты рефлектировали не только на повышение точности решения задач, но и на сохранение стоимости обучения и других качественных параметров. Эти результаты подтверждают эффективность StateX в масштабировании RNNs с минимальными издержками. ## Значимость StateX открывает два главных направления для применения. Во-первых, он позволяет использовать RNNs в задачах, требующих высокой точности восприятия контекста, таких как трансляторы и синтезаторы текста. Во-вторых, он предлагает платформу для улучшения существующих RNN-моделей без необходимости дополнительных ресурсов. Этот подход имеет потенциал для снижения затрат на обучение и улучшения вычислительной эффективности в области естественного языкового процессинга. ## Выводы Мы представили StateX, эффективное решение для улучшения

Annotation:

While Transformer-based models have demonstrated remarkable language modeling performance, their high complexities result in high costs when processing long contexts. In contrast, recurrent neural networks (RNNs) such as linear attention and state space models have gained popularity due to their constant per-token complexities. However, these recurrent models struggle with tasks that require accurate recall of contextual information from long contexts, because all contextual information is compr...

ID: 2509.22630v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Variational Reasoning for Language Models

2025-09-30

Авторы:

Xiangxin Zhou, Zichen Liu, Haonan Wang, Chao Du, Min Lin, Chongxuan Li, Liang Wang, Tianyu Pang

#### Контекст Современные языковые модели (LLMs) проявляют некоторую степень рациональности в своих ответах, но их внутренний порядок мыслей часто остается неясным. Это ограничивает их применимость в областях, где подробный анализ и видимая работа модели критичны. Одним из ключевых задач, связанных с этим, является **рациональное обдумывание решений**. Оно ключевой инструментом для построения моделей, которые не только дают правильный ответ, но и объясняют его, показывая логический порядок мышления. Несмотря на развитие методологий, таких как RL-обучение с гуманским обратным вкладом (Human-in-the-Loop Reinforcement Learning), остаются сложности с тем, чтобы обеспечить стабильность и эффективность. Наша работа ставит цель проанализировать и улучшить рациональное принятие решений в LLMs с помощью вариационного метода. #### Метод Мы предлагаем **Variational Reasoning Framework**, в котором рациональное мышление трактуется как ло LLRsчистое скрытое состояние. **Вариационный подход** используется для оптимизации этого состояния. Мы выводим **multi-trace objective**, расширяющий исходный запасной критерий вариационного оптимизации (ELBO), предлагая более строгий верхний предел для функции правдоподобия. Для стабилизации обучения вариационной оценки мы предлагаем **forward-KL-formulation**. Более того, мы показываем, как **rejection sampling fine-tuning** и **binary-reward RL** (например, Generalized Recursive Policy Optimization, GRPO) могут быть рассмотрены в рамках forward-KL и что они включают в себя неявное взвешивание по вероятности корректности ответа. Это позволяет обнаружить и компенсировать некоторые биазы модели в пользу простых задач. #### Результаты Мы проводим эксперименты на моделях Qwen 2.5 и Qwen 3, оценивая их рациональное мышление по множеству задач. Вариационное рациональное мышление позволяет повысить точность ответов и обеспечить более логически последовательные объяснения. Мы сравниваем наши результаты с ранее предложенными методами, показывая стабильную выгоду во всех задачах, связанных с рациональным решением. Особенно заметны улучшения в задачах, требующих глубокой логической интерпретации. #### Значимость Наша работа предоставляет **простой, универсальный и эффективный подход** к улучшению рационального мышления в языковых моделях. Она может быть применена в различных областях, включая **медицинские выводы**, **финансовый анализ** и **юридический экспертиза**, где понятность и ответственность модели критичны. Кроме того, предлагаемый подход объединяет **вариационные методы с RL**, что позволяет улучшить обучение и применение моделей в сложных задачах. Мы также открываем исходный код нашей работы, чтобы позволить другим иссле

Annotation:

We introduce a variational reasoning framework for language models that treats thinking traces as latent variables and optimizes them through variational inference. Starting from the evidence lower bound (ELBO), we extend it to a multi-trace objective for tighter bounds and propose a forward-KL formulation that stabilizes the training of the variational posterior. We further show that rejection sampling finetuning and binary-reward RL, including GRPO, can be interpreted as local forward-KL objec...

ID: 2509.22637v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Language Models Can Learn from Verbal Feedback Without Scalar Rewards

2025-09-30

Авторы:

Renjie Luo, Zichen Liu, Xiangyan Liu, Chao Du, Min Lin, Wenhu Chen, Wei Lu, Tianyu Pang

#### Контекст Современные текстовые генерирующие модели (LLMs) обычно учитывают результаты обучения на основе реальных знаний или полученных с помощью AI-фидбека. Несмотря на прогрессы в области глубокого обучения, методы художественного обучения (RL) часто сокращают богатые знания (вроде текстовых отзывов) в масштабируемые (scalar) награды, что может сбить баланс, искажая скрытые сигналы. Это приводит к ухудшению качества генерируемых ответов. Наша работа позиционируется как альтернативный подход, который использует словарные отзывы как условия (кондиционированные значения), не редуцируя их до масштабов, а расширяя систему для понимания и учета большего количества сигналов. #### Метод Мы предлагаем новую модель, названную **Feedback-Conditional Policy (FCP)**, которая обучается на отзывах в текстовом формате. Метод основывается на принципах текстового понимания и применяет механизмы генерируемых моделей, позволяя модели LLM не только "читать" отзывы, но и использовать их в качестве тренировочного сигнала во время обучения. Мы вводим два этапа: **offline training**, где модель учится на основе пар отзывов/реакций, и **online bootstrapping**, в котором модель сама создает ответы в условиях положительных отзывов, получая фидбек в реальном времени. Этот подход переименовывает фидбек-ориентированное обучение в термины генерируемого текста, давая модели LLM более широкие возможности для интерактивного обучения. #### Результаты Мы проверили работу нашей модели на нескольких наборах текстовых данных, включая обучение с отзывы-реакции, созданные специально для этого. В результате показали, что новая модель демонстрирует лучшую способность изучить и использовать отзывы, в том числе с разным тематическим контентом и сложностью. Мы сравнили нашу модель с другими подходами, использующими scalar-based RL. Наши результаты показывают, что FCP не только показывает вышеуровневую точность, но и способна генерировать более выразительные ответы, которые учитывают подробности и контекст отзывов. #### Значимость Наша работа открывает новые возможности для LLM, позволяя им учиться непосредственно от языковых отзывов без необходимости использовать корреляции с масштабированием наград. Это повышает их применение в сценариях, где требуется более точное и личностное понимание отзывов, например: - Развитие диалоговых систем; - Генерация текстов с учетом конкретных пользовательских предпочтений; - Обучение моделей для работы в тематических областях (например, медицина или юриспруденция), где нужен точный контекст. #### Выводы Мы показали, что модель FCP предлагает более гиб

Annotation:

LLMs are often trained with RL from human or AI feedback, yet such methods typically compress nuanced feedback into scalar rewards, discarding much of their richness and inducing scale imbalance. We propose treating verbal feedback as a conditioning signal. Inspired by language priors in text-to-image generation, which enable novel outputs from unseen prompts, we introduce the feedback-conditional policy (FCP). FCP learns directly from response-feedback pairs, approximating the feedback-conditio...

ID: 2509.22638v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards

2025-09-27

Авторы:

Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Ellie Evans, Daniel Egert, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev

#### Контекст После подготовки моделей генеративного искусственного интеллекта (LLM) через обучение с подкреплением (RL) возникают проблемы, связанные с недостатком четкости в применении человеческого руководства и ограниченностью моделей верификации. Художественные работы, основанные на рейтингах пользователей, подвержены ошибкам в понимании и риску "наградного хакинга", тогда как модели, основанные на верификации, способны только решать задачи, определенные явными правилами. Мы предлагаем метод, который комбинирует эти подходы, используя жесткие правила для бинарных задач (например, точности ответа или читаемости кода), а также гибкие предпочтения пользователей для широкого спектра других аспектов качества. #### Метод Мы предлагаем Reinforcement Learning with Binary Flexible Feedback (RLBFF). Метод использует жесткие правила для обработки бинарных вопросов (например, "корректность ответа — да или нет") и создает бинарные признаки, которые включаются в наградную модель. Эти признаки обучаются как задачи интерпретации естественного языка, где ответы заключаются в одном из двух классов (да/нет). Мы также расширяем это подход, позволяя пользователю выбирать признаки важности во время инференции. Архитектура нашей модели строится на потоке задач, где каждая задача оценивает отдельный аспект качества ответа, а результаты объединяются в общую награду. #### Результаты Мы проводили эксперименты с использованием широкого спектра тестов и данных, включая RM-Bench, JudgeBench и MT-Bench. Модели, обученные с помощью RLBFF, показали значительное улучшение по сравнению с аналогичными модели, обученными с помощью Bradley-Terry модели. Например, на RM-Bench наши результаты достигли 86.2%, тогда как на JudgeBench — 81.4% (на момент написания статьи мы занимали первое место в рейтинге). Мы также показали, что модели могут быть тонкино настроены на конкретные пользовательские признаки, что дает дополнительное преимущество перед статичными моделями. #### Значимость Метод RLBFF может применяться в различных областях, где требуется качественная оценка текстов, таких как создание контента, верификация кода и другие задачи, требующие точности и гибкости. RLBFF дает пользователям возможность гибко настраивать модель в зависимости от их конкретных потребностей. Этот подход позволяет решить проблемы, связанные с неточностью и неполнотой верификации, а также с неоднозначностью человеческих оценок. #### Выводы Мы представили новый подход к обучению моделей с подкреплением, который комбинирует гибкость человеческих оценок и точность верификации. Мы показали, что наш подход превосходит существующие решения в многих а

Annotation:

Reinforcement Learning with Human Feedback (RLHF) and Reinforcement Learning with Verifiable Rewards (RLVR) are the main RL paradigms used in LLM post-training, each offering distinct advantages. However, RLHF struggles with interpretability and reward hacking because it relies on human judgments that usually lack explicit criteria, whereas RLVR is limited in scope by its focus on correctness-based verifiers. We propose Reinforcement Learning with Binary Flexible Feedback (RLBFF), which combines...

ID: 2509.21319v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 CogniLoad: A Synthetic Natural Language Reasoning Benchmark With Tunable Length, Intrinsic Difficulty, and Distractor Density

2025-09-26

Авторы:

Daniel Kaiser, Arnoldo Frigessi, Ali Ramezani-Kebrya, Benjamin Ricaud

## Контекст В последнее время стали появляться подробные исследования по методам, используемым для оценки уровня логических навыков и рационального мышления у людей. Одним из важных аспектов таких исследований является создание бенчмарков, которые могут наглядно продемонстрировать возможности и ограничения широко известных моделей глубокого обучения. Одним из таких бенчмарков является CogniLoad, который предлагает решение для проблемы оценки логических навыков с помощью различных методов. Одним из основных мотивов для разработки такого бенчмарка является необходимость определить точку сбоя моделей глубокого обучения, чтобы улучшить их точность и глубину анализа. ## Метод CogniLoad — это новый синтетический бенчмарк, который основывается на теории интеллектуальной нагрузки (Cognitive Load Theory, CLT). Он генерирует естественно-языковые логические задачки, содержащие возможность индивидуального настройки параметров, связанных с теорией CLT. Эти параметры включают в себя: $d$ — это интринсическая нагрузка, которая отражает сложность задачи; $\rho$ — это степень вмешательства внешних факторов в процесс решения задачи; и $N$ — это длина задачи, которая используется для измерения условий, требующих развития герменной нагрузки. Этот подход позволяет тщательно контролировать все основные аспекты, связанные с интеллектуальной нагрузкой, и предлагает широкий спектр возможностей для детального анализа. ## Результаты В ходе исследований были проанализированы 22 современных модели глубокого обучения, использующих естественный язык для рациональных задач. Отчеты показали, что CogniLoad позволяет выявить статистически значимые различия в производительности моделей, определяя, что длина задачи является основным ограничением для моделей. Кроме того, был выявлен U-образный закон отклика на различные уровни вмешательства внешних факторов, а также выявлена граница того, насколько модель может справиться с различными уровнями интринсической сложности задач. ## Значимость CogniLoad предлагает широкие возможности для разработки моделей глубокого обучения, особенно в сфере логических задач. Он может быть использован для точного изучения ограничений моделей, а также для выявления трудностей, которые могут возникать при решении задач с высокой интринсической сложностью или большим количеством внешних факторов. Этот бенчмарк также может быть применен в области разработки инструментов для улучшения моделей, которые будут справляться с более сложными задачами, и в оценке их точности. ## Выводы CogniLoad доказал свою эффективность в оценке того, насколько хорошо модели глубокого обучения сп

Annotation:

Current benchmarks for long-context reasoning in Large Language Models (LLMs) often blur critical factors like intrinsic task complexity, distractor interference, and task length. To enable more precise failure analysis, we introduce CogniLoad, a novel synthetic benchmark grounded in Cognitive Load Theory (CLT). CogniLoad generates natural-language logic puzzles with independently tunable parameters that reflect CLT's core dimensions: intrinsic difficulty ($d$) controls intrinsic load; distracto...

ID: 2509.18458v2 cs.CL, cs.AI, cs.LG, 68T50 (Primary) 68T07, 68T05, 68T20, 68T27 (Secondary), I.2.7; I.2.6; I.2.4; I.2.8

arXiv PDF

1
2
21
22
23
24
25
36
37

Показано 221 - 230 из 370 записей