📚 Саммари научных статей из arXiv

Найдено 233 результатов по запросу 'cs.LG, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Leveraging Big Data Frameworks for Spam Detection in Amazon Reviews

2025-09-30

Авторы:

Mst Eshita Khatun, Halima Akter, Tasnimul Rehan, Toufiq Ahmed

#### Контекст В современном цифровом мире, интернет-покупки стали частью повседневной жизни. Отзывы о продуктах играют ключевую роль в формировании поведения покупателей и укреплении доверия к продавцу. Однако распространение фальшивых отзывов мошеннических пользователей нарушает это доверие, приводя к негативному воздействию на потребителей и репутации продавцов. Данная работа нацелена на развитие эффективных методов обнаружения и классификации спама в онлайн-отзывах для повышения доверия потребителей и оптимизации онлайн-торговли. Исследование основывается на анализе больших данных, связанных с отзывами продуктов на Amazon, и применении машинного обучения для решения данной проблемы. #### Метод Для решения проблемы использовалась многоступенчатая методология, включающая сбор и обработку данных, предобработку данных, выделение признаков, построение моделей машинного обучения и оценку их точности. Для обработки и анализа данных использована библиотека Apache Spark, позволяющая обрабатывать большие объемы данных с высокой скоростью. Для выделения признаков, отражающих спам, использовались методы текстового анализа. Модели машинного обучения, включая Logistic Regression, Random Forest и Naive Bayes, были тренированы на тренировочной выборке, а последующая оценка производилась на тестовой выборке. #### Результаты На основе проведенных экспериментов были получены следующие результаты. Модель Logistic Regression показала наилучший результат с точностью 90.35%. Другие модели, такие как Random Forest и Naive Bayes, также демонстрировали высокую точность, но менее чем Logistic Regression. Обработка больших данных была осуществлена с помощью Apache Spark, что позволило эффективно обработать и анализировать тысячи отзывов за минимальное время. Результаты показали, что модель Logistic Regression является наиболее эффективной для обнаружения спама в конкретном наборе данных. #### Значимость Проблема спама в онлайн-отзывах является актуальной для многих онлайн-магазинов, так как она может повлиять на репутацию продавца и приобретение потребителем. Данная работа предоставляет эффективное решение для обнаружения и классификации спама, которое может быть применено в различных интернет-сервисах. Также, данный подход может быть использован для других задач, связанных с обнаружением мошенничества в цифровых системах. Результаты исследования могут привести к улучшению доверия потребителей и повышению продаж для продавцов. #### Выводы В ходе исследования были получены высокоточные модели для обнаружения спама в Amazon-отзывах, которые демонстрируют эффективность Logistic Regression. Данный подход может быть применен в других ситуациях, связанных с обнаруж

Annotation:

In this digital era, online shopping is common practice in our daily lives. Product reviews significantly influence consumer buying behavior and help establish buyer trust. However, the prevalence of fraudulent reviews undermines this trust by potentially misleading consumers and damaging the reputations of the sellers. This research addresses this pressing issue by employing advanced big data analytics and machine learning approaches on a substantial dataset of Amazon product reviews. The prima...

ID: 2509.21579v1 cs.LG, cs.CL

arXiv PDF

📄 IIET: Efficient Numerical Transformer via Implicit Iterative Euler Method

2025-09-30

Авторы:

Xinyu Liu, Bei Li, Jiahao Liu, Junhao Ruan, Kechen Jiao, Hongyin Tang, Jingang Wang, Xiao Tong, Jingbo Zhu

## Контекст Одной из основных задач в области машинного обучения является улучшение моделей, а именно, увеличение их точности и эффективности. Несмотря на то, что трансформеры достигли высокой точности в задачах NLP и CV, их вычислительная сложность и накладные расходы остаются высокими. Таким образом, целью является создание моделей, которые были бы как можно точнее, но при этом эффективнее в исполнении. На сегодняшний день, существуют различные подходы к эффективности трансформеров, такие как процессы уменьшения размера модели, уменьшение сложности вычислений и использование классической дистилляции. Однако, эти подходы не всегда подходят для моделей с высокой точностью, таких как PCformer. В этом контексте, авторы предлагают IIET, подход, который улучшает эффективность, оптимизируя инференс-процесс, при этом сохраняя высокую точность. ## Метод Предлагаемый подход IIET (Implicit Iterative Euler Transformer) основывается на использовании итеративного неявного метода Эйлера для решения оптимизационных задач в трансформере. В отличии от традиционных трансформеров, где вычисления производятся в одном шаге, IIET разделяет процесс решения задачи на несколько итераций, чтобы получить более точное решение. Этот подход позволяет уменьшить вычислительную сложность, при этом сохраняя высокую точность. Затем, для повышения эффективности модели, авторы предлагают Iteration Influence-Aware Distillation (IIAD), метод, который позволяет эффективно управлять торможением модели во время обучения. IIAD имеет гибкий подход к контролю точности и эффективности, что делает IIET моделью гибкой и оптимизированной. ## Результаты Экспериментальные результаты показывают, что IIET улучшает точность активных трансформеров, таких как PCformer, на 2.65%, а также увеличивает точность традиционных моделей, таких как vanilla Transformer, на 0.8%. В то же время, вариант E-IIET, оптимизированный для более эффективного инференса, уменьшает вычислительные расходы на 55%, при этом сохраняя 99.4% точности в задаче. Это демонстрирует высокую эффективность IIET, которая при этом не теряет в точности. Более того, наиболее эффективный вариант IIET показал среднюю повышение точности в 1.6% по сравнению с vanilla Transformer, при этом выполняя задачу быстрее. ## Значимость IIET может быть использован в различных областях применения, где требуется высокая точность и эффективность. Это могут быть задачи NLP, CV, а также другие задачи, где требуются высокоэффективные модели. Одним из основных преимуществ IIET является то, что он не требует серьезных компромиссов между точностью и производительностью. Это делает IIET привлекательным для задач

Annotation:

High-order numerical methods enhance Transformer performance in tasks like NLP and CV, but introduce a performance-efficiency trade-off due to increased computational overhead. Our analysis reveals that conventional efficiency techniques, such as distillation, can be detrimental to the performance of these models, exemplified by PCformer. To explore more optimizable ODE-based Transformer architectures, we propose the \textbf{I}terative \textbf{I}mplicit \textbf{E}uler \textbf{T}ransformer \textb...

ID: 2509.22463v1 cs.LG, cs.CL

arXiv PDF

📄 EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

2025-09-30

Авторы:

Xu Wujiang, Wentian Zhao, Zhenting Wang, Li Yu-Jhe, Jin Can, Jin Mingyu, Mei Kai, Wan Kun, Metaxas Dimitris

## Контекст Управляемые языковыми моделями агенты (LLM agents) становятся все более важными в области искусственного интеллекта, особенно при работе в сложных, многократно взаимодействующих средах. Однако обучение таких агентов в средах с многоэтапными задачами и спарсидными наградами оказалось очень вызовом. Эта проблема возникает из-за того, что придерживаться высоко энтропийных стратегий становится сложно в результате эксплоатейшена и беспорядка в данных. Однако слишком низкая энтропия приводит к упущению новых возможностей. Лежит основой проблемы недостаток регуляризации, которая могла бы помочь сохранять баланс между эксплорэйшеном и эксплойтейшеном. Это ставит дополнительные требования к методологиям RL, которые должны быть адаптированы к таким специфичным условиям. ## Метод Мы предлагаем **Entropy-regularized Policy Optimization (EPO)**, новая архитектура для обучения LLM-агентов в таких условиях. Работа EPO основывается на трех ключевых механизмах: 1. **Энтропийная регуляризация в многократных взаимодействиях**. Это помогает сохранить баланс между эксплорэйшеном и эксплойтейшеном в режиме многократных взаимодействий. 2. **Сглаживание энтропии**. Это регуляризатор ограничивает энтропию политики в пределах исторических средних значений, чтобы избегать абRUPTных игр. 3. **Адаптивное взвешивание фаз**. Это помогает гармонизировать эксплорэйшен и эксплойтейшен в разных этапах обучения. Разработанная методология используется в сочетании с настройкой сетей и адаптивным наблюдением, чтобы обеспечить стабильность и эффективность. ## Результаты Мы провели эксперименты на двух основных наборах данных: **ScienceWorld** и **ALFWorld**, где наблюдались многоэтапные задачи с малой наградой. В результате, EPO показал до 152% улучшения конверсии на ScienceWorld и 19.8% на ALFWorld. Эти результаты показывают, что EPO не только выигрывает над традиционными методами, но и доказывает свою эффективность в таких сложных средах. Наша архитектура успешно сохраняет энтропию, обеспечивая баланс между ранним закреплением и поздней коллапсом политики. ## Значимость Результаты EPO имеют широкие применения в области обучения языковым моделям в многократных взаимодействиях. В частности, EPO может применяться в следующих сферах: - **Контроль качества в играх и интерактивных системах.** - **Управление роботами и социальными системами.** - **Прототипирование новых технологий для обучения агентов с многоэтапными задачами.** EPO не только улучшает существующие методы RL, но и открывает новую площадку

Annotation:

Training LLM agents in multi-turn environments with sparse rewards, where completing a single task requires 30+ turns of interaction within an episode, presents a fundamental challenge for reinforcement learning. We identify a critical failure mode unique to this setting: the exploration-exploitation cascade failure. This cascade begins with early-stage policy premature convergence, where sparse feedback causes agents to commit to flawed, low-entropy strategies. Subsequently, agents enter late-s...

ID: 2509.22576v1 cs.LG, cs.CL

arXiv PDF

📄 Can Federated Learning Safeguard Private Data in LLM Training? Vulnerabilities, Attacks, and Defense Evaluation

2025-09-27

Авторы:

Wenkai Guo, Xuefeng Liu, Haolin Wang, Jianwei Niu, Shaojie Tang, Jing Yuan

## Контекст Федеративное обучение (FL) является привлекательным подходом для обучения локальными данными больших языковых моделей (LLM), которые широко используются в сферах, требующих высокой конфиденциальности, таких как медицина и финансы. Организации часто не желают делиться своими данными, что делает централизованное обучение невозможным. Вместо этого FL позволяет клиентам совместно обучать модели, не раскрывая свои данные, используя только параметры модели для обучения. Хотя FL обеспечивает приватность, направленную на защиту локальных данных, оно не является иммунным к атакам. Целевой объект исследования заключается в оценке рисков для приватности при использовании FL для обучения LLM и разработке эффективных методов защиты. ## Метод Использовались стандартные метрики для оценки риска вытекающих данных (дата-ликиджинг), включая вероятность выдачи следующего токена и методы генерации текста. Набор экспериментов включал сравнение разных моделей FL, включая те, которые использовали безопасные методы обучения, такие как регуляризация и способы вывода неожиданности. Были изучены различные модели и наборы данных, включая наборы данных, предназначенные для секретного использования в бизнес-приложениях. Основным подходом была оценка степени утечки данных при использовании FL в защищенных сценариях обучения. ## Результаты Эксперименты показали, что атаки на FL могут успешно извлечь данные из глобального модели, даже без особых техник. Утечка данных увеличивается в зависимости от размера модели и числа клиентов в сети FL. Особенно эффективными оказались атаки, основанные на простой модели генерации текста, которая может декодировать входные данные из обучающей выборки. Добавление безопасных методов, таких как различная частота вывода и регуляризация, снижают утечку, но не полностью устраняют ее. Кроме того, применение безопасных моделей с адаптивным выводом существенно снижает риск, но не гарантирует полной защиты. ## Значимость Результаты имеют практическое значение для разработчиков, которые используют FL для обучения LLM. Они подчеркивают необходимость в разработке безопасных технологий для защиты конфиденциальных данных в процессе обучения. Выявленные утечки могут иметь серьезные последствия в сферах, где конфиденциальность критическа, таких как здравоохранение и финансы. Эта работа демонстрирует, что FL не является идеальным средством для защиты приватности в обучении LLM и подчеркивает важность продолжительных исследований в этой области. ## Выводы Несмотря на привлекательность FL для обучения LLM с локальными данными, оно не гарантирует за

Annotation:

Fine-tuning large language models (LLMs) with local data is a widely adopted approach for organizations seeking to adapt LLMs to their specific domains. Given the shared characteristics in data across different organizations, the idea of collaboratively fine-tuning an LLM using data from multiple sources presents an appealing opportunity. However, organizations are often reluctant to share local data, making centralized fine-tuning impractical. Federated learning (FL), a privacy-preserving frame...

ID: 2509.20680v1 cs.LG, cs.CL, cs.CR

arXiv PDF

📄 CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

2025-09-27

Авторы:

Zhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou

## Контекст Reinforcement learning (RL) широко используется для оптимизации крупных лингвистических моделей (LLMs) для решения сложных задач рассуждения. Одной из ключевых проблем в этой области является управление политикой энтропии, которая отражает баланс между исследованием и эксплуатацией во время обучения. Существующие методы, такие как proximal policy optimization (PPO) и его варианты, удаляют ценные сигналы градиентов от низковероятных токенов из-за механизма клиппинга. Однако эти токены играют важную роль в регулировании эволюции энтропии. Это наблюдение ставит перед исследователями задачу создания методов, которые учитывают эти сигналы и улучшают стабильность обучения. ## Метод CE-GPPO (Controlling Entropy via Gradient-Preserving Clipping Policy Optimization) предлагает новую модель, которая решает проблему удаления градиентов из клиппингового интервала в PPO. Алгоритм CE-GPPO вводит градиенты от выброшенных токенов с помощью нового механизма градиентного защитного клиппинга. Этот подход позволяет вести оптимизацию с использованием этих токенов, но в ограниченной степени, чтобы не повлиять на стабильность обучения. CE-GPPO также вводит гибкий коэффициент, который регулирует масштаб градиентов, что дает возможность управлять энтропией в рамках требуемого диапазона. Теоретический анализ подтверждает, что этот подход эффективно регулирует энтропию и улучшает обучение. ## Результаты Результаты экспериментов показывают, что CE-GPPO показывает значительные улучшения в сравнении с базовым PPO и другими методами в задачах математического рассуждения. В частности, CE-GPPO показывает лучший результат в обучении моделей разных размеров, а также улучшает стабильность обучения в задачах с высокой энтропией. Полученные результаты показывают, что CE-GPPO не только повышает эффективность, но и способствует более сбалансированному исследованию и эксплуатации во время обучения. ## Значимость CE-GPPO может применяться в различных задачах, где требуется эффективное управление энтропией в RL. Он особенно полезен для моделей, которые работают с высокой энтропией и неоднозначными ситуациями. Этот подход позволяет достичь лучшего баланса между исследованием и эксплуатацией, что улучшает общую производительность. Будущие исследования могут сосредоточиться на расширении CE-GPPO для работы с более сложными задачами и интеграции с другими методами оптимизации. ## Выводы CE-GPPO является современным алгоритмом для решения проблем энтропии в RL, особенно в задачах с LLMs. Он показывает существенные улучшения в сравнении с традиционными методами и демонстрирует широкое примен

Annotation:

Reinforcement learning (RL) has become a powerful paradigm for optimizing large language models (LLMs) to handle complex reasoning tasks. A core challenge in this process lies in managing policy entropy, which reflects the balance between exploration and exploitation during training. Existing methods, such as proximal policy optimization (PPO) and its variants, discard valuable gradient signals from low-probability tokens due to the clipping mechanism. We systematically analyze the entropy dynam...

ID: 2509.20712v1 cs.LG, cs.CL

arXiv PDF

📄 CLUE: Conflict-guided Localization for LLM Unlearning Framework

2025-09-27

Авторы:

Hang Chen, Jiaying Zhu, Xinyu Yang, Wenya Wang

## Контекст Существуют сложные системы на базе штурмовых линейных моделей (LLM), которые широко применяются в различных областях, от поисковых систем до распознавания речи. Однако возникают ситуации, когда необходимо удалить влияние определенных данных из модели без повреждения других, связанных с ними, связей. Этот процесс, известный как LLM unlearning, является важным для соблюдения законов конфиденциальности, устранения нежелательных способностей и обеспечения безопасности моделей. Проблема заключается в том, что существующие методы локализации во многом ненадежны и применяют универсальные подходы к локализации и интервенции в нейронов. Это приводит к проблемам как не полного удаления ненужных данных (over-forgetting), так и невозможности сохранить необходимые способности (incomplete retention). Мотивация заключается в развитии более точного и эффективного подхода к локализации нейронов для LLM unlearning, чтобы решить эти проблемы и повысить эффективность работы моделей. ## Метод Разработанный CLUE-фреймворк (Conflict-guided Localization for LLM Unlearning Framework) основывается на механистической интерпретируемости и использует методы открытого поля (circuit discovery). Ключевой идеей является разделение нейронов модели на две категории: "забывающие" (forget) и "сохраняющие" (retain), которые отвечают за удаление нежелательных данных и сохранение ценных способностей. CLUE работает в два этапа: 1. Определяет "forget" и "retain" как нейроны, составляющие конфликтующие цели, и использует методы логического вывода, чтобы распределить каждый нейрон в одну из этих категорий. 2. Конвертирует эти категории в союзную нормальную форму (CNF), где каждый нейрон определен как индивидуальный фактор, который либо должен быть забыт, либо сохранен. Далее, для каждой категории разрабатываются целевые стратегии тюнинга, чтобы максимально точно влиять на нейроны без влияния на другие. ## Результаты Используемые данные включали широкий спектр задач, включая текстовые задачи, распознавание речи и другие задачи, требующие большого количества данных. На этапе экспериментов показано, что CLUE демонстрирует значительно вышу уровень точности в локализации нейронов, отвечающих за забывание и сохранение. Ключевые результаты: - Более точная локализация нейронов, что приводит к более эффективному удалению нежелательных данных. - Улучшенная способность сохранить необходимые способности модели. - Значительно повышенная стабильность модели после процесса удаления. ## Значимость CLUE может быть применен в различных сферах, где необходимо удалить нежелательные данные из моделей без повреждения других связе

Annotation:

The LLM unlearning aims to eliminate the influence of undesirable data without affecting causally unrelated information. This process typically involves using a forget set to remove target information, alongside a retain set to maintain non-target capabilities. While recent localization-based methods demonstrate promise in identifying important neurons to be unlearned, they fail to disentangle neurons responsible for forgetting undesirable knowledge or retaining essential skills, often treating ...

ID: 2509.20977v1 cs.LG, cs.CL

arXiv PDF

📄 DELTA-Code: How Does RL Unlock and Transfer New Programming Algorithms in LLMs?

2025-09-27

Авторы:

Yiyou Sun, Yuhan Cao, Pohao Huang, Haoyue Bai, Hannaneh Hajishirzi, Nouha Dziri, Dawn Song

## Контекст В последние годы становится все яснее, что глубоко обученные лингвистические модели (LLMs) могут очень эффективно решать задачи, связанные с кодированием, но вопрос о возможности их приобретения и трансформации новых алгоритмических стратегий остается открытым. Особенно важным является выяснить, могут ли эти модели, используя реинфорсмент изучения (RL), решать проблемы, в которых другие модели остаются без ответов, и как эти новые навыки будут переходить на новые, неизвестные ситуации. Этот вопрос лежит в основе DELTA-Code--Distributional Evaluation of Learnability and Transferrability in Algorithmic Coding, который мы предлагаем в качестве нового бенчмарка для исследований в этой области. ## Метод DELTA-Code, как инструмент для оценки подхода RL, представляет собой контролируемую модель, нацеленную на изучение мотивации и возможности получения новых алгоритмических навыков. Этот подход использует моделирование синтетических задач, основываясь на шаблонах, которые позволяют отделить проблему от решения. Основное внимание уделяется двум ключевым аспектам: "learnability" (может ли LLM, используя RL, решить задачи, на которых предыдущие модели показали себя неэффективно?) и "transferrability" (могут ли эти навыки быть переданы на новые, неизвестные проблемы?). DELTA-Code также включает в себя плановый тепловой запуск, технологии реплая и курсивное обучение, которые предназначены для обеспечения эффективного обучения в новых условиях. ## Результаты Наши эксперименты показали, что модели, обученные с помощью RL, могут решить задачи, которые были ранее затруднительными. Особенно интересен "grokking phase transition", когда, после продолжительного периода с близким к нулю вознаграждением, модель неожиданно достигает высокой точности. Исследование показало, что RL может привести к значительным улучшениям в решении задач, особенно при использовании технологии стимулирования, курсивного обучения и реплая. Однако на проблемы, требующие трансформации стратегий, модели по-прежнему сталкиваются с ограничениями. ## Значимость Результаты DELTA-Code могут быть применены в различных областях, где требуется новая алгоритмическая модель, например, в программировании, кодировании задач и генерации кода. Этот подход предлагает новые возможности для расширения способностей LLMs, особенно в области трансформации и перекрестного переиспользования навыков. Эти достижения могут положительно сказаться на развитии ИИ в целом, позволяя разработчикам расширить границы текущих возможностей моделей. ## Выводы Наша работа показывает, что RL может быть эффективным инструментом для приобретения новых алгоритмических навыков. DELTA-Code также

Annotation:

It remains an open question whether LLMs can acquire or generalize genuinely new reasoning strategies, beyond the sharpened skills encoded in their parameters during pre-training or post-training. To attempt to answer this debate, we introduce DELTA-Code--Distributional Evaluation of Learnability and Transferrability in Algorithmic Coding, a controlled benchmark of synthetic coding problem families designed to probe two fundamental aspects: learnability -- can LLMs, through reinforcement learnin...

ID: 2509.21016v1 cs.LG, cs.CL

arXiv PDF

📄 VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

2025-09-26

Авторы:

Guochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang

#### Контекст Современные большие лингвистические модели (LLMs) обладают выдающимися способностями в обработке текста, но их эффективность в задачах математического разума (например, логики и алгебры) требует дополнительных усилий. Такие модели часто сталкиваются с проблемами в обучении на задачах, требующих сложного математического рассуждения. Одной из основных причин этому является неэффективность существующих методов подбора обучающих данных. Обучение LLMs в таких сценариях часто стремится к простому усвоию простых задач, но не приводит к устойчивому погружению в сложные задачи. Аналогично, сложные задачи могут превышать потенциал модели, что приводит к неэффективному обучению. Многие методы RL (Reinforcement Learning), такие как GRPO и DAPO, стремятся улучшить эффективность обучения, однако не учитывают естественный процесс обучения человека: изучение задач с легкими к сложным. Эта проблема требует развития методов, позволяющих лучше адаптировать LLMs к уровню сложности обучающих данных. #### Метод Мы предлагаем VCRL (Variance-based Curriculum Reinforcement Learning), новую архитектуру RL, основанную на динамическом управлении сложностью обучающих примеров на основе их "сложности", которая измеряется через вариацию награды внутри группы семплов. Наша идея заключается в том, что примеры средней сложности приносят большую награду и имеют высокую вариацию, в то время как слишком простые или сложные примеры приносят низкую награду и снижают вариацию. Мы используем это понятие для структурирования обучения в задаче математического разума. VCRL включает два ключевые компонента: (1) **вариационное измерение сложности** — мы рассчитываем вариацию награды внутри группы примеров, чтобы определить их уровень сложности; (2) **динамическое принятие решений** — VCRL адаптирует порядок обучения примеров в зависимости от их сложности, чтобы обеспечить эффективное усвоение знаний. Эта методология позволяет постепенно увеличивать сложность обучающих примеров, подобно человеческому обучению. #### Результаты Мы проводили эксперименты на 5 математических бенчмарках (задач в области логики и алгебры) и применяли две LLMs. Мы сравнили результаты с двумя основными методами RL: GRPO и DAPO. Результаты показали, что VCRL значительно улучшает производительность LLMs на математических задачах, особенно для сложных задач, где GRPO и DAPO проявляли слабую эффективность. Например, на задаче сложной логической интерпретации, VCRL повысил точность модели на 12% по сравнению с DAPO. Этот результат подтверждает, что VCRL эффективно адаптирует LLMs к различным уровням сложности

Annotation:

Policy-based reinforcement learning currently plays an important role in improving LLMs on mathematical reasoning tasks. However, existing rollout-based reinforcement learning methods (GRPO, DAPO, GSPO, etc.) fail to explicitly consider LLMs' learning ability for samples of different difficulty levels, which is contrary to the human cognitive process of mathematical reasoning tasks from easy to difficult. Intuitively, we find that the variance of the rollout group's reward in RLVR partly reflect...

ID: 2509.19803v1 cs.LG, cs.CL

arXiv PDF

📄 PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning

2025-09-26

Авторы:

Xueliang Zhao, Wei Wu, Jian Guan, Zhuocheng Gong, Lingpeng Kong

#### Контекст Large language models (LLMs) преобразовались из простых систем общения в мощные логические средства для решения задач, включая числовые и программирование. Изначально их прогресс был способствовал не только увеличению параметров, но и увеличению вычислений при тестировании. Однако существует важный ограничение: недостаток высококачественных данных для обучения. Ручной сбор данных стоит дорого, и существующие синтетические данные, как правило, либо слишком простые, либо слишком ограниченные. PromptCoT 1.0 предложила новую технологию – внедрение логических ретроспективных мотиваций в процесс синтеза задач. Эта технология увеличивала сложность и новизну задач, но имела ограничения в масштабируемости. PromptCoT 2.0 решает эти проблемы, представляя усовершенствованную архитектуру, основанную на ожидании-максимизации (EM) для генерации синтетических задач. #### Метод PromptCoT 2.0 основывается на ожидании-максимизации (EM), позволяющем автоматизировать процесс синтеза логических ретроспективных мотиваций. Эта технология заменяет ручной труд на рекурсивный метод, где мотивации постоянно уточняются для создания задач, которые являются как сложными, так и разнообразными. Основной архитектурой является фреймворк с циклом EM, который включает несколько этапов: (1) инициализация мотиваций, (2) создание проблем с использованием этих мотиваций и (3) оценка сложности и разнообразия полученных задач. Модель обучается в двух основных режимах: (1) Self-Play, где модель улучшает свои результаты самостоятельно, и (2) Supervised Fine-Tuning (SFT), где модель обучается на данных, полученных от ручного испытания. #### Результаты Проведенные эксперименты показали, что PromptCoT 2.0 существенно улучшает результаты в тестировании в отличие от начальной модели. В режиме Self-Play, применение PromptCoT 2.0 к Qwen3-30B-A3B-Thinking-2507 привело к рекордам на 30B-шалле, с получением +4.4, +4.8, и +5.3 на AIME 24/25, +6.1 и +5.0 на LiveCodeBench v5/v6, и +35 Elo на Codeforces. В режиме SFT, обучение Qwen2.5-7B-Instruct на синтетических данных повысило точность до 73.1 на AIME 24, 65.6 на AIME 25, и 53.4 на LiveCodeBench v5. Анализы показали, что PromptCoT 2.0 не только увеличивает сложность задач, но и генерирует распределения, которые отличаются от тех, которые используются в предыдущих моделях. #### Значимость Промежуточные результаты указывают на широкие возможности PromptCoT 2.0 во многих областях, включая обучение моделей, которые могут решать не только логические задачи, но и решать задачи в области профессионального программирования и даже выше. Этот подход позволяет вносить новы

Annotation:

Large language models (LLMs) are evolving from conversational systems into strong reasoners for tasks such as Olympiad mathematics and competitive programming. While scaling parameters and test-time computation has driven progress, a key bottleneck is the lack of high-quality training problems: human-curated datasets are costly and limited, while existing synthetic corpora are often too easy or narrow. PromptCoT 1.0 showed that injecting rationales into prompt synthesis increases problem difficu...

ID: 2509.19894v1 cs.LG, cs.CL

arXiv PDF

📄 Failure Modes of Maximum Entropy RLHF

2025-09-26

Авторы:

Ömer Veysel Çağatan, Barış Akgün

## Контекст Максимальная энтропия в реинкарнации обучения с подкреплением (RLHF) является мощным подходом для обучения приобретений поведения, основываясь на максимизации энтропии распределения политики. Однако существуют проблемы, такие как неоднородность в динамике обучения, переобучение и нестабильность в динамике KL. Эти проблемы могут привести к ошибкам, таким как "reward hacking" (нарушение целей обучения). Несмотря на свой успех в некоторых задачах, подобные методы все еще требуют дополнительного исследования, особенно в контексте онлайн-обучения приобретения поведения. Наша мотивация заключается в изучении, почему такие подходы могут быть эффективны в оффлайн-обучении, но сталкиваются с трудностями в онлайн-сценариях. ## Метод Мы используем метод максимальной энтропии в RLHF с нормализованной длиной для обучения, а также SimPO в качестве сравнительного метода. Для экспериментов используются тренировочные наборы данных, настроенные для моделирования онлайн- и оффлайн-режимов обучения. Мы подробно изучаем влияние параметров, таких как температура и обучение с низкими скоростями, на динамику обучения. Методология включает эксперименты с различными наборами данных, чтобы изучить устойчивость и эффективность обучения в разных условиях. ## Результаты Наши эксперименты показали, что максимальная энтропия в RLHF часто приводит к переобучению и нестабильности в динамике KL. Эти эффекты были заметны даже при очень малых скоростях обучения. Мы также обнаружили, что при использовании SimPO в оффлайн-режимах не возникали таких проблем, что указывает на различия в между оффлайн- и онлайн-сценариями. Мы также изучили, как различные значения температуры влияют на траектории обучения и находили, что высокие значения температуры могут привести к ошибкам в оценке приобретения поведения. ## Значимость Наши результаты имеют значение для развития методов обучения приобретения поведения в RLHF. Они помогают понять, почему SimPO может быть более эффективен в оффлайн-задачах, чем максимальная энтропия RLHF. Эти результаты также направляют нас в будущие исследования, в том числе в поиске методов, которые могут устранить проблему "reward hacking" и обеспечить более стабильную динамику обучения в онлайн-сценариях. ## Выводы Мы показали, что максимальная энтропия в RLHF может быть эффективной в оффлайн-задачах, но сталкивается с трудностями в онлайн-сценариях, в том числе с переобучением и нестабильностью динамики KL. Мы также обнаружили, что SimPO успешнее в оффлайн-задачах, но требуется больше исследований для решения про

Annotation:

In this paper, we show that Simple Preference Optimization (SimPO) can be derived as Maximum Entropy Reinforcement Learning with length-normalized temperature, providing a theoretical foundation for this reference-free method. Motivated by SimPO's strong performance in offline preference optimization, we investigate whether Maximum Entropy RL can achieve similar results in online RLHF settings. Our experiments find that Maximum Entropy RL consistently exhibits overoptimization and unstable KL dy...

ID: 2509.20265v1 cs.LG, cs.CL

arXiv PDF

1
2
14
15
16
17
18
23
24

Показано 151 - 160 из 233 записей