📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Siheng Li, Kejiao Li, Zenan Xu, Guanhua Huang, Evander Yang, Kun Li, Haoyuan Wu, Jiajia Wu, Zihao Zheng, Chenchen Zhang, Kun Shi, Kyrierl Deng, Qi Yi, Ruibin Xiong, Tingqiang Xu, Yuhao Jiang, Jianfeng Yan, Yuyuan Zeng, Guanghui Xu, Jinbao Xue, Zhijiang Xu, Zheng Fang, Shuai Li, Qibin Liu, Xiaoxue Li, Zhuoyu Li, Yangyu Tao, Fei Gao, Cheng Jiang, Bo Chao Wang, Kai Liu, Jianchen Zhu, Wai Lam, Wayyt Wang, Bo Zhou, Di Wang

#### Контекст Проблема растущего расхождения между быстро растущими вычислительными ресурсами и ограниченным ростом высококачественного текстового данных стала значительным ограничением для традиционных методов масштабирования больших языковых моделей (LLM). Несмотря на успех решений, таких как reinforcement learning from human feedback (RLHF) и reinforcement learning with verifiable rewards (RLVR), они опираются на дорогостоящие и субъективные людские оценки для формирования наград. Исследователи предлагают RLPT (Reinforcement Learning on Pre-Training Data) — новый подход, который позволяет модели оптимизировать свои уязвимости без зависимости от людской экспертизы. #### Метод RLPT представляет собой декомпозицию задачи тренировки на три этапа: 1) готовка предварительно обученных моделей; 2) создание next-segment reasoning objective, который призван модели научиться предсказывать следующий сегмент текста в зависимости от предыдущего контекста; 3) обучение модели с помощью reinforcement learning. Этапы организованы таким образом, чтобы модель могла научиться динамическими стратегиями, исследуя более широкие траектории в пределах предложенных предварительно обученных моделей. Благодаря этому, RLPT открывает возможность развития более обобщаемых резонационных знаний. #### Результаты Эксперименты проводились на моделях Qwen3-4B-Base и других, применяясь к общим бенчмаркам (например, MMLU, GPQA-Diamond) и математическим задачам. В результате RLPT привел к абсолютным улучшениям в 3.0, 5.1, 8.1, 6.0, 6.6 и 5.3 точек на соответствующих бенчмарках. Модель не только показала значительные улучшения, но и продемонстрировала сильный скалируемый эффект, указывающий на потенциал для постоянных достижений при масштабировании. #### Значимость Результаты RLPT открывают новые горизонты для использования безудобных и больших данных, которые ранее не были полностью эффективно использованы. Этот подход расширяет пределы человеческого знания, внедряя самостоятельное исследование полезных траекторий. RLPT также может фактически улучшить RLVR, являясь новым инструментом для развития кибернетических технологий. #### Выводы RLPT является инновационным подходом к масштабированию языковых моделей, основывающимся на предварительных данных. Он доказал свою эффективность в различных задачах и применимость к улучшению различных моделей. На будущее, RLPT ставит цель расширять свои возможности в сторону более сложных задач и более широкого круга моделей.
Annotation:
The growing disparity between the exponential scaling of computational resources and the finite growth of high-quality text data now constrains conventional scaling approaches for large language models (LLMs). To address this challenge, we introduce Reinforcement Learning on Pre-Training data (RLPT), a new training-time scaling paradigm for optimizing LLMs. In contrast to prior approaches that scale training primarily through supervised learning, RLPT enables the policy to autonomously explore m...
ID: 2509.19249v2 cs.CL, cs.AI, cs.LG
Авторы:

Amin Karimi Monsefi, Nikhil Bhendawade, Manuel Rafael Ciosici, Dominic Culver, Yizhe Zhang, Irina Belousova

## Контекст Поиск эффективных способов генерации длинных текстов представляется важной задачей в области искусственного интеллекта. Автороргительные языковые модели (ARMs) способны предсказывать текст с высокой точностью, но они являются сериальными по своей природе, что приводит к долгому времени выполнения при генерации длинных строк. Другой подход — **Diffusion Language Models (DLMs)** — объединяет серии малых изменений, что позволяет выполнять процесс параллельно. Однако для достижения высокого качества они требуют многократных проходов, что опять же сказывается на производительности. Таким образом, существует необходимость в моделях, которые сочетали бы высокую эффективность и качество генерации. ## Метод Предлагаемая модель, **FS-DFM (Few-Step Discrete Flow-Matching)**, является продолжением идей Diffusion Language Models, но работает с меньшим числом шагов. **Ключевая идея** заключается в том, чтобы сделать число шагов явным параметром и обучить модель для того, чтобы она сохраняла качество при различных значениях этого параметра. Для этого используется **техника потокового соответствия**, которая позволяет шагам быть более точными и эффективными. Также в модели используется **правило обновления**, которое предотвращает перебои в процессе обучения. Эта модель оснащена **сильным учителем**, который предоставляет управляющие сигналы для уровней глубины диффузии. Эти особенности обеспечивают повышенную устойчивость и контролируемость генерации. ## Результаты В ходе экспериментов FS-DFM показала себя как модель, которая не только сохраняет качество, но и повышает производительность. Например, с 8 шагами создания текста FS-DFM достигла той же точности (точность в прогнозировании слов — perplexity), что и модель с 1024-шаговым подходом, но со скоростью генерации **128 раз быстрее**. Это приводит к **значительным выигрышам в скорости и эффективности** при генерации длинных текстов, без ущерба качеству. ## Значимость Разработанная модель имеет **широкие области применения** в сферах, где необходимо быстро и качественно генерировать длинные тексты, например, в генерации отчетов, протоколов, описаний и текстов для машинного обучения. Основные **преимущества** FS-DFM заключаются в **высокой производительности**, **контролируемости** и **гибкости**. Будущие исследования будут ориентированы на улучшение точности модели и расширение её возможностей для работы с различными аспектами длинных текстов, таких как семантическая структура и контекстная зависимость. ## Выводы FS-DFM демонстрирует эффективность **двухступенчатого подхода** к генерации текстов, который объединяет простоту
Annotation:
Autoregressive language models (ARMs) deliver strong likelihoods, but are inherently serial: they generate one token per forward pass, which limits throughput and inflates latency for long sequences. Diffusion Language Models (DLMs) parallelize across positions and thus appear promising for language generation, yet standard discrete diffusion typically needs hundreds to thousands of model evaluations to reach high quality, trading serial depth for iterative breadth. We introduce FS-DFM, Few-Step...
ID: 2509.20624v1 cs.CL, cs.AI, cs.LG
Авторы:

Jungsoo Park, Ethan Mendes, Gabriel Stanovsky, Alan Ritter

## Контекст В последние годы появились широко используемые технологии, основанные на больших языковых моделях (LLM). Однако оценка прогресса в развитии этих моделей становится все более сложной. Существует обычный цикл: создание бенчмарка, оценка моделей и настроек, затем итеративное улучшение. Однако этот процесс требует времени и ресурсов. Можно ли предсказать результаты этих экспериментов до того, как их запустить? Этот вопрос лежит в основе нашего исследования, направленного на развитие методов **предварительного оценивания результатов** для LLM-бенчмарков. Мы изучаем **текстовое прогнозирование показателей моделей**, то есть оценку результата модели на основе текстового описания задачи и настроек, без доступа к данным. Наша мотивация заключается в упрощении и эффективному использованию ресурсов для оценки новых моделей. ## Метод Для реализации нашей идеи мы разработали **PRECOG** — корпус текстовых пар "описание задачи — показатель результата", специально распределенных по разным задачам, доменам и метрикам. Этот корпус позволяет систематически изучать модели, предсказывающие значения показателей без доступа к данным. Мы также добавили **технические решения**, в том числе **модель с возможностью восстановления**, которая использует данные, не относящиеся к исходным бенчмаркам, для достижения более точного прогноза. Также мы проверяли работу моделей в **"нулевом тесте протечки"** (zero-leakage setting), где прогнозировали результаты на новых бенчмарках и экспериментах, которые еще не были опубликованы. ## Результаты Эксперименты показали, что подход к прогнозированию показателей моделей является **сложным, но возможным**. Мы достигли неплохой точности прогноза с **средним абсолютным отклонением в 8.7** на подмножестве **accuracy** при высокой уверенности. Мы также определили, что **сильные модели логического смысла**, такие как GPT-5, применяют **дополнительные вопросы и итеративный поиск**, что позволяет достичь лучших результатов. Однако открытые модели часто не используют полноценный поиск или проводят недостаточно разнообразный поиск источников. В нашем нулевом тесте протечки GPT-5 с поиском в Интернете по-прежнему достигает **значительных результатов**, даже в том случае, если бенчмарк еще не попал в индекс. ## Значимость Наша работа может быть применена в различных **областях, где необходимо предварительно оценить результаты моделей**, например, при разработке новых бенчмарков, оценке новых моделей или при выборе наиболее эффективных настроек. Эта методика позволяет **сэкономить ресурсы** и **увеличить эффективность исследований**
Annotation:
Progress in large language models is constrained by an evaluation bottleneck: build a benchmark, evaluate models and settings, then iterate. We therefore ask a simple question: can we forecast outcomes before running any experiments? We study text-only performance forecasting: estimating a model's score from a redacted task description and intended configuration, with no access to dataset instances. To support systematic study, we curate PRECOG, a corpus of redacted description-performance pairs...
ID: 2509.20645v1 cs.CL, cs.AI, cs.LG
Авторы:

Behzad Shayegh, Jan-Thorsten Peter, David Vilar, Tobias Domhan, Juraj Juraska, Markus Freitag, Lili Mou

## Контекст Машинный перевод (MT) является важной областью искусственного интеллекта, стремящейся преодолеть барьеры языков и обеспечить эффективную связь между культурами. Одним из ключевых аспектов MT является качество перевода, которое часто оценивается через две параметра: **адекватность** (точность в передаче смысла исходного текста) и **флуентность** (естественность и грамматическая правильность перевода). Несмотря на прогрессы в области MT, существуют проблемы с отношением этих составляющих. Например, люди часто воспринимают MT с высокой адекватностью и низкой флуентностью как менее приемлемым, чем текст с более высокой флуентностью, даже если он не так точен. Эта проблема влияет на выбор метрик для оценки качества MT. Настоящая работа исследует этот tradeoff и его влияние на выбор метрик для оценки качества перевода. ## Метод Работа основывается на многоуровневом подходе, включающем эксперименты на трех уровнях: **индивидуальном**, **групповом** и **мета-оценочном**. На первом уровне проводятся эксперименты с людьми, чтобы оценить тенденции в их предпочтениях к адекватности и флуентности. На втором уровне были рассмотрены метрики MT (точность, BLEU, COMET и другие), а на третьем — подходы к мета-оценке этих метрик в рамках WMT. Архитектура исследования включает в себя тестирование на различных парах языков и систем MT, а также анализ стандартных метрик и их взаимосвязи с личными предпочтениями людей. Для синтеза новой метрики использовалась аппроксимация личных оценок людей на основе множественных регрессий. ## Результаты Исследование показало, что популярные метрики MT, такие как BLEU и METEOR, значительно больше влияют на адекватность, чем на флуентность. Это отражается в том, что системы с высокой адекватностью получают более высокие оценки, даже когда их флуентность низкая. Опытные эксперименты показали, что люди часто предпочитают более флуентные тексты, даже когда они менее точны. Также выяснилось, что WMT meta-evaluation, которая обычно используется для сравнения MT-систем, жестко привязана к адекватности, что приводит к биазу в пользу метрик, ориентированных на адекватность. Добавление синтетических тестовых систем в WMT meta-evaluation позволило выявить этот биаз и улучшить точность оценок. ## Значимость Результаты имеют ключевую значимость для развития MT. Во-первых, они выявляют необходимость более широкого рассмотрения tradeoff между адекватностью и флуентностью при разработке и оценке метрик. Во-вторых, они позволяют улучшить WMT meta-evaluation, сделав ее более с
Annotation:
We investigate the tradeoff between adequacy and fluency in machine translation. We show the severity of this tradeoff at the evaluation level and analyze where popular metrics fall within it. Essentially, current metrics generally lean toward adequacy, meaning that their scores correlate more strongly with the adequacy of translations than with fluency. More importantly, we find that this tradeoff also persists at the meta-evaluation level, and that the standard WMT meta-evaluation favors adequ...
ID: 2509.20287v1 cs.CL, cs.AI, cs.LG
Авторы:

Daniel Kaiser, Arnoldo Frigessi, Ali Ramezani-Kebrya, Benjamin Ricaud

## Контекст Одной из основных проблем в развитии машинного знания являются ограничения того, насколько глубоко и адекватно могут рассуждать текущие технологии языковых моделей. Многие существующие бенчмарки для оценки возможностей технологий, таких как Large Language Models (LLMs), не достаточно точно отражают сложности и факторы, влияющие на их результаты. Например, оценка их возможности при работе с длинными контекстами часто не учитывает внутреннюю сложность задачи, препятствий, которые могут возникнуть при оценке, и другие ключевые факторы. CogniLoad, разработанная командой соавторов, представляет собой новую типичную модель тестирования, основанную на теории когнитивной нагрузки (Cognitive Load Theory, CLT). Она предлагает новый подход к оценке логических навыков LLMs, предоставляя уникальную возможность контролировать важные параметры, такие как внутренняя сложность, препятствия и длина задачи. Это делает CogniLoad незаменимым инструментом для более точного анализа ограничений текущих моделей. ## Метод CogniLoad генерирует синтетические логические задачи на естественном языке, основываясь на CLT. Она включает в себя три основных части, которые отражают главные критерии воздействия на когнитивную нагрузку. Эти параметры позволяют контролировать внутреннюю сложность ($d$), выделять значимые сигналы от ненужных раздражителей ($\rho$), и визуализировать длину задачи ($N$). Эти параметры позволяют получить набор задач с разными уровнями сложности, что делает их более подходящими для подробного анализа работы LLMs. CogniLoad генерирует наборы задач, которые могут быть легко масштабированы и повторены, чтобы обеспечить надежные эксперименты. Она предлагает детальную оценку логических моделей, которые работают с текстовыми данными, и позволяет выявить слабые места в их работе с длинными контекстами. ## Результаты В ходе экспериментов, проведенных с использованием 22 современных логических моделей, было получено четкое понимание их способности решать задачи с разным уровнем сложности. Эксперименты показали, что длина задачи является одним из ключевых факторов ограничения производительности многих моделей. Также были выявлены различные характеристики моделей при работе с разными уровнями внутренней сложности и разными отношениями раздражителей к сигналам. Например, модели показали У-образное поведение при различных отношениях раздражителей к сигналам, что свидетельствует о том, что некоторые модели могут быть чувствительными к определенным уровням внешних затруднений. Эти результаты дают ясную картину того, как различные модели справляются с раз
Annotation:
Current benchmarks for long-context reasoning in Large Language Models (LLMs) often blur critical factors like intrinsic task complexity, distractor interference, and task length. To enable more precise failure analysis, we introduce CogniLoad, a novel synthetic benchmark grounded in Cognitive Load Theory (CLT). CogniLoad generates natural-language logic puzzles with independently tunable parameters that reflect CLT's core dimensions: intrinsic difficulty ($d$) controls intrinsic load; distracto...
ID: 2509.18458v1 cs.CL, cs.AI, cs.LG, 68T50 (Primary) 68T07, 68T05, 68T20, 68T27 (Secondary), I.2.7; I.2.6; I.2.4; I.2.8
Авторы:

Mohamad Elzohbi, Richard Zhao

## Контекст Классическая арабская поэзия является важной частью культурного наследия и традиций Магреба и Персидского залива. Однако создание поэзии, соответствующей требованиям различных метрических и ритмических схем, часто требует особых знаний и навыков. Искусственный интеллект может стать полезным инструментом для автоматизации этого процесса, но существуют сложности в том, чтобы генерировать стихи, сочетающие ритмичную точность и семантическую значимость. Наличие различных правил и способов воспроизведения ритма в различных регионах далее усложняет этот процесс. Этот исследовательский подход направлен на создание метода, который бы включал эти ритмические схемы, сохраняя естественность и смысловую нагрузку стихов. ## Метод Метод, представленный в работе, основывается на многоязычном трансформерном модели ByT5, которая носит байт-уровневую природу. Основной метод устанавливает соответствие между словами и битами, используя графема-на-ритм преобразование. Для извлечения ритма из полностью диакритизированного арабского алфавита используется задача условного маскированного сбрасывания шума с помощью ByT5. Модель настраивается с помощью условного целевого функционирования, где целью является восстановление маскированных слов таким образом, чтобы соответствовать требуемому ритму. Для развития модели включена стратегия учебного цикла, которая включает в себя предварительную обучение на общем датасете арабских текстов, затем тонкое настройку на поэтическом датасете. Также исследуется передача кросс-языковой коммуникации с английского языка на арабский. ## Результаты Эксперименты проводились на поэтических датасетах в различных стихийных схемах. Результаты показывают, что модель ByT5 хорошо подходит для генерирования стихов, соответствующих ритмическим схемам, при этом сохраняя семантический контекст. Модель показала высокую точность ритмического соответствия без значительного потери смысловой нагрузки. Также был продемонстрирован положительный эффект кросс-языковой передачи, что демонстрирует потенциал модели в области создания классической поэзии в различных языковых окружениях. ## Значимость Метод, представленный в работе, может быть применен в сфере креативных технологий, в том числе для создания классической поэзии, автоматизации ритмического анализа, или композиции стихов в различных языковых регионах. Это предлагаемое решение имеет потенциал для расширения возможностей в искусственном творчестве, позволяя тво
Annotation:
This paper presents a methodology for inserting phrases in Arabic poems to conform to a specific rhythm using ByT5, a byte-level multilingual transformer-based model. Our work discusses a rule-based grapheme-to-beat transformation tailored for extracting the rhythm from fully diacritized Arabic script. Our approach employs a conditional denoising objective to fine-tune ByT5, where the model reconstructs masked words to match a target rhythm. We adopt a curriculum learning strategy, pre-training ...
ID: 2509.18514v1 cs.CL, cs.AI, cs.LG
Авторы:

Chen Liang, Zhaoqi Huang, Haofen Wang, Fu Chai, Chunying Yu, Huanhuan Wei, Zhengjie Liu, Yanpeng Li, Hongjun Wang, Ruifeng Luo, Xianzhong Zhao

## Контекст В свойственной скорости развитии и широком применении, large language models (LLMs) набирают обороты в архитектурно-строительном комплексе (AEC). Они демонстрируют возможность оптимизировать процессы в рамках жизненного цикла зданий. Однако, в стабильности и надежности LLMs в такой специализированной и безопасность-ориентированной сфере нет полного оценивания. Для решения этой проблемы, авторы представляют AECBench — комплексный бенчмарк, предназначенный для измерения сил и слабых мест современных LLMs в AEC. Он определяет 23 задачи в пятиуровневой фреймворке оценки, основанной на психологических процессах: Запоминание Знаний, Обработка Знаний, Рассуждения, Расчеты, Применение. Задачи были извлечены из реальных практических задач AEC, включая поиск кодов и создание специализированных документов. Для точного оценивания была создана база данных в виде 4800 вопросов различных форматов, подготовленных и проверенных экспертами. Была также представлена LLM-as-a-Judge методика, обеспечивающая структурированную и скейлируемую оценку длинных ответов. ## Метод AECBench основывается на пятиуровневом фреймворке, включающем 23 задач, касающихся разного уровня знаний. Эта методология охватывает: 1. **Запоминание Знаний**: Задачи, связанные с восстановлением конкретных фактов и сведений из текста и таблиц. 2. **Обработка Знаний**: Оценка возможности LLMs в интерпретации и синтезе знаний. 3. **Рассуждения**: Решение задач, требующих сложного анализа и вывода. 4. **Расчеты**: Оценка умения LLMs выполнять математические и аналитические задачи. 5. **Применение**: Задачи, включающие создание документов и соблюдение регламентов. Для каждой задачи была создана база данных с разнообразными видами вопросов, включая открытые, и проверена экспертами. Метод LLM-as-a-Judge позволяет ресурсозатратную и точную оценку ответов, даже на длинных текстах. Это дает возможность последовательно сравнить различные модели. ## Результаты С помощью AECBench, 9 моделей LLMs были оценены, и отчетливо выявлены их слабые места. Модели проявили высокую точность в задачах вроде запоминания кодов и основных знаний (Knowledge Memorization) и в обработке текстов (Understanding). Однако, модели испытали значительные сложности в задачах, требующих сложного рассуждения, вычислений, и специализированного документирования. Например, LLMs сталкивались с проблемами в интерпретации таблиц в building codes и выполнении многостадийных вычислений. Это подтверждает, что, несмотря на прогресс, LLMs еще не достигли надежности для применения в критически важных задачах AEC. ## Значи
Annotation:
Large language models (LLMs), as a novel information technology, are seeing increasing adoption in the Architecture, Engineering, and Construction (AEC) field. They have shown their potential to streamline processes throughout the building lifecycle. However, the robustness and reliability of LLMs in such a specialized and safety-critical domain remain to be evaluated. To address this challenge, this paper establishes AECBench, a comprehensive benchmark designed to quantify the strengths and lim...
ID: 2509.18776v1 cs.CL, cs.AI, cs.LG
Авторы:

Advik Raj Basani, Pin-Yu Chen

#### Контекст Детектирование текстов, сгенерированных с помощью глубоких нейросетевых моделей (LLM — Large Language Models), становится ключевым для борьбы с их недобросовестным использованием в образовательных учреждениях, бизнесе, новостной сфере и социальных сетях. Хотя существующие методы определения таких текстов часто опираются на токен-уровневые оценки вероятности или закрытые беспрозрачные классификаторы, эти подходы далеко не всегда эффективны, особенно при работе с высококачественными генерациями. Их другая проблема заключается в отсутствии интерпретируемости результатов. Многие детекторы не могут объяснить причины определения текста как сгенерированного. Это ограничивает их применение, особенно при работе с текстами, требующими доказательства использования недобросовестных методов. В данном исследовании предлагается новый подход, который адресует эти проблемы. #### Метод Метод, предложенный в работе, называется DivEye. Он основывается на анализе непредсказуемости текста на различных уровнях (слов, фраз, структурных элементов). Отмечается, что тексты, написанные людьми, обладают более широкой непредсказуемостью в сравнении с текстами, сгенерированными глубокими моделями. DivEye использует статистические признаки, определяемые частотой непредсказуемости на разных уровнях текста. Эти признаки акцентируют внимание на ритмической непредсказуемости, которая является признаком людского авторства. Детектор представляет собой нейронную сеть, которая обучается на этих признаках и позволяет определить границы текста, где непредсказуемость текста выходит за пределы нормы. Таким образом, DivEye обеспечивает интерпретируемую и точную оценку текста. #### Результаты Наборы данных, использованные в исследовании, включали тексты, сгенерированные разными моделями LLMs (включая GPT-2, GPT-3, BERT), а также тексты, написанные людьми. Эксперименты показали, что DivEye превосходит существующие методы на 33.2% в нулевом значении обучения (zero-shot detection) и демонстрирует конкурентную производительность с лучшими базисными моделями. Была проверена закономерность работы детектора в различных сферах применения, включая образовательные тексты, новости и социальные сети. Также удалось продемонстрировать, что DivEye выдерживает атаки, связанные с парафразированием и адверсарскими текстами. Кроме того, он повышает эффективность других детекторов, присоединяясь к ним в качестве вспомогательного сигнала на 18.7%. #### Значимость Предлагаемый подход имеет широкие перспективы применения в сферах, где важно определить границы ч
Annotation:
Detecting AI-generated text is an increasing necessity to combat misuse of LLMs in education, business compliance, journalism, and social media, where synthetic fluency can mask misinformation or deception. While prior detectors often rely on token-level likelihoods or opaque black-box classifiers, these approaches struggle against high-quality generations and offer little interpretability. In this work, we propose DivEye, a novel detection framework that captures how unpredictability fluctuates...
ID: 2509.18880v1 cs.CL, cs.AI, cs.LG
Авторы:

Natasha Butt, Ariel Kwiatkowski, Ismail Labiad, Julia Kempe, Yann Ollivier

## Контекст Оптимизация алгоритмов глубокого обучения, особенно в контексте трансформеров и ло LLaMA, ЛлаМа, является ключевым направлением в современной интеллектуальной системе. Акцент в работах по глубокому обучению часто делается на том, как модели могут более эффективно обрабатывать информацию, а также на методах обучения, которые позволяют им решать более сложные задачи. Одной из проблем в этой области является то, что современные модели часто оперируют с дискретными токенами, что ограничивает их гибкость и выразительность. Это делает необходимым исследование способов внедрения непрерывных токенов, которые могут более эффективно применяться в процессе решения задач, достигая более высокого уровня точности и гибкости. ## Метод В этой работе предлагается метод обучения моделей с использованием непрерывных токенов, используя технологию реинфорсмент (RL). Метод учитывает необходимость минимизировать компьютерные затраты и оптимизировать процесс обучения. Из статьи становится ясно, что модели обучаются на основе "мягких" токенов, которые представляют собой смешение дискретных токенов со зерном шума. Это позволяет модели более эффективно исследовать различные варианты решения задачи. Важно отметить, что процесс обучения не требует дистилляции от дискретных токенов, что значительно сокращает вычислительные затраты и быстродействие. В результате модели могут обрабатывать большое количество токенов, что дает новые возможности для решения задач, в том числе и математических решений. ## Результаты Эксперименты проводились на различных моделях глубокого обучения, включая ЛлаМа и Qwen, с размерами 8 миллиардов параметров. Модели обучались с использованием непрерывных токенов, а затем проверялись на бенчмарках математических задач. Результаты показали, что модели с непрерывными токенами не только совпадают с дискретными-токеновыми моделями по показателю pass@1, но и превосходят их в pass@32. Это демонстрирует, что непрерывные токены дают большую выразительность и улучшают разнообразие решения задач. Кроме того, модели, обученные с непрерывными токенами, лучше сохраняют выдачу базовой модели на неотношенных данных, что делает их более универсальными. ## Значимость Метод, предложенный в работе, может быть применен в различных областях, где требуется высокая точность и гибкость решения задач. Он может применяться в областях, таких как робототехника, системы рекомендаций, искусственный интеллект в сфере финансов и медицины. Важно отметить, что технология не только улучшает качество решения задач, но и позволяет экономить вычислительные ресурсы, что отлично подходи
Annotation:
The use of continuous instead of discrete tokens during the Chain-of-Thought (CoT) phase of reasoning LLMs has garnered attention recently, based on the intuition that a continuous mixture of discrete tokens could simulate a superposition of several reasoning paths simultaneously. Theoretical results have formally proven that continuous tokens have much greater expressivity and can solve specific problems more efficiently. However, practical use of continuous tokens has been limited by strong tr...
ID: 2509.19170v2 cs.CL, cs.AI, cs.LG
Авторы:

Siheng Li, Kejiao Li, Zenan Xu, Guanhua Huang, Evander Yang, Kun Li, Haoyuan Wu, Jiajia Wu, Zihao Zheng, Chenchen Zhang, Kun Shi, Kyrierl Deng, Qi Yi, Ruibin Xiong, Tingqiang Xu, Yuhao Jiang, Jianfeng Yan, Yuyuan Zeng, Guanghui Xu, Jinbao Xue, Zhijiang Xu, Zheng Fang, Shuai Li, Qibin Liu, Xiaoxue Li, Zhuoyu Li, Yangyu Tao, Fei Gao, Cheng Jiang, Bo Chao Wang, Kai Liu, Jianchen Zhu, Wai Lam, Wayyt Wang, Bo Zhou, Di Wang

#### Контекст С быстрым ростом вычислительных ресурсов в области машинного обучения возникают новые вызовы, связанные с ограниченностью качественных данных для обучения больших языковых моделей (LLMs). Это ограничение приводит к ошибкам в распространенных архитектурах, требуя новых подходов для улучшения моделей. Решением этой проблемы может стать использование новых методологий, которые позволят моделям учиться не только из последовательных данных, но также самостоятельно из своих ошибок в процессе обучения. Этот подход может привести к более глубокой пониманию языка и повышению точности моделей. #### Метод Методом RLPT (Reinforcement Learning on Pre-Training Data) предлагается применение методов оптимизации языковых моделей с помощью решателя RL (Reinforcement Learning). Этот подход работает независимо от традиционных методов, таких как супервизорное обучение (supervised learning), и использует возможности RL для динамического экспериментирования и выдачи решений. Модель, используя RLPT, может автоматически выявить сильные и слабые стороны своих решений в процессе обучения. Основной механизм — это обучение следующего участка текста (next-segment reasoning), где модель выдает предсказания о следующей части текста на основе предыдущего контекста. Это позволяет модели учиться более гибко и детально, обнаруживая новые сценарии и улучшая свойства языка. #### Результаты Работа RLPT проверена на нескольких моделях, включая Qwen3-4B-Base. Эксперименты показали, что RLPT обеспечивает значимые улучшения в различных бенчмарках, таких как MMLU, GPQA-Diamond и AIME24. Например, применение RLPT к Qwen3-4B-Base привело к улучшениям на $3.0$, $5.1$ и $8.1$ точек, соответственно. Результаты показали, что RLPT демонстрирует значительную стабильность и позволяет модели лучше учиться в более широких контекстах, улучшая их общие умения в области логики и решения задач. #### Значимость Решение RLPT может быть применено в различных областях, где требуется мощность и точность языковых моделей. Здесь возможны применения в математической обработке текста, научной переработке текста и виртуальных помощниках. В отличие от существующих методов, RLPT исключает нужды в сторонних ресурсах, таких как ручные оценки, и делает модели более эффективными в процессе обучения. Это может привести к повышению производительности и уменьшению затрат на обучение моделей на больших объемах данных. #### Выводы RLPT добивается значимых улучшений в решении задач языковой моделирования, обеспечивая более широкое универсальное понимание и логическое мышление. В дальнейшем, этот подход может быть расширен для дальнейшего улучшения моделей, включая их применение в различных задачах, таких как
Annotation:
The growing disparity between the exponential scaling of computational resources and the finite growth of high-quality text data now constrains conventional scaling approaches for large language models (LLMs). To address this challenge, we introduce Reinforcement Learning on Pre-Training data (RLPT), a new training-time scaling paradigm for optimizing LLMs. In contrast to prior approaches that scale training primarily through supervised learning, RLPT enables the policy to autonomously explore m...
ID: 2509.19249v1 cs.CL, cs.AI, cs.LG
Показано 231 - 240 из 370 записей