📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Jiayou Zhong, Anudeex Shetty, Chao Jia, Xuanrui Lin, Usman Naseem

## Контекст Область исследования — развитие здравоохранения с использованием крупных языковых моделей (LLM). Эти модели могут обеспечить более точный диагноз, улучшить персонализацию лечения и повысить эффективность здравоохранения. Однако в таких сентиментальных сферах как здравоохранение требуется учет множества личных, культурных и ситуационных факторов, что делает проблемой их "правильное" понимание и ответы. На сегодняшний день существуют попытки создать многоликие модели разрешения конфликтов (Modular Pluralism), но они оказываются недостаточно эффективными в этой области. Основной мотивацией для разработки EthosAgents является необходимость создания метода, который может учесть разнообразные значения и перспективы в рамках здравоохранения, где наиболее критичны ответы, учитывающие различные мотивации и взгляды. ## Метод EthosAgents — это новая, легковесная методика, которая использует множество "агентов", представляющих разные значения и представления. Каждый агент имеет свою мотивацию, которая определяется специальным системным фреймворком. Это позволяет модели эмулировать различные модели мышления и реагировать на запросы в соответствии с ними. Фреймворк предлагает вес для каждого агента, чтобы модель могла сбалансировать их вклад. Метод предназначен для работы с различными размерами моделей, от малых до крупных, и тестировался на открытых и закрытых моделях. ## Результаты В экспериментах EthosAgents был протестирован на 7 разных размерах моделей — от малых до крупных. Он вы mostró высокую эффективность в увеличении устойчивости и точности ответов на запросы, связанные с здравоохранением, во всех трех режимах работы. Результаты показали, что модель хорошо адаптируется к различным мотивациям и значениям, что демонстрирует важность нормативно понимания данных в этой области. Эти результаты подтверждают, что EthosAgents могут стать эффективным средством для повышения значимости и точности здравоохранения. ## Значимость Решение может иметь широкие применения в здравоохранении, включая персонализацию лечения, диагностику и поддержку решений для медиков. Оно также может быть применено в других высокосентиментных сферах, где важно учитывать различные мотивации и значения. Одним из преимуществ является универсальность и легковесный архитектурный подход, который может быть легко адаптирован к различным моделям и сценариям. Это делает EthosAgents ценным инструментом для повышения эффективности и уважения к разнообразию в здравоохранении. ## Выводы Метод EthosAgents — первое легковесное решение, которое эффективно решает проблему многоликости в з
Annotation:
As large language models are increasingly deployed in sensitive domains such as healthcare, ensuring their outputs reflect the diverse values and perspectives held across populations is critical. However, existing alignment approaches, including pluralistic paradigms like Modular Pluralism, often fall short in the health domain, where personal, cultural, and situational factors shape pluralism. Motivated by the aforementioned healthcare challenges, we propose a first lightweight, generalizable, ...
ID: 2509.10685v1 cs.CL, cs.AI, cs.LG
Авторы:

Valentin Hofmann, David Heineman, Ian Magnusson, Kyle Lo, Jesse Dodge, Maarten Sap, Pang Wei Koh, Chun Wang, Hannaneh Hajishirzi, Noah A. Smith

## Контекст Language model (LM) benchmarking является ключевым инструментом для оценки моделей естественного языка. Однако существуют несколько проблем, связанных с этим процессом. Оценка моделей часто оказывается дорогостоящей и временем затратной. Бенчмаркинг не всегда эффективен, так как он не всегда точно измеряет желаемые характеристики моделей. Бенчмаркинг может стать менее эффективным из-за ошибок в метках или иззатухания бенчмарка из-за повторного использования. Несмотря на существующие стратегии по устранению этих проблем, они часто адресуются в изолированном порядке, не учитывая широкую картину качества оценки. ## Метод Fluid Benchmarking предлагает новый подход к оценке моделей естественного языка, который обеспечивает улучшение на нескольких уровнях. Основная идея заключается в том, что значимость элементов бенчмарка зависит от уровня модели. Это означает, что оценка должна адаптироваться к каждой модели. Методология Fluid Benchmarking включает в себя использование модели ответа для предсказания результатов. Это позволяет выбирать элементы бенчмарка динамически, аналогично тестированию на компьютере в образовательных целях. В экспериментах, мы сравнивали этот подход с обычным случайным выбором и другими базлавами, основанными на методах теории ответа. ## Результаты Мы проверили Fluid Benchmarking на четырёх аспектах: эффективности, достоверности, вариативности и утомленности. Наши результаты показали, что этот подход превосходит остальные во всемим аспектах. Например, на MMLU, Fluid Benchmarking поленил 50 раз меньше элементов, но получил высокую достоверность и меньшую вариативность. Эти результаты показывают, что динамическая выборка элементов и использование модели ответа сильно улучшают качество оценки моделей. ## Значимость Fluid Benchmarking может быть применен в различных областях, включая образовательные инструменты, классификацию текстов и другие задачи естественного языка. Этот подход улучшает точность и эффективность оценки моделей, а также минимизирует возможные ошибки. Благодаря этому, Fluid Benchmarking может дать новые возможности для развития AI в различных сферах. ## Выводы Наша исследовательская работа показывает, что Fluid Benchmarking является эффективным идентификатором для моделей естественного языка. Мы продемонстрировали, что этот подход превосходит существующие бенчмарки в разных аспектах. Будущие исследования могут расширить этот подход, включив более широкий спектр моделей и задач.
Annotation:
Language model (LM) benchmarking faces several challenges: comprehensive evaluations are costly, benchmarks often fail to measure the intended capabilities, and evaluation quality can degrade due to labeling errors and benchmark saturation. Although various strategies have been proposed to mitigate these issues, they tend to address individual aspects in isolation, neglecting broader questions about overall evaluation quality. Here, we introduce Fluid Benchmarking, a new evaluation approach that...
ID: 2509.11106v1 cs.CL, cs.AI, cs.LG
Авторы:

Brennen Hill

## Контекст Статья «HEFT: A Coarse-to-Fine Hierarchy for Enhancing the Efficiency and Accuracy of Language Model Reasoning» посвящена проблеме ограничений вычислительных ресурсов при адаптации больших языковых моделей (LLMs) к задачам инференциального разума. Несмотря на то, что Parameter-Efficient Fine-Tuning (PEFT) методы нашли широкое применение в этой области, они разделены на два основных подхода: работа в весовом пространстве моделей и в пространстве их представлений. Авторы выдвигают гипотезу о возможности получения преимуществ при поэтапном их сочетании. Выбор LLama-2-7B и BoolQ демонстрирует то, что эта проблема становится все актуальнее в условиях сложных интеллектуальных задач. ## Метод Авторы предлагают новую стратегию HEFT (Hierarchical Efficient Fine-Tuning), которая объединяет два метода PEFT в последовательности понижения разрешения: в первую очередь, веса модели изменяются глобально при помощи Low-Rank Adaptation (LoRA), а затем локальные активации точечно адаптируются в Representation Fine-Tuning (ReFT). Это разделение позволяет сочетать в себе широковую общую адаптацию и точную корректировку внутренних структур. Архитектура HEFT, в которой каждый этап адаптации имеет свои цели и стратегии, разрешает одновременно эффективность и точность. ## Результаты Использование BoolQ как тестовой задачи позволило показать, что HEFT дает существенные преимущества. Тренировка в течение трех эпох дала 85.17% точности, что значительно превосходит результаты LoRA (85.05%) и ReFT (83.36%) при 20-эпочной тренировке. Это свидетельствует о том, что комбинирование LoRA и ReFT вовлекает значительные выигрыши в подготовке моделей к инференциальным задачам, особенно когда ресурсы ограничены. ## Значимость Этот подход может применяться в ситуациях, где вычислительные ресурсы ограничены, но требуется высокая точность, например, в области медицины, финансов или юриспруденции. Метод HEFT позволяет эффективно использовать ресурсы, давая моделям более высокую скорость восприятия и оценки сложных структур данных. Это открывает путь к более доступным и эффективным решениям для интеллектуальных задач, где традиционные подходы показались неэффективными. ## Выводы HEFT доказывает, что сочетание LoRA и ReFT в развитых PEFT-методах может повысить как эффективность, так и точность работы моделей. Эта стратегия может стать основой для будущих разработок в области адаптации LLMs к специализированным задачам. Для дальнейших работ следует расширить исследования на другие модели и данные, а также исследовать возможности дальнейшего улучшения этой архитектуры.
Annotation:
The adaptation of large language models (LLMs) to specialized reasoning tasks is fundamentally constrained by computational resources. Parameter-Efficient Fine-Tuning (PEFT) methods have emerged as a powerful solution, yet the landscape of these techniques is diverse, with distinct methods operating in either the model's weight space or its representation space. This paper investigates the hypothesis that a synergistic combination of these paradigms can unlock superior performance and efficiency...
ID: 2509.09801v1 cs.CL, cs.AI, cs.LG, 68T07, 68T50, 68T05, I.2.7; I.2.6; C.4
Авторы:

Zhengyu Hu, Zheyuan Xiao, Max Xiong, Yuxuan Lei, Tianfu Wang, Jianxun Lian, Kaize Ding, Ziang Xiao, Nicholas Jing Yuan, Xing Xie

## Контекст Повышение мощности и точности бо LLM (large language models) позволило создавать более реалистичные модели социальных интерфейсов. Однако, возникла проблема с оптимальным созданием персонажей, которые были бы лояльными к диапазону реальных личностей в реальном мире. Многие работы по LLM-based social simulation (специализированным моделям социальных симуляций) сфокусированы на создании рамков и сред, оставляя в стороне проблему генерации персонажей, которые могут быть упорядочены с точки зрения психометрических характеристик, таких как Big Five. Большинство существующих теорий и моделей либо не учитывают низкую представительность персонажей, либо не могут разделить на определенные группы. В этой работе мы предлагаем подход, ориентированный на выравнивание точности и глобальной эмпирической структуры, чтобы повысить вывод персонажей, более лояльных к данным реальных личностей. ## Метод Мы предлагаем фреймворк, который использует LLMs для генерации авторских персонажей из длительных данных социальных сетей. Для отбора высококачественных профилей мы применяем жесткий фильтр с использованием метрик по контексту, точности и грамматической целостности профиля. Далее, мы структурируем и выравниваем эти профили с помощью импортного выбора, чтобы они соответствовали популяционным трендам, основываясь на психометрических системах (например, Big Five). Для специфичных задач мы включаем модуль, который адаптирует эти профили для конкретных подгрупп, что позволяет обеспечить гибкость в социальных симуляциях. ## Результаты Мы проверили наш подход на нескольких датасетах социальных данных, включая данные социальных сетей и психометрические тесты. Его работа позволила достичь статистически значимого снижения биаса в профилях, имеющих доля в реальной популяции. Мы также оценили точность моделей в социальных симуляциях, включая задачи, такие как моделирование поведения и симуляция групповых интеракций. Результаты показали, что наш подход существенно улучшил глобальную точность и позволяет гибко контролировать симуляции под различные контексты. ## Значимость Наш подход может быть применен в различных областях, таких как гуманитарные исследования, политическая наука и развитие интеллектуальных систем. Он позволяет улучшить точность и реалистичность социальных симуляций, облегчая тестирование теорий и разработку политических и социальных решений. Благодаря гибкости и детализации, он также помогает решать проблему представительности в социальных моделях. ## Выводы Мы предложили новую методику для создания персонажей, более лояльных к данным реальных личност
Annotation:
Recent advances in large language models (LLMs) have enabled human-like social simulations at unprecedented scale and fidelity, offering new opportunities for computational social science. A key challenge, however, is the construction of persona sets that authentically represent the diversity and distribution of real-world populations. Most existing LLM-based social simulation studies focus primarily on designing agentic frameworks and simulation environments, often overlooking the complexities ...
ID: 2509.10127v1 cs.CL, cs.AI, cs.LG
Авторы:

Adrian de Wynter

## Контекст In-context learning (ICL) позволяет некоторым авторегрессионным моделям решать задачи с помощью next-token prediction без дополнительной обучения. Это привело к утверждениям о способности этих моделей решать невидящие задачи с помощью небольшого числа примеров в подсказке (exemplars). Однако дедукция не всегда означает обучение, так как ICL не явно инкорпорирует полученные наблюдения. Вместо этого модели полагаются на свой предварительный опыт и примеры соответствующие данной задаче. Мы утверждаем, что теоретически ICL может считаться обучением, но его полное характеристирование требует эмпирических исследований. Мы проводим крупномасштабный анализ ICL, учитывая абляционные модели и различные моменты вступления в задачу, включая меморизацию, предварительное обучение, распределения задач и стили подсказок. Мы обнаружили, что ICL является эффективным парадигмой обучения, но ограниченным в способности к обучению и общеприменимой генерализации. Мы отмечаем, что при увеличении числа примеров точность независима от распределения примеров, модели, оформления подсказок и лингвистических черт ввода. Вместо этого она дедуцирует шаблоны из регулярностей в подсказке, что приводит к распределенной чувствительности, особенно в стилях подсказок, таких как chain-of-thought. Несмотря на разные точности в формально похожих задачах, мы приходим к выводу, что ад-хак инкорпорация, предоставляемая потоковыми моделями, не является устойчивым механизмом и указывает на ограниченную мощь общей генерализации. ## Метод Мы проводим крупномасштабный экспериментальный анализ ICL, используя несколько авторегрессионных моделей с различными техническими возможностями, включая предварительно обученные модели с различными глубинами. Мы подготавливаем наборы данных, покрывающие различные типы задач, включая текстовую классификацию, регрессию и задачи смешанного ввода. Мы проводим эксперименты с различными стилями подсказок, глубинами модели, размерами примеров и разными распределениями примеров. Мы также проводим абляционные эксперименты, убирая формальные элементы, такие как порядок примеров, и несколько типов внешних модификаций, таких как исключение pretraining или введение новых стилей подсказок. Мы измеряем точность решения задач и сравниваем её по отдельности для каждого варианта. Мы также изучаем влияние различных типов модификаций на точность, включая различные оформления подсказок и типы задач. ## Результаты Мы обнаружили, что ICL эффективно решает задачи с малым числом примеров, но слабо генерализируется на невидящие задачи. Мы обнаружили, что точность зависит от количества примеров, стиля подсказки
Annotation:
In-context learning (ICL) allows some autoregressive models to solve tasks via next-token prediction and without needing further training. This has led to claims about these model's ability to solve (learn) unseen tasks with only a few shots (exemplars) in the prompt. However, deduction does not always imply learning, as ICL does not explicitly encode a given observation. Instead, the models rely on their prior knowledge and the exemplars given, if any. We argue that, mathematically, ICL does co...
ID: 2509.10414v2 cs.CL, cs.AI, cs.LG
Авторы:

Piyush Pant

## Контекст Настоящее исследование рассматривает проблему безопасности и эффективности технологий генеративных языковых моделей (LLM). Одной из основных проблем является возможность моделей выдавать опасные или неуместные ответы. Чтобы улучшить эти аспекты, развиваются методы адаптации моделей к конкретным потребностям пользователей. Одним из таких подходов является руководственная оптимизация на основе награды (Reward Model-based Optimization). Тем не менее, существуют проблемы, такие как недостаточная предсказательная способность моделей и нестабильность результатов в зависимости от выбранных методов. Это исследование опровергает эти проблемы, показывая, как модель OPT-350M может быть улучшена с помощью сочетания Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO). ## Метод Для решения задачи были использованы техники Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO). Эти методы используются для обучения модели OPT-350M, улучшая её безопасность и полезность. Модель OPT-350M была обучена с использованием данных из Anthropic Helpful-Harmless RLHF dataset. Для оценки результатов были введены новые метрики: Harmlessness Rate (HmR), Helpfulness Rate (HpR) и Combined Alignment Score (CAS). Для обучения использовались две модели: одна базовая и другая, комбинирующая SFT и DPO. Эксперименты проводились с учётом ограничений ресурсов, таких как ограниченный объём GPU. ## Результаты Эксперименты показали, что метод SFT демонстрирует лучшую безопасность (HmR), но направленный подход DPO даёт более высокую полезность (HpR). Комбинированный подход SFT+DPO позволил добиться лучшей связности результатов (CAS), чтобы обеспечить как безопасность, так и полезность. Однако есть проблемы, такие как нестабильность результатов в зависимости от настроек и недостаток ресурсов. Несмотря на это, комбинированный подход даёт более глубокую и стабильную лингвистическую модель для более безопасного и полезного использования. ## Значимость Улучшенная модель может использоваться в различных приложениях, таких как помощь в технических вопросах, создание контента и образовательные цели. Её особенностью является более высокая уверенность в том, что модель даёт безопасные и полезные ответы. Это может значительно улучшить качество сервисов, в которых используются генеративные технологии. ## Выводы Основные достижения включают в себя разработку эффективной модели, объединяющей SFT и DPO, для улучшения безопасности и полезности языковых моделей. Исследование также показало значимость новых метрик для оценки моделей. В дальнейшем будет рассматриваться улучшение методов обучения и устранение проблем с ресурсами для более стабильных и то
Annotation:
This research investigates the effectiveness of alignment techniques, Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and a combined SFT+DPO approach on improving the safety and helpfulness of the OPT-350M language model. Utilizing the Anthropic Helpful-Harmless RLHF dataset, we train and evaluate four models: the base OPT350M, an SFT model, a DPO model, and a model trained with both SFT and DPO. We introduce three key evaluation metrics: Harmlessness Rate (HmR), Helpfulness ...
ID: 2509.09055v1 cs.CL, cs.AI, cs.LG
Авторы:

Runpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu, Rui Liu, Tong Zheng, Hongtu Zhu, Dong Yu

## Контекст Reinforcement Learning with Verifiable Rewards (RLVR) является мощным подходом для улучшения разума и реакции Large Language Models (LLMs). Однако, существующие RLVR-методы часто неэффективно исследуют различные ситуации, что приводит к преждевременному затуханию энтропии и статичности. Данная проблема является серьезной преградой для достижения высокой гибкости и разума в LLMs. Мы предлагаем Curiosity-Driven Exploration (CDE), новый подход, который использует особое чувство любопытства модели, чтобы направлять ее исследование. Это создает новый подход к эффективному использованию RLVR, устраняя проблему преждевременной затухании энтропии. ## Метод Предлагаемый CDE-подход основывается на двух сигналах для поддержки исследования: 1. **Актёрский сигнал**: основывается на perplexity (меры сложности текста) генерируемых ответов модели. Более высокая perplexity поощряет модель для поиска более разнообразных и интересных ответов. 2. **Критический сигнал**: основывается на variance (разбросе) значений в результатах с многоголосой архитектурой критика. Этот сигнал помогает модели находить более уверенные и разнообразные стратегии решения. Используя эти сигналы, CDE формализует любопытство как награду для исследования, улучшая RLVR-фреймворк. Мы также проводим теоретический анализ, показывающий, что актёрский сигнал помогает избегать ошибок с высокой уверенностью, а критический сигнал поддерживает разнообразие. ## Результаты Мы провели эксперименты на AIME-benchmark, используя GRPO/PPO-алгоритмы и стандартный RLVR. Результаты показали, что CDE повышает эффективность RLVR на приблизительно 3 балла, сокращая проблемы premature convergence и entropy collapse. Также, наши анализы выявили "collapse calibration mechanism" (механизм затухания калибровки), объясняющий основные сбои в работе LLMs. ## Значимость Предлагаемый подход может быть применён во многих областях, где требуется высокая гибкость и сообразительность, например в клиентском обслуживании, бизнес-анализе и трансляции. Он избавляет от значительных проблем RLVR, таких как premature convergence и entropy collapse. Благодаря CDE, модели могут более эффективно исследовать различные ситуации, что делает их более универсальными и полезными в реальных задачах. ## Выводы Мы предложили Curiosity-Driven Exploration (CDE), новую модель, которая повышает эффективность RLVR в LLMs. Этот подход помогает избежать проблем, связанных с преждевременным затуханием энтропии и ограниченностью разнообразия ответов. Наши результаты показывают, что CDE позволяет LLMs более эффективно исследовать и решать сложные задачи. В будущем мы планируем расширить эту модель для более ши
Annotation:
Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful paradigm for enhancing the reasoning ability of Large Language Models (LLMs). Yet current RLVR methods often explore poorly, leading to premature convergence and entropy collapse. To address this challenge, we introduce Curiosity-Driven Exploration (CDE), a framework that leverages the model's own intrinsic sense of curiosity to guide exploration. We formalize curiosity with signals from both the actor and the critic: for the ac...
ID: 2509.09675v1 cs.CL, cs.AI, cs.LG
Авторы:

Joachim Baumann, Paul Röttger, Aleksandra Urman, Albert Wendsjö, Flor Miriam Plaza-del-Arco, Johannes B. Gruber, Dirk Hovy

#### Контекст Large language models (LLMs) значительно изменяют область социологических исследований, автоматизируя трудоемкие задачи, такие как аннотация данных и текстовый анализ. Однако выводы LLMs зависят от решений, которые принимают исследователи, таких как выбор модели, стратегия подсказок или настройки температуры. Эти отличия могут привести к систематическим уклонкам и случайным ошибкам, которые влияют на дальнейший анализ и приводят к ошибкам различного рода (Type I, Type II, Type S или Type M). Название этого явления — LLM hacking. Цель нашего исследования — оценить риски LLM hacking и разработать методы его снижения. #### Метод Мы проводили эксперименты с 37 задачами аннотации данных из 21 публикаций в области социальных наук, используя 18 различных LLMs. Обработав 13 миллионов меток, мы тестировали 2 361 гипотез, определяя, как различные реализационные решения влияют на статистические выводы. Наши эксперименты охватывают многие реалистичные сценарии использования LLMs в социологических исследованиях. #### Результаты Мы обнаружили, что примерно в треть случаев, если использовать выводы стандартных моделей, ведут к неверным статистическим выводам. У меньших моделей этот процент достигает половины. Мы обнаружили, что высокая точность модели и лучшая общая модельная качество снижают риск LLM hacking, но даже высокоточные модели не могут полностью исключить это риско. Также мы обнаружили, что чем больше эффектный размер, тем меньше риска ошибок, что подтверждает нужду в более строгих проверках значимости. Мы также проанализировали множество методов снижения LLM hacking, таких как жесткое верифицирование результатов, и показали, что значительное улучшение может быть достигнуто с помощью ручных аннотаций. #### Значимость Наше исследование имеет значительные приложения в социологических исследованиях, а также в других областях, где LLMs используются для автоматизации задач текстового анализа. Мы показали, что LLM hacking может привести к серьезным ошибкам в исследовательских выводах, что требует большей внимательности к процессу верификации данных. Мы также выявили преимущества использования ручных аннотаций в снижении false positive результатов и улучшении выбора моделей. Наши результаты также послужат основой для будущих исследований в области снижения LLM hacking. #### Выводы Наши исследования подтвердили, что LLM hacking является значительной проблемой для социологических исследований, но его риски могут быть существенно снижены при необходимости в строгих проверках значимости и поддержке ручных аннотаций. Мы также выявили, что LLM hacking требует новых подходов в области методо
Annotation:
Large language models (LLMs) are rapidly transforming social science research by enabling the automation of labor-intensive tasks like data annotation and text analysis. However, LLM outputs vary significantly depending on the implementation choices made by researchers (e.g., model selection, prompting strategy, or temperature settings). Such variation can introduce systematic biases and random errors, which propagate to downstream analyses and cause Type I, Type II, Type S, or Type M errors. We...
ID: 2509.08825v1 cs.CL, cs.AI, cs.LG
Авторы:

Kaiyan Zhang, Yuxin Zuo, Bingxiang He, Youbang Sun, Runze Liu, Che Jiang, Yuchen Fan, Kai Tian, Guoli Jia, Pengfei Li, Yu Fu, Xingtai Lv, Yuchen Zhang, Sihang Zeng, Shang Qu, Haozhan Li, Shijie Wang, Yuru Wang, Xinwei Long, Fangfu Liu, Xiang Xu, Jiaze Ma, Xuekai Zhu, Ermo Hua, Yihao Liu, Zonglin Li, Huayu Chen, Xiaoye Qu, Yafu Li, Weize Chen, Zhenzhao Yuan, Junqi Gao, Dong Li, Zhiyuan Ma, Ganqu Cui, Zhiyuan Liu, Biqing Qi, Ning Ding, Bowen Zhou

#### Контекст Модели логического моделирования (LRMs), такие как математические и программировальные модели, требуют высокого уровня логической природы и компьютерной продуманности. Ребусы, логические задачи и программирование требуют логического рассуждения, что ставит высокие требования к моделям логического моделирования. На протяжении многих лет, логическая модель моделирования (LLM) была основной моделью для обработки текста и вопросов, но некоторые логические задачи, такие как математика и программирование, требуют глубжей логической природы, которую LLM не может охватить. Рейнфорсмент Лиджинг (RL), как мощная методика обучения, играет важную роль в повышении логических моделей LRMs. Однако, с учетом значительных вызовов, связанных с размерностью моделей, ресурсами вычисления, данными для обучения и потребностью в алгоритмах, необходимо подробно изучить и повысить возможности RL для LRMs. #### Метод Мы вводим обзор последних достижений в области RL для LRMs, описывая основные компоненты, включая задачи логического моделирования, инфраструктуру обучения, используемые алгоритмы и данные. Мы рассматриваем широкую линейку архитектур RL, включая традиционные модели, такие как Q-learning и стратегический RL, а также более современные подходы, такие как глубокий RL и мульти-агентный RL. Мы также обсуждаем методы для улучшения обучения, такие как мета-обучение, адаптивные стратегии и мульти-модельное обучение. Методы RL для LRMs также включают в себя техники, такие как оптимизация задач, обучение с подкреплением и улучшение моделей через градиентные методы. #### Результаты Мы проводим эксперименты с различными моделями RL для LRMs, включая эксперименты с математическими задачами, программированием и ребусами. Мы используем большие объемы данных, включая наборы данных для математики, программирования и логических ребусов, для тренировки моделей. Результаты показывают, что RL может существенно улучшить логические модели LRMs, повышая их точность и удовлетворяя высокие требования к логической природе. Мы также выявляем ограничения и проблемы, такие как высокая сложность моделей, необходимость высоких ресурсов для обучения и отсутствие достаточных данных для обучения. #### Значимость Анализируя текущие достижения в RL для LRMs, мы выявляем широкие области применения, включая образовательные системы, робототехнику, программирование и даже клинические задачи. Методика RL для LRMs может не только улучшить логические модели, но также помочь в развитии новых технологий в области ИИ. Помимо этого, полученные результаты могут влиять на развитие новых моделей логического моделирова
Annotation:
In this paper, we survey recent advances in Reinforcement Learning (RL) for reasoning with Large Language Models (LLMs). RL has achieved remarkable success in advancing the frontier of LLM capabilities, particularly in addressing complex logical tasks such as mathematics and coding. As a result, RL has emerged as a foundational methodology for transforming LLMs into LRMs. With the rapid progress of the field, further scaling of RL for LRMs now faces foundational challenges not only in computatio...
ID: 2509.08827v1 cs.CL, cs.AI, cs.LG
Авторы:

Mihai Nadas, Laura Diosan, Andreea Tomescu, Andrei Piscoran

#### Контекст В последние годы литературная переводка приобрела внимания как сложная и отдельная задача в области машинного перевода. Однако, существуют значительные проблемы с доступностью и качеством малых открытых моделей при переводе литературы. Мы привлекли внимание к этой проблеме, представив TINYFABULIST TRANSLATION FRAMEWORK (TF2) — новую методологию для создания датасетов, файн-тюнинга и оценки перевода литературы. Центральной частью TF2 является модель TF2-12B — компактный, тюнингованный языковой модель, а также два больших синтетических параллельных датасета (DS-TF2-EN-RO-3M и DS-TF2-EN-RO-15K). Наша работа стремится улучшить доступность и качество перевода литературы в низкоресурсных языках, таких как румынский. #### Метод TF2 предлагает универсальную структуру для создания датасетов, тюнинга моделей и оценки перевода. Мы сформировали DS-TF2-EN-RO-3M, составив огромный набор синтетических параллельных фабул для румынского языка. Датасет DS-TF2-EN-RO-15K создан с использованием высокопроизводительной модели LLMs для генерации 15k высококачественных румынских стихотворных переводов. Модель TF2-12B началась с 12 миллиардов параметров и прошла два этапа файн-тюнинга: (i) инструкционный тюнинг для приобщения к жанру, и (ii) адаптерная сжатие для эффективного развертывания. Мы оценивали трансформации с помощью BLEU и пяти-мерного рейтинга, включающего аккуратность, гармонию, стиль и культурные аспекты. #### Результаты Наши результаты показывают, что TF2-12B достигает качества, которое примерно равно качеству топовых моделей, но имеет открытый код и гораздо более низкий затратный показатель. Мы получили высокий уровень подробности, стиля и культурной адаптации, что исключительно важен для литературных переводов. Это открытое решение позволяет улучшить доступ к литературе для тех, кто работает в низкоресурсных языках. #### Значимость TF2 может применяться в различных областях, таких как литературная трансляция, межязыковое рассказывание и раскрытие открытых моделей. Улучшение качества перевода в низкоресурсных языках может способствовать развитию культурного наследия и литературного творчества. Более того, TF2 устанавливает новый стандарт для эффективного и повторяемого исследования в области литературного перевода с помощью открытых моделей. #### Выводы Мы доказали, что TF2 достигает эффективности и качества, которые примерно эквивалентны топовым моделям, но с меньшими затратами. Это открытый инструмент, мотивирующий будущие исследования
Annotation:
Literary translation has recently gained attention as a distinct and complex task in machine translation research. However, the translation by small open models remains an open problem. We contribute to this ongoing research by introducing TINYFABULIST TRANSLATION FRAMEWORK (TF2), a unified framework for dataset creation, fine tuning, and evaluation in English-Romanian literary translations, centred on the creation and open release of both a compact, fine tuned language model (TF2-12B) and large...
ID: 2509.07829v1 cs.CL, cs.AI, cs.LG
Показано 271 - 280 из 370 записей