📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Exploring Superior Function Calls via Reinforcement Learning

2025-08-11

Авторы:

Bingguang Hao, Maolin Wang, Zengzhuang Xu, Yicheng Chen, Cunyin Peng, Jinjie GU, Chenyi Zhuang

## Контекст Функциональные вызовы являются ключевым компонентом для развертывания бо LLM в реальных приложениях, однако существующие методы тренировки часто не способны развивать резонантные стратегии. Методы супервизорного тюнинга приводят к моделям, ограниченным в их возможности, тогда как стандартные методы RL сталкиваются с проблемами в управлении сложной структурой действий. В работе предлагается новый RL-фреймворк, ориентированный на улучшение групповой политики относительной оптимизации с использованием стратегического эксплорения на основе энтропии. Это решение направлено на решение трех ключевых проблем: нехватка эксплорения во время политического обучения, отсутствие структурированного рассуждения в цепочках мыслей и неэффективность верификации извлечения параметров. ## Метод Методология основана на двух этапах подготовки данных. В первой фазе используется итеративный процесс, в котором LLM сам оценивает качество выборки, а во второй фазе используется абстрактное синтаксическое дерево для верификации. Фреймворк RL строится на основе усовершенствованной стратегии "политики с относительным групповым оптимизацией", в которой энтропия эксплорения играет ключевую роль в развитии разума. Это позволяет модели лучше отделять значимые от ненадежных вызовов, строить логические цепочки и эффективно проверять входные данные. ## Результаты Проведенные эксперименты на Berkley Function Calling Leaderboard показали, что предлагаемый подход достигает 86.02% правильности, превосходя стандартные методы GRPO на 6% в сложных сценариях. Особенно выдающиеся результаты получены при применении к моделям, специализирующимся на кодировании. Это подтверждает, что структурированные подходы к генерации языка могут значительно улучшить качество результатов в обучении RL для функциональных вызовов. ## Значимость Предлагаемый подход может быть применен в различных сегментах, где требуется структурированная система логического поведения, таких как кодирование, анализ и визуализация данных. Благодаря стратегическому эксплору и структурному рассуждению, он предлагает более надежные и точные решения. Последствия его развертывания могут включать улучшение производительности систем и создание более удобных интерфейсов для пользователей. ## Выводы Этот рабочий процесс RL показал свою эффективность в решении сложных задач функциональных вызовов, достигнув лидирующих результатов. Мы планируем продолжить работу над более сложными сценариями и расширением возможностей E2E-системы, чтобы обеспечить универсальность и масш

Annotation:

Function calling capabilities are crucial for deploying Large Language Models in real-world applications, yet current training approaches fail to develop robust reasoning strategies. Supervised fine-tuning produces models that rely on superficial pattern matching, while standard reinforcement learning methods struggle with the complex action space of structured function calls. We present a novel reinforcement learning framework designed to enhance group relative policy optimization through strat...

ID: 2508.05118v2 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 MolReasoner: Toward Effective and Interpretable Reasoning for Molecular LLMs

2025-08-09

Авторы:

Guojiang Zhao, Sihang Li, Zixiang Lu, Zheng Cheng, Haitao Lin, Lirong Wu, Hanchen Xia, Hengxing Cai, Wentao Guo, Hongshuai Wang, Mingjun Xu, Siyu Zhu, Guolin Ke, Linfeng Zhang, Zhifeng Gao

Многозначные языковые модели (LLMs) доказали свою эффективность во многих областях, но в молекулярной рассуждательной задаче их потенциал остается недостаточно использованным. Основные проблемы — это недостаток доменной специфичности при обучении и недостаток транспарентности в процессе рассуждения. Мы предлагаем MolReasoner — двухступенчатый подход, превращающий LLM из модели меморизации в модель молекулярного рассуждения. В первой стадии Mol-SFT использует синтетические Chain-of-Thought (CoT) примеры, созданные GPT-4o и проверенные на молекулярную точность. Во второй стадии Mol-RL расширяет модель с помощью усовершенствованных функций наград, чтобы усилить логику и улучшить проникновение в молекулярные структуры. Эксперименты показали, что MolReasoner значительно повышает точность и интерпретируемость результатов в сравнении с другими методами, превращая LLM в эффективный инструмент для молекулярной рассуждательной задачи.

Annotation:

Large Language Models(LLMs) have demonstrated remarkable performance across various domains, yet their capabilities in molecular reasoning remain insufficiently explored. Current approaches tend to rely heavily on general-purpose prompting, which lacks domain-specific molecular semantics, while those that use fine-tuning strategies often face challenges with interpretability and reasoning depth. To address these issues, we introduce MolReasoner, a two-stage framework designed to transition LLMs ...

ID: 2508.02066v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 CRINN: Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search

2025-08-09

Авторы:

Xiaoya Li, Xiaofei Sun, Albert Wang, Chris Shum, Jiwei Li

Статья предлагает CRINN (Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search) — новую подходящую для распределительных систем, таких как Retrieval-Augmented Generation (RAG) и Agent-Based Large Language Models (LLM), алгоритм для решения задачи оптимизации Approximate Nearest Neighbor Search (ANNS). Авторы относят ANNS к задачам об ускорении работы, трактуя её как задачу обучения с подкреплением (RL), где скорость выполнения является сигналом вознаграждения. Таким образом, CRINN автоматически генерирует ANNS-решения, обеспечивая быстродействие и сохраняя точность. Экспериментальные результаты показали, что CRINN превосходит существующие решения на трёх из шести бенчмарков данных, сравнявшись с ними на двух. Это доказывает, что LLMs, оснащённые RL, могут эффективно автоматизировать алгоритмическую оптимизацию, требующую специализированных знаний и трудоёмких работ. Доступен код на GitHub: https://github.com/deepreinforce-ai/CRINN.

Annotation:

Approximate nearest-neighbor search (ANNS) algorithms have become increasingly critical for recent AI applications, particularly in retrieval-augmented generation (RAG) and agent-based LLM applications. In this paper, we present CRINN, a new paradigm for ANNS algorithms. CRINN treats ANNS optimization as a reinforcement learning problem where execution speed serves as the reward signal. This approach enables the automatic generation of progressively faster ANNS implementations while maintaining ...

ID: 2508.02091v1 cs.LG, cs.AI, cs.CL, cs.DB

arXiv PDF

📄 LeanK: Learnable K Cache Channel Pruning for Efficient Decoding

2025-08-09

Авторы:

Yike Zhang, Zhiyuan He, Huiqiang Jiang, Chengruidong Zhang, Yuqing Yang, Jianyong Wang, Lili Qiu

Large language models (LLMs) обеспечивают высокую эффективность для задач с длинным контекстом, однако сталкиваются с проблемами эффективности в связи с быстрым увеличением размера ключ-значение (KV) кэша. Предлагаемое решение — LeanK: Learnable K Cache Channel Pruning — — метод, основанный на технике канальной сжатия KV-кэша, использующий новшество двухэтапной обучаемой сжимаемости. LeanK удаляет незначительные канали K-кэша с помощью чистого обучения и удовлетворяет требованиям к статической сжимаемости и аппаратной алгоритмичности. Для повышения производительности включена пользовательская шина аттенции, которая обеспечивает до 70% снижения размера K-кэша и ускорение обработки в 1,3 раза. На основе экспериментов показано, что LeanK эффективно улучшает время выполнения LLM в задачах с длинным контекстом, не приводя к потере точности. Анализ также дает понимание влияния подхода на модельные каналы и заголовки аттенции во время работы с длинным контекстом. Детали реализации доступны по адресу https://aka.ms/LeanK.

Annotation:

Large language models (LLMs) enable long-context tasks but face efficiency challenges due to the growing key-value (KV) cache. We propose LeanK, a learning-based method that prunes unimportant key (K) cache channels by leveraging static channel sparsity. With a novel two-stage training process, LeanK learns channel-wise static mask that could satisfy specific sparsity ratio and hardware alignment requirement. LeanK reduces GPU memory and accelerates decoding without sacrificing accuracy. Experim...

ID: 2508.02215v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 CellForge: Agentic Design of Virtual Cell Models

2025-08-09

Авторы:

Xiangru Tang, Zhuoyun Yu, Jiapeng Chen, Yan Cui, Daniel Shao, Weixu Wang, Fang Wu, Yuchen Zhuang, Wenqi Shi, Zhi Huang, Arman Cohan, Xihong Lin, Fabian Theis, Smita Krishnaswamy, Mark Gerstein

Ограниченность получения точных выводов в биологии часто связана с нехваткой доступных моделей, адаптированных для конкретных задач. Мы предлагаем CellForge, систему, которая автоматически генерирует модели для виртуальных клеток, используя мультиагентный подход. Учитывая только сырые данные одноклеточных мультиомис и задачи, CellForge выдает оптимизированное моделирование и код для его выполнения. Фреймворк включает три модуля: анализ задач для исследования данных и поиска литературы, коллективное разработки моделей специализированными агентами, и автоматический код-генератор. Агенты-эксперты дискутируют решения с модератором для достижения сбалансированных решений. Демонстрируя это на сценариях подвижности клетки при генной модификации, лекарственных воздействиях и инфекциях, мы показали, что CellForge превосходит состояние технологий задач. Этот подход показывает, что совместная работа многообразных агентов может лучше решать сложные задачи моделирования, чем однозначный подход.

Annotation:

Virtual cell modeling represents an emerging frontier at the intersection of artificial intelligence and biology, aiming to predict quantities such as responses to diverse perturbations quantitatively. However, autonomously building computational models for virtual cells is challenging due to the complexity of biological systems, the heterogeneity of data modalities, and the need for domain-specific expertise across multiple disciplines. Here, we introduce CellForge, an agentic system that lever...

ID: 2508.02276v1 cs.LG, cs.AI, cs.CL, q-bio.QM

arXiv PDF

📄 CAPO: Towards Enhancing LLM Reasoning through Verifiable Generative Credit Assignment

2025-08-09

Авторы:

Guofu Xie, Yunsheng Shi, Hongtao Tian, Ting Yao, Xiao Zhang

**Резюме** В статье предлагается CAPO (Credit Assignment Policy Optimization) — метод, улучшающий точность подкрепленного обучения с верифицируемыми наградами (RLVR) для бо LLM. Проблема заключается в том, что традиционные методы RLVR назначают одинаковый вес всем токенам ответа, что затрудняет точное присвоение кредита за успех или неудачу каждого токена. Разработанный CAPO использует общецелевую обработку естественных языков для построения шаг за шагом критики ответа, что позволяет назначить точные, проверяемые награды на уровне токенов. Для повышения точности используется механизм голосования, основанный на нескольких генерируемых критиках. Эксперименты показали, что CAPO превосходит супервизированные и другие RL-методы на математических и других бенчмарках, подтверждая его эффективность в улучшении точности и эффективности обучения бол LLMs.

Annotation:

Reinforcement Learning with Verifiable Rewards (RLVR) has improved the reasoning abilities of Large Language Models (LLMs) by using rule-based binary feedback, helping to mitigate reward hacking. However, current RLVR methods typically treat whole responses as single actions, assigning the same reward to every token. This coarse-grained feedback hampers precise credit assignment, making it hard for models to identify which reasoning steps lead to success or failure, and often results in suboptim...

ID: 2508.02298v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 What are you sinking? A geometric approach on attention sink

2025-08-09

Авторы:

Valeria Ruscio, Umberto Nanni, Fabrizio Silvestri

**Резюме** В статье анализируется признак "attention sink" (AS) — постоянный узкий пик в transformer attention maps, когда токены (особенно специальные или позиционные) привлекают существенно больше внимания, чем другие. Авторы показывают, что AS не является просто особенностью архитектуры, а является результатом основного геометрического принципа: установки ссылочных систем в высокомерных пространствах. Они выявляют три типа ссылочных систем — централизованные, распределенные и бинаризационные — которые соответствуют AS и возникают в ранних этапах обучения как эффективные решения для установки стабильных систем координат. Авторы также изучают, как различные компоненты архитектуры, особенно реализации позиционных кодировок, влияют на тип ссылочной системы. Это новое представление transformer attention механизмов обеспечивает понимание AS и помогает в дизайне моделей и анализе этого явления.

Annotation:

Attention sink (AS) is a consistent pattern in transformer attention maps where certain tokens (often special tokens or positional anchors) disproportionately attract attention from other tokens. We show that in transformers, AS is not an architectural artifact, but it is the manifestation of a fundamental geometric principle: the establishment of reference frames that anchor representational spaces. We analyze several architectures and identify three distinct reference frame types, centralized,...

ID: 2508.02546v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Parameter-Efficient Routed Fine-Tuning: Mixture-of-Experts Demands Mixture of Adaptation Modules

2025-08-09

Авторы:

Yilun Liu, Yunpu Ma, Yuetian Lu, Shuo Chen, Zifeng Ding, Volker Tresp

Многоэкспертные модели (MoE) используют динамический механизм маршрутизации для распределения задач между специализированными экспертами, что позволяет эффективно оптимизировать их обучение и использование. Однако существующие стратегии Parameter-Efficient Fine-Tuning (PEFT) не учитывают этот аспект, что приводит к потерям в эффективности. В статье рассматривается вопрос о том, должны ли модули подготовки включать в себя механизмы маршрутизации, чтобы лучше адаптироваться к архитектуре MoE. Описывается анализ динамики PEFT при использовании в моделях MoE и изучаются различные стратегии маршрутизации. Исследования проводились на моделях OLMoE-1B-7B и Mixtral-8x7B, адаптированных к задачам смыслового понимания и математического рассуждения. На основе экспериментов доказано, что маршрутизируемые модули позволяют достичь более высокой эффективности и точности. На основе этих результатов даны рекомендации по оптимальной конфигурации для различных сценариев и применения MoE в реальных задачах.

Annotation:

Mixture-of-Experts (MoE) benefits from a dynamic routing mechanism among their specialized experts, which existing Parameter- Efficient Fine-Tuning (PEFT) strategies fail to leverage. This motivates us to investigate whether adaptation modules themselves should incorporate routing mechanisms to align with MoE's multi-expert architecture. We analyze dynamics of core components when applying PEFT to MoE language models and examine how different routing strategies affect adaptation effectiveness. E...

ID: 2508.02587v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 VRPO: Rethinking Value Modeling for Robust RL Training under Noisy Supervision

2025-08-09

Авторы:

Dingwei Zhu, Shihan Dou, Zhiheng Xi, Senjie Jin, Guoqiang Zhang, Jiazheng Zhang, Junjie Ye, Mingxu Chai, Enyu Zhou, Ming Zhang, Caishuang Huang, Yunke Zhang, Yuran Wang, Tao Gui

**Резюме** В текущих Reinforcement Learning from Human Feedback (RLHF) системах значительная проблема заключается в том, что наградная информация часто шумная и неточная, что приводит к проблемам с устойчивостью политики и ее общей работоспособностью. Особенно остро это проявляется при использовании моделей текстовых ответов, где неточности в награде могут привести к неверному принятию решений. В данной работе авторы показывают, что значительная часть этих проблем может быть решена путем улучшения значимости значения (value model). Они предлагают VRPO — новую архитектуру, которая стремится сделать значение модели более устойчивой к шумам с помощью двух основных элементов: (1) аугментации тренировочного процесса с помощью генерации слов и оценки энтропии, (2) использование информационного ограничения вариационного буттлнейка. Эти изменения превращают значение модели из простого предсказателя в активного регулятора шума, что позволяет политике более точно отсеивать мешающие сигналы. Эксперименты показали, что VRPO выдает значительно лучшие результаты по сравнению с PPO и GRPO на задачах математического разума, специальных вопросов и разговорных диалогах. Это подтверждает важность значения модели в RLHF и предлагает эффективный подход для борьбы с шумом в наградах.

Annotation:

Reinforcement Learning from Human Feedback (RLHF) often suffers from noisy or imperfect reward supervision in real-world settings, which undermines policy stability and generalization. Such noise may cause models to lose attention on key words during advantage estimation. While prior work focuses on reward denoising or filtering poor data, it often overlooks the critical role of the value model in policy optimization. In this work, we show that a strong value model is essential for mitigating no...

ID: 2508.03058v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 GTPO: Trajectory-Based Policy Optimization in Large Language Models

2025-08-09

Авторы:

Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino

**Резюме** Политические оптимизации широко используются для тренировки и выравнивания языковых моделей, но имеют существенные ограничения. Метод Group-relative Policy Optimization (GRPO) стал одним из самых эффективных подходов, но страдает двумя главными недостатками. Во-первых, токены часто получают противоречивые награды (положительные и отрицательные), что приводит к нестабильным градиентам и снижению их вероятности. Во-вторых, отрицательные награды могут пенализировать уверенные ответы, приводя к разряжению выходного распределения и ухудшению обучения. Мы предлагаем GTPO (Group-relative Trajectory-based Policy Optimization), который решает эти проблемы. Метод идентифицирует "конфликтные" токены, появляющиеся в завершениях с противоположными наградами, и защищает их от отрицательных обновлений, повышая вероятности положительных. Также GTPO исключает завершения с высоким энтропийным неопределенностью. Благодаря этому GTPO обеспечивает более устойчивое и эффективное обучение, не прибегая к регуляризации KL-дивергенции или ссылочной модели, что подтверждено результатами на GSM8K, MATH и AIME 2024.

Annotation:

Policy-based optimizations are widely adopted today for the training and alignment of language models, where one of the most recent and effective approaches is Group-relative Policy Optimization (GRPO). In this paper, we reveals and analyze two major limitations of GRPO: (i) tokens frequently appear in completions with both positive and negative rewards, leading to conflicting gradient updates that can reduce their output probability, even though can be essential for maintaining proper structure...

ID: 2508.03772v1 cs.LG, cs.AI, cs.CL

arXiv PDF

Показано 261 - 270 из 278 записей