📚 Саммари научных статей из arXiv

Найдено 233 результатов по запросу 'cs.LG, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 When Inverse Data Outperforms: Exploring the Pitfalls of Mixed Data in Multi-Stage Fine-Tuning

2025-09-18

Авторы:

Mengyi Deng, Xin Li, Tingyu Zhu, Zhicheng Yang, Zhijiang Guo, Wei Wang

## Контекст Исследование посвящено сложностям, возникающим при использовании смешанных данных (forward и reverse) в многоэтапном оптимизированном тренировочном процессе (multi-stage fine-tuning, SFT). Уже существующие работы доказали, что можно достичь высокой точности (o1-level performance) при ограниченном объеме данных, однако большинство методов ориентированы на одинарную супервайзен регуляризацию (unidirectional supervised fine-tuning, SFT) и не учитывают трудности, возникающих при смешанных задачах различных логических рассуждений. В работе предлагается новый высококачественный датасет для обучения, полученный путем перевёртыша 1,000 форвардных примеров из S1K. Это позволяет изучать влияние SFT и Direct Preference Optimization (DPO) на адаптацию модели в условиях двунаправленных задач рассуждения. ## Метод Методология основана на создании и использовании нового датасета r1k, состоящего из 1,000 перевёртышных примеров из S1K. Для SFT и DPO используется специальная архитектура, где модели обучаются на смешанных наборах данных, учитывая различные типы логических рассуждений. Алгоритм DPO используется для улучшения различения между разными типами рассуждений, но при этом снижает вес других, менее предпочтительных путей. Это позволяет зафиксировать исследовать позитивные и негативные влияния смешанных данных на обучение модели. ## Результаты В ходе экспериментов было обнаружено, что обучение на r1k приводит к улучшению точности от 1.6% до 6.8% по сравнению с S1K, при этом наблюдается улучшение в обучении для обеих сторон рассуждения (forward и reverse). Однако обнаружено, что простое смешение forward и reverse данных в процессе SFT снижает ключевые задачи рассуждения, что влечёт за собой снижение уверенности модели. Хотя DPO может частично восстановить различение между разными типами рассуждений, он также сокращает вес процессов, которые не являются доминирующими, что приводит к нарушению баланса в нагрузке на модель. ## Значимость Результаты имеют значительное значение в различных областях, где требуется оптимальное уравновешивание между разными типами рассуждений (forward и reverse). Это может быть применено в обучении моделей для систем вопроса-ответа (QA), где требуется правильное понимание и предсказание двунаправленных задач. Наиболее значимым преимуществом является возможность ослабить конфликтующие сигналы в данных и улучшить внимание модели к направленным логическим задачам. Будущие работы могут направлены на развитие более продвинутых методов для полного использования смешанных данных. ## Выводы Основными достижениями является получение повышения точности в обучении модели при использовании смешанных данных, а также выявление основ

Annotation:

Existing work has shown that o1-level performance can be achieved with limited data distillation, but most existing methods focus on unidirectional supervised fine-tuning (SFT), overlooking the intricate interplay between diverse reasoning patterns. In this paper, we construct r1k, a high-quality reverse reasoning dataset derived by inverting 1,000 forward examples from s1k, and examine how SFT and Direct Preference Optimization (DPO) affect alignment under bidirectional reasoning objectives. SF...

ID: 2509.13079v1 cs.LG, cs.CL

arXiv PDF

📄 WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning

2025-09-18

Авторы:

Kuan Li, Zhongwang Zhang, Huifeng Yin, Rui Ye, Yida Zhao, Liwen Zhang, Litu Ou, Dingchu Zhang, Xixi Wu, Jialong Wu, Xinyu Wang, Zile Qiao, Zhen Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

## Контекст Область исследования сосредоточена на развитии систем, которые могут выполнять сложные информационно-поисковые задачи с помощью глубокого обучения и результативных алгоритмов. Несмотря на успехы в области широкодоступных LLMs (Large Language Models), проблема сокращения расстояния между открытыми и закрытыми моделями, такими как DeepResearch, остается актуальной. Особенно вы sobstvenно вы sobstvenно вы sobstvenно вы sobstvenно вы sobstvenно вы sobstvenно вы sobstвонелость суверенных агентов в области решения высокосложностных задач, таких как BrowseComp. Эти системы превосходят открытые модели в систематичной отработке неопределенности в данных и принятии решений. Мотивирует эти исследования необходимость улучшения системы понимания и обработки информации в сложных сценариях. ## Метод WebSailor-V2 представляет собой построенную после обучения методологию, которая использует синтетические данные и жадный подход к улучшению моделей. На основе RFT (Reasoning From Tasks), алгоритм обучения Duplicating Sampling Policy Optimization (DUPO) адаптирует модели к высоконагруженным сценариям. Основная идея заключается в создании ситуаций с высоким неопределенностным потенциалом, которые модель должна разрешить. Для этого используется структурированное семплирование задач и методы информационной обобщения. DUPO оптимизирует поведение модели в многошаговых задачах, уменьшая ошибки и увеличивая уверенность в ответах. ## Результаты В ходе экспериментов было продемонстрировано, что WebSailor-V2 демонстрирует повышенную точность и эффективность по сравнению с открытыми моделями в тех же самых задачах. За основу взяты данные из BrowseComp и других системных тестов, где викторина показала существенное улучшение в скорости и точности решения сложных вопросов. На открытых данных WebSailor-V2 показала точность, приблизившуюся к результатам закрытых систем, что подтвердило ее эффективность в решении неопределенных задач. ## Значимость WebSailor-V2 может применяться в различных областях, включая учебные системы, робототехнические системы, интеллектуальные помощники и информационные системы для пользователей. Она предоставляет возможность решать сложные задачи, избегая интерпретаций, связанных с недостатком доступа к ресурсам. Это значительно расширяет спектр моделей, которые могут быть использованы в промышленных сценариях без необходимости использовать закрытые модели. ## Выводы WebSailor-V2 достигла существенных улучшений в решении сложных задач, матчинг результаты закрытых моделей и даже превосходят их в отдельных сценариях. Будущие исследования будут сконцентрированы на расширении методологии для прочих задач, например, в сложных системах упра

Annotation:

Transcending human cognitive limitations represents a critical frontier in LLM training. Proprietary agentic systems like DeepResearch have demonstrated superhuman capabilities on extremely complex information-seeking benchmarks such as BrowseComp, a feat previously unattainable. We posit that their success hinges on a sophisticated reasoning pattern absent in open-source models: the ability to systematically reduce extreme uncertainty when navigating vast information landscapes. Based on this i...

ID: 2509.13305v1 cs.LG, cs.CL

arXiv PDF

📄 Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting

2025-09-17

Авторы:

Yining Lu, Zilong Wang, Shiyang Li, Xin Liu, Changlong Yu, Qingyu Yin, Zhan Shi, Zixuan Zhang, Meng Jiang

#### Контекст Одной из ключевых задач в многоцелевом управлении поведением (Multi-Objective Reinforcement Learning, MORL) является эффективное решение задач, где каждая цель имеет различные веса в зависимости от текущей ситуации. В области онлайн-подбора предпочтений (Online Preference Alignment) для больших языковых моделей необходимо создать модели, которые могут адаптироваться в реальном времени к изменению предпочтений пользователей. Традиционные подходы, основанные на линейной нормировке статических весов, не могут принять во внимание многие нелинейные и неконвексные зависимости между целями. Это приводит к подбору неоптимальных решений. Наша мотивация заключается в разработке адаптивных методов, которые могут эффективно и гибко решать эти проблемы, учитывая комплексность и неопределенность реальных сценариев. #### Метод Мы предлагаем динамическую систему весовой нормировки (Dynamic Reward Weighting), которая адаптирует веса целей во время процесса обучения. Метод основывается на двух основных подходах: (1) **гиперобъем-ориентированная регулировка весов** и (2) **градиентно-ориентированная оптимизация весов**. В первом подходе, веса устанавливаются на основе метрики гиперобъема, чтобы эффективно охватывать границы возможных решений в многомерном пространстве целей. Во втором подходе, веса уточняются путем оптимизации градиентов, что обеспечивает более точное адаптирование к динамическим изменениям целей. Наша архитектура включает модель с параметрами, которая напрямую взаимодействует с окружающим миром, собирает статистику и анализирует поведение в зависимости от текущих предпочтений. #### Результаты Мы провели ряд экспериментов на математических рассуждениях с использованием различных моделей языковых моделей, включая GRPO, REINFORCE и RLOO. Наши результаты показывают, что динамическая нормировка весов позволяет эффективно охватывать границы решений (Pareto fronts) с меньшим количеством обучения по сравнению с статическими линейными схемами весов. Мы проверили нашу модель на сценариях, требующих быстрого адаптирования к изменению предпочтений, и показали, что она превосходит другие методы в зоне неоптимальности, когда цели меняются динамически. #### Значимость Наш подход имеет широкую сферу применения, включая задачи онлайн-подбора предпочтений в технологиях глубокого обучения, моделировании поведения в играх, системах экономического моделирования и даже реальных приложениях, таких как адаптивные интерфейсы. Наш метод предлагает следующие преимущества: (1) эффективность, (2) гибкость в решении нелинейных задач, (3) уменьшение врем

Annotation:

Prior works in multi-objective reinforcement learning typically use linear reward scalarization with fixed weights, which provably fail to capture non-convex Pareto fronts and thus yield suboptimal results. This limitation becomes especially critical in online preference alignment for large language models. Here, stochastic trajectories generated by parameterized policies create highly non-linear and non-convex mappings from parameters to objectives that no single static weighting scheme can fin...

ID: 2509.11452v1 cs.LG, cs.CL

arXiv PDF

📄 Measuring Visual Understanding in Telecom domain: Performance Metrics for Image-to-UML conversion using VLMs

2025-09-17

Авторы:

HG Ranjani, Rutuja Prabhudesai

#### Контекст Телекоммуникационный домен 3GPP охватывает огромный объем документации, включающую сложные схемы системных потоков, такие как последовательностные диаграммы. Эти схемы играют ключевую роль в анализе и моделировании системных процессов. С появлением Vision-Language Large Models (VLMs), таких как Claude Sonnet и GPT-4V, стало возможным автоматизировать преобразование таких изображений в машинно-читаемый формат PlantUML (puml). Однако существуют значительные проблемы в оценке качества таких преобразований. Настоящая работа адресует этот вопрос, предлагая метрики для измерения точности и качества преобразования puml-скриптов, а также используя 3GPP-документы в качестве представительного набора данных. #### Метод Для проведения экспериментов был создан набор данных, включающий последовательностные диаграммы из реальных документов 3GPP. Эти диаграммы были преобразованы в puml-формат с использованием двух VLMs: Claude Sonnet и GPT-4V. Для оценки качества преобразований были предложены стандартные метрики, охватывающие следующие аспекты: точность идентификации узлов (participant identification), точность описания сообщений (message flow accuracy), сохранение порядка потока (sequence ordering) и сохранение группирования конструкций (grouping construct preservation). Для сравнения результатов использовались системы контроля версий, чтобы выявить различия между значениями, полученными с помощью VLMs, и ручными представлениями (ground truth). #### Результаты Эксперименты показали высокую точность преобразования в целом, особенно в случае узлов, сообщений и потоков. Однако для более сложных конструкций, таких как группы, заметки и контейнеры, VLMs демонстрировали меньшую точность. Это относится к тем областям, где представление входных данных для VLMs требует дополнительного оптимизации. Результаты показывают, что активное улучшение тренировочных данных для VLMs может существенно повысить эффективность преобразований. #### Значимость Результаты этого исследования имеют большое значение для автоматизации процессов в телекоммуникационной отрасли. Метрики, предложенные в работе, позволяют измерить качество преобразования puml-скриптов, что может привести к более точному анализу и моделированию системных процессов в телекоммуникационных системах. Эти метрики могут быть применены в других областях, где используются последовательностные диаграммы. Будущие исследования могут сосредоточиться на улучшении тренировочных данных для VLMs, чтобы улучшить их точность в преобразовании более сложных конструкций. #### Выводы Исследование установило, что VLMs Claude Sonnet и GPT-4V эффективно работают на многих уровнях, но существуют про

Annotation:

Telecom domain 3GPP documents are replete with images containing sequence diagrams. Advances in Vision-Language Large Models (VLMs) have eased conversion of such images to machine-readable PlantUML (puml) formats. However, there is a gap in evaluation of such conversions - existing works do not compare puml scripts for various components. In this work, we propose performance metrics to measure the effectiveness of such conversions. A dataset of sequence diagrams from 3GPP documents is chosen to ...

ID: 2509.11667v1 cs.LG, cs.CL

arXiv PDF

📄 MillStone: How Open-Minded Are LLMs?

2025-09-17

Авторы:

Harold Triedman, Vitaly Shmatikov

#### Контекст Large language models (LLMs), оснащенные возможностями веб-поиска и информационного ретриева, начали заменить традиционные поисковые системы. Пользователи все чаще полагаются на LLMs для получения информации о различных темах, включая спорные и делимые. Однако важно понять, как ставки и мнения, выраженные в получаемых ответах LLMs, зависят от документов, используемых в качестве источников информации. Это имеет решающее значение для оценки нейтральности и открытости моделей к разным точкам зрения. В данной работе представлен бенчмарк MillStone, первый, который направлен на систематическое измерение влияния внешних аргументов на ставки LLMs в спорных вопросах (не только политических). Мы применяем MillStone к девяти ведущим LLMs и изучаем, насколько "открыты" они к аргументам, освещающим разные стороны спорных вопросов, как согласны они между собой, какие аргументы наиболее убедительны и повторяются в разных моделях. Мы обнаружили, что LLMs в общем-то открыты к разным точкам зрения на большинство вопросов. Однако авторитетный источник информации с легкостью может повлиять на ставку LLM, что подчеркивает важность выбора источников и риск возможной манипуляции LLM-системами поиска информации. #### Метод MillStone — это коллекция спорных вопросов, каждый из которых представлен в виде двух взаимоисключающих позиций. Мы измеряем, насколько LLMs открыты к аргументам, поддерживающим каждую из этих позиций, используя две основные метрики: **Agreement** (насколько LLMs поддерживают одну и ту же позицию) и **Argument Impact** (насколько выбранные аргументы влияют на ставку LLM). Мы применяем MillStone к девяти LLMs, включая самые популярные (например, GPT-3.5, Claude-2, LLaMA-2). Выбор аргументов основывается на источниках, таких как Wikipedia, Reuters, и другие надежные онлайн-источники. Мы проводим многократные эксперименты с различными настройками, включая разные варианты формулировок вопросов и порядки аргументов. #### Результаты Мы обнаружили, что LLMs в общем-то открыты к разным сторонам вопросов, но их открытость зависит от источника аргумента. Например, если один LLM склоняется к одной позиции, то другой LLM может склониться к другой, даже при использовании одинаковых аргументов. Это указывает на различия в интерпретации аргументов. Мы также обнаружили, что аргументы из авторитетных источников, таких как Reuters, имеют наибольшее влияние на ставку LLM. Напротив, аргументы из менее авторитетных источников (например, википедии) влияют на LLM в меньшей степени. Это подтверждает риск возможных манипуляций, если малоавторитетные или поддельные источники б

Annotation:

Large language models equipped with Web search, information retrieval tools, and other agentic capabilities are beginning to supplant traditional search engines. As users start to rely on LLMs for information on many topics, including controversial and debatable issues, it is important to understand how the stances and opinions expressed in LLM outputs are influenced by the documents they use as their information sources. In this paper, we present MillStone, the first benchmark that aims to sy...

ID: 2509.11967v2 cs.LG, cs.CL

arXiv PDF

📄 Event2Vec: A Geometric Approach to Learning Composable Representations of Event Sequences

2025-09-17

Авторы:

Antonin Sulc

## Контекст Изучение нейронных представлений в биологических и искусственных системах показывает возрастающую роль геометрических и топологических структур. Однако традиционные подходы к обучению представлений последовательностей событий часто игнорируют эти структуры, ограничиваясь поэлементным подходом. Это приводит к трудностям в представлении композиционных свойств и иерархических структур. Целью нашего исследования является развитие модели, которая могла бы обеспечить композиционные и интерпретируемые представления последовательностей событий, учитывая их естественные атрибуты. ## Метод Мы предлагаем Event2Vec, модель, основанную на аддитивной рекуррентной структуре для обучения представлений последовательностей событий. Модель использует простую архитектуру, при которой каждое событие в последовательности добавляется к представлению в пространстве векторов. Ключевым моментом является оценка, что при оптимальном обучении подходящим целевым функционалом, представление последовательности может быть представлено как сумма векторов её составных событий. Для работы с иерархическими данными мы также предлагаем вариант Event2Vec в гиперболическом пространстве, который естественно подходит для кодирования деревянных структур с минимальной дистortion-функцией. ## Результаты Мы проверили нашу модель на различных типах последовательностей событий, включая текстовые последовательности и иерархические структуры. Эксперименты показали, что модель Event2Vec в Euclidean space достигает высокой точности при линейно-аддитивных представлениях. Также мы проверили модель в гиперболическом пространстве, и она показала значительное улучшение на последовательностях с деревянной структурой. Эти результаты подтвердили гипотезу о линейной аддитивности и демонстрировали преимущества гиперболического пространства для иерархических последовательностей. ## Значимость Модель Event2Vec может быть применена в различных областях, таких как естественноязыковой процессинг, историческое анализ и даже в системах распознавания шаблонов. Она предоставляет композиционные и интерпретируемые представления, что делает её полезной для задач, требующих понимания композиции событий. Для задач, где структура данных имеет характер дерева, гиперболическая версия Event2Vec дает существенное выгоду в задаче уменьшения дистortionа. ## Выводы Мы представили Event2Vec, модель, которая комбинирует простоту и эффективность в обучении представлений последовательностей событий. Наши результаты подтверждают ценность геометрической структуры в обучении представлени

Annotation:

The study of neural representations, both in biological and artificial systems, is increasingly revealing the importance of geometric and topological structures. Inspired by this, we introduce Event2Vec, a novel framework for learning representations of discrete event sequences. Our model leverages a simple, additive recurrent structure to learn composable, interpretable embeddings. We provide a theoretical analysis demonstrating that, under specific training objectives, our model's learned repr...

ID: 2509.12188v1 cs.LG, cs.CL

arXiv PDF

📄 Identifying Key Features for Establishing Sustainable Agro-Tourism Centre: A Data Driven Approach

2025-09-13

Авторы:

Alka Gadakh, Vidya Kumbhar, Sonal Khosla, Kumar Karunendra

## Контекст Agro-tourism является стратегическим экономическим моделем, нацеленным на стимулирование развития сельских районов путем разнообразия источников дохода для местных сообществ, таких как фермеров, а также формированием привлекательного культурного наследия и сохранением традиционных сельских практик. Несмотря на бурное развитие этой сферы, существуют недостатки в понимании эффективных стратегий для развития агро-туризма. Необходимость исследования вклада индивидуальных индикаторов в процесс роста рынка агро-туризма актуальна, так как они позволяют выявить приоритетные направления для развития экономики сельских территорий. Таким образом, наша статья сфокусирована на идентификации ключевых факторов, которые могут способствовать эффективному развитию агро-туризма и улучшению его экономического потенциала. ## Метод Для достижения поставленных целей, исследование проводилось в два этапа. В первой фазе проведена комплексная литературная ревизия, чтобы выявить важные факторы, влияющие на рост агро-туризма. Во второй фазе были применены современные машинное обучение и методы выбора признаков для детального анализа. Использовались такие машинные обученные модели, как Logistic Regression (LR), Decision Trees (DT), Random Forest (RF), и Extreme Gradient Boosting (XGBOOST). Для выбора признаков применялся метод Least Absolute Shrinkage and Selection Operator (LASSO). Эти модели были использованы для определения и оценки важности факторов, которые могут положительно сказываться на росте и усовершенствовании моделей агро-туризма. ## Результаты Применение LASSO в сочетании с LR позволило достичь наивысшей точности классификации - 98% при данных в пропорции 70-30% для обучения и тестирования. Другими моделями, показавшими высокую точность, являются RF и XGBOOST, которые достигли 95% и 97% соответственно при 70-30% данных. В случае использования 80-20% данных для обучения и тестирования, точность классификации LR оставалась наивысшей - 99%, тогда как DT и XGBoost реализовали 97%. Эти результаты показывают, что LASSO с LR является наиболее эффективным подходом для выделения ключевых факторов, поддерживающих рост агро-туризма. ## Значимость Результаты исследования могут быть применены в сфере развития ритейл-бизнеса, экономики сельских территорий, а также в политических решениях, связанных с формированием стратегий для развития сельского туризма. Исследование также может вносить значительный вклад в понимание взаимосвязей между различными факторами и их влиянием на экономический рост. Это может привести к оптимизации ресурсов, увеличению доходов фермеров и повышению уровня жизни в сельских

Annotation:

Agro-tourism serves as a strategic economic model designed to facilitate rural development by diversifying income streams for local communities like farmers while promoting the conservation of indigenous cultural heritage and traditional agricultural practices. As a very booming subdomain of tourism, there is a need to study the strategies for the growth of Agro-tourism in detail. The current study has identified the important indicators for the growth and enhancement of agro-tourism. The study ...

ID: 2509.09214v1 cs.LG, cs.CL

arXiv PDF

📄 Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents

2025-09-13

Авторы:

Jiawei Wang, Jiacai Liu, Yuqian Fu, Yingru Li, Xintao Wang, Yuan Lin, Yu Yue, Lin Zhang, Yang Wang, Ke Wang

## Контекст В последнее время, Large Language Models (LLMs) показали их потенциал в решении сложных задач, включая такие, как управление, диалоговые системы и логистика. Однако в задачах с длинным горизонтом времени выполнения (long-horizon tasks), подобных задачам типа WebShop, ALFWorld и Deep Search, LLMs сталкиваются с особенностями. Одна из основных проблем заключается в том, что результаты задач часто зависят от многих последовательных действий, а существующие методы не могут эффективно награждать интермедиатные шаги, так как награда обычно приходит только в конце задачи. Это приводит к двум основным проблемам: нехватке информативных сигналов для обучения и нестабильности в обучении при высокой неопределенности. Наша мотивация заключается в разработке метода, который бы учитывал эту неопределенность и позволил эффективно применять LLMs в таких задачах. ## Метод Мы предлагаем **Entropy-Modulated Policy Gradients (EMPG)**, новую архитектуру для политических градиентов, которая использует уровень неопределенности как важный фактор в обучении. Основная идея заключается в том, чтобы изменить сигналы градиентов в зависимости от вероятности того, что действие приведет к правильному результату. EMPG стремится к более эффективному использованию политических градиентов: высокоуверенные правильные действия получают большие градиенты, чтобы ускорить работу, низкоуверенные действия получают меньшие градиенты, чтобы уменьшить влияние ошибок, а высокоуверенные ошибки получают отрицательные градиенты, чтобы исключить негативное влияние. Мы также ввели бонусный терм, нацеленный на стимулирование кларности решений и стабильности работы алгоритма. Архитектура EMPG включает несколько модификаций в стандартных политических градиентах, таких как корректировка вероятности и модификация градиентов. ## Результаты Мы провели эксперименты на трех задачах: WebShop, ALFWorld и Deep Search. Наши результаты показали, что EMPG значительно превосходит существующие политические градиенты в среднем вознаграждении, стабильности работы и точности решения задач. Например, на WebShop, EMPG показал увеличение дохода на 15% по сравнению с основными методами. На ALFWorld, EMPG улучшил точность решения задач на 20%, а на Deep Search - на 18%. Измерения неопределенности показали, что EMPG эффективно уменьшает разброс в полученных результатах и повышает надежность. ## Значимость EMPG может быть применен в различных областях, где выполняются длительные задачи, в том числе в системах управления, диалоговых агентах и интеллектуальных помощниках. Одним из преимуществ является уменьшение неопределенности в динамике обучения и повышение точности решений. Мы считаем, что

Annotation:

In long-horizon tasks, recent agents based on Large Language Models (LLMs) face a significant challenge that sparse, outcome-based rewards make it difficult to assign credit to intermediate steps. Previous methods mainly focus on creating dense reward signals to guide learning, either through traditional reinforcement learning techniques like inverse reinforcement learning or by using Process Reward Models for step-by-step feedback. In this paper, we identify a fundamental problem in the learnin...

ID: 2509.09265v1 cs.LG, cs.CL

arXiv PDF

📄 EvolKV: Evolutionary KV Cache Compression for LLM Inference

2025-09-12

Авторы:

Bohan Yu, Yekun Chai

Эволюционная система кэширования ключей-значений (EvolKV) для компрессии кэша ключей-значений в интерпретации моделей с широким контекстом (LLM) ========================================================================================================================================================= ## Контекст Задачи интерпретации моделей с широким контекстом (LLM), таких как кодирование кода и семантический поиск, требуют сложных вычислений и значительных ресурсов памяти. Одним из ключевых аспектов эффективной интерпретации является кэш ключей-значений (KV), который позволяет моделям быстро доступиться к предыдущим вычислениям. Однако разработка эффективных стратегий кэширования часто ограничивается радикальной зависимостью от неоптимальных техник, таких как универсальные правила распределения кэша или статические политики удаления кэша. Эти подходы не учитывают контекстные паттерны и зависимости между слоями модели, что приводит к ухудшению общей точности и эффективности. Таким образом, необходимо разработать более гибкие и адаптивные методы, которые могут динамически анализировать и адаптироваться к контексту и задаче. ## Метод EvolKV представляет собой новую адаптивную систему кэширования ключей-значений, основанную на эволюционном поиске, для динамического присвоения бюджетов кэша на уровне слоев. Методология EvolKV основывается на нескольких ключевых компонентах: 1. **Преобразование задачи кэширования в задачу многоцелевого оптимизации.** Для того чтобы учесть различные задачи и контексты, EvolKV представляет задачу кэширования как многоцелевую оптимизацию, которая учитывает как эффективность памяти, так и качество решения задачи. 2. **Эволюционный поиск для динамического присвоения бюджетов кэша.** Эволюционный поиск позволяет EvolKV динамически настраивать бюджеты кэша для каждого слоя модели, учитывая контекстную сложность и задачу. Это позволяет адаптироваться к разным задачам и обеспечивает оптимальное использование ресурсов памяти. 3. **Оценка и максимизация динамической производительности.** EvolKV напрямую оптимизирует задачу LLM, используя результаты кэширования, чтобы максимизировать общую точность и эффективность. ## Результаты Чтобы оценить эффективность EvolKV, авторы провели 11 экспериментов на различных задачах, включая кодирование кода и семантический поиск. Использовались различные бюджеты кэша, от 2% до 100% от полного размера кэша. Результаты показали, что EvolKV превосходит все базовые методы в кэше, включая универсальные и статические политики, на до 7% в задаче GSM8K. Более того, на задаче кодирования кода (Code Completion), EvolKV достиг того же уровня производительности, что и полный кэш, испо

Annotation:

Existing key-value (KV) cache compression methods typically rely on heuristics, such as uniform cache allocation across layers or static eviction policies, however, they ignore the critical interplays among layer-specific feature patterns and task performance, which can lead to degraded generalization. In this paper, we propose EvolKV, an adaptive framework for layer-wise, task-driven KV cache compression that jointly optimizes the memory efficiency and task performance. By reformulating cache a...

ID: 2509.08315v1 cs.LG, cs.CL, cs.NE

arXiv PDF

📄 Generative Data Refinement: Just Ask for Better Data

2025-09-12

Авторы:

Minqi Jiang, João G. M. Araújo, Will Ellsworth, Sian Gooding, Edward Grefenstette

## Контекст В современном машинном обучении модели обладают мощными возможностями, но существуют ограничения, связанные с качеством и количеством тренировочных данных. Обучающиеся данные растут быстрее, чем индексируются новые данные в сети, что приводит к ожидаемой эксгаустии в ближайшем будущем. Кроме этого, часть полезных данных, такая как пользовательское содержимое, не доступна в открытом доступе из-за риска утечки конфиденциальной информации. Это создает сложность при построении эффективных моделей. Мы предлагаем фреймворк Generative Data Refinement (GDR) для преобразования данных, используя предобученные генеративные модели, чтобы избавиться от нежелательного содержимого и улучшить свойства тренировочных данных. ## Метод GDR основывается на использовании предобученных генеративных моделей, которые могут преобразовать данные с нежелательным содержимым в более приемлемый формат. Метод использует два этапа: идентификацию нежелательных частей и их замену синтетическими данными, сгенерированными на основе оригинальных примеров. Данная техника позволяет сохранить разнообразие данных и избежать рисков, связанных с выставлением нежелательных данных. Мы используем архитектуру, основанную на вариационных автокодировщиках и генеративных моделях, для оптимизации процесса. ## Результаты Мы проверили GDR на различных тестовых данных, включая высоконебезопасные данные, где встречаются угрозы конфиденциальности или откровенно оскорбительное содержимое. Наши эксперименты показали, что GDR эффективно удаляет нежелательные данные и создает более качественные обучающие данные. Например, в сравнении с аналогичными системами, GDR демонстрирует высокую точность и уровень удовлетворенности пользователей. Мы также проверили способность метода генерировать разнообразные данные, что позволяет избежать проблем, связанных с недостаточностью разнообразия в синтетических данных. ## Значимость GDR может применяться в различных областях, где требуется высококачественное и безопасное обучение моделей, включая безопасность, образование и здравоохранение. Он позволяет увеличить объем обучающих данных за счет генерации новых примеров, совместимых с оригинальным датасетом. Преимущества GDR заключаются в простоте и эффективности, позволяющих решать проблему недостатка данных без необходимости сбора новых данных. Будущим исследованиям следует обратить внимание на расширение функционала GDR для улучшения качества генерируемых данных и его применение в реальных ситуациях. ## Выводы Мы представили Generative Data Refinement (GDR), метод, который использует генеративные модели для улуч

Annotation:

For a fixed parameter size, the capabilities of large models are primarily determined by the quality and quantity of its training data. Consequently, training datasets now grow faster than the rate at which new data is indexed on the web, leading to projected data exhaustion over the next decade. Much more data exists as user-generated content that is not publicly indexed, but incorporating such data comes with considerable risks, such as leaking private information and other undesirable content...

ID: 2509.08653v2 cs.LG, cs.CL

arXiv PDF

1
2
17
18
19
20
21
23
24

Показано 181 - 190 из 233 записей