📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Weilin Zhao, Zihan Zhou, Zhou Su, Chaojun Xiao, Yuxuan Li, Yanghao Li, Yudi Zhang, Weilun Zhao, Zhen Li, Yuxiang Huang, Ao Sun, Xu Han, Zhiyuan Liu

#### Контекст Исследование посвящено развитию способности значительных языковых моделей (LLM) обрабатывать длинные последовательности данных. Одним из основных проблемы в данной области является то, что стандартный самоп paптинг-аттентция (self-attention) в трансформерных архитектурах неэффективен при обработке длинных последовательностей из-за высокого потребления ресурсов и ограниченных возможностей масштабирования. Однако тренируемые способы спарсинга (trainable sparse attention), такие как NSA, несмотря на свои преимущества, вводят большое количество дополнительных параметров, что сбивает с толку стандартный подход "тренировка на коротких последовательностях, оптимизация на длинных". Данная ситуация приводит к медленному росту модели и трудностям в ее ускорении. Задача данного исследования состоит в создании метода, который бы способствовал эффективной обработке длинных последовательностей, сохранял высокую производительность и уменьшал накладные расходы на обучение. #### Метод Предлагаемый подход, InfLLM-V2, представляет собой систему деления на два этапа самоп paптинга (dense-sparse switchable attention framework). Основная идея заключается в том, что InfLLM-V2 использует параметры, уже распределенные в классической модели (для коротких последовательностей), и с минимальными дополнительными изменениями переходит к использованию тренируемого спарсинга (для длинных последовательностей). Это позволяет значительно сократить накладные расходы на обучение и ускорить процесс. Архитектура InfLLM-V2 включает в себя не только новую структуру для переключения между плотной и редкой аттентцией, но и эффективную реализацию, призванную сократить вычислительные затраты. Отдельно отмечается, что выборка данных в ходе исследования включала последовательности разной длины, с целью проверить модель в разных режимах работы. #### Результаты Проведенные эксперименты показали, что InfLLM-V2 значительно быстрее (4 раза) стандартные методы обработки длинных последовательностей с самоп paптингом, при этом сохраняя высокую точность (98.1% в задачах понимания длинного контекста и 99.7% в задачах цепочечного мышления). Это улучшение достигается благодаря тому, что InfLLM-V2 переключается на редкое самоп paптинг по мере увеличения длины последовательности, что экономит вычислительные мощности. Измерения показали, что модель была успешно запущена на данных, имеющих различные длины последовательностей, и всегда демонстрировала стабильную производительность. Кроме того, InfLLM-V2 был применен для тренировки и открытого репозитория MiniCPM4.1, что дает возможность другим исследователям воспроизвести результаты. #### Значимость Ре
Annotation:
Long-sequence processing is a critical capability for modern large language models. However, the self-attention mechanism in the standard Transformer architecture faces severe computational and memory bottlenecks when processing long sequences. While trainable sparse attention methods offer a promising solution, existing approaches such as NSA introduce excessive extra parameters and disrupt the conventional \textit{pretrain-on-short, finetune-on-long} workflow, resulting in slow convergence and...
ID: 2509.24663v1 cs.CL, cs.AI, cs.LG
Авторы:

Leander Girrbach, Chi-Ping Su, Tankred Saanum, Richard Socher, Eric Schulz, Zeynep Akata

#### Контекст В последние годы становится все более очевидным, что генеративные модели естественного языка (LLM) расширяют возможности широкого круга приложений, включая роботы-консультанты, поисковые системы и анализ текстов. Однако одним из ключевых вопросов остается способ оценки качества ответов этих моделей. Несмотря на популярность способов, основанных на сравнении ответов с маркированными данными (референсами), такие подходы не всегда применимы в ситуациях, когда такие референсы отсутствуют. Также возникают проблемы с неоднозначностью оценки, неустойчивостью под выборкой и ограниченной детерминированностью результатов. Мы исследуем возможность оценивать ответы моделей без референса, используя внутренние сигналы модели, чтобы получить более точные и детерминированные результаты. #### Метод Мы предлагаем Latent Judges, метод использования внутренних сигналов модели для получения детерминированных оценок ответов. Этот подход включает в себя три основных компонента: 1. **Пробы (Probes):** Оценка ответов с помощью линейных моделей, протечка информации из внутренних слоев модели. 2. **Проверщики (Verifiers):** Модели, оценивающие вероятность того, что ответ верный, используя методы похожие на семантические проверки. 3. **Вероятностно-взвешенные оценки (Probability-Weighted Scores):** Метод, в котором ответы ставятся в числовой диапазон на основе вероятностного распределения модели. Каждый из этих методов использует специфические сигналы модели, позволяя получать более точные и детальные оценки ответов без сравнения с референсами. #### Результаты Мы проверили Latent Judges на широком наборе тестов, включая многоклассовые и парные оценки ответов. Наши результаты показали, что этот подход не только соответствует, но и превосходит стандартные методы оценки без референса, особенно в случае парной оценки и сортировки ответов в порядке важности (Best-of-N). Общая точность поднялась на 10-20%, при этом улучшивсья качественно оценка ответов. Также были изучены вопросы неоднозначности и стабильности результатов, а также показано, как различные методы Latent Judges справляются с этими вызовами. #### Значимость Предложенные методы Latent Judges открывают новые возможности для детерминированных и тонко настраиваемых оценок ответов LLM. Это может иметь большое значение в следующих областях: - **Контроль качества ответов:** Улучшенное средство для подбора лучшего ответа в мультимодельных системах. - **Обучение и адаптация моделей:** Более точные метрики для оценки прогресса и корректности обучения. - **Анализ текстов и рекомендаци
Annotation:
How reliable are single-response LLM-as-a-judge ratings without references, and can we obtain fine-grained, deterministic scores in this setting? We study the common practice of asking a judge model to assign Likert-scale scores to free-text responses and show two systematic issues: scores are unstable under sampling and poorly calibrated, leading to compression near the top of the scale and frequent ties. We then propose and evaluate Latent Judges, which derive scalar ratings from internal mode...
ID: 2509.24678v1 cs.CL, cs.AI, cs.LG
Авторы:

Haoyang Zheng, Xinyang Liu, Cindy Xiangrui Kong, Nan Jiang, Zheyuan Hu, Weijian Luo, Wei Deng, Guang Lin

## Контекст Современные технологии генерации текстов являются ключевым решением для многих приложений в области искусственного интеллекта, включая поисковые системы, транскрипцию речи, автоматическое создание контента и интерактивные системы. Однако существуют серьезные проблемы, связанные с производительностью и качеством генерируемых текстов. Например, методы основанные на марковских моделях часто страдают от низкой скорости генерации и неэффективности в обработке больших данных. Другие подходы, такие как GPT-2, требуют огромных ресурсов и времени для обучения, что ограничивает их применение в реальном времени. Из этого вытекает необходимость в разработке быстрых и эффективных методов для генерации текстов, которые могли бы обеспечить высокое качество и мгновенную реакцию. ## Метод Метод DiDi-Instruct (Discrete Diffusion Divergence Instruct) представляет собой новую архитектуру, основанную на дискретной диффузии и инструктивном обучении. Основные идеи заключаются в инициализации модели с помощью предварительно обученной дискретной диффузионной модели (dLLM) и применении метода минимизации клеткового кросс-энтропийного расхождения (KL-divergence). Модель DiDi-Instruct использует групповую нормализацию награды, метод соответствия промежуточных состояний и семплер с опорой на награду (RGAS) для улучшения стабильности обучения, покрытия модели и производительности при интерпретации. Теоретический фреймворк основывается на минимизации интегрального расхождения KL, что позволяет обеспечить быструю и точную генерацию текстов. ## Результаты Эксперименты проводились на датасетосе OpenWebText. Модель DiDi-Instruct демонстрирует существенные преимущества по сравнению с другими методами. Например, она при 64-кратном ускорении показывает то же самое качество генерируемых текстов по отношению к данным GPT-2. Для 128 итераций диффузионного процесса DiDi-Instruct достигает значения perplexity 18.4, что значительно выше чем у других методов. Эти результаты достигнуты с минимальной потерей энтропии (менее 1%) и 20-кратно меньшим временем обучения. Также были проведены абляционные исследования, подтвердившее эффективность включенных техник, таких как групповая нормализация награды и RGAS. ## Значимость Метод DiDi-Instruct может быть применен в различных областях, где необходима быстрая генерация текстов, включая транскрипцию речи, синтез речи, генерацию контента и интерактивные системы. Он обеспечивает высокое качество текста с наименьшими затратами ресурсов и времени. Этот подход имеет перспективу в уско
Annotation:
Fast generation of language texts is the holy grail that people pursue in the AI era. In this work, we introduced Discrete Diffusion Divergence Instruct (DiDi-Instruct), a training-based method that leads to fast language generation models by initializing from a pre-trained (masked) discrete diffusion language model (dLLM). The resulting DiDi-Instruct model outperforms the dLLM counterparts and the GPT-2 baseline with 64x acceleration. In the theoretical part of the paper, we build the foundatio...
ID: 2509.25035v1 cs.CL, cs.AI, cs.LG
Авторы:

Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini

## Контекст В последние годы Large Language Models (LLMs) стали одним из самых влиятельных инструментов в области артифициального интеллекта, применяемых в различных сферах, от глубокого обучения до трансляции. Несмотря на их мощь, эти модели остаются черным лесом: их внутренние представления остаются непонятными, что ограничивает возможности их использования в ситуациях, требующих транспарентности и удобства в интерпретации. Например, существующие методы интерпретирования, такие как direct logit attribution (DLA) и sparse autoencoders (SAEs), имеют ограниченные возможности из-за ограниченного выходного лексикона или неочевидных названий признаков. Мотивируясь тем, чтобы улучшить интерпретируемость LLMs, в этом исследовании предлагается новый подход, называемый Hyperdimensional Probe. Этот подход комбинирует идеи символических представлений и нейронных проб, чтобы проецировать внутренние представления модели в более интерпретируемые формы с помощью Vector Symbolic Architectures (VSAs). ## Метод Hyperdimensional Probe состоит в том, что его используют для проекции резидентного потока модели LLM в символическую форму с помощью VSAs. Эта проекция позволяет извлекать интерпретируемые признаки, которые могут быть использованы для понимания того, что отдельные слои модели вычисляют. В центре этой методологии лежит подход, который использует VSAs для того, чтобы перевести нейронные выплавы в представления, которые могут быть более человекочитаемыми. Метод заключается в создании символических представлений, которые могут быть использованы для преобразования нейронных слоев в форму, которая может быть легче интерпретирована. Эта процедура позволяет получить более ясные, четкие и структурированные представления, чем у полностью нейронных моделей. ## Результаты Эксперименты проводились на нескольких LLMs, включая модели с разными размерами входных данных и различными входными типами. Задачи, которые были решены, включали синтаксическое разбор, ключ-значение ассоциации и абстрактный вывод. Во время этих экспериментов проверялось, насколько хорошо может извлекаться информация с помощью предложенного подхода. В результате, Hyperdimensional Probe показал свою эффективность в выявлении основных признаков и выполнении задач пробы. Это позволило не только улучшить понимание как LLMs работают, но и проанализировать моменты, в которых модели не справляются с задачей. Таким образом, метод позволяет выявить отсутствие наглядности в некоторых моментах, что может помочь в устранении недочетов в модели. ## Значимость Эта работа может быть применена в различных областях, где требуется понимание того, как LLMs принимают решения. Это может быть полезно в ситуациях
Annotation:
Despite their capabilities, Large Language Models (LLMs) remain opaque with limited understanding of their internal representations. Current interpretability methods, such as direct logit attribution (DLA) and sparse autoencoders (SAEs), provide restricted insight due to limitations such as the model's output vocabulary or unclear feature names. This work introduces Hyperdimensional Probe, a novel paradigm for decoding information from the LLM vector space. It combines ideas from symbolic repres...
ID: 2509.25045v1 cs.CL, cs.AI, cs.LG
Авторы:

Yen-Ju Lu, Thomas Thebaud, Laureano Moro-Velazquez, Najim Dehak, Jesus Villalba

## Контекст Low-resource natural language generation (NLG) представляет собой сложную проблему, где недостаточно имеются качественные тренировочные данные для обучения моделей. Особенно сложно ситуации, когда есть только неоднородные входные данные (например, абзацы или диалоги) или только выходные данные (например, краткие абзацы или вопросы). Учитывая эту проблему, традиционно используются широкомасштабные генерированные корпусы, требующие дорогостоящих совместимых моделей для работы. Однако такие подходы не всегда эффективны, особенно когда входные данные не являются чёткими или полностью несовместимы. В таком контексте требуется разработка новых технологий, которые могут преодолеть эти ограничения и позволить эффективно использовать неоднородные входные данные. ## Метод Основой метода является Paired by the Teacher (PbT) — двухэтапная модель, состоящая из teacher-student-архитектуры. Teacher-LLM сжимает входные данные в концентрированные интермедиате репрезентации (IR). Далее, student-LLM обучается из этих IR-представлений, восстанавливая входные данные. Это позволяет генерировать парные данные для модели, которые могут быть использованы в обучении. Эта архитектура позволяет развернуть модели на некоторых низкоресурсных задачах, таких как документ-сводка (XSum, CNNDM), диалог-сводка (SAMSum, DialogSum), и вопрос-генерация (SQuAD), даже при несовпадении входных и выходных данных. ## Результаты Проведенные эксперименты показали, что 8B-модель, обученная на PbT, показала заметное улучшение по сравнению с другими методами. Она приблизилась к 82% фактической потери ROUGE-L, сравнив с людьми, и сократила требуемые ресурсы на треть. Особенно удачены результаты на диалог-сводках SwitchBoard, где PbT сгенерировала конкретные и достоверные сводки, соответствующие целевому стилю. ## Значимость PbT открывает новые возможности для роста моделей в низкоресурсных генеративных текстовых задачах. Её преимущество состоит в том, что она может эффективно обучаться на неоднородных входных данных без требуемых традиционных методов генерации парных данных. Это открывает перспективы для увеличения доступности моделей NLG в различных приложениях, таких как генерация новостей, диалоговые системы и работа с текстовыми данными в негативных условиях. ## Выводы PbT демонстрирует высокую эффективность в низкоресурсных NLG-задачах за счёт создания парных данных на основе неоднородных входных данных. Будущие исследования будут направлены на улучшение точности модели и её применение в различных низкоресурсных текстовых сценариях.
Annotation:
We present Paired by the Teacher (PbT), a two-stage teacher-student pipeline that synthesizes accurate input-output pairs without human labels or parallel data. In many low-resource natural language generation (NLG) scenarios, practitioners may have only raw outputs, like highlights, recaps, or questions, or only raw inputs, such as articles, dialogues, or paragraphs, but seldom both. This mismatch forces small models to learn from very few examples or rely on costly, broad-scope synthetic examp...
ID: 2509.25144v1 cs.CL, cs.AI, cs.LG
Авторы:

Adit Jain, Brendan Rappazzo

Описание научной статьи: ## Контекст Результативность бо LLM (large language models) зависит во многом от их возможности обдумывать задачи и принимать логичные решения. Одним из перспективных подходов является reinforcement learning with verifiable rewards (RLVR), который стимулирует LLMs не только выдавать правильные ответы, но и объяснять свое решение. Существующие методы RLVR, основанные на Group Relative Policy Optimization, сталкиваются с ограничением — они работают с дискретными токенами и не учитывают распределенную информацию в модели. Эта проблема может привести к ограниченной исследовательской полноте в процессе решения задач. Наша исследовательская цель — изучить и использовать распределенные распределения токенов в RLVR для улучшения производительности и точности. ## Метод Разработанный подход, названный **Mixture of Tokens Generation (MoT-G)**, предлагает новый архитектурный подход к RLVR. В отличие от дискретных токенов, он работает в пространстве непрерывных векторных смесей токенов (mixture embeddings). Эти смеси формируются на основе весов, выдаваемых моделью для каждого токена в процессе реакции. Мы предлагаем универсальную модель, которая включает в себя и существующие методы, генерирующие смеси токенов, и расширяет RLVR на прямое использование этих смесей в процессе генерирования цепей мыслей (chain-of-thought). Это расширение позволяет лучше использовать распределенную информацию и увеличивает гибкость в решении задач. ## Результаты Мы проверили MoT-G на наборе задач Reasoning-Gym, который измеряет различные аспекты логического мышления. Эксперименты показали, что MoT-G дает значительные улучшения — до 35% на 7 из 10 задач по сравнению с стандартным RLVR. Более того, новая модель достигает этих результатов с меньшим числом траекторий, что указывает на эффективность подхода. Дополнительные анализы показали, что MoT-G повышает степень неопределенности в процессе решения задач, что позволяет модели больше исследовать возможные варианты решения. Этот эффект может быть одной из причин, почему MoT-G превосходит стандартные методы. ## Значимость Новый подход имеет широкие применения в области NLP (natural language processing), особенно при решении задач, требующих глубокого разума и анализа. Метод не только повышает точность, но и улучшает работу моделей в условиях ограниченных ресурсов, таких как количество траекторий. Это может сделать MoT-G привлекательным для реализации в системах, где необходима быстрая и точная реагирования. Будущими направлениями исследований будет расширение применения MoT-G к другим моделям и задачам, а также исследование новых стратегий для еще большего повышения эффективности. ## Выводы Мы представили **Mixture of Tokens Generation (MoT
Annotation:
Reinforcement learning with verifiable rewards (RLVR) has become a leading approach for improving large language model (LLM) reasoning capabilities. Most current methods follow variants of Group Relative Policy Optimization, which samples multiple reasoning completions, scores them relative to each other, and adjusts the policy accordingly. However, these approaches invariably sample discrete tokens at each reasoning step, discarding the rich distributional information in the model's probability...
ID: 2509.21482v1 cs.CL, cs.AI, cs.LG
Авторы:

Naman Jain, Pranjali Jain, Pratik Kayal, Jayakrishna Sahit, Soham Pachpande, Jayesh Choudhari

## Контекст India является агроориентированной экономикой, где надёжное и доступное информационное обслуживание фермеров ключевой фактор для достижения оптимального земледельческого производства. Однако большинство существующих источников информации для фермеров либо требуют непременной физической наличия, либо недоступны в удобном для фермеров формате. Это приводит к затруднению в грамотном управлении сельским хозяйством и неэффективном использовании времени специалистов. Для решения этой проблемы был разработан **Agribot** — система вопрос-ответ для сельского хозяйства. Она значительно повышает доступность информации, обеспечивая простой доступ к сведениям по основным сельскохозяйственным вопросам, таким как погода, рыночные цены, защита растений и государственные программы. Это 24-часовой сервис, доступный через любые электронные устройства, и ориентирован на упрощение жизни фермерам и улучшении качества сельскохозяйственного производства. ## Метод **Agribot** основывается на методе семантического понимания текста, используя модель семантических векторов для извлечения контекста вопросов и предоставления точных ответов. Данные для обучения были извлечены из базы данных Kisan Call Center, что обеспечило систему широким спектром вопросов, связанных с сельским хозяйством. Работа системы построена на нескольких этапах процесса обработки запросов: от предобработки текста до извлечения сущностей и выбора наиболее подходящего ответа на основе представления векторов. Использование модели семантических векторов обеспечивает высокую точность в понимании интентов и ответах. Для сложных запросов, где требуется особый контекст, система использует дополнительные слои, включая регуляризацию и синтаксический анализ. ## Результаты Тестирование системы проводилось на крупной выборке вопросов из Kisan Call Center. Оригинальная модель показала точность в 56% при понимании входных данных. Однако, применение техники избавления от синонимов и введение выделения сущностей привело к более точному пониманию и детализации ответов, что повысило точность системы до 86%. Эти результаты показывают существенный потенциал системы в улучшении доступности информации для фермеров и повышении качества сельского производства. ## Значимость **Agribot** может использоваться в различных сферах, включая помощь фермерам в получении информации о рыночных ценах, климатических условиях, защите растений и государственных программах. Это улучшает эффективность работы земледельцев и снижает нагрузку на центры обслуживания, позволяя специалистам сфокусироваться на
Annotation:
India is an agro-based economy and proper information about agricultural practices is the key to optimal agricultural growth and output. In order to answer the queries of the farmer, we have build an agricultural chatbot based on the dataset from Kisan Call Center. This system is robust enough to answer queries related to weather, market rates, plant protection and government schemes. This system is available 24* 7, can be accessed through any electronic device and the information is delivered w...
ID: 2509.21535v1 cs.CL, cs.AI, cs.LG
Авторы:

Chibuzor Okocha, Kelechi Ezema, Christan Grant

## Контекст **Область исследования** Синтез речи и диаризация речи — важные задачи в области естественного языка процессинга, которые направлены на извлечение и анализ разговорных данных. Диаризация речи — это процесс распознавания участников разговора в аудиозаписях. Она играет ключевую роль в приложениях, таких как звонки с бесперебойным опытом пользователя, автоматическая расшифровка и мониторинг разговора. **Проблема** Несмотря на прогресс в области диаризации речи на английском языке, есть существенные проблемы в обработке африканских акцентов в тех же системах. Эти акценты часто отличаются морфологическими и синтаксическими особенностями, что приводит к повышенному количеству ошибок в системах, не приспособленных к ним. **Мотивация** Данное исследование ориентировано на изучение эффектов домена в диаризации речи африканского акцента на английском языке. Цель — изучить, как акцент и домен (такие как общий и клинический диалог) влияют на качество работы систем диаризации речи. ## Метод **Архитектура и Методология** Исследование использует несколько систем диаризации речи, включая производственные и открытые модели. Набор данных состоит из общих и клинических диалогов, проведенных в условиях реального мира. Для оценки качества диаризации применяется протокол с жестким уровнем ошибок (Strict DER), который учитывает объединения, разделения и пропуски участников разговора. **Технические Решения** На базе основной системы диаризации проводилась легковесная доменная адаптация, которая заключалась в оптимизации модуля сегментации с использованием набора акцент-совпадающих данных. Это решение предназначено для уменьшения ошибок, вызванных различиями в домене. **Ошибки и Анализ** Ошибки диаризации раDECOMPOSED и профилированы на уровне бесед. Большая часть ложных срабатываний и пропусков связана с короткими участками речи и частыми перекрытиями, что характерно для клинических диалогов. ## Результаты **Эксперименты** Системы были протестированы на двух типах диалогов — общих и клинических. В ходе экспериментов проанализировано, как африканский акцент и домен влияют на качество диаризации. Отмечено значительное повышение количества ошибок при обработке клинических диалогов по сравнению с общими. **Результаты Адаптации** Легковесная доменная адаптация, основанная на применении акцент-совпадающих данных, снизила частоту ошибок, но не полностью устранила различия в качестве диаризации между доменами. ## Значимость **Применения** Результаты исследования могут быть применены в системах автоматическо
Annotation:
This study examines domain effects in speaker diarization for African-accented English. We evaluate multiple production and open systems on general and clinical dialogues under a strict DER protocol that scores overlap. A consistent domain penalty appears for clinical speech and remains significant across models. Error analysis attributes much of this penalty to false alarms and missed detections, aligning with short turns and frequent overlap. We test lightweight domain adaptation by fine-tunin...
ID: 2509.21554v1 cs.CL, cs.AI, cs.LG
Авторы:

Lingxiao Kong, Cong Yang, Oya Deniz Beyan, Zeyd Boukhers

## Контекст Оптимизация больших языковых моделей (LLMs) представляет собой сложную задачу, включающую в себя несколько целей, таких как точность, эффективность, экономичность и личная настройка. Существующие подходы часто ориентированы на одну задачу, но не подходят для удовлетворения множества целей одновременно. Многообъектная рейнфорсментное обучение (MORL) предлагает возможность оптимизировать несколько целей одновременно, но столкновение с техническими трудностями, такими как неопределенные взаимосвязи между целями, требует развития более эффективных и гибких решений. Мотивация заключается в устранении этих проблем и расширении возможностей MORL для LLMs. ## Метод MORL включает в себя несколько методологий, включая параллельное мульти-обучение и би-уровневые параметры, позволяющие модели учитывать несколько целей в процессе обучения. Архитектура MORL включает в себя сложную сеть, где каждая цель оценивается в зависимости от других целей, что дает более комплексное представление о взаимосвязях. Технические решения включают в себя адаптивные стратегии, которые позволяют модели учитывать отношения между целями и адаптироваться к изменяющимся обстоятельствам. Эти принципы применяются для обучения моделей, которые могут эффективно учитывать несколько целей во время работы. ## Результаты На основе MORL были проведены эксперименты, включающие использование различных целей, таких как точность, эффективность и личная настройка, для LLMs. Использовались различные данные, включая текстовые данные, для оценки различных стратегий MORL. Результаты показали, что стратегии MORL могут эффективно управлять отношениями между целями, предоставляя более точные и эффективные результаты. Также были выявлены отдельные значительные улучшения в производительности при использовании MORL по сравнению с одно-целевыми подходами. ## Значимость Полученные результаты могут быть применены в сферах, таких как личная настройка языковых моделей, эффективное использование ресурсов и улучшение качества ответов. Избавление от несогласованности в целях и повышение обобщающих возможностей моделей может привести к более широкому применению LLMs в различных областях. Это также открывает новые возможности для развития более универсальных моделей, которые могут быть ориентированы на различные пользователей и задачи. ## Выводы Результаты MORL показали, что этот подход эффективен для оптимизации нескольких целей в LLMs. Будущие исследования будут сфокусированы на развитии meta-policy MORL, чтобы улучшить ее эффективность и гиб
Annotation:
Multi-Objective Reinforcement Learning (MORL) presents significant challenges and opportunities for optimizing multiple objectives in Large Language Models (LLMs). We introduce a MORL taxonomy and examine the advantages and limitations of various MORL methods when applied to LLM optimization, identifying the need for efficient and flexible approaches that accommodate personalization functionality and inherent complexities in LLMs and RL. We propose a vision for a MORL benchmarking framework that...
ID: 2509.21613v1 cs.CL, cs.AI, cs.LG, cs.MA
Авторы:

Yuxuan Zhu, David H. Yang, Mohammad Mohammadi Amiri, Keerthiram Murugesan, Tejaswini Pedapati, Pin-Yu Chen

#### Контекст Modern large language models (LLMs) превосходят ранние аппаратуры в текстовом понимании и генерации, особенно для продвинутых задач, таких как контекстное понимание и автоматическая генерация текста. Однако эти модели сталкиваются с возрастающей проблемой эффективности использования памяти. Наибольшую проблему вызывает KV-cache (key-value cache), необходимая для autoregressive generation. Эта проблема становится заметной при обработке длинных контекстов, когда размер KV-cache становится слишком велик для хранения в оперативной памяти. Это уменьшает эффективность моделей и ограничивает их приложения. Многие ключевые функции, такие как низкая стоимость вычислений и высокая скорость обработки, не достижимы без решения этой проблемы. #### Метод OjaKV предлагает новый подход, который объединяет стратегический hybrid storage и online subspace adaptation. Он разделяет токены на три группы: 1) ключевые токены, которые хранятся в полной размерности, чтобы обеспечить высокую точность в аттенции; 2) некоторые токены, которые хранятся с помощью низкорангового проектирования с помощью Oja's algorithm для online principal component analysis (PCA); 3) остальные токены, которые применяются низкоранговой структуре. OjaKV использует Oja's rule для incremental adaptation projection basis во время decoding и comprehensive update во время prompt prefilling. Это позволяет subspace адаптироваться к evolving context. Фреймворк также совместим с современными attention modules, такими как FlashAttention. #### Результаты Мы провели эксперименты на различных датасетах и задачах, включая стандартные тестовые наборы и новые тесты для длинных контекстов. Мы сравнили OjaKV с другими подходами, такими как static low-rank projection. Результаты показали, что OjaKV не только сохраняет zero-shot accuracy при высоких compression ratios, но и неожиданно повышает потенциал на задачах с длинными контекстами, где требуется сложное решение. Например, на тесте с 32K-token prompt и batch size 4 OjaKV эффективно уменьшил размер KV-cache с 16 GB до 4 GB, существенно улучшив производительность. #### Значимость OjaKV предлагает практическое решение для эффективного хранения и обработки длинных контекстов в LLMs. Он может быть применен в различных областях, таких как NLP, NMT и другие задачи, требующие высокой эффективности памяти и high-fidelity context tracking. Этот подход не только улучшает производительность, но и позволяет LLMs более эффективно использовать ресурсы, что делает его привлекательным для серверных и edge-device приложений. #### Выводы Мы представили OjaKV, новый hybrid framework для online low-rank KV cache compression. Наши результаты показали, что OjaKV эффективно решает проблему memory bottleneck в LLMs и позволяет эффективно обрабатывать длинные контексты. Мы также определили направления для будущих исследований, в том числе улучшение adaptive algorithms и расширение применений OjaKV к другим моделям и задачам.
Annotation:
The expanding long-context capabilities of large language models are constrained by a significant memory bottleneck: the key-value (KV) cache required for autoregressive generation. This bottleneck is substantial; for instance, a Llama-3.1-8B model processing a 32K-token prompt at a batch size of 4 requires approximately 16GB for its KV cache, a size exceeding the model's weights. While KV-cache compression via low-rank projection is a promising direction, existing methods rely on a static, offl...
ID: 2509.21623v1 cs.CL, cs.AI, cs.LG
Показано 211 - 220 из 370 записей