📚 Саммари научных статей из arXiv

Найдено 7506 результатов по запросу 'cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Do Ethical AI Principles Matter to Users? A Large-Scale Analysis of User Sentiment and Satisfaction

2025-08-12

Авторы:

Stefan Pasch, Min Chul Cha

## Контекст В последние годы искусственный интеллект (AI) внедряется все более активно в рабочие процессы организаций и повседневные приложения. Это привело к расширению политических и промышленных норм, определяющих принципы этики AI, такие как справедливость, прозрачность и надежность. Несмотря на это, показатели того, насколько эти принципы воспринимаются и ценятся пользователями, остаются неполными. Этот факт мотивирует исследование связи между этичными AI-принципами и удовлетворением пользователей, чтобы понять, как эти принципы влияют на их оценку продуктов AI. ## Метод Для изучения этой проблемы были анализированы более 100 000 отзывов о AI-продуктах с платформы G2. Использовались трансформер-базные языковые модели для измерения тональности отзывов по семи этичным изданиям, определенным Управлением Европейского Союза по Ответственному AI. Эти издания включают: 1) безуклонность, 2) прозрачность, 3) надежность, 4) справедливость, 5) научность, 6) гуманность и 7) социальное благополучие. Этот подход позволил выявить системные отношения между этичными AI-принципами и удовлетворением пользователей. ## Результаты Анализ отзывов показал, что все семь этичных изданий положительно связаны с удовлетворением пользователей. Однако разницы в этой связи существуют в зависимости от роли пользователя и типа продукта. Технические пользователи и оценщики платформ разработки AI чаще обсуждают системные аспекты, такие как прозрачность и управление данными. В то же время нетехнические пользователи и оценщики приложений для конечных пользователей сосредоточены больше на гуманных аспектах, таких как управление человеческим волей и общественное благополучие. Особенно значительным является сильнейшее влияние этики AI на удовлетворение нетехнических пользователей и приложениях для конечных пользователей по всем семь метрикам. ## Значимость Эти находки говорят о важности этикой AI при разработке продуктов. Они подчеркивают необходимость учета контекстных отличий в зависимости от роли пользователя и типа продукта. Эти результаты могут помочь компаниям разрабатывать AI-продукты, которые будут удовлетворять разные потребности пользователей, учитывая их различные представления о значимости этики. ## Выводы Основным достижением этого исследования является доказательство положительного влияния этики AI на удовлетворение пользователей. Будущие исследования должны углубиться в изучение контекстных различий, чтобы создавать более индивидуализированные AI-решения, учитывающие различные потребности пользователей и роли. Это может привести к бо

Annotation:

As AI systems become increasingly embedded in organizational workflows and consumer applications, ethical principles such as fairness, transparency, and robustness have been widely endorsed in policy and industry guidelines. However, there is still scarce empirical evidence on whether these principles are recognized, valued, or impactful from the perspective of users. This study investigates the link between ethical AI and user satisfaction by analyzing over 100,000 user reviews of AI products f...

ID: 2508.05913v1 cs.HC, cs.AI, cs.CL

arXiv PDF

📄 Prosocial Behavior Detection in Player Game Chat: From Aligning Human-AI Definitions to Efficient Annotation at Scale

2025-08-12

Авторы:

Rafal Kocielnik, Min Kim, Penphob, Boonyarungsrit, Fereshteh Soltani, Deshawn Sambrano, Animashree Anandkumar, R. Michael Alvarez

#### Контекст Детектирование просоциальных поведений в игровых чатах является новым и важным заданием, особенно для систем управления доверием и безопасностью. Отличается от детектирования токсичности, просоциальное поведение определяется как предметно-ориентированное общение, нацеленное на поддержку или улучшение поведения других игроков. Однако существуют узкие места, такие как неполные определения и отсутствие широко распространенных наборов данных для обучения моделей. Мы разработали методологию, которая позволяет эффективно детектировать просоциальность в тексте и решает проблему нехватки человеческих меток. #### Метод Мы предлагаем трехэтапную пипелье, нацеленную на эффективное классификационное решение в области просоциальности. Используя небольшой набор меток от человеков, мы идентифицировали наиболее эффективный подход к автоматической маркировке текста с помощью нейросетевых моделей. Во втором этапе мы ввели цикл человеко-AI, который позволяет сократить разбирательства между людьми и моделями (в нашем случае GPT-4), уточняя и расширяя определения. В третьем этапе мы автоматизировали процесс синтеза большого количества высококачественных меток с помощью GPT-4 и разработали двухэтапную систему интерпретации: легковесный классификатор работает с высокой долей уверенности, а в случаях неоднозначности происходит вызов модели GPT-4. #### Результаты Мы провели эксперименты с 10k меток, синтезировав данные с помощью GPT-4. Наши результаты показали надежную точность классификации просоциальных поведений, приблизительно 0.90, при этом уменьшив затраты на интерпретацию примерно на 70%. Мы также доказали, что наша методология оптимизирует синтез меток, уменьшает затраты на обучение и в то же время повышает точность. #### Значимость Наш подход может быть применен в различных системах мониторинга игровых чатов, помогая снизить порог вхождения для разработчиков систем управления доверием и безопасностью. Он также предлагает значительные преимущества, включая высокую точность, снижение затрат и упрощение процесса классификации. Этот подход может выступать в качестве модели для других задач, требующих эффективного решения с помощью человеко-AI-интерактивных систем. #### Выводы Мы доказали эффективность нашего подхода в решении задачи классификации просоциальности в тексте, а также сделали значительный шаг в сторону оптимизации человеко-AI-интерактивных систем. Наша работа открывает новые возможности для развития систем модерации и мониторинга в реальном времени, которые требуют высокой точности, эффективности и минималь

Annotation:

Detecting prosociality in text--communication intended to affirm, support, or improve others' behavior--is a novel and increasingly important challenge for trust and safety systems. Unlike toxic content detection, prosociality lacks well-established definitions and labeled data, requiring new approaches to both annotation and deployment. We present a practical, three-stage pipeline that enables scalable, high-precision prosocial content classification while minimizing human labeling effort and i...

ID: 2508.05938v1 cs.CL, cs.AI, cs.CY, I.2.7; K.4

arXiv PDF

📄 Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

2025-08-12

Авторы:

Han Lin, Jaemin Cho, Amir Zadeh, Chuan Li, Mohit Bansal

#### Контекст В последние годы возросло интерес к созданию систем, объединяющих мощные возможности предсказания и разума текстовых моделей с высококачественным генерированием изображений. Однако существующие методы, призванные объединить эти области, часто сталкиваются с трудностями. Они либо неэффективны в процессе обучения, либо не полностью сохраняют многомодальные способности моделей. Это ограничивает их удобство и применение в реальных задачах. В этом контексте возникает мотивация для разработки эффективных и универсальных методов, объединяющих текстовые и изображения. #### Метод Мы предлагаем Bifrost-1 — универсальный фреймворк, связывающий мультимодальные текстовые модели (MLLMs) и модели размытия (diffusion models) с использованием патч-уровневых встроенных визуальных эмбеддингов CLIP. Эти эмбеддинги генерируются на основе входных изображений и адаптируются с помощью упрощенной версии ControlNet. Для сохранения многомодальных возможностей MLLM, мы добавляем в модель визуальную генерацию, инициализированную оригинальными параметрами модели. Это позволяет Bifrost-1 применять свои визуальные способности в процессе работы. Такое решение обеспечивает высокую эффективность обучения и высокое качество визуального генерирования. #### Результаты Мы проводили эксперименты, используя различные данные и задачи, включая задачи генерирования изображений на основе текста. Благодаря нашему подходу, модель показала сравнительно лучшие результаты по фидбеку пользователей и оценкам визуального качества. Мы также приводим абляционные исследования, подтверждающие эффективность используемых технических решений. #### Значимость Bifrost-1 может быть применен в сферах, где требуется сочетание текстового понимания с высококачественным генерированием изображений. Например, в области создания контента, интерактивных игр или работы с данными. Он обеспечивает высокую эффективность обучения, что снижает затраты ресурсов, и позволяет передавать текстовые концепции в визуальный формат с высоким качеством. #### Выводы Результаты наших исследований подтверждают эффективность Bifrost-1 в сочетании текстовых и визуальных моделей. Наша работа открывает новые пути для будущих исследований в области мультимодальных моделей, снижая затраты времени и ресурсов на их обучение. Мы планируем продолжать работу над улучшением Bifrost-1, в том числе в эффективности, универсальности и расширении его применения.

Annotation:

There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level ...

ID: 2508.05954v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Crisp Attention: Regularizing Transformers via Structured Sparsity

2025-08-12

Авторы:

Sagar Gandhi, Vishal Gandhi

#### Контекст Transformer-модели, основанные на механизме самоп paяжд внимания (self-attention), стали важной компонентой современных NLP-задач, опередив другие модели нейронных сетей в своей области. Однако, эти модели имеют серьезные ограничения в своей скорости обработки и экономии ресурсов из-за высокой вычислительной сложности, особенно в больших моделях. Одним из основных способов улучшения эффективности является регуляризация скрытых параметров, которая может улучшить общую графическую модель. В частности, уменьшение спектральной сложности может улучшить вычислительную эффективность, но часто приводит к понижению модели. Существуют техники, например, удаление узких слоев или уменьшение количества слоёв, но они могут привести к снижению модели. Напротив, техника структурированной неструктурированности (structured sparsity) позволяет сохранить высокую точность модели при уменьшении вычислительных затрат. Наша работа стремится улучшить эффективность трансформерных моделей, не ухудшая их показатели точности, в частности, используя структурированную неструктурированность в атенционировании. #### Метод Мы применяем структурированную неструктурированность в процессе оптимизации модели DistilBERT с помощью техники градиентного оптимизатора. Это позволяет регулировать вклад каждого слоя в предсказания модели. Нам удалось реализовать структуру неструктурированности, которая позволяет уменьшить вычислительную сложность, не ухудшая точность модели. Мы получили отличные результаты в задаче классификации текстов (SST-2), где статистический метод структурированной неструктурированности позволил сократить вычислительные затраты и оптимизировать модель, при этом сохранив высокую точность. Мы также использовали техники пост-хот-спаринга (post-hoc sparsity) для достижения наилучших результатов. #### Результаты Мы провели эксперименты на задаче классификации текстов SST-2. Модель DistilBERT была оптимизирована с помощью структурированной неструктурированности. Эксперименты показали, что модель с 80% спарингом внимания (attention sparsity) поддерживает точность под 91,59%, что означает улучшение в 0,97% в сравнении с базовым моделированием. Мы также проверили эффективность на других задачах и наблюдали аналогичные результаты. Это показывает, что структурированная неструктурированность может быть полезной для различных задач в NLP. #### Значимость Наша работа показывает, что структурированная неструктурированность может использоваться не только для улучшения эффективности, но и для повышения точности машинного обучения. Мы доказали, что модель с 80% спарингом внимания может достичь лучшей

Annotation:

The quadratic computational cost of the self-attention mechanism is a primary challenge in scaling Transformer models. While attention sparsity is widely studied as a technique to improve computational efficiency, it is almost universally assumed to come at the cost of model accuracy. In this paper, we report a surprising counter-example to this common wisdom. By introducing structured, post-hoc sparsity to the attention mechanism of a DistilBERT model during fine-tuning on the SST-2 sentiment a...

ID: 2508.06016v1 cs.CL, cs.AI

arXiv PDF

📄 Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future

2025-08-12

Авторы:

Yidong Wang, Xin Wang, Cunxiang Wang, Junfeng Fang, Qiufeng Wang, Jianing Chu, Xuran Meng, Shuxun Yang, Libo Qin, Yue Zhang, Wei Ye, Shikun Zhang

#### Контекст Существующие языковые модели (LLMs) обладают высокими возможностями в области процессов обучения и принятия решений. Одним из значительных подходов является Self-Rewarding Language Models, где модели используются как самостоятельные судьи для оценки своих выводов. Несмотря на их перспективы, ограничения в совмещении выборки найденных и отвергнутых ответов приводят к уменьшению разнообразия возможных ответов, что снижает эффективность изучения предпочтений. Это приводит к недостаточной устойчивости в обучении и ограничивает общую гибкость моделей. Мы определили, что наиболее эффективным решением могут быть подходы, которые бы способствовали улучшению представления отдельных ответов в разных моментах времени, повышая таким образом качество решений. #### Метод Мы предлагаем **Temporal Self-Rewarding Language Models**, которые разделяются на две фазы: **Anchored Rejection** и **Future-Guided Chosen**. В первой фазе, **Anchored Rejection**, мы используем многомодельный план, где модель-предшественник фиксирует выбранные ответы, чтобы сохранить их качество. Вторая фаза, **Future-Guided Chosen**, включает в себя динамическую структуру, которая позволяет модели выбирать ответы с использованием многомодельного прогноза для следующих раундов. Эта структура позволяет поддерживать разнообразие ответов и улучшает обучение в течение временного сдвига. Мы проводим эксперименты с использованием трех моделей (Llama, Qwen, Mistral) и различными размерами моделей (Llama 3B, 8B, 70B). #### Результаты Мы провели ряд экспериментов, чтобы проверить эффективность нашего подхода. Наша модель показала значительные выигрыши в различных аспектах. Например, Llama3.1-8B достигла 29.44 win rate на AlpacaEval 2.0, что значительно превосходит Self-Rewarding baseline (19.69). Мы также проверили наши модели на выводах в области математического разума (GSM8K), знаний (ARC, TruthfulQA) и кода (HumanEval). Даже не используя специальное обучение, наши модели показали улучшение в общей гибкости и выносливости. Это указывает на то, что наш подход не только улучшает качество вывода, но и повышает устойчивость и общую эффективность. #### Значимость Мы предлагаем новый подход к обучению моделей, который может быть применен в различных областях, включая знания, кодирование, предсказания и другие. Данный подход позволяет улучшить качество модели, сохранив разнообразие в выборке ответов, что вносит вклад в улучшение общей гибкости и устойчивости моделей. Это может иметь значительное влияние на развитие языковых моделей, повышая их точность и мощность в различных сценариях. #### Выводы Мы доказали, что наш подход значительно улучшает качество моделей Self-Rewarding Language Models, даже при ограничен

Annotation:

Self-Rewarding Language Models propose an architecture in which the Large Language Models(LLMs) both generates responses and evaluates its own outputs via LLM-as-a-Judge prompting, dynamically improving its generative capabilities through iterative Direct Preference Optimization (DPO). However, our analysis reveals a critical limitation in existing Self-Rewarding paradigms: the synchronized improvement of chosen and rejected responses progressively narrows the representational difference between...

ID: 2508.06026v1 cs.CL, cs.AI

arXiv PDF

📄 EvolvR: Self-Evolving Pairwise Reasoning for Story Evaluation to Enhance Generation

2025-08-12

Авторы:

Xinda Wang, Zhengxu Hou, Yangshijie Zhang, Bingren Yan, Zhibo Yang, Xingsheng Zhang, Luxi Xing, Qiang Zhou, Chen Zhang

Добавить контекст, метод, результаты, значимость и выводы в соответствии с поставленной задачей. ## Контекст Современные текстовые генераторы, основанные на Large Language Models (LLMs), доказали свою эффективность в задачах, требующих структурированных выводов или конкретных ответов. Однако, в открытых задачах, таких как оценка открытого текста, их показатели остаются недостаточно высокими. Это относится и к задаче оценки рассказов, где необходимо не только оценить качество, но и предоставить структурированный анализ, чтобы улучшить генерацию. Существующие методы часто страдают от недостатка логической структуры в их выводах или ограниченности при формировании подходящих подходов к оценке. Это ставит перед исследователями задачу развития более устойчивых и эффективных методов, которые могут обеспечить качественный анализ и оказать положительное влияние на генерацию текстов. ## Метод Предлагаемый EvolvR-фреймворк основывается на принципе парной сравнительной оценки (pairwise reasoning), который дает более глубокое понимание качества отдельных элементов рассказа. Фреймворк использует многоперсоновую стратегию для самостоятельного синтеза данных, основанных на цепочке мыслей (Chain-of-Thought, CoT), которые включают в себя целевые оценки. Чтобы гарантировать качество используемых данных, введен процесс самостоятельного фильтрации (self-filtering), который использует множество агентов, чтобы улучшить логическую целостность и надежность. Наконец, оценщик (evaluator), обученный на этих данных, представляет собой реWARD модель, которая руководствует задачу генерации рассказов. ## Результаты Исследователи проверили EvolvR на трех различных оценочных бенчмарках: StoryER, HANNA и OpenMEVA. Эксперименты показали, что фреймворк достигает состояния лучшего знания (state-of-the-art) по метрикам качества. Он улучшил качество генерации рассказов, демонстрируя более логичную и корректную оценку рассказов. Также было показано, что выдаваемые оценки могут быть эффективно использованы для улучшения генерации текстов, делая EvolvR не только устойчивым критерием оценки, но и полезным инструментом для улучшения генеративных моделей. ## Значимость EvolvR может быть применен в различных сферах, где необходима качественная оценка текстов, таких как литературные генераторы, медицинская документация, информационные системы. Основные преимущества фреймворка заключаются в том, что он обеспечивает более достоверную оценку, что в свою очередь может повысить качество текстов, сгенерированных генеративными моделями. Его потенциал включает в себя повышение уровн

Annotation:

Although the effectiveness of Large Language Models (LLMs) as judges (LLM-as-a-judge) has been validated, their performance remains limited in open-ended tasks, particularly in story evaluation. Accurate story evaluation is crucial not only for assisting human quality judgment but also for providing key signals to guide story generation. However, existing methods face a dilemma: prompt engineering for closed-source models suffers from poor adaptability, while fine-tuning approaches for open-sour...

ID: 2508.06046v1 cs.CL, cs.AI

arXiv PDF

📄 ThematicPlane: Bridging Tacit User Intent and Latent Spaces for Image Generation

2025-08-12

Авторы:

Daniel Lee, Nikhil Sharma, Donghoon Shin, DaEun Choi, Harsh Sharma, Jeonghwan Kim, Heng Ji

## Контекст Современные технологии развития изображений, основанные на генерирующих моделях АИ, стали доступными для широкой публики. Однако существующие инструменты часто не полностью учтут неявный (таинственный) творческий интент пользователей, особенно для неквалифицированных пользователей. Это ограничивает возможности быстро и эффективно реализовать свои творческие идеи. Для решения этой проблемы необходимо создать инструмент, который бы позволил пользователям легко манипулировать семантическими концепциями, такими как настроение, стиль или тематическая ориентация, не прибегая к явной формулировке сложных запросов. ## Метод Мы предлагаем ThematicPlane — систему, которая использует взаимодействие с пользователем в гибкой интерактивной среде, где можно манипулировать семантическими концепциями. ThematicPlane характеризуется следующими ключевыми компонентами: (1) тематический ползунок, который позволяет перемещаться по высокоуровневым семантическим концепциям; (2) система многоугольников, которая отображает динамическую интерактивную палитру тематических концепций; (3) интерактивный процесс модификации, который позволяет редактировать разные аспекты генерируемых изображений, включая настроение, стиль и тематику. Это сочетание элементов обеспечивает пользователям более точный и интуитивный способ выражения творческого интента. ## Результаты Мы провёряли ThematicPlane в экспериментальных условиях с участием 6 участников. Они проводили работу в 2 режимах: развития идеи (дивергентный) и синтеза решения (конвергентный). Участники могли свободно манипулировать семантическими концепциями, использовать их как отправную точку для творчества и реагировать на неожиданные результаты. Однако в результате исследования выяснилось, что некоторые пользователи столкнулись с проблемами в понимании того, как именно семантические концепции будут отображаться на выходных изображениях. Это подчеркивает необходимость более четкого отображения и лучшей поддержки пользователей в этом смысле. ## Значимость ThematicPlane предлагает новый подход к интерактивному проектированию, объединяя легкость использования с высокой гибкостью. Он может быть применен в различных областях, включая творческое дизайнерское проектирование, визуальное оформление и графическое проектирование. Особые преимущества ThematicPlane заключаются в том, что он позволяет пользователям быстро и эффективно реализовать свои идеи, а также открывает новые возможности для интерактивного творчества с помощью генерирующих моделей АИ. ## Выводы ThematicPlane доказал свою эффективность в помо

Annotation:

Generative AI has made image creation more accessible, yet aligning outputs with nuanced creative intent remains challenging, particularly for non-experts. Existing tools often require users to externalize ideas through prompts or references, limiting fluid exploration. We introduce ThematicPlane, a system that enables users to navigate and manipulate high-level semantic concepts (e.g., mood, style, or narrative tone) within an interactive thematic design plane. This interface bridges the gap be...

ID: 2508.06065v1 cs.HC, cs.AI, cs.CL, cs.CV, H.5.2; I.2.7

arXiv PDF

📄 Less is More: Selective Reflection for Compatible and Efficient Knowledge Distillation in Large Language Models

2025-08-12

Авторы:

Lingyuan Liu, Mengxiang Zhang

## Контекст Большие языковые модели (LLMs) широко используются в анализе текста, генерации текста и других задачах. Однако их большой размер и высокое потребление ресурсов ограничивают их применение. Knowledge Distillation (KD) является одной из основных техник для уменьшения размера LLMs, создавая более эффективные модели с меньшим размером и затратами. Однако существующие методы KD, ориентированные на балансировку правильных ответов модели-учителя и модели-ученика, не учитывают два ключевых аспекта: качество тренировочных данных и совместимость модели-ученика. Эти факторы оказывают существенное влияние на эффективность оптимизации и качество полученных моделей. Мы предлагаем Selective Reflection Distillation (SRD), новый подход, который адресует эти проблемы, обеспечивая эффективное и качественное дистилляционное обучение. ## Метод SRD — это новая фреймворк для данных, основанный на рефлексии модели-ученика. Он стремится активно сокращать размер тренировочных данных, выбирая только высококачественные и совместимые с моделью-ученикой. Рефлексия учительских ответов используется для автоматического оценивания и сортировки предложений в тренировочных данных, стремясь к выбору самых выгодных для обучения. Кроме того, SRD включает в себя стратегию курсации, распределяющую выборку во времени в ходе обучения, чтобы улучшить обучение последовательно. Этот подход является plug-and-play и может интегрироваться с разными методами KD и типами моделей без изменения основного алгоритма. ## Результаты Мы проверили SRD на различных LLMs, включая Transformer-based models в задачах генерации текста и вопрос-ответ. Результаты показали, что SRD повышает точность модели на 10-15% в сравнении с базовыми методами дистилляции. Это происходит благодаря выбору качественных данных и уменьшению количества тренировочных итераций. Дополнительно, SRD уменьшает расход ресурсов в ходе обучения, сокращая время подготовки модели до 39% в зависимости от уровня интеграции и модели. Эти результаты подтверждают, что улучшение качества данных и их совместимости с моделью-ученикой являются ключевыми факторами для успешного KD. ## Значимость Предложенный подход имеет широкие перспективы применения в области компактных языковых моделей. Он может быть применен в системах NLP, включая поисковые системы, виртуальных помощников и транскрипцию текста. SRD обеспечивает не только эффективность, но и качество, улучшая точность моделей на проценты, что важно для решения задач в реальном времени. Кроме того, благодаря плагин-функционалу, SRD может быть легко интегрирован в любые KD-фреймворки, обеспечивая простоту и функциональ

Annotation:

Knowledge Distillation (KD) is a fundamental technique for compressing large language models (LLMs) into compact, efficient student models. However, existing white-box KD methods mainly focus on balancing ground truth and student-generated responses while overlooking two critical factors: training data quality and student-model compatibility. To address these limitations, we propose Selective Reflection Distillation (SRD), a novel data curation framework that leverages reflections from student m...

ID: 2508.06135v1 cs.CL, cs.AI

arXiv PDF

📄 One Size Does Not Fit All: A Distribution-Aware Sparsification for More Precise Model Merging

2025-08-12

Авторы:

Yingfeng Luo, Dingyang Lin, Junxin Wang, Ziqiang Xu, Kaiyan Chang, Tong Zheng, Bei Li, Anxiang Ma, Tong Xiao, Zhengtao Yu, Jingbo Zhu

## Контекст Model merging является перспективным подходом в области многозадачного обучения без доступа к данным. Он основывается на объединении нескольких многозадачных моделей в одну, что позволяет получить модель с улучшенными свойствами. Одной из ключевых техник в этом процессе является спарсификация, призванная уменьшить многообразие параметров модели, чтобы снизить влияние на другие задачи. Однако существующие подходы применяют однородную стратегию спарсификации, которая не учитывает различность структуры и статистических свойств параметров модели. Это ведет к неэффективности в уменьшении интерференции между задачами. Наше исследование адресует эту проблему, предлагая адаптивный подход к спарсификации, который учитывает характеристики каждого параметра. ## Метод Мы предлагаем **TADrop** (\textbf{T}ensor-wise \textbf{A}daptive \textbf{Drop}) - адаптивную стратегию спарсификации, которая присваивает уникальные уровни спарсификации для каждого тензора параметров на основе их распределения. Идея заключается в том, что более делимостные тензоры могут быть более агрессивно спарсифицированы, в то время как более критичные сохраняются. Мы реализуем TADrop как простой модуль, который можно интегрировать с различными существующими методами спарсификации. Это позволяет улучшить их результаты без дополнительных изменений в архитектуре. ## Результаты Мы провели эксперименты на различных задачах (визуальной обработке, текстовом обучении, мультимодальных задачах) и моделях (ViT, BEiT). Метод TADrop показал существенные выигрыши в производительности по сравнению с базовыми методами. Например, при совместном применении с одной из лучших стратегий объединения, TADrop увеличил средний результат на 2.0% для 8-и задач с моделью ViT-B/32. Эти результаты доказывают, что TADrop способен более точно уменьшать интерференцию между задачами, оптимизируя уровни спарсификации в соответствии с распределениями параметров. ## Значимость Наш подход может быть применен во многих аспектах многозадачного обучения, где важно минимизировать влияние одной задачи на другие. Он предоставляет более точный и эффективный способ спарсификации, адаптируясь к специфике модели. Это может привести к улучшению потенциального влияния спарсификации в будущих исследованиях по моделям с функциональным сокращением параметров. ## Выводы Предложенный подход TADrop доказал свою эффективность в улучшении результатов спарсификации. Он является простым и эффективным модулем, который может быть легко интегрирован в различные существующие стратегии. Н

Annotation:

Model merging has emerged as a compelling data-free paradigm for multi-task learning, enabling the fusion of multiple fine-tuned models into a single, powerful entity. A key technique in merging methods is sparsification, which prunes redundant parameters from task vectors to mitigate interference. However, prevailing approaches employ a ``one-size-fits-all'' strategy, applying a uniform sparsity ratio that overlooks the inherent structural and statistical heterogeneity of model parameters. This...

ID: 2508.06163v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 UR$^2$: Unify RAG and Reasoning through Reinforcement Learning

2025-08-12

Авторы:

Weitao Li, Boran Xiang, Xiaolong Wang, Zhinan Gou, Weizhi Ma, Yang Liu

#### Контекст Large Language Models (LLMs) показали великолепные возможности в двух дополнительных парадигмах: **Retrieval-Augmented Generation (RAG)**, которая улучшает знания, связанные с генерацией, и **Reinforcement Learning from Verifiable Rewards (RLVR)**, которая оптимизирует сложные задачи рассуждения. Однако эти две способности развивались часто в изоляции, а существующие попытки их объединения остались тесно специфичными для открытых доменов QA с заранее определенными стратегиями поиска и задачей-конкретными предположениями. Это ограничивает общедоступность и применимость RAG-RL методов к широким областям. Для преодоления этого ограничения мы предлагаем **UR2 (Unified RAG and Reasoning)**, новую обобщенную структуру, которая объединяет RAG и RL через reinforcement learning. #### Метод UR2 предлагает два ключевых вклада. Первый — **difficulty-aware curriculum training**, который способен выбирать активировать RAG только для сложных задач, временями работая в режиме только RL. Второй — **hybrid knowledge access strategy**, который объединяет доменные оффлайн-корпуса с LLM-generated summaries. Эти компоненты работают вместе, обеспечивая динамическую синхронизацию между RAG и RL, что увеличивает адаптивность к разным задачам. Мы оценили UR2 на задачах open-domain QA, MMLU-Pro, медицины и математических рассуждениях. UR2 построено на Qwen2.5-3/7B и LLaMA-3.1-8B и показал заметное превосходство над RAG и RL методами, приближаясь к GPT-4o-mini и GPT-4.1-mini на некоторых бенчмарках. Все коды, модели и данные доступны по адресу: https://github.com/Tsinghua-dhy/UR2. #### Результаты Мы провели эксперименты на нескольких репрезентативных наборах данных, включая open-domain QA, MMLU-Pro, медицину и математические задачи. Результаты показали, что UR2 не только превосходит существующие RAG и RL методы, но и демонстрирует близкий уровень производительности с GPT-4o-mini и GPT-4.1-mini на нескольких тестах. На open-domain QA модель показала схожий уровень точности, в то время как в задачах математических рассуждений и медицины она показала существенное преимущество по сравнению с конкурентами. #### Значимость UR2 обладает широкими возможностями применения в различных областях, включая медицину, финансы, инженерию и образование. Его динамическая система позволяет адаптироваться к различным видам задач, улучшая производительность. В дополнение, UR2 позволяет использовать как оффлайн-корпуса, так и LLM-generated summaries, что увеличивает доступность информации. Это предлагает значительные преимущества в ситуациях, где модели должны работать с неопределенными данными или контролируемыми требованиями. #### Выводы UR2 достигает значительных улучшений в объединении RAG и RL, демонстрируя высокую эффективность в различных задачах. Наши находки открывают пу

Annotation:

Large Language Models (LLMs) have shown remarkable capabilities through two complementary paradigms: Retrieval-Augmented Generation (RAG), which enhances knowledge grounding, and Reinforcement Learning from Verifiable Rewards (RLVR), which optimizes complex reasoning abilities. However, these two capabilities are often developed in isolation, and existing efforts to unify them remain narrow in scope-typically limited to open-domain QA with fixed retrieval settings and task-specific assumptions. ...

ID: 2508.06165v1 cs.CL, cs.AI

arXiv PDF

1
2
718
719
720
721
722
750
751

Показано 7191 - 7200 из 7506 записей