📚 Саммари научных статей из arXiv

Найдено 7506 результатов по запросу 'cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 GTPO: Trajectory-Based Policy Optimization in Large Language Models

2025-08-09

Авторы:

Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino

**Резюме** Политические оптимизации широко используются для тренировки и выравнивания языковых моделей, но имеют существенные ограничения. Метод Group-relative Policy Optimization (GRPO) стал одним из самых эффективных подходов, но страдает двумя главными недостатками. Во-первых, токены часто получают противоречивые награды (положительные и отрицательные), что приводит к нестабильным градиентам и снижению их вероятности. Во-вторых, отрицательные награды могут пенализировать уверенные ответы, приводя к разряжению выходного распределения и ухудшению обучения. Мы предлагаем GTPO (Group-relative Trajectory-based Policy Optimization), который решает эти проблемы. Метод идентифицирует "конфликтные" токены, появляющиеся в завершениях с противоположными наградами, и защищает их от отрицательных обновлений, повышая вероятности положительных. Также GTPO исключает завершения с высоким энтропийным неопределенностью. Благодаря этому GTPO обеспечивает более устойчивое и эффективное обучение, не прибегая к регуляризации KL-дивергенции или ссылочной модели, что подтверждено результатами на GSM8K, MATH и AIME 2024.

Annotation:

Policy-based optimizations are widely adopted today for the training and alignment of language models, where one of the most recent and effective approaches is Group-relative Policy Optimization (GRPO). In this paper, we reveals and analyze two major limitations of GRPO: (i) tokens frequently appear in completions with both positive and negative rewards, leading to conflicting gradient updates that can reduce their output probability, even though can be essential for maintaining proper structure...

ID: 2508.03772v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Reliable Evaluation Protocol for Low-Precision Retrieval

2025-08-09

Авторы:

Kisu Yang, Yoonna Jang, Hwanseok Jang, Kenneth Choi, Isabelle Augenstein, Heuiseok Lim

В статье предлагается Reliable Evaluation Protocol for Low-Precision Retrieval, решающий проблему нестабильности оценочных метрик при использовании низкой числовой точности в системах восстановления информации. Уменьшение точности позволяет эффективно использовать ресурсы, но приводит к связыванию элементов с одинаковым скором, что нарушает надежность оценки. Решением является двухэтапный подход: High-Precision Scoring (HPS), который задействует высокую точность только на этапе подсчета релевантности, и Tie-aware Retention Metrics (TRM), определяющий квантильные характеристики релевантности для точного определения результатов. Эксперименты показали, что HPS значительно уменьшает нестабильность, а TRM точно восстанавливает метрики рейтинга. Этот подход обеспечивает устойчивую и достоверную оценку релевантности в системах с низкой точностью.

Annotation:

Lowering the numerical precision of model parameters and computations is widely adopted to improve the efficiency of retrieval systems. However, when computing relevance scores between the query and documents in low-precision, we observe spurious ties due to the reduced granularity. This introduces high variability in the results based on tie resolution, making the evaluation less reliable. To address this, we propose a more robust retrieval evaluation protocol designed to reduce score variation...

ID: 2508.03306v2 cs.IR, cs.AI, cs.CL

arXiv PDF

📄 LLMs are Single-threaded Reasoners: Demystifying the Working Mechanism of Soft Thinking

2025-08-09

Авторы:

Chünhung Wu, Jinliang Lu, Zixuan Ren, Gangqiang Hu, Zhi Wu, Dai Dai, Hua Wu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Человеческое мышление приспособлено к работе с абстрактными и гибкими понятиями, однако современные модели резонного мышления часто ограничены генерацией дискретных токенов, что может ограничивать их выразительные возможности. В последнее время было предпринято много усилий по расширению возможностей больших языковых моделей (LLMs) за счет использования мягких, абстрактных токенов, что позволяет проводить резонирование в непрерывном пространстве концепций. Это подход, известный как "Soft Thinking", обещает расширить возможности LLMs в решении сложных задач резонации. Однако, несмотря на потенциал Soft Thinking, существуют недостатки в том, как LLMs используют мягкие токены. Многие модели, как показывают последние исследования, предпочитают использовать наиболее влиятельные компоненты мягких входных данных во время процесса декодирования, что ограничивает возможность освещения различных путей резонации. Это приводит к тому, что Soft Thinking сводится к жадному декодированию, что снижает преимущества передачи более широкой информации через мягкие токены. В данной работе авторы проводят подробный анализ внутреннего поведения LLMs при использовании Soft Thinking, используя различные методы пробингования. Они показывают, что, несмотря на ожидание, что Soft Thinking может позволить моделям одновременно исследовать различные пути резонации, в действительности модели склонны к упрощенному подходу, который не позволяет полностью реализовать потенциал этого подхода. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения ограничений ванильного подхода Soft Thinking, авторы предлагают ввести элементы случайности в процесс декодирования. Они используют два метода: Dirichlet resampling и Gumbel-Softmax trick. Эти методы позволяют ввести случайность в процесс генерации токенов, что помогает моделям исследовать более широкий набор вариантов резонации. Dirichlet resampling позволяет создавать распределения случайных весов для мягких токенов, в то время как Gumbel-Softmax trick предоставляет более контролируемый способ введения случайности с гладким переходом между дискретным и непрерывным пространством. Эти методы позволяют моделям расширить свои возможности в исследовании различных путей резонации, что приводит к лучшим результатам в задачах, требующих сложного мышления. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят ряд экспериментов на базе восьми различных резонирующих задач, чтобы оценить эффективность предложенных методов. Результаты показывают, что использование случайности в процессе декодирования значительно повышает производительность моделей. В частности, Gumbel-Softmax trick демонстрирует наилучшие результаты, обеспечивая достаточную степень случайности и гладкость перехода между режимами. Исследования показывают, что внедрение случайности позволяет моделям лучше использовать потенциал мягких токенов, что приводит к значительному улучшению результатов в резонирующих задачах. Эти результаты подтверждают, что случайность может быть ключевым фактором для расширения возможностей LLMs в резонации. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный подход имеет широкие практические применения в областях, требующих сложного резонативного мышления, таких как научное исследование, клиническая диагностика и сложные задачи принятия решений. Использование мягких токенов с введением случайности позволяет улучшить качество и точность решений, что делает этот подход привлекательным для реального мира. Кроме того, этот подход может быть использован в областях, требующих гибкости и адаптивности, таких как робототехника и автономные системы. Преимущества этого подхода заключаются в том, что он позволяет моделям более эффективно использовать информацию и исследовать различные пути резонации, что может привести к более творческим и точным решениям. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В целом, данное исследование показывает, что Soft Thinking может быть значительно улучшено за счет введения случайности в процесс декодирования. Использование методов таких как Gumbel-Softmax trick позволяет расширить возможности LLMs в резонации, что делает этот подход более эффективным в решении сложных задач. В будущем, дальнейшие исследования могут фокусироваться на разработке более эффективных способов введения случайности, а также на исследовании других методов для улучшения Soft Thinking. Это может привести к более широкому применению этого подхода в различных областях, где требуется сложное и гибкое мышление.

Annotation:

Human cognition naturally engages with abstract and fluid concepts, whereas existing reasoning models often rely on generating discrete tokens, potentially constraining their expressive capabilities. Recent advancements aim to address this limitation by enabling large language models (LLMs) to generate soft, abstract tokens, thus facilitating reasoning within a continuous concept space. This paper explores the `Soft Thinking' capabilities of various LLMs by examining the models' internal behavio...

ID: 2508.03440v3 cs.CL, cs.AI

arXiv PDF

📄 AIC CTU@FEVER 8: On-premise fact checking through long context RAG

2025-08-09

Авторы:

Herbert Ullrich, Jan Drchal

## КОНТЕКСТ И ПРОБЛЕМАТИКА Фактчекинг является ключевой задачей в области обработки естественного языка, особенно в условиях распространения дезинформации в современном мире. Так как информация становится все более доступной, но не всегда точной или достоверной, необходимость в эффективных системах фактчекинга становится все более критичной. Традиционные подходы часто сталкиваются с проблемами, связанными с ограничениями вычислительных ресурсов, в том числе памяти и времени выполнения. Одной из ключевых проблем в области фактчекинга является необходимость обработки больших объемов текстовой информации из различных источников для проверки достоверности утверждений. Это требует моделей, которые могут эффективно обрабатывать длинные контексты и выполнять поиск доказательств в крупных корпусах текстов. Однако, многие существующие решения требуют значительных вычислительных мощностей, что может быть непрактично в реальных условиях. FEVER (Fact Extraction and VERification) — это одна из крупнейших соревнований, направленных на развитие систем фактчекинга. Многие участники соревнований стремятся создать модели, которые могут эффективно обрабатывать данные, но не всегда учитывают ограничения ресурсов. Таким образом, создание фактчекинговой системы, которая может работать в условиях ограниченных вычислительных ресурсов, является значительным достижением. В этой работе авторы представляют свою систему фактчекинга, которая достигла первого места в FEVER 8 shared task. Эта система была разработана с учетом ограничений ресурсов, включая одну NVidia A10 GPU, 23 ГБ графической памяти и время выполнения в 60 секунд на утверждение. Это представляет собой существенный шаг вперед в области эффективных и практически применимых решений для фактчекинга. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают фактчекинговую систему, основанную на двухэтапном подходе с использованием RAG (Retrieval-Augmented Generation). Эта система является развитием их предыдущего решения, использованного в прошлом году. Двухэтапная архитектура состоит из стадии поиска доказательств (retrieval) и стадии генерации ответов (generation). На стадии поиска доказательств система использует модель RAG для извлечения релевантной информации из большого корпуса текстов. Этот подход позволяет модели эффективно обрабатывать длинные контексты, что является ключевым фактором для точности фактчекинга. Для оптимизации производительности система была адаптирована для работы на одной NVidia A10 GPU, что позволяет обеспечить высокую скорость обработки в условиях ограниченных вычислительных ресурсов. На второй стадии, после извлечения доказательств, система использует модель генеративного моделирования для создания ответов на основе извлеченных фактов. Эта стадия также оптимизирована для обеспечения высокого качества ответов в условиях ограниченного времени выполнения (60 секунд на утверждение). Авторы также подробно описывают процесс развертывания системы на предприятии (on-premise), что демонстрирует практическую применимость их решения. Они показывают, что их система может достигнуть состояния-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-и

Annotation:

In this paper, we present our fact-checking pipeline which has scored first in FEVER 8 shared task. Our fact-checking system is a simple two-step RAG pipeline based on our last year's submission. We show how the pipeline can be redeployed on-premise, achieving state-of-the-art fact-checking performance (in sense of Ev2R test-score), even under the constraint of a single NVidia A10 GPU, 23GB of graphical memory and 60s running time per claim.

ID: 2508.04390v1 cs.CL, cs.AI

arXiv PDF

📄 Hallucination to Truth: A Review of Fact-Checking and Factuality Evaluation in Large Language Models

2025-08-09

Авторы:

Subhey Sadi Rahman, Md. Adnanul Islam, Md. Mahbub Alam, Musarrat Zeba, Md. Abdur Rahman, Sadia Sultana Chowa, Mohaimenul Azam Khan Raiaan, Sami Azam

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) представляют собой мощные инструменты, обученные на обширных наборах данных, содержащих информацию из Интернета. Однако эти данные часто содержат неточности или вводят в заблуждение, что приводит к риску генерирования недостоверной информации. Такие неточности, известные как "hallucinations", создают серьезные проблемы в применении LLMs в критически важных областях, таких как медицина, право, и образование. Учитывающие необходимость обеспечить надежность и точность генерируемого контента, исследователи сталкиваются со сложностями, связанными с оценкой фактологичности выходных данных LLMs. Основные проблемы включают ограниченность существующих наборов данных для факт-чекинга, недостаточное качество метрик оценки фактологичности, и невозможность гарантировать, что выходные данные LLMs будут соответствовать достоверным источникам. Дополнительные сложности возникают из-за того, что LLMs часто генерируют ответы, основанные на контекстных или выдуманных сценариях, не подтвержденных фактическими данными. Это вызывает необходимость разработки систем факт-чекинга, которые могут эффективно выявлять и корректировать недостоверную информацию. Мотивацией данного обзора является необходимость создания надежных систем факт-чекинга для LLMs, способных обеспечить высокую точность и достоверность генерируемого контента. Это подчеркивает важность интеграции различных методологий, таких как instruction tuning, multi-agent reasoning, и retrieval-augmented generation (RAG), для улучшения фактуальности и надежности LLMs. ## ПРЕДЛОЖЕННЫЙ МЕТОД В обзоре рассматривается широкий спектр методов, направленных на улучшение фактологичности LLMs. Одним из ключевых подходов является использование **instruction tuning**, где модели обучаются на заданных инструкциях для повышения точности. Этот метод позволяет LLMs лучше понимать контекстные запросы и генерировать более точные ответы. Другой важный подход – **multi-agent reasoning**, где несколько агентов (частей модели) взаимодействуют для проверки и подтверждения фактов. Этот метод позволяет LLMs более глубоко анализировать информацию и выявлять неточности в выходных данных. Кроме того, **retrieval-augmented generation (RAG)** подразумевает использование внешних источников данных для подкрепления генерируемого контента. RAG-фреймворки позволяют LLMs получать доступ к проверенным и надежным источникам, что улучшает фактологичность их выходных данных. Обзор также рассматривает **domain-specific fine-tuning**, который позволяет LLMs быть более адаптированными к конкретным областям, таким как медицина или право. Это помогает уменьшить вероятность генерации недостоверной информации в специфических контекстах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках обзора представлены результаты экспериментов, проведенных с использованием различных наборов данных и методов оценки фактологичности LLMs. Исследования показывают, что текущие метрики фактологичности не всегда точно отражают качество генерируемого контента, особенно в случаях, когда информация является контекстно-зависимой. Кроме того, эксперименты показывают, что использование RAG-фреймворков и domain-specific fine-tuning значительно повышает точность и достоверность выходных данных LLMs. Исследователи также отмечают, что интеграция внешних источников данных помогает снизить вероятность генерации недостоверной информации. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Результаты обзора подчеркивают важность факт-чекинга для обеспечения надежности LLMs в различных приложениях, таких как медицинские диагностики, юридические консультации, и образовательные ресурсы. Интеграция RAG-фреймворков и domain-specific fine-tuning может значительно повысить качество генерируемого контента, что делает LLMs более полезными в реальных сценариях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основным достижением данного обзора является выявление ключевых проблем и потенциальных решений в области фактологичности LLMs. Будущие исследования должны фокусироваться на разработке более точных метрик, интеграции внешних источников данных, и разработке специализированных моделей для конкретных областей. Это поможет создать более надежные и точные LLMs, способные генерировать достоверную информацию в различных контекстах.

Annotation:

Large Language Models (LLMs) are trained on vast and diverse internet corpora that often include inaccurate or misleading content. Consequently, LLMs can generate misinformation, making robust fact-checking essential. This review systematically analyzes how LLM-generated content is evaluated for factual accuracy by exploring key challenges such as hallucinations, dataset limitations, and the reliability of evaluation metrics. The review emphasizes the need for strong fact-checking frameworks tha...

ID: 2508.03860v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Accelerating Scientific Discovery with Multi-Document Summarization of Impact-Ranked Papers

2025-08-09

Авторы:

Paris Koloveas, Serafeim Chatzopoulos, Dionysis Diamantis, Christos Tryfonopoulos, Thanasis Vergoulis

#### Резюме В научной сфере растет количество публикаций, что усложняет процесс поиска и объединения существующих знаний. Даже при выявлении ценных работ необходимо прочитать множество заглавий и аннотаций, что требует много времени и может привести к несоответствию или несогласованности выводов. Мы предлагаем усовершенствовать широко известный сервис BIP! Finder, добавив возможность генерировать краткие и подробные сводки из результатов поиска, основанных на уровне влияния и популярности документов. Это решение позволяет быстро получить обзор литературы или подробный анализ, организованный вокруг важности документов. Наши результаты показывают, что данная комбинация существующих и новых функций ускоряет работу с литературой и помогает лучше ориентироваться в ней, улучшая продуктивность исследователей.

Annotation:

The growing volume of scientific literature makes it challenging for scientists to move from a list of papers to a synthesized understanding of a topic. Because of the constant influx of new papers on a daily basis, even if a scientist identifies a promising set of papers, they still face the tedious task of individually reading through dozens of titles and abstracts to make sense of occasionally conflicting findings. To address this critical bottleneck in the research workflow, we introduce a s...

ID: 2508.03962v1 cs.DL, cs.AI, cs.CL

arXiv PDF

📄 Data and AI governance: Promoting equity, ethics, and fairness in large language models

2025-08-09

Авторы:

Alok Abhishek, Lisa Erickson, Tushar Bandopadhyay

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы широкое распространение технологий генеративного искусственного интеллекта (GenAI), включая большие языковые модели (LLMs), вызвало серьезные обеспечения относительно беспристрастности, этичности и фактической точности их выходных данных. Несмотрь на впечатляющие возможности LLMs в создании текстовых данных, их применение часто сопровождается проблемами, связанными с предубеждениями, несправедливостью и этическими нарушениями. Такие проблемы могут привести к дискриминации, ущербу репутации организаций и потенциальному нарушению законодательства. Одним из ключевых вопросов является то, как обеспечить систематическую оценку и управление беспристрастностью и этичностью LLMs на всех этапах их жизненного цикла – от разработки и проверки до мониторинга в реальном времени. Существующие методы часто недостаточны для обнаружения и коррекции предубеждений, особенно в динамично меняющихся контекстах реального мира. Кроме того, отсутствие стандартизированных инструментов для оценки и мониторинга этих аспектов делает задачу еще более сложной. Авторы статьи предлагают фреймворк для управления данными и ИИ (Data and AI Governance), который направлен на решение этих проблем. Основной целью этого фреймворка является обеспечение безопасности, ответственности и этичности LLMs, что, в свою очередь, позволяет снизить риски дискриминации и защитить репутацию организаций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают комплексный фреймворк для управления данными и ИИ, основанный на их работе по созданию Bias Evaluation and Assessment Test Suite (BEATS) для LLMs. Этот фреймворк включает в себя три основных этапа: 1. **Предварительная оценка и разработка:** На этом этапе проводится систематическая оценка данных, используемых для обучения LLMs, на наличие предубеждений и несправедливости. Авторы предлагают использовать BEATS для выявления и классификации различных типов предубеждений. 2. **Производственный мониторинг:** Реальное время требует непрерывного мониторинга LLMs для обнаружения и коррекции нежелательных выходных данных. Авторы предлагают использовать специальные тесты и метрики, которые позволяют отслеживать эти аспекты в процессе работы модели. 3. **Реализация гуардрейлов (guardrails):** Для предотвращения потенциальных ущербных выходных данных, авторы предлагают реализовать системы контроля и фильтрации, которые могут блокировать или исправлять неэтичные или неточные ответы модели. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят ряд экспериментов для оценки эффективности их фреймворка. Они используют различные наборы данных, которые представляют собой реальные сценарии использования LLMs. Эксперименты включают в себя: - **Оценка предубеждений:** Используя BEATS, авторы выявляют различные формы предубеждений в выходных данных LLMs. - **Мониторинг в реальном времени:** Авторы демонстрируют, как их метод может обнаруживать и исправлять нежелательные выходные данные в процессе работы модели. - **Эффективность гуардрейлов:** Авторы показывают, как системы контроля могут блокировать неэтичные ответы и повышать общую безопасность LLMs. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк имеет широкое практическое применение в различных областях, где используются LLMs. Он может быть использован для: - **Промышленных приложений:** Улучшение безопасности и этичности LLMs в таких областях, как медицина, финансы и юриспруденция. - **Образование и обучение:** Обеспечение точности и непредвзятости информации, предоставляемой LLMs в образовательных приложениях. - **Корпоративные приложения:** Защита репутации компаний путем предотвращения дискриминационных и неэтичных выходных данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, авторы подчеркивают важность систематического управления данными и ИИ для обеспечения безопасности и этичности LLMs. Они считают, что их фреймворк может стать важной составляющей в разработке и развертывании генеративных моделей ИИ. В будущем, авторы планируют расширить их фреймворк, включая более широкие наборы данных и методы оценки, а также исследования в области автоматизации процессов мониторинга и коррекции.

Annotation:

In this paper, we cover approaches to systematically govern, assess and quantify bias across the complete life cycle of machine learning models, from initial development and validation to ongoing production monitoring and guardrail implementation. Building upon our foundational work on the Bias Evaluation and Assessment Test Suite (BEATS) for Large Language Models, the authors share prevalent bias and fairness related gaps in Large Language Models (LLMs) and discuss data and AI governance framew...

ID: 2508.03970v1 cs.CL, cs.AI, 68T01 (Primary), 68T50 (Secondary), I.2.0; I.2.7

arXiv PDF

📄 Are Today's LLMs Ready to Explain Well-Being Concepts?

2025-08-09

Авторы:

Bohan Jiang, Dawei Li, Zhen Tan, Chengshuai Zhao, Huan Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Благополучие (well-being) охватывает физические, психические и социальные аспекты, являясь ключевым фактором личностного развития и принятия осознанных жизненных решений. С ростом популярности ИИ, люди всё чаще обращаются к Большим Языковым Моделям (Large Language Models, LLMs) за пониманием и объяснениями вопросов благополучия. Однако высококачественные объяснения требуют не только точности фактической информации, но и адаптации к разнообразным потребностям пользователей с различным уровнем экспертизы. Ключевым вызовом является то, что не все существующие LLMs способны обеспечить качественные объяснения, которые были бы полезны и доступны для широкого круга пользователей. Требуется оценить, насколько эффективны современные LLMs в объяснении концепций благополучия и насколько они могут приспособиться к различным аудиториям. Кроме того, необходимо создать надежную методологию оценки качества объяснений, чтобы обеспечить объективную оценку и сравнение различных моделей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Исследование предлагает комплексный подход для оценки и улучшения качества объяснений LLMs в контексте благополучия. Авторы создают крупномасштабный датасет, состоящий из 43 880 объяснений 2 194 концепций благополучия, сгенерированных десятью различными LLMs. Этот датасет служит основой для сравнительного анализа качества объяснений. Для оценки качества объяснений представлен концепция principle-guided LLM-as-a-judge, где используются "двойные судьи" (dual judges) — специализированные модели, обученные на основе принципов качества объяснений. Этот подход обеспечивает объективную и стандартизированную оценку. Также предлагается метод улучшения LLMs путем fine-tuning с использованием Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO). Эти техники позволяют моделям адаптироваться к задачам объяснения специализированных тем, таких как благополучие, и повышают их эффективность в создании качественных объяснений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования проводились эксперименты, в которых использовались различные LLMs для генерации объяснений. Данные были собраны и проанализированы с целью определения качества объяснений в зависимости от модели, категории благополучия и типа аудитории. Результаты показали, что качество объяснений сильно зависит от конкретной модели, типа пользователя и контекста благополучия. Модели, прошедшие fine-tuning с помощью SFT и DPO, демонстрируют лучшие результаты по сравнению с большими моделями, не подвергшимися такому файн-тюнингу. Это подтверждает эффективность preference-based learning в задачах специализированных объяснений. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Работа имеет значительное практическое применение в областях, где необходимо объяснение концепций благополучия для различных аудиторий. Улучшенные LLMs могут быть использованы в образовательных платформах, психологических консультациях и системах поддержки психического здоровья. Предложенный метод также открывает пути для создания более адаптивных и точных моделей ИИ, которые могут быть применены в различных областях, требующих высококачественных объяснений для сложных концепций. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В исследовании достигнуты важные результаты: (1) предложенные LLM-as-a-judge методы оказались эффективными в оценке качества объяснений; (2) качество объяснений сильно варьируется в зависимости от модели и типа аудитории; и (3) fine-tuning с помощью SFT и DPO значительно повышает качество объяснений. Будущие исследования могут сосредоточиться на дальнейшем улучшении LLMs для объяснения сложных концепций, расширении датасетов и разработке более сложных методов оценки качества. Это может привести к более широкому использованию LLMs в областях, требующих высокой точности и адаптивности объяснений.

Annotation:

Well-being encompasses mental, physical, and social dimensions essential to personal growth and informed life decisions. As individuals increasingly consult Large Language Models (LLMs) to understand well-being, a key challenge emerges: Can LLMs generate explanations that are not only accurate but also tailored to diverse audiences? High-quality explanations require both factual correctness and the ability to meet the expectations of users with varying expertise. In this work, we construct a lar...

ID: 2508.03990v1 cs.CL, cs.AI, cs.HC

arXiv PDF

📄 HarmonyGuard: Toward Safety and Utility in Web Agents via Adaptive Policy Enhancement and Dual-Objective Optimization

2025-08-09

Авторы:

Yurun Chen, Xavier Hu, Yuhan Liu, Keting Yin, Juncheng Li, Zhuosheng Zhang, Shengyu Zhang

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современных веб-окружениях автономные агенты, основанные на крупных языках моделей, сталкиваются с значительными вызовами при выполнении длительных последовательностей задач. Основные проблемы заключаются в балансировке между эффективностью выполнения задач и обеспечением безопасности в условиях постоянно меняющихся угроз. Существующие исследования в этой области часто ограничены оптимизацией одного из этих аспектов или рассматривают только однократные взаимодействия, что не позволяет создать агентов, способных эффективно работать в динамических веб-средах. Традиционные подходы к оптимизации политик безопасности часто игнорируют динамическую природу угроз, что приводит к устареванию политик и неэффективному взаимодействию с внешними источниками данных. Кроме того, многие существующие модели не учитывают взаимозависимость безопасности и эффективности, что может привести к снижению общей производительности агентов. HarmonyGuard предлагает решение этой проблематике, ориентированное на совместную оптимизацию безопасности и эффективности. Разработанный фреймворк интегрирует многоагентную кооперацию, адаптивное обновление политик безопасности и реальновременную оптимизацию двух целей: соблюдение политик и выполнение задач. ## ПРЕДЛОЖЕННЫЙ МЕТОД HarmonyGuard представляет собой многоагентный фреймворк, который состоит из двух ключевых компонентов: **Policy Agent** и **Utility Agent**. **Policy Agent** отвечает за адаптивное извлечение и обновление политик безопасности из неструктурированных внешних источников. Этот агент использует специальные методы для структурирования информации и регулярное обновление политик в соответствии с эволюцией внешних угроз. **Utility Agent**, в свою очередь, основан на марковской реальновременной логике и предназначен для оптимизации двух целей: безопасности и эффективности. Он использует метакогнитивные способности для оценки состояния системы и принятия решений, которые максимизируют оба этих показателя. Архитектура HarmonyGuard позволяет агентам сотрудничать, обеспечивая динамическое обновление политик безопасности и оптимизацию решений в реальном времени. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки HarmonyGuard проведены исследования на нескольких бенчмарках. Результаты показывают, что фреймворк повышает соблюдение политик безопасности до 38% и улучшает эффективность выполнения задач на 20% по сравнению с существующими базовыми моделями. Кроме того, HarmonyGuard достигает более 90% соблюдения политик безопасности на всех задачах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ HarmonyGuard может быть применен в различных областях, где критично обеспечить баланс между безопасностью и эффективностью, таких как автоматизированные системы управления, финансовые технологии и цифровая безопасность. Его адаптивный подход к обновлению политик и реальновременная оптимизация делают его важным инструментом для обеспечения безопасности в динамических веб-окружениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ HarmonyGuard является важным шагом в создании более безопасных и эффективных веб-агентов. Будущие исследования могут расширить этот подход, включив большее количество динамических факторов и улучшив взаимодействие между агентами.

Annotation:

Large language models enable agents to autonomously perform tasks in open web environments. However, as hidden threats within the web evolve, web agents face the challenge of balancing task performance with emerging risks during long-sequence operations. Although this challenge is critical, current research remains limited to single-objective optimization or single-turn scenarios, lacking the capability for collaborative optimization of both safety and utility in web environments. To address thi...

ID: 2508.04010v1 cs.CL, cs.AI

arXiv PDF

📄 Step More: Going Beyond Single Backpropagation in Meta Learning Based Model Editing

2025-08-09

Авторы:

Xiaopeng Li, Shasha Li, Xi Wang, Shezheng Song, Bin Ji, Shangwen Wang, Jun Ma, Xiaodong Liu, Mina Liu, Jie Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) являются основой многих современных AI-приложений, но их статическая природа создает сложности при необходимости обновления их знаний. Обновление модели в традиционном режиме часто требует полного переобучения, что является ресурсоемким и дорогостоящим процессом. Для решения этой проблемы были разработаны методы моделирования, известные как модельные редактирования. Эти методы позволяют вносить изменения в модель, ориентированные на конкретные параметры, что значительно экономит ресурсы. Одним из важных подходов в области модельных редактирований является мета-обучение на основе модельного редактирования (MLBME). Методы MLBME оказались эффективными в обеспечении качества и скорости редактирования модели. Однако, несмотря на их успех, существуют ограничения. В частности, MLBME показывает неудовлетворительные результаты при работе с небольшими наборами данных, что ограничивает его применение в реальных сценариях с ограниченными данными. Кроме того, вычисление КЛ-разности (KL divergence) представляет собой существенный барьер для эффективности обучения, создавая узким местом в процессе. Эти проблемы подчеркивают необходимость разработки более эффективных методов, которые могли бы улучшить производительность MLBME в условиях ограниченных данных и оптимизировать процесс обучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД В этой статье авторы представляют новый метод под названием **Step More Edit (SMEdit)**, разработанный для улучшения производительности MLBME в условиях ограниченных данных. SMEdit включает в себя несколько ключевых компонентов. Во-первых, SMEdit использует стратегию известную как Множественные Бэкпропагационные Шаги (MBPS). Эта стратегема позволяет выполнять несколько шагов обратного распространения (backpropagation) в процессе обучения, что улучшает способность модели адаптироваться к новым данным, особенно когда данных недостаточно. Это позволяет модели более эффективно обучаться и адаптироваться к изменениям в данных. Во-вторых, SMEdit вводит нормализацию весов (norm regularization) на обновления параметров. Это помогает контролировать изменения весов во время обучения, что в свою очередь повышает эффективность и стабильность процесса обучения. Нормализация весов также помогает избежать нежелательных изменений в модели, которые могут привести к нестабильности или ухудшению качества. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности SMEdit авторы провели эксперименты на двух наборах данных и с использованием двух LLMs. Результаты экспериментов показали, что SMEdit превосходит предыдущие методы MLBME по различным метрикам. В частности, SMEdit достигает высокого качества редактирования даже при ограниченных данных, что демонстрирует его способность эффективно адаптироваться к новым ситуациям. Кроме того, MBPS стратегия была интегрирована в существующие методы MLBME, что привело к дополнительному повышению их производительности. Это показывает, что MBPS может быть универсально применяемым подходом для улучшения методов модельного редактирования. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SMEdit имеет широкое применение в области AI, особенно когда речь идет об обновлении моделей в реальном времени. Его способность эффективно работать с ограниченными данными делает его применимым в ситуациях, где требуется быстрое и экономичное обновление моделей. Например, это может быть полезно в сфере медицинских диагностик, где модели должны быть часто обновляемыми в соответствии с последними данными. Кроме того, SMEdit может быть использован в задачах, требующих высокого уровня адаптивности и эффективности, таких как рекомендательные системы, обработка естественного языка, и прогнозирование в реальном времени. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SMEdit представляет собой важный шаг вперед в области модельного редактирования, улучшая качество и эффективность процесса обучения. Авторы отмечают, что дальнейшие исследования могут быть направлены на дальнейшее улучшение стратегии MBPS и его интеграции с другими методами модельного редактирования. Также, расширение применения SMEdit на более широкий класс моделей и наборов данных может открыть новые возможности для его использования в реальных приложениях. Доступность кода, который авторы планируют опубликовать, также откроет путь для дальнейших экспериментов и разработок в этой области.

Annotation:

Large Language Models (LLMs) underpin many AI applications, but their static nature makes updating knowledge costly. Model editing offers an efficient alternative by injecting new information through targeted parameter modifications. In particular, meta-learning-based model editing (MLBME) methods have demonstrated notable advantages in both editing effectiveness and efficiency. Despite this, we find that MLBME exhibits suboptimal performance in low-data scenarios, and its training efficiency is...

ID: 2508.04012v1 cs.CL, cs.AI, cs.LG

arXiv PDF

1
2
740
741
742
743
744
750
751

Показано 7411 - 7420 из 7506 записей