📚 Саммари научных статей из arXiv

Найдено 2042 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following

2025-08-09

Авторы:

Chenyang Wang, Liang Wen, Shousheng Jia, Xiangzheng Zhang, Liang Xu

Научная статья Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following рассматривает проблему неэффективного выполнения команд сложным управляющим языковыми моделями (LLMs). Авторы выявляют недостаточное внимание к процессу рассуждения в модели как главную причину несоответствия командам. Решением становится разработка протокола под названием Light-IF, включающего стратегии предварительного просмотра и самопроверки. Эти механизмы включены в тренировочный процесс, который позволяет модели лучше учитывать требования задачи и повышать уровень общей пригодности решений для различных сложностей. Авторы используют сложность задач, реJECTION-семплинг и расширенный финатный тонкий тюнинг с внедрением опорных свойств логического рассуждения. Эксперименты показывают, что Light-IF оказывается эффективной для обучения моделей различных размеров, включая модель Light-IF-32B, которая показывает лучшие результаты по сравнению с опубликованными моделями с меньшим и большим количеством параметров.

Annotation:

While advancements in the reasoning abilities of LLMs have significantly enhanced their performance in solving mathematical problems, coding tasks, and general puzzles, their effectiveness in accurately adhering to instructions remains inconsistent, particularly with more complex directives. Our investigation identifies lazy reasoning during the thinking stage as the primary factor contributing to poor instruction adherence. To mitigate this issue, we propose a comprehensive framework designed t...

ID: 2508.03178v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 LLMs are Single-threaded Reasoners: Demystifying the Working Mechanism of Soft Thinking

2025-08-09

Авторы:

Chünhung Wu, Jinliang Lu, Zixuan Ren, Gangqiang Hu, Zhi Wu, Dai Dai, Hua Wu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Человеческое мышление приспособлено к работе с абстрактными и гибкими понятиями, однако современные модели резонного мышления часто ограничены генерацией дискретных токенов, что может ограничивать их выразительные возможности. В последнее время было предпринято много усилий по расширению возможностей больших языковых моделей (LLMs) за счет использования мягких, абстрактных токенов, что позволяет проводить резонирование в непрерывном пространстве концепций. Это подход, известный как "Soft Thinking", обещает расширить возможности LLMs в решении сложных задач резонации. Однако, несмотря на потенциал Soft Thinking, существуют недостатки в том, как LLMs используют мягкие токены. Многие модели, как показывают последние исследования, предпочитают использовать наиболее влиятельные компоненты мягких входных данных во время процесса декодирования, что ограничивает возможность освещения различных путей резонации. Это приводит к тому, что Soft Thinking сводится к жадному декодированию, что снижает преимущества передачи более широкой информации через мягкие токены. В данной работе авторы проводят подробный анализ внутреннего поведения LLMs при использовании Soft Thinking, используя различные методы пробингования. Они показывают, что, несмотря на ожидание, что Soft Thinking может позволить моделям одновременно исследовать различные пути резонации, в действительности модели склонны к упрощенному подходу, который не позволяет полностью реализовать потенциал этого подхода. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения ограничений ванильного подхода Soft Thinking, авторы предлагают ввести элементы случайности в процесс декодирования. Они используют два метода: Dirichlet resampling и Gumbel-Softmax trick. Эти методы позволяют ввести случайность в процесс генерации токенов, что помогает моделям исследовать более широкий набор вариантов резонации. Dirichlet resampling позволяет создавать распределения случайных весов для мягких токенов, в то время как Gumbel-Softmax trick предоставляет более контролируемый способ введения случайности с гладким переходом между дискретным и непрерывным пространством. Эти методы позволяют моделям расширить свои возможности в исследовании различных путей резонации, что приводит к лучшим результатам в задачах, требующих сложного мышления. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят ряд экспериментов на базе восьми различных резонирующих задач, чтобы оценить эффективность предложенных методов. Результаты показывают, что использование случайности в процессе декодирования значительно повышает производительность моделей. В частности, Gumbel-Softmax trick демонстрирует наилучшие результаты, обеспечивая достаточную степень случайности и гладкость перехода между режимами. Исследования показывают, что внедрение случайности позволяет моделям лучше использовать потенциал мягких токенов, что приводит к значительному улучшению результатов в резонирующих задачах. Эти результаты подтверждают, что случайность может быть ключевым фактором для расширения возможностей LLMs в резонации. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный подход имеет широкие практические применения в областях, требующих сложного резонативного мышления, таких как научное исследование, клиническая диагностика и сложные задачи принятия решений. Использование мягких токенов с введением случайности позволяет улучшить качество и точность решений, что делает этот подход привлекательным для реального мира. Кроме того, этот подход может быть использован в областях, требующих гибкости и адаптивности, таких как робототехника и автономные системы. Преимущества этого подхода заключаются в том, что он позволяет моделям более эффективно использовать информацию и исследовать различные пути резонации, что может привести к более творческим и точным решениям. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В целом, данное исследование показывает, что Soft Thinking может быть значительно улучшено за счет введения случайности в процесс декодирования. Использование методов таких как Gumbel-Softmax trick позволяет расширить возможности LLMs в резонации, что делает этот подход более эффективным в решении сложных задач. В будущем, дальнейшие исследования могут фокусироваться на разработке более эффективных способов введения случайности, а также на исследовании других методов для улучшения Soft Thinking. Это может привести к более широкому применению этого подхода в различных областях, где требуется сложное и гибкое мышление.

Annotation:

Human cognition naturally engages with abstract and fluid concepts, whereas existing reasoning models often rely on generating discrete tokens, potentially constraining their expressive capabilities. Recent advancements aim to address this limitation by enabling large language models (LLMs) to generate soft, abstract tokens, thus facilitating reasoning within a continuous concept space. This paper explores the `Soft Thinking' capabilities of various LLMs by examining the models' internal behavio...

ID: 2508.03440v3 cs.CL, cs.AI

arXiv PDF

📄 AIC CTU@FEVER 8: On-premise fact checking through long context RAG

2025-08-09

Авторы:

Herbert Ullrich, Jan Drchal

## КОНТЕКСТ И ПРОБЛЕМАТИКА Фактчекинг является ключевой задачей в области обработки естественного языка, особенно в условиях распространения дезинформации в современном мире. Так как информация становится все более доступной, но не всегда точной или достоверной, необходимость в эффективных системах фактчекинга становится все более критичной. Традиционные подходы часто сталкиваются с проблемами, связанными с ограничениями вычислительных ресурсов, в том числе памяти и времени выполнения. Одной из ключевых проблем в области фактчекинга является необходимость обработки больших объемов текстовой информации из различных источников для проверки достоверности утверждений. Это требует моделей, которые могут эффективно обрабатывать длинные контексты и выполнять поиск доказательств в крупных корпусах текстов. Однако, многие существующие решения требуют значительных вычислительных мощностей, что может быть непрактично в реальных условиях. FEVER (Fact Extraction and VERification) — это одна из крупнейших соревнований, направленных на развитие систем фактчекинга. Многие участники соревнований стремятся создать модели, которые могут эффективно обрабатывать данные, но не всегда учитывают ограничения ресурсов. Таким образом, создание фактчекинговой системы, которая может работать в условиях ограниченных вычислительных ресурсов, является значительным достижением. В этой работе авторы представляют свою систему фактчекинга, которая достигла первого места в FEVER 8 shared task. Эта система была разработана с учетом ограничений ресурсов, включая одну NVidia A10 GPU, 23 ГБ графической памяти и время выполнения в 60 секунд на утверждение. Это представляет собой существенный шаг вперед в области эффективных и практически применимых решений для фактчекинга. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают фактчекинговую систему, основанную на двухэтапном подходе с использованием RAG (Retrieval-Augmented Generation). Эта система является развитием их предыдущего решения, использованного в прошлом году. Двухэтапная архитектура состоит из стадии поиска доказательств (retrieval) и стадии генерации ответов (generation). На стадии поиска доказательств система использует модель RAG для извлечения релевантной информации из большого корпуса текстов. Этот подход позволяет модели эффективно обрабатывать длинные контексты, что является ключевым фактором для точности фактчекинга. Для оптимизации производительности система была адаптирована для работы на одной NVidia A10 GPU, что позволяет обеспечить высокую скорость обработки в условиях ограниченных вычислительных ресурсов. На второй стадии, после извлечения доказательств, система использует модель генеративного моделирования для создания ответов на основе извлеченных фактов. Эта стадия также оптимизирована для обеспечения высокого качества ответов в условиях ограниченного времени выполнения (60 секунд на утверждение). Авторы также подробно описывают процесс развертывания системы на предприятии (on-premise), что демонстрирует практическую применимость их решения. Они показывают, что их система может достигнуть состояния-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-и

Annotation:

In this paper, we present our fact-checking pipeline which has scored first in FEVER 8 shared task. Our fact-checking system is a simple two-step RAG pipeline based on our last year's submission. We show how the pipeline can be redeployed on-premise, achieving state-of-the-art fact-checking performance (in sense of Ev2R test-score), even under the constraint of a single NVidia A10 GPU, 23GB of graphical memory and 60s running time per claim.

ID: 2508.04390v1 cs.CL, cs.AI

arXiv PDF

📄 Hallucination to Truth: A Review of Fact-Checking and Factuality Evaluation in Large Language Models

2025-08-09

Авторы:

Subhey Sadi Rahman, Md. Adnanul Islam, Md. Mahbub Alam, Musarrat Zeba, Md. Abdur Rahman, Sadia Sultana Chowa, Mohaimenul Azam Khan Raiaan, Sami Azam

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) представляют собой мощные инструменты, обученные на обширных наборах данных, содержащих информацию из Интернета. Однако эти данные часто содержат неточности или вводят в заблуждение, что приводит к риску генерирования недостоверной информации. Такие неточности, известные как "hallucinations", создают серьезные проблемы в применении LLMs в критически важных областях, таких как медицина, право, и образование. Учитывающие необходимость обеспечить надежность и точность генерируемого контента, исследователи сталкиваются со сложностями, связанными с оценкой фактологичности выходных данных LLMs. Основные проблемы включают ограниченность существующих наборов данных для факт-чекинга, недостаточное качество метрик оценки фактологичности, и невозможность гарантировать, что выходные данные LLMs будут соответствовать достоверным источникам. Дополнительные сложности возникают из-за того, что LLMs часто генерируют ответы, основанные на контекстных или выдуманных сценариях, не подтвержденных фактическими данными. Это вызывает необходимость разработки систем факт-чекинга, которые могут эффективно выявлять и корректировать недостоверную информацию. Мотивацией данного обзора является необходимость создания надежных систем факт-чекинга для LLMs, способных обеспечить высокую точность и достоверность генерируемого контента. Это подчеркивает важность интеграции различных методологий, таких как instruction tuning, multi-agent reasoning, и retrieval-augmented generation (RAG), для улучшения фактуальности и надежности LLMs. ## ПРЕДЛОЖЕННЫЙ МЕТОД В обзоре рассматривается широкий спектр методов, направленных на улучшение фактологичности LLMs. Одним из ключевых подходов является использование **instruction tuning**, где модели обучаются на заданных инструкциях для повышения точности. Этот метод позволяет LLMs лучше понимать контекстные запросы и генерировать более точные ответы. Другой важный подход – **multi-agent reasoning**, где несколько агентов (частей модели) взаимодействуют для проверки и подтверждения фактов. Этот метод позволяет LLMs более глубоко анализировать информацию и выявлять неточности в выходных данных. Кроме того, **retrieval-augmented generation (RAG)** подразумевает использование внешних источников данных для подкрепления генерируемого контента. RAG-фреймворки позволяют LLMs получать доступ к проверенным и надежным источникам, что улучшает фактологичность их выходных данных. Обзор также рассматривает **domain-specific fine-tuning**, который позволяет LLMs быть более адаптированными к конкретным областям, таким как медицина или право. Это помогает уменьшить вероятность генерации недостоверной информации в специфических контекстах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках обзора представлены результаты экспериментов, проведенных с использованием различных наборов данных и методов оценки фактологичности LLMs. Исследования показывают, что текущие метрики фактологичности не всегда точно отражают качество генерируемого контента, особенно в случаях, когда информация является контекстно-зависимой. Кроме того, эксперименты показывают, что использование RAG-фреймворков и domain-specific fine-tuning значительно повышает точность и достоверность выходных данных LLMs. Исследователи также отмечают, что интеграция внешних источников данных помогает снизить вероятность генерации недостоверной информации. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Результаты обзора подчеркивают важность факт-чекинга для обеспечения надежности LLMs в различных приложениях, таких как медицинские диагностики, юридические консультации, и образовательные ресурсы. Интеграция RAG-фреймворков и domain-specific fine-tuning может значительно повысить качество генерируемого контента, что делает LLMs более полезными в реальных сценариях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основным достижением данного обзора является выявление ключевых проблем и потенциальных решений в области фактологичности LLMs. Будущие исследования должны фокусироваться на разработке более точных метрик, интеграции внешних источников данных, и разработке специализированных моделей для конкретных областей. Это поможет создать более надежные и точные LLMs, способные генерировать достоверную информацию в различных контекстах.

Annotation:

Large Language Models (LLMs) are trained on vast and diverse internet corpora that often include inaccurate or misleading content. Consequently, LLMs can generate misinformation, making robust fact-checking essential. This review systematically analyzes how LLM-generated content is evaluated for factual accuracy by exploring key challenges such as hallucinations, dataset limitations, and the reliability of evaluation metrics. The review emphasizes the need for strong fact-checking frameworks tha...

ID: 2508.03860v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Data and AI governance: Promoting equity, ethics, and fairness in large language models

2025-08-09

Авторы:

Alok Abhishek, Lisa Erickson, Tushar Bandopadhyay

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы широкое распространение технологий генеративного искусственного интеллекта (GenAI), включая большие языковые модели (LLMs), вызвало серьезные обеспечения относительно беспристрастности, этичности и фактической точности их выходных данных. Несмотрь на впечатляющие возможности LLMs в создании текстовых данных, их применение часто сопровождается проблемами, связанными с предубеждениями, несправедливостью и этическими нарушениями. Такие проблемы могут привести к дискриминации, ущербу репутации организаций и потенциальному нарушению законодательства. Одним из ключевых вопросов является то, как обеспечить систематическую оценку и управление беспристрастностью и этичностью LLMs на всех этапах их жизненного цикла – от разработки и проверки до мониторинга в реальном времени. Существующие методы часто недостаточны для обнаружения и коррекции предубеждений, особенно в динамично меняющихся контекстах реального мира. Кроме того, отсутствие стандартизированных инструментов для оценки и мониторинга этих аспектов делает задачу еще более сложной. Авторы статьи предлагают фреймворк для управления данными и ИИ (Data and AI Governance), который направлен на решение этих проблем. Основной целью этого фреймворка является обеспечение безопасности, ответственности и этичности LLMs, что, в свою очередь, позволяет снизить риски дискриминации и защитить репутацию организаций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают комплексный фреймворк для управления данными и ИИ, основанный на их работе по созданию Bias Evaluation and Assessment Test Suite (BEATS) для LLMs. Этот фреймворк включает в себя три основных этапа: 1. **Предварительная оценка и разработка:** На этом этапе проводится систематическая оценка данных, используемых для обучения LLMs, на наличие предубеждений и несправедливости. Авторы предлагают использовать BEATS для выявления и классификации различных типов предубеждений. 2. **Производственный мониторинг:** Реальное время требует непрерывного мониторинга LLMs для обнаружения и коррекции нежелательных выходных данных. Авторы предлагают использовать специальные тесты и метрики, которые позволяют отслеживать эти аспекты в процессе работы модели. 3. **Реализация гуардрейлов (guardrails):** Для предотвращения потенциальных ущербных выходных данных, авторы предлагают реализовать системы контроля и фильтрации, которые могут блокировать или исправлять неэтичные или неточные ответы модели. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят ряд экспериментов для оценки эффективности их фреймворка. Они используют различные наборы данных, которые представляют собой реальные сценарии использования LLMs. Эксперименты включают в себя: - **Оценка предубеждений:** Используя BEATS, авторы выявляют различные формы предубеждений в выходных данных LLMs. - **Мониторинг в реальном времени:** Авторы демонстрируют, как их метод может обнаруживать и исправлять нежелательные выходные данные в процессе работы модели. - **Эффективность гуардрейлов:** Авторы показывают, как системы контроля могут блокировать неэтичные ответы и повышать общую безопасность LLMs. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк имеет широкое практическое применение в различных областях, где используются LLMs. Он может быть использован для: - **Промышленных приложений:** Улучшение безопасности и этичности LLMs в таких областях, как медицина, финансы и юриспруденция. - **Образование и обучение:** Обеспечение точности и непредвзятости информации, предоставляемой LLMs в образовательных приложениях. - **Корпоративные приложения:** Защита репутации компаний путем предотвращения дискриминационных и неэтичных выходных данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, авторы подчеркивают важность систематического управления данными и ИИ для обеспечения безопасности и этичности LLMs. Они считают, что их фреймворк может стать важной составляющей в разработке и развертывании генеративных моделей ИИ. В будущем, авторы планируют расширить их фреймворк, включая более широкие наборы данных и методы оценки, а также исследования в области автоматизации процессов мониторинга и коррекции.

Annotation:

In this paper, we cover approaches to systematically govern, assess and quantify bias across the complete life cycle of machine learning models, from initial development and validation to ongoing production monitoring and guardrail implementation. Building upon our foundational work on the Bias Evaluation and Assessment Test Suite (BEATS) for Large Language Models, the authors share prevalent bias and fairness related gaps in Large Language Models (LLMs) and discuss data and AI governance framew...

ID: 2508.03970v1 cs.CL, cs.AI, 68T01 (Primary), 68T50 (Secondary), I.2.0; I.2.7

arXiv PDF

📄 Are Today's LLMs Ready to Explain Well-Being Concepts?

2025-08-09

Авторы:

Bohan Jiang, Dawei Li, Zhen Tan, Chengshuai Zhao, Huan Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Благополучие (well-being) охватывает физические, психические и социальные аспекты, являясь ключевым фактором личностного развития и принятия осознанных жизненных решений. С ростом популярности ИИ, люди всё чаще обращаются к Большим Языковым Моделям (Large Language Models, LLMs) за пониманием и объяснениями вопросов благополучия. Однако высококачественные объяснения требуют не только точности фактической информации, но и адаптации к разнообразным потребностям пользователей с различным уровнем экспертизы. Ключевым вызовом является то, что не все существующие LLMs способны обеспечить качественные объяснения, которые были бы полезны и доступны для широкого круга пользователей. Требуется оценить, насколько эффективны современные LLMs в объяснении концепций благополучия и насколько они могут приспособиться к различным аудиториям. Кроме того, необходимо создать надежную методологию оценки качества объяснений, чтобы обеспечить объективную оценку и сравнение различных моделей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Исследование предлагает комплексный подход для оценки и улучшения качества объяснений LLMs в контексте благополучия. Авторы создают крупномасштабный датасет, состоящий из 43 880 объяснений 2 194 концепций благополучия, сгенерированных десятью различными LLMs. Этот датасет служит основой для сравнительного анализа качества объяснений. Для оценки качества объяснений представлен концепция principle-guided LLM-as-a-judge, где используются "двойные судьи" (dual judges) — специализированные модели, обученные на основе принципов качества объяснений. Этот подход обеспечивает объективную и стандартизированную оценку. Также предлагается метод улучшения LLMs путем fine-tuning с использованием Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO). Эти техники позволяют моделям адаптироваться к задачам объяснения специализированных тем, таких как благополучие, и повышают их эффективность в создании качественных объяснений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования проводились эксперименты, в которых использовались различные LLMs для генерации объяснений. Данные были собраны и проанализированы с целью определения качества объяснений в зависимости от модели, категории благополучия и типа аудитории. Результаты показали, что качество объяснений сильно зависит от конкретной модели, типа пользователя и контекста благополучия. Модели, прошедшие fine-tuning с помощью SFT и DPO, демонстрируют лучшие результаты по сравнению с большими моделями, не подвергшимися такому файн-тюнингу. Это подтверждает эффективность preference-based learning в задачах специализированных объяснений. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Работа имеет значительное практическое применение в областях, где необходимо объяснение концепций благополучия для различных аудиторий. Улучшенные LLMs могут быть использованы в образовательных платформах, психологических консультациях и системах поддержки психического здоровья. Предложенный метод также открывает пути для создания более адаптивных и точных моделей ИИ, которые могут быть применены в различных областях, требующих высококачественных объяснений для сложных концепций. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В исследовании достигнуты важные результаты: (1) предложенные LLM-as-a-judge методы оказались эффективными в оценке качества объяснений; (2) качество объяснений сильно варьируется в зависимости от модели и типа аудитории; и (3) fine-tuning с помощью SFT и DPO значительно повышает качество объяснений. Будущие исследования могут сосредоточиться на дальнейшем улучшении LLMs для объяснения сложных концепций, расширении датасетов и разработке более сложных методов оценки качества. Это может привести к более широкому использованию LLMs в областях, требующих высокой точности и адаптивности объяснений.

Annotation:

Well-being encompasses mental, physical, and social dimensions essential to personal growth and informed life decisions. As individuals increasingly consult Large Language Models (LLMs) to understand well-being, a key challenge emerges: Can LLMs generate explanations that are not only accurate but also tailored to diverse audiences? High-quality explanations require both factual correctness and the ability to meet the expectations of users with varying expertise. In this work, we construct a lar...

ID: 2508.03990v1 cs.CL, cs.AI, cs.HC

arXiv PDF

📄 HarmonyGuard: Toward Safety and Utility in Web Agents via Adaptive Policy Enhancement and Dual-Objective Optimization

2025-08-09

Авторы:

Yurun Chen, Xavier Hu, Yuhan Liu, Keting Yin, Juncheng Li, Zhuosheng Zhang, Shengyu Zhang

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современных веб-окружениях автономные агенты, основанные на крупных языках моделей, сталкиваются с значительными вызовами при выполнении длительных последовательностей задач. Основные проблемы заключаются в балансировке между эффективностью выполнения задач и обеспечением безопасности в условиях постоянно меняющихся угроз. Существующие исследования в этой области часто ограничены оптимизацией одного из этих аспектов или рассматривают только однократные взаимодействия, что не позволяет создать агентов, способных эффективно работать в динамических веб-средах. Традиционные подходы к оптимизации политик безопасности часто игнорируют динамическую природу угроз, что приводит к устареванию политик и неэффективному взаимодействию с внешними источниками данных. Кроме того, многие существующие модели не учитывают взаимозависимость безопасности и эффективности, что может привести к снижению общей производительности агентов. HarmonyGuard предлагает решение этой проблематике, ориентированное на совместную оптимизацию безопасности и эффективности. Разработанный фреймворк интегрирует многоагентную кооперацию, адаптивное обновление политик безопасности и реальновременную оптимизацию двух целей: соблюдение политик и выполнение задач. ## ПРЕДЛОЖЕННЫЙ МЕТОД HarmonyGuard представляет собой многоагентный фреймворк, который состоит из двух ключевых компонентов: **Policy Agent** и **Utility Agent**. **Policy Agent** отвечает за адаптивное извлечение и обновление политик безопасности из неструктурированных внешних источников. Этот агент использует специальные методы для структурирования информации и регулярное обновление политик в соответствии с эволюцией внешних угроз. **Utility Agent**, в свою очередь, основан на марковской реальновременной логике и предназначен для оптимизации двух целей: безопасности и эффективности. Он использует метакогнитивные способности для оценки состояния системы и принятия решений, которые максимизируют оба этих показателя. Архитектура HarmonyGuard позволяет агентам сотрудничать, обеспечивая динамическое обновление политик безопасности и оптимизацию решений в реальном времени. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки HarmonyGuard проведены исследования на нескольких бенчмарках. Результаты показывают, что фреймворк повышает соблюдение политик безопасности до 38% и улучшает эффективность выполнения задач на 20% по сравнению с существующими базовыми моделями. Кроме того, HarmonyGuard достигает более 90% соблюдения политик безопасности на всех задачах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ HarmonyGuard может быть применен в различных областях, где критично обеспечить баланс между безопасностью и эффективностью, таких как автоматизированные системы управления, финансовые технологии и цифровая безопасность. Его адаптивный подход к обновлению политик и реальновременная оптимизация делают его важным инструментом для обеспечения безопасности в динамических веб-окружениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ HarmonyGuard является важным шагом в создании более безопасных и эффективных веб-агентов. Будущие исследования могут расширить этот подход, включив большее количество динамических факторов и улучшив взаимодействие между агентами.

Annotation:

Large language models enable agents to autonomously perform tasks in open web environments. However, as hidden threats within the web evolve, web agents face the challenge of balancing task performance with emerging risks during long-sequence operations. Although this challenge is critical, current research remains limited to single-objective optimization or single-turn scenarios, lacking the capability for collaborative optimization of both safety and utility in web environments. To address thi...

ID: 2508.04010v1 cs.CL, cs.AI

arXiv PDF

📄 Step More: Going Beyond Single Backpropagation in Meta Learning Based Model Editing

2025-08-09

Авторы:

Xiaopeng Li, Shasha Li, Xi Wang, Shezheng Song, Bin Ji, Shangwen Wang, Jun Ma, Xiaodong Liu, Mina Liu, Jie Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) являются основой многих современных AI-приложений, но их статическая природа создает сложности при необходимости обновления их знаний. Обновление модели в традиционном режиме часто требует полного переобучения, что является ресурсоемким и дорогостоящим процессом. Для решения этой проблемы были разработаны методы моделирования, известные как модельные редактирования. Эти методы позволяют вносить изменения в модель, ориентированные на конкретные параметры, что значительно экономит ресурсы. Одним из важных подходов в области модельных редактирований является мета-обучение на основе модельного редактирования (MLBME). Методы MLBME оказались эффективными в обеспечении качества и скорости редактирования модели. Однако, несмотря на их успех, существуют ограничения. В частности, MLBME показывает неудовлетворительные результаты при работе с небольшими наборами данных, что ограничивает его применение в реальных сценариях с ограниченными данными. Кроме того, вычисление КЛ-разности (KL divergence) представляет собой существенный барьер для эффективности обучения, создавая узким местом в процессе. Эти проблемы подчеркивают необходимость разработки более эффективных методов, которые могли бы улучшить производительность MLBME в условиях ограниченных данных и оптимизировать процесс обучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД В этой статье авторы представляют новый метод под названием **Step More Edit (SMEdit)**, разработанный для улучшения производительности MLBME в условиях ограниченных данных. SMEdit включает в себя несколько ключевых компонентов. Во-первых, SMEdit использует стратегию известную как Множественные Бэкпропагационные Шаги (MBPS). Эта стратегема позволяет выполнять несколько шагов обратного распространения (backpropagation) в процессе обучения, что улучшает способность модели адаптироваться к новым данным, особенно когда данных недостаточно. Это позволяет модели более эффективно обучаться и адаптироваться к изменениям в данных. Во-вторых, SMEdit вводит нормализацию весов (norm regularization) на обновления параметров. Это помогает контролировать изменения весов во время обучения, что в свою очередь повышает эффективность и стабильность процесса обучения. Нормализация весов также помогает избежать нежелательных изменений в модели, которые могут привести к нестабильности или ухудшению качества. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности SMEdit авторы провели эксперименты на двух наборах данных и с использованием двух LLMs. Результаты экспериментов показали, что SMEdit превосходит предыдущие методы MLBME по различным метрикам. В частности, SMEdit достигает высокого качества редактирования даже при ограниченных данных, что демонстрирует его способность эффективно адаптироваться к новым ситуациям. Кроме того, MBPS стратегия была интегрирована в существующие методы MLBME, что привело к дополнительному повышению их производительности. Это показывает, что MBPS может быть универсально применяемым подходом для улучшения методов модельного редактирования. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SMEdit имеет широкое применение в области AI, особенно когда речь идет об обновлении моделей в реальном времени. Его способность эффективно работать с ограниченными данными делает его применимым в ситуациях, где требуется быстрое и экономичное обновление моделей. Например, это может быть полезно в сфере медицинских диагностик, где модели должны быть часто обновляемыми в соответствии с последними данными. Кроме того, SMEdit может быть использован в задачах, требующих высокого уровня адаптивности и эффективности, таких как рекомендательные системы, обработка естественного языка, и прогнозирование в реальном времени. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SMEdit представляет собой важный шаг вперед в области модельного редактирования, улучшая качество и эффективность процесса обучения. Авторы отмечают, что дальнейшие исследования могут быть направлены на дальнейшее улучшение стратегии MBPS и его интеграции с другими методами модельного редактирования. Также, расширение применения SMEdit на более широкий класс моделей и наборов данных может открыть новые возможности для его использования в реальных приложениях. Доступность кода, который авторы планируют опубликовать, также откроет путь для дальнейших экспериментов и разработок в этой области.

Annotation:

Large Language Models (LLMs) underpin many AI applications, but their static nature makes updating knowledge costly. Model editing offers an efficient alternative by injecting new information through targeted parameter modifications. In particular, meta-learning-based model editing (MLBME) methods have demonstrated notable advantages in both editing effectiveness and efficiency. Despite this, we find that MLBME exhibits suboptimal performance in low-data scenarios, and its training efficiency is...

ID: 2508.04012v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap

2025-08-09

Авторы:

Xuan Qi, Rongwu Xu, Zhijing Jin

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В настоящее время выравнивание больших языковых моделей (LLMs) с желаниями и ожиданиями человека является одной из ключевых задач в области искусственного интеллекта. Для достижения этого выравнивания часто используются методы, такие как Reinforcement Learning from Human Feedback (RLHF) и Direct Preference Optimization (DPO). Однако эти методы требуют больших и дорогостоящих наборов данных, содержащих предпочтения человека, что создает значительные трудности в процессе обучения и подбора данных. Несмотря на то, что существуют различные подходы для выбора данных в задачах обучения с подкреплением, методы выбора высококачественных данных, ориентированных на предпочтения, остаются недостаточно изученными. Традиционные методы выбора данных зачастую не учитывают сложность примеров, что может приводить к неэффективному использованию ресурсов при обучении моделей. Особенно важно выбирать такие примеры, которые представляют большую сложность для модели, так как они могут более эффективно способствовать ее улучшению. В этой связи, разработка методов, основанных на сложности данных, является ключевым направлением для повышения эффективности обучения LLMs. В этой работе авторы предлагают новый метод выбора данных для предпочтений, основанный на механизме неявного вознаграждения DPO. Идея заключается в том, чтобы выбирать примеры, характеризующиеся меньшим неявным вознаграждением, что указывает на большую сложность этих примеров. Такой подход позволяет сосредоточиться на самых проблематичных данных, что потенциально может улучшить качество выравнивания модели и снизить затраты на подбор данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют новую стратегию выбора данных, основанную на механизме неявного вознаграждения DPO. Основная идея заключается в том, чтобы выбирать данные, которые имеют меньший неявный вознагражденный зазор (reward gap). Неявный вознагражденный зазор отражает разницу между ожидаемым вознаграждением для положительных и отрицательных предпочтений. Меньший зазор указывает на более сложные примеры, требующие большего усилия для выравнивания модели. Метод включает в себя несколько этапов. Вначале, данные для предпочтений собираются и оцениваются с помощью механизма DPO, что позволяет вычислить неявный вознагражденный зазор для каждого примера. Затем, выбираются примеры с наименьшим зазором, что указывает на их высокую сложность для модели. Эти выбранные данные используются в процессе обучения модели, что позволяет сосредоточиться на самых сложных случаях и повысить эффективность обучения. Архитектура метода основана на использовании DPO для оценки качества данных. Это позволяет определить, какие примеры лучше всего подходят для обучения, исходя из их сложности. Такая стратегия позволяет сократить объем данных, необходимых для обучения модели, при этом сохраняя высокое качество выравнивания. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предложенного метода. Эксперименты проводились на нескольких наборах данных, связанных с задачами выравнивания LLMs. В экспериментах использовались различные подходы к выбору данных, включая рандомизированный выбор, выбор на основе оценки качества и другие методы. Результаты показали, что метод, основанный на выборе данных с меньшим неявным вознагражденным зазором, показывает значительно лучшие результаты по сравнению с пятью другими базовыми методами. Наибольшее улучшение было достигнуто при использовании только 10% изначальных данных. Это указывает на высокую эффективность предложенного подхода в условиях ограниченных ресурсов. Кроме того, эксперименты показали, что выбор данных на основе сложности приводит к лучшему выравниванию модели с желаниями человека. Модель, обученная на выбранных данных, показала лучшие результаты в задачах выравнивания, что подтверждает эффективность предложенного метода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет значительное практическое значение для разработки и обучения LLMs. Он позволяет сократить объем данных, необходимых для обучения модели, при этом повышая качество выравнивания. Это особенно важно в ситуациях, когда ресурсы ограничены, и требуется максимальная эффективность при обучении моделей. Потенциальные области применения включают в себя различные домены, где необходимо выравнивание моделей с желаниями пользователей, такие как чат-боты, системы рекомендаций и системы автоматизированного обучения. Предложенный метод также может быть использован в задачах, требующих высокого уровня точности и качества выравнивания модели с пользовательскими предпочтениями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен новый метод выбора данных для выравнивания LLMs, основанный на механизме неявного вознаграждения DPO. Этот метод показал высокую эффективность в условиях ограниченных данных и ресурсов, позволяя сократить объем данных, необходимых для обучения, при этом сохраняя высокое качество выравнивания. Будущие исследования могут фокусироваться на дальнейшем улучшении метода, включая разработку более тонких методов оценки сложности данных и их применение в различных доменах. Кроме того, можно исследовать возможности интеграции этого подхода с другими методами выравнивания моделей, такими как RLHF, для достижения еще более высоких результатов.

Annotation:

Aligning large language models (LLMs) with human preferences is a critical challenge in AI research. While methods like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) are widely used, they often rely on large, costly preference datasets. The current work lacks methods for high-quality data selection specifically for preference data. In this work, we introduce a novel difficulty-based data selection strategy for preference datasets, grounded in the DPO ...

ID: 2508.04149v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Hacking Hallucinations of MLLMs with Causal Sufficiency and Necessity

2025-08-09

Авторы:

Peizheng Guo, Jingyao Wang, Wenwen Qiang, Huijie Guo, Changwen Zheng, Jiahuan Zhou, Gang Hua

## КОНТЕКСТ И ПРОБЛЕМАТИКА Multimodal Large Language Models (MLLMs) представляют собой передовые инструменты, способные выполнять сложные задачи в области визуально-языкового анализа. Они сочетают в себе текстовую и визуальную моделирование, что позволяет им эффективно решать задачи, такие как вопросов-ответов на основе изображений, описание изображений и подписание сцен. Однако, несмотря на их впечатляющие результаты, MLLMs часто сталкиваются с проблемой генерации неточных или неконсистентных выходных данных, известной как "hallucinations". Эти ошибки могут проявляться в виде опущений (отсутствие ключевых деталей) или фабрикации (генерация несуществующих фактов), что существенно ограничивает эффективность их применения в реальных сценариях. Корень проблемы лежит в том, что MLLMs могут недостаточно учитывать важные причинные факторы при генерации ответов. Недостаточность причинного анализа может приводить к опущению важных деталей, тогда как неправильное восприятие не-причинных сигналов может вызывать фабрикацию. Таким образом, для улучшения точности и надежности MLLMs необходимо разработать методы, которые бы учитывали причинные связи между входными данными и генерируемыми выходами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить проблему генерации неточных выходных данных, авторы предлагают новый метод, основанный на reinforcement learning (RL) и причинном анализе. Основная идея заключается в том, чтобы оптимизировать модель так, чтобы она генерировала токены, которые являются как причинно достаточными, так и причинно необходимыми для корректного ответа. Для этого используется понятие "causal completeness" (причинная полнота), которое оценивает каждый токен по двум критериям: 1. **Causal Sufficiency** (причинная достаточность): определяет, может ли токен быть сгенерирован на основе входных данных без необходимости дополнительной информации. 2. **Causal Necessity** (причинная необходимость): оценивает, насколько незаменим токен для корректного ответа, используя контрфактуальный анализ. Эти критерии используются для построения reward function, который оптимизируется с помощью GRPO (Generalized Reward Policy Optimization) framework. Этот подход позволяет модели сосредоточиться на генерации токенов, которые не только соответствуют входным данным, но и являются причинно полными, что помогает избежать ошибок в виде опущений и фабрикации. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов на различных датасетах, чтобы продемонстрировать эффективность их подхода. Используемые данные включали различные визуально-языковые датасеты, такие как COCO Captions и Visual Genome. Результаты показали, что модель, обученная с использованием предложенного метода, значительно снизила частоту hallucinations по сравнению с базовыми моделями. Кроме того, были проведены сравнения с другими методами понижения hallucinations, и предложенный метод показал лучшие результаты в терминах качества генерации и согласованности выходных данных. Эти результаты подтверждают, что интеграция причинного анализа в процесс обучения MLLMs может значительно повысить их надежность и точность. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в различных областях, где точность и надежность генерации выходных данных играют ключевую роль. Например, в области медицинской диагностики, где MLLMs могут использоваться для анализа медицинских изображений и генерации отчетов, точность является критически важной. Также, этот метод может быть полезен в областях автономных транспортных систем, где необходимо точно интерпретировать визуальные данные для принятия решений. Преимущества этого подхода включают в себя не только повышение точности генерации, но и повышение доверия пользователей к моделям, что может способствовать ширей их интеграции в реальные приложения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что использование причинного анализа и reinforcement learning может значительно повысить качество генерации в MLLMs, уменьшая частоту hallucinations. Однако, эти результаты также открывают новые направления для будущих исследований. Например, можно исследовать, как этот подход может быть адаптирован для других типов моделей или для задач, не связанных с визуально-языковым анализом. Также, важно исследовать, как этот метод может быть интегрирован в более крупные системы, чтобы обеспечить еще большую надежность и точность.

Annotation:

Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities across vision-language tasks. However, they may suffer from hallucinations--generating outputs that are semantically inconsistent with the input image or text. Through causal analyses, we find that: (i) hallucinations with omission may arise from the failure to adequately capture essential causal factors, and (ii) hallucinations with fabrication are likely caused by the model being misled by non-causal cues. To ad...

ID: 2508.04182v1 cs.CL, cs.AI

arXiv PDF

1
2
197
198
199
200
201
204
205

Показано 1981 - 1990 из 2042 записей