📚 Саммари научных статей из arXiv

Найдено 7603 результатов по запросу 'cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня

📄 Discerning minds or generic tutors? Evaluating instructional guidance capabilities in Socratic LLMs

2025-08-13

Авторы:

Ying Liu, Can Li, Ting Zhang, Mei Wang, Qiannan Zhu, Jian Li, Hua Huang

## Контекст Говорящие языковые модели (LLM) становятся все более популярными в области образовательных технологий, особенно в контексте специализированных онлайн-курсов и систем онлайн-образования. Одна из их ключевых функций — Socratic questioning, которая позволяет моделям формировать вопросы для стимулирования размышлений и поддержки процесса обучения. Однако, несмотря на выдающиеся результаты в этой области, существуют проблемы: большинство исследований ограничиваются тестовым оцениванием вопросов, не учитывая способность моделей адаптироваться к разным уровням понимания учеников. Этот аспект, который является существенным для эффективного консультирования, так и остается недостаточно изученным. Исследование, основанное на анализе имитации взаимодействий существующих моделей, призвано провести детальный анализ их возможностей в области диалогического обучения. ## Метод Авторы предлагают методологию, основанную на анализе реальных диалогов в образовательных системах, которая позволяет оценивать модели не только по вопросам, но и по способности адаптироваться к уровню понимания ученика. Основная идея заключается в том, чтобы имитировать динамическую ситуацию, когда модель должна не только сформировать вопросы, но и реагировать на поведение ученика. Метод включает три этапа: (1) **Perception** — оценка состояния ученика на основе его ответов и поведения; (2) **Orchestration** — адаптация стратегии консультации на основе полученных данных; (3) **Elicitation** — стимулирование ученика к конкретным мыслям и отражению. Этапы становятся основой для нового бенчмарка, **GuideEval**, который тестирует модели на способность динамическими способами консультировать. ## Результаты Эксперименты показывают, что существующие модели LLM часто не способны адекватно реагировать на ситуации, когда ученик страдает от непонимания или требует помощи. Это отражается в низком уровне адаптации и эффективности консультаций. Тестирование на **GuideEval** показало, что некоторые модели даже словятся с основными вопросами, не удаваясь предлагать нужную стратегию. В то же время, модели, натренированные с помощью нового подхода **behavior-guided fine-tuning**, показали значительную улучшение в способности динамически адаптироваться и поддерживать эффективный обмен с учеником. ## Значимость Это исследование открывает путь к более точной оценке LLM в области образовательных технологий. Новый подход предлагает перейти от изолированного оценивания контента к оценке взаимодействия моделей с пользователем. Это может привести к более эффективным системам обучения, которые смогут адаптироваться к неоднородным нуж

Annotation:

The conversational capabilities of large language models hold significant promise for enabling scalable and interactive tutoring. While prior research has primarily examined their capacity for Socratic questioning, it often overlooks a critical dimension: adaptively guiding learners based on their cognitive states. This study shifts focus from mere question generation to the broader instructional guidance capability. We ask: Can LLMs emulate expert tutors who dynamically adjust strategies in res...

ID: 2508.06583v1 cs.CL, cs.AI

arXiv PDF

📄 BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent

2025-08-13

Авторы:

Zijian Chen, Xueguang Ma, Shengyao Zhuang, Ping Nie, Kai Zou, Andrew Liu, Joshua Green, Kshama Patel, Ruoxi Meng, Mingyi Su, Sahel Sharifymoghaddam, Yanxi Li, Haoran Hong, Xinyu Shi, Xuye Liu, Nandan Thakur, Crystina Zhang, Luyu Gao, Wenhu Chen, Jimmy Lin

---------------------------------------------------- ## Контекст Modern Deep-Research agents, которые объединяют большие лингвистические модели (LLMs) с инструментами поиска, показали свою эффективность в обработке сложных запросов, требующих итеративного планирования поиска и логического анализа результатов. Однако существующие эталоны, такие как BrowseComp, страдают от значимых ограничений. Они полагаются на "черные-ящиковые" веб-API, что ограничивает справедливость сравнений и возможность повторения экспериментов. Также, существует недостаток в прозрачности, так как ученые не могут контролировать корпус документов, что затрудняет изоляцию вклада каждого отдельного компонента, такого как ретрайвер. Эти недостатки затрудняют получение точных выводов о реальных возможностях глубоких исследовательских систем. Мы предлагаем BrowseComp-Plus, бенчмарк, развитый из BrowseComp, с использованием фиксированного, тщательно подобранного корпуса. Он предлагает более справедливое и прозрачное сравнение, что позволяет более точно оценить глубокие исследовательские агенты и методы поиска. ---------------------------------------------------- ## Метод BrowseComp-Plus основывается на BrowseComp, но включает ряд улучшений, нацеленных на повышение справедливости и прозрачности. В нем используется фиксированный корпус документов, который позволяет сравнивать глубокие исследовательские системы в условиях управляемого эксперимента. Каждый запрос в BrowseComp-Plus включает в себя ручно проверенные документы, которые поддерживают ответы на запрос, а также майнытся трудноотличимые негативные примеры. Это позволяет тестировать не только систему в целом, но и отдельные компоненты, такие как ретрайвер или механизмы ранжирования. Бенчмарк также включает в себя меру эффективности поиска и точности цитирования, что дает подробную картину потенциала глубоких исследовательских систем. ---------------------------------------------------- ## Результаты Применение BrowseComp-Plus позволило получить наглядные результаты, подчеркнув разницу в качестве различных систем. Например, open-source модель Search-R1, использующая BM25 retriever, достигла 3.86% точности, в то время как GPT-5, использующий Qwen3-Embedding-8B retriever, показал 70.1% точности при меньшем числе поисковых запросов. Эти результаты доказывают, что BrowseComp-Plus эффективно отличает качество разных методов поиска и позволяет проводить детальный анализ компонентов глубоких исследовательских систем. Также бенчмарк поддерживает эксперименты с разными методами рекомендации документов и методами надёжности цитирования, предоставляя широкий спектр возможностей для дополнительных исследований. ---------------------------------------------------- ## Значимость BrowseComp-Plus предлагает новый стандарт для оценки глубоких исследовательских систем, позволяя сфокусиро

Annotation:

Deep-Research agents, which integrate large language models (LLMs) with search tools, have shown success in improving the effectiveness of handling complex queries that require iterative search planning and reasoning over search results. Evaluations on current benchmarks like BrowseComp relies on black-box live web search APIs, have notable limitations in (1) fairness: dynamic and opaque web APIs hinder fair comparisons and reproducibility of deep research methods; (2) transparency: lack of cont...

ID: 2508.06600v1 cs.CL, cs.IR

arXiv PDF

📄 Train It and Forget It: Merge Lists are Unnecessary for BPE Inference in Language Models

2025-08-13

Авторы:

Tomohiro Sawada, Kartik Goyal

## Контекст Стандартная Byte-Pair Encoding (BPE) — это популярный метод сжатия текста, который работает путем построения уникального словаря символов и использования мерж-листа для объединения этих символов в более крупные токены. Несмотря на его эффективность, недавние исследования показали, что мерж-лист BPE может стать источником утечки информации о тренировочных данных модели. Это создает риск для приватности, особенно в контексте широкого применения моделей текстового понимания. В данной работе рассматривается возможность использования BPE без мерж-листа, что позволило бы устранить этот риск, не приведя к существенным потерям в производительности модели. ## Метод Методология исследования основывается на разработке и анализе безмерж-листных BPE-алгоритмов. Мы разделяем их на две категории: 1) **целевые алгоритмы**, которые логически отклоняются от мерж-листов (например, рандомный порядок объединения или удаление части мерж-листов), и 2) **безмерж-листные алгоритмы**, которые не полагаются на мерж-лист вообще. Мы использовали несколько языковых моделей и задач, включая задачи оценки качества, машинную переводку и генерацию открытого вида, для оценки производительности этих новых BPE-инференсных схем. ## Результаты В ходе экспериментов мы выяснили, что **целевые алгоритмы**, логически отклоняющиеся от мерж-листов, приводят к существенной потере производительности модели. В то же время, **безмерж-листные алгоритмы**, не полагающиеся на мерж-лист вообще, демонстрируют минимальную потерю в производительности, которая часто оказывается гораздо меньше, чем было ожидано. Эти результаты показывают, что удаление мерж-листов из BPE не приводит к катастрофическим потерям в модели, что делает такие подходы более приватными и удобными в использовании. ## Значимость Наша работа открывает путь к разработке более приватных и эффективных систем текстовой обработки. Безмерж-листные BPE могут быть применены в области конфиденциальности текстов, где утечка информации о тренировочных данных может быть критична. Также, эти схемы могут стать более эффективными и простыми в реализации, что снижает сложность использования BPE в различных моделях. ## Выводы Мы показали, что мерж-листы BPE не являются необходимым компонентом для BPE-инференса. Наше исследование демонстрирует, что некоторые варианты безмерж-листов могут дать значительные преимущества в области приватности и эффективности. Будущие исследования будут сконцентрированы на оптимизации безмерж-листов и их применении в других текстовых моделях.

Annotation:

Standard Byte-Pair Encoding (BPE) tokenization compresses text by pairing a learned token vocabulary with a detailed merge list. Recent work has shown that this merge list exposes a potential attack surface for extracting information about language model's training data. In this paper, we explore the downstream impact of BPE inference algorithms that do not rely on this merge list at all, and hence differ from the encoding process during BPE training. To address this question, we investigate two...

ID: 2508.06621v1 cs.CL

arXiv PDF

📄 Measuring Stereotype and Deviation Biases in Large Language Models

2025-08-13

Авторы:

Daniel Wang, Eli Brignac, Minjia Mao, Xiao Fang

## Контекст Large language models (LLMs) широко используются во многих областях, от обработки естественного языка до принятия решений в критически важных сферах. Однако их распространенное применение сопряжено с рисками, в том числе с возможностью сформировать или укрепить стереотипы и дискриминационные тенденции. Эти модели могут ассоциировать конкретные требования или описания с определенными демографическими группами, что может привести к необоснованной влиятельности на пользователей. Другая проблема — девиационный биас, когда генерируемые моделью данные не соответствуют реальным демографическим данным, что может повлиять на надежность моделей и результаты принятия решений. Этот исследовательский подход направлен на изучение этих видов биаса и их последствий на больших языковых моделях. ## Метод Мы использовали четыре высокоточных языковые модели: LLaMA-7B, LLaMA-13B, OPT-125M и OPT-1.3B. Для оценки типа стереотипного биаса мы подавали входные запросы, которые просили модель описать личность с указанием демографических характеристик, таких как политическая принадлежность, религия и сексуально-эмоциональная ориентация. Для оценки девиационного биаса сравнили результаты модели с реальными демографическими данными. Мы запустили каждую модель на одинаковых входных данных и измерили точность и степень сходства с реальными данными. Эксперименты были проведены на нескольких группах демографических признаков, чтобы охватить широкий спектр этих проблем. ## Результаты Эксперименты показали, что все исследуемые модели показали высокую степень стереотипного биаса и девиационного биаса по отношению к нескольким демографическим группам. Например, модели сформировали стереотипы, связывая указанные требования с конкретными группами, и были не точны в представлении распределения демографических данных. Например, модели часто указывали высокий процент женщин среди представителей определенной профессии, несмотря на то, что это не соответствовало реальным данным. Эти результаты подтвердили, что как стереотипный, так и девиационный биас значительно влияют на поведение моделей. ## Значимость Наши результаты имеют значительное значение в сфере приложений языковых моделей. Они подчеркивают необходимость прозрачности моделей и оценки их потенциальных дискриминационных последствий. Эти модели могут использоваться в рекрутинге, психологическом анализе, предсказании поведения, и все они могут быть повлияны на тип биаса. Мы также предлагаем стратегии для снижения этих биасов, таких как уточнение запросов и нормализация демогра

Annotation:

Large language models (LLMs) are widely applied across diverse domains, raising concerns about their limitations and potential risks. In this study, we investigate two types of bias that LLMs may display: stereotype bias and deviation bias. Stereotype bias refers to when LLMs consistently associate specific traits with a particular demographic group. Deviation bias reflects the disparity between the demographic distributions extracted from LLM-generated content and real-world demographic distrib...

ID: 2508.06649v1 cs.CL

arXiv PDF

📄 Testing the Limits of Machine Translation from One Book

2025-08-13

Авторы:

Jonathan Shaw, Dillon Mee, Timothy Khouw, Zackary Leech, Daniel Wilson

#### Контекст Тестирование границ машинного перевода из одной книги заинтересовано многими областями знаний, включая лингвистику, искусственный интеллект и технологии новых типов. На данный момент существуют современные модели трансляции, которые могут использовать контекстную информацию для перевода в незнакомые языковые контексты. Изучение этих моделей позволяет улучшить качество перевода в условиях нехватки ресурсов или лимитных условий. Однако, существуют языки, у которых мало цифровых ресурсов, но говорят их много. Одним из таких языков является язык канори. Мы разрабатываем две специальные базы данных для тестирования качества перевода в условиях ограниченного количества ресурсов и изучаем, как различные комбинации языковых ресурсов влияют на качество перевода. #### Метод Мы разрабатываем две базы данных для тестирования качества перевода. Первая база данных содержит термины, связанные с медициной и благотворительностью. Вторая база данных содержит общие термины, не привязанные к какой-либо области. Мы измеряем эффективность перевода с использованием различных языковых ресурсов, включая грамматику, словарь и парный синтаксис. Мы также сравниваем результаты с переводами, сделанными носителями языка и лингвистами. Для оценки качества мы используем обе автоматические метрики и оценки носителей языка по точности и грамотности. #### Результаты Результаты показывают, что парные синтаксические предложения остаются самой эффективной источником данных, превосходя другие методы как в автоматических метриках, так и в оценках носителей языка. Хотя добавление грамматики улучшает результаты нулевого запуска, она не является эффективным самостоятельным источником данных. Оценки носителей языка показали, что модели трансляции LLM демонстрируют высокую точность (значение), но слабее в области грамотности (грамматичности). Это подтверждает, что носители языка способны более точно оценить качество перевода по сравнению с автоматическими метриками. #### Значимость Эти результаты имеют значимость в нескольких областях. Во-первых, они показывают, что тестирование моделей трансляции должно использовать широкий спектр методик, включая автоматические метрики и оценки носителей языка. Мы также показываем, что грамматика в одиночку недостаточна для эффективного перевода в технических и доменных языковых контекстах. Наконец, наше исследование выделяет важность парных синтаксических предложений в качестве ключевого ресурса для повышения качества перевода в условиях ограниченных ресурсов.

Annotation:

Current state-of-the-art models demonstrate capacity to leverage in-context learning to translate into previously unseen language contexts. Tanzer et al. [2024] utilize language materials (e.g. a grammar) to improve translation quality for Kalamang using large language models (LLMs). We focus on Kanuri, a language that, despite having substantial speaker population, has minimal digital resources. We design two datasets for evaluation: one focused on health and humanitarian terms, and another con...

ID: 2508.06665v1 cs.CL

arXiv PDF

📄 Do Biased Models Have Biased Thoughts?

2025-08-13

Авторы:

Swati Rajwal, Shivank Garg, Reem Abdel-Salam, Abdelrahman Zayed

#### Контекст Современные языковые модели показали ошеломляющий прогресс в обработке естественного языка, однако они часто сталкиваются с проблемой биаса. Такие модели могут демонстрировать ненависть, предрассудки и зараженность злобой в отношении людей и групп на базе таких параметров, как пол, раса, национальность, статус в обществе, физический вид и сексуальное направление. Эти модели широко применяются во всех сферах жизнедеятельности, однако их биазы могут серьёзно нарушить справедливость и нейтральность. В настоящем исследовании анализируется влияние архитектуры на явление биаса в моделях языка, опираясь на подход "цепь мыслей", способящий раскрыть структуру модели и понять, почему она принимает определённые решения. #### Метод В ходе исследования использовались $5$ языковых моделей различных размеров, включая масштабные модели. Для экспериментов использовались $11$ метрик, охватывающих различные аспекты биаса, такие как гендерный, расовый и другие. На каждой модели в качестве входных данных были применены специальные запросы, используя подход "цепь мыслей", позволяющий модели выражать пошаговую мысль перед ответом. Это позволило измерить биазы на стадии вывода и решения. Результаты экспериментов были сравнены с метриками биаза, чтобы определить корреляцию между этапами мышления и фактическими биазами. #### Результаты Исследование показало, что модели с биазами в решениях не всегда имеют сильные биазы в конкретных этапах мышления. Точнее, такая цепь мышления не является сильным детерминантом финального решения модели. Коэффициент корреляции между этапами мышления и финальными биазами оказался меньше $0.6$, что указывает на слабую связь. Кроме того, большинство моделей показали $p$-значения меньше $0.001$, что говорит о том, что эта связь не является случайной. Это означает, что тестируемые модели могут делать биазные решения независимо от своих мыслей, что отличает их от человеческого мышления. #### Значимость Результаты имеют важное значение для разработки стратегий борьбы с биазом в моделях языка. Например, модели могут быть использованы в сферах, где важно минимизировать биаз, таких как системы рекомендаций, диагностические системы и системы поддержки решений. Модели с высоким биазом в решениях, но без биаза в мышлении, могут быть более справедливыми и нейтральными в применении. Это открывает пути к улучшению моделей с помощью новых архитектур, а также к использованию дополнительных методов, таких как мониторинг и устранение б

Annotation:

The impressive performance of language models is undeniable. However, the presence of biases based on gender, race, socio-economic status, physical appearance, and sexual orientation makes the deployment of language models challenging. This paper studies the effect of chain-of-thought prompting, a recent approach that studies the steps followed by the model before it responds, on fairness. More specifically, we ask the following question: $\textit{Do biased models have biased thoughts}$? To answ...

ID: 2508.06671v2 cs.CL, cs.AI, I.2.7

arXiv PDF

📄 Play Favorites: A Statistical Method to Measure Self-Bias in LLM-as-a-Judge

2025-08-13

Авторы:

Evangelia Spiliopoulou, Riccardo Fogliato, Hanna Burnsky, Tamer Soliman, Jie Ma, Graham Horwood, Miguel Ballesteros

## Контекст Искусственные нейронные сети, такие как текстовые генераторы (LLMs), становятся все более популярными в различных областях, включая оценку качества текста. Одна из проблем, с которой сталкиваются разработчики и оценщики таких систем, заключается в возможности самостоятельной оценки выданных ответов, когда система дает высокую оценку своим собственным текстам. Этот эффект, известный как "самостоятельная оценка" (self-bias), может оказывать существенное влияние на достоверность исследований и принятие решений на основе автоматизированных оценок. Актуальность исследования возрастает в связи с популярностью LLMs в сфере оценки текстов, включая системы, которые сами по себе являются оценщиками. ## Метод Мы предлагаем статистическую модель, которая определяет и измеряет самостоятельную оценку в системах LLM-as-a-judge. Метод основывается на сравнении распределений оценок, выдаваемых LLM-судьями своим собственным текстам и текстам производимым другими моделями. Для того чтобы учесть независимость качества текста от самооценки, мы применяем методы независимых стохастических процессов. Таким образом, мы можем отделить самостоятельную оценку от действительных различий в качестве выдачи текста. Метод использует данные, состоящие из пар запрос-ответ, анализируемых рядом LLMs и оценками квалифицированных знатоков (человеков). ## Результаты Мы проводили эксперименты на большом датасете, содержащем более 5000 пар запрос-ответ, подвергнутых оценке человеком и несколькими LLM-судьями. Наши результаты показали, что некоторые модели, такие как GPT-4o и Claude 3.5 Sonnet, систематически выдают высокие оценки своим собственным текстам. Мы также выявили семейную биаз — LLM модели с одинаковой семьей программного обеспечения дают высокую оценку друг другу. Наши результаты демонстрируют, что самостоятельная оценка может усложнять объективную оценку качества текста, и что существуют ситуации, когда оценки модели на самом деле не отражают ее реального качества. ## Значимость Метод, предложенный в нашей работе, может быть применен в различных сферах, где необходима автоматизированная оценка текста. Он позволяет снизить риск самостоятельной оценки и дает возможность точнее определять реальное качество моделей. Это может быть полезно для повышения качества текста в области NLP, в том числе для повышения достоверности результатов в системах, в которых LLM-судьи используются для оценки других моделей. Наш метод также может быть применен для расширения возможностей автоматических систем в сфере текстовой оценки, ко

Annotation:

Large language models (LLMs) can serve as judges that offer rapid and reliable assessments of other LLM outputs. However, models may systematically assign overly favorable ratings to their own outputs, a phenomenon known as self-bias, which can distort evaluations of true model performance. Previous studies often conflate genuine differences in model quality with bias or incorrectly assume that evaluations from LLMs and humans follow the same rating distributions. In this work, we present a stat...

ID: 2508.06709v1 cs.CL, cs.AI

arXiv PDF

📄 Large Language Models for Oral History Understanding with Text Classification and Sentiment Analysis

2025-08-13

Авторы:

Komala Subramanyam Cherukuri, Pranav Abishai Moses, Aisa Sakata, Jiangping Chen, Haihua Chen

## Контекст Оральная история является важной частью культурного наследия, особенно в контексте социальных и исторических трагедий, таких как инцидент инцидент японского населения США во времена Второй мировой войны. Этот исторический факт отражает широкие проблемы системного преследования и исторического забвения. Обработка гораздо большого масштаба таких архивов требует автоматизированных методов, которые могут избежать эмоциональной сложности и высоких затрат на аннотацию. Этот доклад описывает подход, основанный на нейросетевых моделях, который позволяет эффективно анализировать такие архивы, обеспечивая понимание и доступ к оральной истории. ## Метод Методология основывается на нескольких фазных этапах: подготовка данных, оптимизация моделей и выполнение экспериментов. Для подготовки данных использовалась техника "промптинга", которая позволяет сгенерировать качественные результаты с использованием моделей LLMs. Модели ChatGPT, Llama и Qwen использовались для лемматизации, классификации семантики и анализа тональности текста. Эти модели протестированы в задачах классификации семантики и анализа тональности, направленных на контекст японских американских инцидентов. Выборка данных составила 558 предложений из 15 интервью с разными историями. Эталонные данные были сгенерированы для проверки эффективности техники и моделей. ## Результаты Проведенные эксперименты показали высокую эффективность моделей в лемматизации и классификации. Модель ChatGPT показала наилучший результат в семантической классификации с F1-меры 88.71%, а Llama и Qwen показали близкие результаты (84.99% и 83.72% соответственно). Для анализа тональности модель Llama показала лучшую результативность (82.66%), следовали Qwen (82.29%) и ChatGPT (82.29%). Использование подходящих конфигураций "промптинга" позволило аннотировать 92,191 предложений из 1,002 интервью в JAIOH. Эти результаты подтверждают возможность LLMs для эффективности анализа оральных историй на большой шкале. ## Значимость Область применения этого подхода включает цифровые хранилища, исторические исследования, и цифровую культурную память. Важность этого исследования в том, что оно применяет новые технологии для улучшения доступа к таким историческим архивам, а также повышает уровень понимания исторических событий. Методы, описанные в этой работе, могут быть использованы для развития культурного наследия в разных регионах и для разных групп населения. ## Выводы Результаты экспериментов демонстрируют, что LLMs могут эффективно анализировать боль

Annotation:

Oral histories are vital records of lived experience, particularly within communities affected by systemic injustice and historical erasure. Effective and efficient analysis of their oral history archives can promote access and understanding of the oral histories. However, Large-scale analysis of these archives remains limited due to their unstructured format, emotional complexity, and high annotation costs. This paper presents a scalable framework to automate semantic and sentiment annotation f...

ID: 2508.06729v1 cs.CL, cs.AI

arXiv PDF

📄 Many-Turn Jailbreaking

2025-08-13

Авторы:

Xianjun Yang, Liqiang Xiao, Shiyang Li, Faisal Ladhak, Hyokun Yun, Linda Ruth Petzold, Yi Xu, William Yang Wang

#### Контекст Большинство исследований по jailbreaking (обойти ограничения) бо LLM'a (large language models) фокусируются на single-turn jailbreaking, т.е. выводе небезопасных ответов на одиночные запросы. Это связано с тем, что тестирования LLM проводятся в условиях одного запроса или небольшого контекста. Однако современные LLM могут обрабатывать длинные контексты и участвовать в многократном общении. Это открывает новую проблему — multi-turn jailbreaking, когда LLM подвергается нескольким циклам взаимодействия, чтобы продолжить выводить небезопасные ответы. Эта проблема является более серьезной угрозой, так как пользователи часто задают фоллоу-уп вопросы, чтобы уточнить детали, и также LLM могут реагировать негативно на несвязанные вопросы. #### Метод Мы предлагаем Multi-Turn Jailbreak Benchmark (MTJ-Bench) как первый подход к оценке безопасности LLM в многократных циклах взаимодействия. Наша методология включает: 1. Создание набора данных сценариев для многократного взаимодействия. 2. Разработка метрик для оценки устойчивости LLM к jailbreaking. 3. Тестирование набора моделей (open- и closed-source) с разными параметрами. 4. Использование последовательных сценариев, в которых LLM подвергается нескольким запросам в цепочке. #### Результаты Использовались данные из открытого доступа и специально сконструированные сценарии для проверки моделей. Мы протестировали ряд моделей с разным количеством параметров и настройками. Результаты показали, что большинство моделей, даже с большим количеством параметров, остаются уязвимыми к multi-turn jailbreaking. Например, LLM могут продолжать выводить небезопасные ответы даже после нескольких смен в контексте. #### Значимость Результаты нашего исследования имеют значительное значение в следующих областях: 1. Безопасность и моральность использования LLM в различных приложениях. 2. Оптимизация и стабилизация LLM для многократного общения. 3. Разработка новых методов для определения и предотвращения небезопасных выводов. 4. Поддержка инициатив по созданию более безопасных и устойчивых LLM. #### Выводы Мы раскрыли новую угрозу в области безопасности моделей LLM, связанную с multi-turn jailbreaking. Наша работа показала, что LLM, прошедшие тестирование на single-turn jailbreaking, могут устойчивыми казаться, но уязвимы к многократному взаимодействию. Наше исследование выделяет необходимость в развитии новых методов и моделей, чтобы обеспечить безопасность и эффективность LLM в многократных сценариях общения. Будущие исследования будут направлены на улучшение архитектур моделей и развитие новых методов для противодействия таким угрозам.

Annotation:

Current jailbreaking work on large language models (LLMs) aims to elicit unsafe outputs from given prompts. However, it only focuses on single-turn jailbreaking targeting one specific query. On the contrary, the advanced LLMs are designed to handle extremely long contexts and can thus conduct multi-turn conversations. So, we propose exploring multi-turn jailbreaking, in which the jailbroken LLMs are continuously tested on more than the first-turn conversation or a single target query. This is an...

ID: 2508.06755v1 cs.CL, cs.AI

arXiv PDF

📄 SEVADE: Self-Evolving Multi-Agent Analysis with Decoupled Evaluation for Hallucination-Resistant Irony Detection

2025-08-13

Авторы:

Ziqi Liu, Yangbin Chen, Ziyang Zhou, Yilin Li, Mingxuan Hu, Yushan Pan, Zhijie Xu

#### Контекст Sarcasm detection является важной, но сложной задачей в области Natural Language Processing (NLP). Существующие методы, основанные на Large Language Models (LLMs), обычно ограничены односторонним анализом, статическими путями разума и чувствительностью к ошибкам при обработке сложных риторических конструкций, что повлияло на их точность и надежность. Эти проблемы могут привести к неточности результатов и снижению доверия в системы. Мотивацией для разработки SEVADE является устранение этих ограничений, обеспечив более точное и надежное распознавание сарказама. #### Метод SEVADE представляет собой подход, основанный на самообразовании и многоагентном анализе, с декомпозицией оценки. Его ядром является Dynamic Agentive Reasoning Engine (DARE), которая состоит из группы специализированных агентов, разработанных на основе лингвистических теорий. Эти агенты проводят детальную декомпозицию текста, строя соответствующую логическую цепь. Затем, отдельный легковесный модуль разума (RA) осуществляет классификацию на основе полученной логической цепи. Этот декопленный подход позволяет минимизировать влияние ошибок при обработке сложных риторических конструкций. #### Результаты Работа была проверена на четырёх бенчмарк-датасетах в области сарказама. Эксперименты показали, что SEVADE достигает следующих результатов: увеличение точности на **6.75%** по сравнению с современными методами, увеличение Macro-F1-меры на **6.29%**. Эти результаты демонстрируют преимущество SEVADE в сравнении с другими подходами, в том числе LLMs. #### Значимость Предлагаемый подход может быть применен в различных NLP-задачах, включая не только сарказам, но и другие задачи, требующие сложного анализа текста. Он обеспечивает лучшую точность и надежность, благодаря своей декомпозиции цепочки разума и самообучаемому подходу. Это может привести к улучшению результатов в области детектирования и понимания сложной риторической лексики в тексте. #### Выводы SEVADE демонстрирует эффективность в решении задачи сарказама, снижая риск ошибок при обработке сложных риторических конструкций. Будущие исследования будут сфокусированы на расширении модели для других задач в области NLP и улучшении её работы с более сложными текстами.

Annotation:

Sarcasm detection is a crucial yet challenging Natural Language Processing task. Existing Large Language Model methods are often limited by single-perspective analysis, static reasoning pathways, and a susceptibility to hallucination when processing complex ironic rhetoric, which impacts their accuracy and reliability. To address these challenges, we propose **SEVADE**, a novel **S**elf-**Ev**olving multi-agent **A**nalysis framework with **D**ecoupled **E**valuation for hallucination-resistant ...

ID: 2508.06803v1 cs.CL, cs.MA

arXiv PDF

1
2
711
712
713
714
715
760
761

Показано 7121 - 7130 из 7603 записей