📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Ziyu Wang, Elahe Khatibi, Amir M. Rahmani

## Контекст Медицинские вопросы и ответы (Medical Question Answering, QA) являются ключевым приложением для здравоохранения, помогая в облегчении диагностики и поддержке клинических решений. Существующие технологии, основанные на больших языковых моделях (LLMs), демонстрируют высокий уровень точности в этой области. Однако они испытывают трудности в обработке контекстуальной и логической структуры вопросов, часто приводящих к ненадежности и ошибкам в генерации ответов. Эти ошибки часто проявляются в виде "генерированных фактов", которые не имеют реальной основы в заданной медицинской тематике. Дополнительные вызовы возникают из-за потребности в защите персональных данных и нормативных требований в медицинских приложениях. РетриEвал-аугментированная генерация (RAG) является мощным подходом для улучшения LLMs, позволяя им использовать внешние знания. Однако многие существующие RAG-решения опираются на поверхностный семантический поиск, не имея структурированной логики для клинического анализа. ## Метод MedCoT-RAG является дополнительным фреймворком, который использует выделение документов с причинно-следственной структурой (causal chain-of-thought, CoT) в сочетании с заданным набором вопросов. Он включает три ключевых компонента: (1) **Causal Retrieval Module**, реализующий логику причинно-следственных связей для выделения документов, (2) **Causal Prompt Design**, который структурирует вопросы и ответы в цепь причинно-следственных рассуждений, и (3) **LLM-based Reasoner**, использующий подкрепленное обучение (reinforcement learning) для оптимизации структурированного генерирования ответов. Фреймворк использует знания из внешних источников, таких как Медицинская База Знаний (Medical Knowledge Base, MKB), для дополнения знаний штатных моделей. ## Результаты Эксперименты проводились на трех различных медицинских бенчмарках. MedCoT-RAG показал существенное улучшение по сравнению с тремя группами конкурентов: (1) традиционными RAG-моделями, (2) RAG-моделями с дополнительным доменным адаптированием, и (3) штатными LLMs без RAG. Модель повысила точность от 6.4% до 10.3% в сравнении с базовыми моделями, в то же время улучшила интерпретируемость и консистентность результатов. Эти результаты продемонстрировали улучшение клинической точности и структурированности ответов, особенно в сложных сценариях, требующих глубокой клинической логики. ## Значимость Приложение MedCoT-RAG может быть применено в различных сферах, включая клиническую практику, самостоятельную диагностику и обучение. Оно предоставляет следующие преимущества: (1) улуч
Annotation:
Large language models (LLMs) have shown promise in medical question answering but often struggle with hallucinations and shallow reasoning, particularly in tasks requiring nuanced clinical understanding. Retrieval-augmented generation (RAG) offers a practical and privacy-preserving way to enhance LLMs with external medical knowledge. However, most existing approaches rely on surface-level semantic retrieval and lack the structured reasoning needed for clinical decision support. We introduce MedC...
ID: 2508.15849v1 cs.CL, cs.IR
Авторы:

Shiyi Yang, Xinshu Li, Guanglin Zhou, Chen Wang, Xiwei Xu, Liming Zhu, Lina Yao

#### Контекст Рекомендательные системы (RS) широко используются в различных сферах жизнедеятельности, но часто становятся целью атак, направленных на их ошибочные рекомендации. Одна из самых опасных атак — **data poisoning attack**, при которой злоумышленники вводят поддельные данные, такие как поддельные рейтинги или профили пользователей. Эти атаки могут серьезно повлиять на рекомендации и, в итоге, привести к негативным последствиям в сфере бизнеса или общества. Основной проблемой в этой области является то, что атакующие агенты часто ограничены в доступе к информации о системе, что делает их попытки подстраховаться против детектирования и повышения эффективности атаки более сложными. #### Метод В этой работе предлагается **RAGAN** (Retrieval-Augmented Review Generation for Poisoning Recommender Systems) — новая практическая модель для создания высококачественных поддельных профилей, которые могут эффективно слабить рекомендательные системы. Методология RAGAN основывается на использовании **in-context learning (ICL)**, внедренного в multimodal foundation models. Для этого используется алгоритм рекомендации реальных данных, предназначенный для помощи в генерации текстовых отзывов, а также **text style transfer**, который позволяет сделать эти отзывы более разнообразными и индивидуальными. Такой подход позволяет повысить качество генерируемых отзывов и, следовательно, эффективность атаки. #### Результаты Для оценки эффективности модели RAGAN проводились тесты на нескольких реальных данных, в том числе данных с открытого доступа. Модель показала себя лучше, чем предыдущие модели, которые пытались слабить RS. Она достигла результатов, которые подтверждают то, что модель может быть эффективно применена для тестирования рекомендательных систем. Кроме того, модель показала значительное улучшение показателей по сравнению с базовой моделью ICL, а также показала высокую степень imperceptibility в своих атаках. Это значит, что RAGAN может генерировать поддельные профили, которые сложно выявить в нормальных условиях. #### Значимость Этот подход может быть применен в различных областях, где используются рекомендательные системы, таких как электронная коммерция, социальные сети или медицинская информация. RAGAN позволяет улучшить тестирование и понимание уязвимостей RS, что может привести к более надежным и безопасным рекомендательным системам. В целом, подход RAGAN демонстрирует возможность повышения качества генерации текстов и их сочетания с моделями ICL для решения проблем с poisoning attacks. Это направляет напряженность исследований в сторону более безопасных рекомендательных систем. #### Выводы В ходе исследования был разработан новый подход для создания высококачественных поддельных профилей, который можно использовать для тест
Annotation:
Recent studies have shown that recommender systems (RSs) are highly vulnerable to data poisoning attacks, where malicious actors inject fake user profiles, including a group of well-designed fake ratings, to manipulate recommendations. Due to security and privacy constraints in practice, attackers typically possess limited knowledge of the victim system and thus need to craft profiles that have transferability across black-box RSs. To maximize the attack impact, the profiles often remains imperc...
ID: 2508.15252v1 cs.CR, cs.CL, cs.IR
Авторы:

Lekshmi R Nair, Arun Sankar, Koninika Pal

## Контекст Проблематика понимания и выражения временных концепций в текстах естественного языка широко изучается в области искусственного интеллекта. Однако существуют значительные трудности в выделении и использовании временных коммерсиантов, которые неявно представлены в тексте. Например, для того, чтобы понять, что музейный тур может длиться несколько часов, но не может длиться несколько месяцев, требуется не только понимание языка, но и коммуникативных контекстных сведений. Такие сложности создают препятствия для создания надежных языковых моделей. Мотивирует решение этой проблемы желание улучшить возможности текстовых моделей в сфере естественного языка, основываясь на обобщении и автоматизации временных коммерсиантов. ## Метод В нашем исследовании мы предлагаем подход, основанный на машинном обучении, для выделения временных коммерсиантов из текстов. Мы используем доступные текстовые модели, такие как BERT и GPT-2, в качестве основы для построения нашей экспериментальной среды. Чтобы получить данные для обучения, мы строим TComQA, датасет, полученный из существующих коллекций SAMSum и RealNews. Данные трансформируются с помощью автоматических алгоритмов для выделения временных свойств. Мы также применяем техники разметки и валидации для обеспечения качества данных. Таким образом, мы создаем датасет, который может эффективно обучать модели понимания временных концепций. ## Результаты Мы проводим эксперименты с TComQA для оценки его эффективности в выделении временных коммерсиантов. Для этого мы используем модели, которые обучаются на нашем датасете и сравниваем их с современными моделями текстового понимания. Также мы проводим кросс-валидацию, чтобы проверить точность и надежность наших результатов. Результаты показывают, что модели, обученные на TComQA, достигают высокой точности — 80,4%, что значительно превышает результаты моделей, обученных на других датасетах. Это демонстрирует эффективность нашего подхода в достижении целей. ## Значимость Наш подход имеет значительное значение для развития текстовых моделей, особенно в сферах, требующих высокого уровня компрессии и понимания контекста. Мы показываем, что данные TComQA могут быть использованы для улучшения текстовых моделей в области естественного языка. Это может привести к улучшению хранения и извлечения информации, а также к предотвращению неточностей в генерации текста. Кроме того, наш подход открывает пути к развитию новых технологий, включая системы вопросов-ответов и автоматическое разметки текстов, что может повлиять на развитие интеллектуальных систем в целом. ## Выводы Мы пре
Annotation:
Understanding events necessitates grasping their temporal context, which is often not explicitly stated in natural language. For example, it is not a trivial task for a machine to infer that a museum tour may last for a few hours, but can not take months. Recent studies indicate that even advanced large language models (LLMs) struggle in generating text that require reasoning with temporal commonsense due to its infrequent explicit mention in text. Therefore, automatically mining temporal common...
ID: 2508.15274v1 cs.CL, cs.IR
Авторы:

Abhijit Paul, Mashiat Amin Farin, Sharif Md. Abdullah, Ahmedul Kabir, Zarif Masud, Shebuti Rayana

## Контекст Bangla, семьийный язык мира с 300 миллионами носителей, сталкивается с цифровой недостаточностью из-за ограниченных ресурсов и отсутствия аннотируемых данных. Stemming, критический этап предобработки текста, крайне важен для низкоресурсных языков с высокой морфологической сложностью, таких как Bangla. Он позволяет уменьшить сложность алгоритмов и машинных обучения, сократив количество рассматриваемых слов. Изучение stemming-алгоритмов в рамках Bangla позволяет проанализировать их эффективность в морфологическом разборе, а также выявить пробелы в нынешних исследованиях. ## Метод Подход к исследованию включает: 1. Анализ существующих stemming-методов и их применения к языку Bangla. 2. Описание технических решений, включая архитектуру алгоритмов и их применения. 3. Оценка эффективности различных методов с помощью точности и разнообразия экспериментальных данных. 4. Определение метрик, которые могут лучше отражать реальную эффективность stemming-алгоритмов. ## Результаты Изучены данные из различных баз ресурсов и статей. Отмечается, что нынешние stemming-способы для Bangla часто недооценивают морфологические варианты слов. Найдено, что многие современные реализации недоступны для повторного использования. Эксперименты показали, что некоторые алгоритмы могут значительно упростить обработку текста в низкоресурсных условиях, но требуют доработки под разнообразие морфологических форм. ## Значимость Stemming играет ключевую роль в таких областях, как: - Обработка естественного языка (NLP). - Поиск и классификация текста. - Машинное обучение и анализ данных. В Bangla, эффективный stemming может уменьшить сложность моделей и улучшить их точность. Более того, развитие Bangla stemmers может способствовать увеличению доступности данных для языка и повышению его цифрового вовлечения. ## Выводы На основе исследования выделены следующие выводы: 1. Эффективность stemming-алгоритмов для Bangla должна строиться на понимании разнообразия морфологических форм. 2. Необходимо развитие доступных и реплицируемых реализаций для поддержки исследований. 3. Необходимо привлечение большего количества ресурсов для создания аннотированных данных и создания моделей, отвечающих реальным потребностям языка. Будущие исследования должны сфокусироваться на создании более развитых Bangla stemmers, которые могут быть широко применены в сфере языковых технологий.
Annotation:
Bangla, the seventh most widely spoken language worldwide with 300 million native speakers, faces digital under-representation due to limited resources and lack of annotated datasets. Stemming, a critical preprocessing step in language analysis, is essential for low-resource, highly-inflectional languages like Bangla, because it can reduce the complexity of algorithms and models by significantly reducing the number of words the algorithm needs to consider. This paper conducts a comprehensive sur...
ID: 2508.15711v1 cs.CL, cs.IR
Авторы:

Jing Chen, Zhiheng Yang, Yixian Shen, Jie Liu, Adam Belloum, Chrysa Papagainni, Paola Grosso

#### Контекст Сборники научных статей (survey papers) являются важной частью научной связи, поскольку они охватывают и синтезируют развитие в конкретной области. Однако создание таких статей требует огромных затрат времени и усилий, так как требуется тщательная аналитика, упорядочение и синтез информации. Несмотря на то, что Large Language Models (LLMs) успешно применяются в многих научных задачах, их применение для автоматизации создания сборников статей сталкивается с рядом проблем. Это включает проблемы с поддержкой логической консистентности в длинных, многосекционных статьях, а также недостаточное распространение источников в сформированных скелетах. SurveyGen-I предлагает новый подход к автоматическому созданию консистентных научных сборников, адресуя эти проблемы с помощью методики, которая объединяет инновационные техники для построения плана, адаптивного рефининга и запоминания контекста при генерации текста. #### Метод SurveyGen-I является полностью автоматизированным фреймворком для создания научных статей, который использует три главных компонента: широковещательный и точный поиск, адаптивное планирование и механизм запоминания. На первом этапе, SurveyGen-I использует широковещательный поиск для построения первоначальной структуры статьи, основываясь на начальных запросах. Затем, в процессе генерации текста, механизм запоминания позволяет системе поддерживать логическую последовательность уже созданных секций. Когда генерация отклоняется от целевого плана, SurveyGen-I использует точный поиск для исправления отклонений. Это интегрированное решение, включающее в себя оптимизации планирования и генерации, позволяет SurveyGen-I создавать научные статьи с высокой консистентностью, высоким качеством и более широким затрагиванием источников. #### Результаты Для оценки SurveyGen-I, авторы провели эксперименты на категориях научных статей из четырех различных областей наук. Наборы данных, использованные в этих экспериментах, включали в себя как общие, так и специализированные тексты, чтобы протестировать систему в разных условиях. В результате, SurveyGen-I не только превзошла предыдущие лидеры в этой области по таким критериям, как качество текста, консистентность и количество упоминаний источников, но и доказала свой прирост в эффективности при генерации более структурированных и полных сборников. #### Значимость SurveyGen-I широко применимо в научной сфере, где автоматизация процессов генерации научных статей может существенно уменьшить время и силы, потраченные на ручную работу. Он заметно повышает качество и полноту статей, что может быть критично для скорости разви
Annotation:
Survey papers play a critical role in scientific communication by consolidating progress across a field. Recent advances in Large Language Models (LLMs) offer a promising solution by automating key steps in the survey-generation pipeline, such as retrieval, structuring, and summarization. However, existing LLM-based approaches often struggle with maintaining coherence across long, multi-section surveys and providing comprehensive citation coverage. To address these limitations, we introduce Surv...
ID: 2508.14317v1 cs.CL, cs.IR
Авторы:

Zeyu Zhang, Yang Zhang, Haoran Tan, Rui Li, Xu Chen

#### Контекст Персонализация в современных системах обработки естественного языка является ключевым аспектом для обеспечения эффективного взаимодействия с пользователем. Основная роль в этом процессе играет память, которая позволяет моделям хранить и использовать информацию о пользователе. До сих пор, большинство исследований в этой области фокусировались на простых задачах, таких как выравнивание предпочтений или простые вопросы-ответы. Однако в реальной жизни пользователи часто сталкиваются с задачами, требующими сложного многокровного рассуждения над большими объемами личной информации. Это создает серьезные вызовы для существующих памятных механизмов и поднимает вопрос о их эффективности в решении таких задач. Наше исследование направлено на изучение этих проблем и развитие новых подходов к решению многокровного рассуждения в контексте персонализации. #### Метод Мы предлагаем новую задачу — многокровное персонализированное рассуждение, которая фокусируется на решении сложных задач, используя многоуровневое памяти. Для этого мы определили ключевые аспекты этой задачи, включая ее структуру и характеристики. Далее, мы реализовали различные памятные модели, как эксплицитные (например, ключ-значение память), так и имплицитные (например, внутренние состояния моделей). Мы также строили датасет, который позволяет эффективно оценивать производительность различных методов в различных сценариях. Наши эксперименты охватывали множество аспектов, включая точность, эффективность и способность работы в нерегулярных ситуациях. #### Результаты Мы провели исследования с использованием различных моделей памяти и проанализировали их результаты. Оценки показали, что ни одна из моделей не показала своей ясной лидирующей позиции во всем диапазоне задач. Эксплицитные модели показали высокую точность в простых задачах, но стали менее эффективными при увеличении сложности. Имплицитные модели, наоборот, демонстрировали лучшие результаты в сложных сценариях, но их скорость обучения и точность в простых задачах оставляли желать лучшего. Мы также исследовали гибридные подходы, которые объединяют эксплицитные и имплицитные памяти, и продемонстрировали их выгоду в решении задач, требующих большой гибкости и точности. #### Значимость Наша работа имеет значительное значение для области персонализации в генеративных моделях. Она демонстрирует возможности и ограничения различных памятных парадигм и помогает понять, как можно сочетать их для получения лучших результатов. Мы показали, что гибридные модели могут эфф
Annotation:
In large language model-based agents, memory serves as a critical capability for achieving personalization by storing and utilizing users' information. Although some previous studies have adopted memory to implement user personalization, they typically focus on preference alignment and simple question-answering. However, in the real world, complex tasks often require multi-hop reasoning on a large amount of user information, which poses significant challenges for current memory approaches. To ad...
ID: 2508.13250v1 cs.AI, cs.CL, cs.IR
Авторы:

Nicole Cho, Kirsty Fielding, William Watson, Sumitra Ganesh, Manuela Veloso

## Контекст Выбор области исследований определяется значительными проблемами в обработке и анализе данных из реальных финансовых документов. Эти документы часто содержат критическую информацию, хранящуюся в многостраничных, многослойных таблицах, которые сложно автоматически обработать. Отсутствие структуры в таблицах, их разнообразие и большое количество записей приводят к значительным сложностям в выделении и интерпретации корректной информации. Это приводит к трудоемкости в процессах анализа и рекомендации структурированных данных. Отсутствие надежных систем, которые могут адаптироваться к такому разнообразию данных, подчеркивает необходимость развития новых подходов к автоматической обработке таких таблиц. ## Метод Мы предлагаем TASER (Table Agents for Schema-guided Extraction and Recommendation) — систему, основанную на агентной модели, для схематического выделения и рекомендации данных из таблиц. Основные элементы TASER: 1. **Табличный детектор** — определяет таблицы в документе и их границы. 2. **Классификатор таблиц** — определяет тип таблицы (например, финансовый отчет). 3. **Расшифровщик таблиц** — извлекает данные из таблицы в структурированном виде. 4. **Рекомендательный агент** — анализирует результаты работы других агентов и рекомендует корректировки схемы. Система постоянно обучается с помощью тренировочных данных и регулярных рекомендаций. Мы разработали методы для обработки многостраничных таблиц с высоким разнообразием данных. Эталонные данные для обучения получены из 22 584 макетных страниц, включая 3 213 таблиц, содержащих сведения об управляемых ресурсах на сумму $731 млрд. ## Результаты Мы провели эксперименты, сравнивая TASER с существующими моделями, такими как Table Transformer. Наши результаты показывают, что TASER превосходит табличные модели существующими методами на 10.1% в объеме выделенных данных. Мы также провели эксперименты с разными параметрами обучения, такими как размер пакета, и выявили, что увеличение размера пакета приводит к значительному улучшению рекомендаций схемы (104.3%). Одним из ключевых результатов является то, что наши модели позволили извлечь данные по финансовым позициям в 9.8% большем количестве случаев. Эти результаты приводят к увеличению точности и эффективности процесса выделения и рекомендации данных. ## Значимость TASER может быть применен в различных финансовых институтах, аналитических компаниях и инвестиционных платформах для повышения эффективности обработки финансовых документов. Он обеспечивает более точную и структурированную выгрузку данных, уменьшая время, затрачиваемое на анализ. Этот под
Annotation:
Real-world financial documents report essential information about an entity's financial holdings that can span millions of different financial instrument types. Yet, these details are often buried in messy, multi-page, fragmented tables - for example, 99.4% of the tables in our dataset have no bounding boxes with the maximum number of rows amounting to 426 per table across 44 pages. To tackle these unique challenges from real-world tables, we present a continuously learning, agentic table extrac...
ID: 2508.13404v2 cs.AI, cs.CL, cs.IR, cs.LG
Авторы:

Ziyang Chen, Erxue Min, Xiang Zhao, Yunxin Li, Xin Jia, Jinzhi Liao, Jichao Li, Shuaiqiang Wang, Baotian Hu, Dawei Yin

#### Контекст Современная Интернет-информационная среда характеризуется наличием массы данных, которые требуют эффективной обработки и анализа. Задачи восстановления информации часто включают поиск и анализ специфических фрагментов в больших наборах данных. Одним из важных аспектов является возможность структурированного поиска и анализа временных данных в случае запросов, требующих учета контекста времени. Недостаток данных и алгоритмов для эффективного обработки временных запросов в системах восстановления информации ставит перед разработчиками задачу создания ресурсов, позволяющих развивать эффективные методы для таких задач. #### Метод Чтобы решить эту проблему, авторы предлагают методологию, основанную на создании большого датасета, адаптированного для воспроизведения реальных сценариев восстановления информации. Данные собраны из 300 000 новостных статей, охватывающих период с 2019 по 2024 годы. Данные подвергались структурированному анализу с использованием аннотаций, которые позволяют отделять и различать временные выражения в запросах и ответах. Для обеспечения качества данных применялись различные методы, включая правила, глубокое обучение и ручную проверку. Результат – датасет, который позволяет выполнять задачи восстановления информации в окружении временных запросов. #### Результаты Эксперименты проводились на датасете ChronoQA, что позволяло проверить качество работы моделей в сценариях восстановления информации. Использовались многочисленные вопросы, относящиеся к различным типам времени (абсолютный, агрегированный и относительный), что дало возможность проверить модели на различных типах вопросов. Результаты показали, что модели, использовавшие данные из ChronoQA, демонстрировали высокую точность и гибкость в обработке временных запросов. #### Значимость Датасет ChronoQA имеет широкое применение в сфере восстановления информации, а именно в области вопросно-ответных систем, где временные ограничения играют ключевую роль. Он позволяет проводить структурированные эксперименты и оценки возможностей моделей во временных задачах. Благодаря своему значительному размеру и качественному аннотированию, ChronoQA является первым датасетом, который полностью поддерживает временные задачи в области восстановления информации. Это дает возможность развития методов восстановления информации с учетом контекста времени, что может стать значительным шагом в развитии ИИ. #### Выводы Работа представляет собой важный вклад в область восстановления информации, особенно в сфере вопросно-ответных систем с времен
Annotation:
We introduce ChronoQA, a large-scale benchmark dataset for Chinese question answering, specifically designed to evaluate temporal reasoning in Retrieval-Augmented Generation (RAG) systems. ChronoQA is constructed from over 300,000 news articles published between 2019 and 2024, and contains 5,176 high-quality questions covering absolute, aggregate, and relative temporal types with both explicit and implicit time expressions. The dataset supports both single- and multi-document scenarios, reflecti...
ID: 2508.12282v1 cs.CL, cs.IR, 68T50, 68P20, I.2.7; H.3.3
Авторы:

Figarri Keisha, Prince Singh, Pallavi, Dion Fernandes, Aravindh Manivannan, Ilham Wicaksono, Faisal Ahmad

---------------------------------------------------------------------------------------------------------------------------------- ## Контекст Правовые системы требуют точности и достоверности в интерпретации законодательных актов. Однако традиционные поисковые системы часто сталкиваются с проблемой халтуринга (hallucinations), когда выдаваемая информация не соответствует фактическим правовым источникам. Эта проблема становится критичной в юридической сфере, где точность и стабильность решений имеют решающее значение. Большинство существующих юридических систем не могут адаптироваться к конкретным потребностям пользователей, таких как специализированные запросы или различные уровни понимания закона. "All for law and law for all: Adaptive RAG Pipeline for Legal Research" предлагает решение, которое устраняет эти ограничения. ## Метод Разработанная система основывается на технологии Retrieval-Augmented Generation (RAG), которая объединяет три ключевых улучшения. Первый — **контекстно-связанный перевод запросов**, который разделяет вопросы на части, относящиеся к документам и естественному языку, и меняет глубину верификации и стиль ответа в зависимости от потребностей пользователя. Второй — **открытые стратегии рекомендаций**, основанные на SBERT и GTE-технологиях, позволяющих повысить Recall@K на 30-95% и увеличить Precision@K в 2,5 раза при K>4. Третий — **развитый фреймворк оценки и генерации**, включающий такие метрики, как RAGAS, BERTScore-F1 и ROUGE-Recall. ## Результаты Эксперименты показали, что открытые стратегии рекомендаций превосходят свои закрытые аналоги во включении верных соответствий, повышая Recall@K на 30-95%. Подбор и настройка открытых стратегий позволяет сохранить эффективность и снизить затраты. Настроенный на юридический контекст промпт показал себя эффективнее базовых вариантов, улучшив семантическую точность и контекстную адекватность ответов. ## Значимость Предложенная платформа может быть использована в таких областях, как юридические исследования, адвокатская деятельность и управление активами. Ее преимущества заключаются в том, что она обеспечивает более точные и контекстуально адекватные ответы, а также снижает затраты на реализацию. Это может оказаться критично для юридических систем, где недопустима ошибка в интерпретации законодательных актов. ## Выводы Результаты доказывают, что компонентно-уровневая адаптация может значительно повысить качество юридических систем RAG. Будущие исследования будут ориентированы на улучшение глубины адаптации и расширение функциональных возможностей для более широкого круга задач в юридической сфере.
Annotation:
Retrieval-Augmented Generation (RAG) mitigates hallucinations by grounding large language model outputs in cited sources, a capability that is especially critical in the legal domain. We present an end-to-end RAG pipeline that revisits and extends the LegalBenchRAG baseline with three targeted enhancements: (i) a context-aware query translator that disentangles document references from natural-language questions and adapts retrieval depth and response style based on expertise and specificity, (i...
ID: 2508.13107v1 cs.CL, cs.IR, F.2.2, H.3.3, I.2.7
Авторы:

Haonan Zhang, Dongxia Wang, Yi Liu, Kexin Chen, Jiashui Wang, Xinlei Ying, Long Liu, Wenhai Wang

## Контекст Large Language Models (LLMs) постоянно совершают ошибки в виде "over-refusal", то есть необоснованного отказа от обработки подозрительно безопасных запросов пользователей. Это проблема возникает из-за слишком утонченных мер безопасности, которые могут приводить к отказам даже в случае присутствия негативных последствий. Так как подобные ошибки могут серьёзно снижать надежность и пользовательский доверие к моделям, они являются критическим функциональным недостатком. На данный момент существуют ограниченные методы для тестирования такого поведения, так как тестирующие бенчмарки и генерация тестовых случаев остаются недостаточно эффективными. Наша работа является первой попыткой создания систематического подхода к обнаружению и анализу таких ошибок. ## Метод Мы предлагаем ORFuzz - первый развивающийся фреймворк для тестирования "over-refusal" в LLMs. Он включает три основных компонента: (1) выбор семян с учётом категорий безопасности для полного покрытия, (2) адаптивная оптимизация мутатора с применением логики логических моделей для произвольного генерирования тестовых случаев, и (3) OR-Judge - модель, которая подтверждена как близка к потребностям пользователя в определении токсичности и отказа. Предложенный подход позволяет генерировать разнообразные, проверенные случаи over-refusal, которые позволяют обнаруживать уязвимости в LLMs. ## Результаты Наши эксперименты показали, что ORFuzz способен генерировать значительно большее число тестовых случаев over-refusal по сравнению с текущими методами, благодаря использованию разнообразия семян и оптимизации логики. Мы обнаружили, что ORFuzz увеличивает среднюю процентную долю over-refusal в десяти разных LLMs до 6.98%, что значительно превышает результаты базовых методов. Благодаря этому, был создан ORFuzzSet - новый бенчмарк с 1,855 случаями over-refusal, который показал 63.56% успеха в тестах на 10 LLMs. Этот результат значительно превосходит существующие бенчмарки. ## Значимость Предложенный подход может быть применён в различных областях, где LLMs используются, таких как клиент-серверные системы, мобильные приложения и системы предсказания. ORFuzz является более продвинутым инструментом для обнаружения over-refusal, что помогает улучшить надежность и доверие к моделям. Мы считаем, что наша работа может способствовать развитию более надежных и пользователь-ориентированных систем на основе LLMs. ## Выводы ORFuzz является первым инструментом для систематического тестирования over-refusal в LLMs. Мы показали, что он способен генерировать более разнообразные и эффективные тестовые случаи, что позволяет обнаружить уязвимости. Мы предлагаем ORFu
Annotation:
Large Language Models (LLMs) increasingly exhibit over-refusal - erroneously rejecting benign queries due to overly conservative safety measures - a critical functional flaw that undermines their reliability and usability. Current methods for testing this behavior are demonstrably inadequate, suffering from flawed benchmarks and limited test generation capabilities, as highlighted by our empirical user study. To the best of our knowledge, this paper introduces the first evolutionary testing fram...
ID: 2508.11222v1 cs.SE, cs.AI, cs.CL, cs.IR
Показано 111 - 120 из 134 записей