📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Explicit v.s. Implicit Memory: Exploring Multi-hop Complex Reasoning Over Personalized Information

2025-08-21

Авторы:

Zeyu Zhang, Yang Zhang, Haoran Tan, Rui Li, Xu Chen

#### Контекст Персонализация в современных системах обработки естественного языка является ключевым аспектом для обеспечения эффективного взаимодействия с пользователем. Основная роль в этом процессе играет память, которая позволяет моделям хранить и использовать информацию о пользователе. До сих пор, большинство исследований в этой области фокусировались на простых задачах, таких как выравнивание предпочтений или простые вопросы-ответы. Однако в реальной жизни пользователи часто сталкиваются с задачами, требующими сложного многокровного рассуждения над большими объемами личной информации. Это создает серьезные вызовы для существующих памятных механизмов и поднимает вопрос о их эффективности в решении таких задач. Наше исследование направлено на изучение этих проблем и развитие новых подходов к решению многокровного рассуждения в контексте персонализации. #### Метод Мы предлагаем новую задачу — многокровное персонализированное рассуждение, которая фокусируется на решении сложных задач, используя многоуровневое памяти. Для этого мы определили ключевые аспекты этой задачи, включая ее структуру и характеристики. Далее, мы реализовали различные памятные модели, как эксплицитные (например, ключ-значение память), так и имплицитные (например, внутренние состояния моделей). Мы также строили датасет, который позволяет эффективно оценивать производительность различных методов в различных сценариях. Наши эксперименты охватывали множество аспектов, включая точность, эффективность и способность работы в нерегулярных ситуациях. #### Результаты Мы провели исследования с использованием различных моделей памяти и проанализировали их результаты. Оценки показали, что ни одна из моделей не показала своей ясной лидирующей позиции во всем диапазоне задач. Эксплицитные модели показали высокую точность в простых задачах, но стали менее эффективными при увеличении сложности. Имплицитные модели, наоборот, демонстрировали лучшие результаты в сложных сценариях, но их скорость обучения и точность в простых задачах оставляли желать лучшего. Мы также исследовали гибридные подходы, которые объединяют эксплицитные и имплицитные памяти, и продемонстрировали их выгоду в решении задач, требующих большой гибкости и точности. #### Значимость Наша работа имеет значительное значение для области персонализации в генеративных моделях. Она демонстрирует возможности и ограничения различных памятных парадигм и помогает понять, как можно сочетать их для получения лучших результатов. Мы показали, что гибридные модели могут эфф

Annotation:

In large language model-based agents, memory serves as a critical capability for achieving personalization by storing and utilizing users' information. Although some previous studies have adopted memory to implement user personalization, they typically focus on preference alignment and simple question-answering. However, in the real world, complex tasks often require multi-hop reasoning on a large amount of user information, which poses significant challenges for current memory approaches. To ad...

ID: 2508.13250v1 cs.AI, cs.CL, cs.IR

arXiv PDF

📄 TASER: Table Agents for Schema-guided Extraction and Recommendation

2025-08-21

Авторы:

Nicole Cho, Kirsty Fielding, William Watson, Sumitra Ganesh, Manuela Veloso

## Контекст Выбор области исследований определяется значительными проблемами в обработке и анализе данных из реальных финансовых документов. Эти документы часто содержат критическую информацию, хранящуюся в многостраничных, многослойных таблицах, которые сложно автоматически обработать. Отсутствие структуры в таблицах, их разнообразие и большое количество записей приводят к значительным сложностям в выделении и интерпретации корректной информации. Это приводит к трудоемкости в процессах анализа и рекомендации структурированных данных. Отсутствие надежных систем, которые могут адаптироваться к такому разнообразию данных, подчеркивает необходимость развития новых подходов к автоматической обработке таких таблиц. ## Метод Мы предлагаем TASER (Table Agents for Schema-guided Extraction and Recommendation) — систему, основанную на агентной модели, для схематического выделения и рекомендации данных из таблиц. Основные элементы TASER: 1. **Табличный детектор** — определяет таблицы в документе и их границы. 2. **Классификатор таблиц** — определяет тип таблицы (например, финансовый отчет). 3. **Расшифровщик таблиц** — извлекает данные из таблицы в структурированном виде. 4. **Рекомендательный агент** — анализирует результаты работы других агентов и рекомендует корректировки схемы. Система постоянно обучается с помощью тренировочных данных и регулярных рекомендаций. Мы разработали методы для обработки многостраничных таблиц с высоким разнообразием данных. Эталонные данные для обучения получены из 22 584 макетных страниц, включая 3 213 таблиц, содержащих сведения об управляемых ресурсах на сумму $731 млрд. ## Результаты Мы провели эксперименты, сравнивая TASER с существующими моделями, такими как Table Transformer. Наши результаты показывают, что TASER превосходит табличные модели существующими методами на 10.1% в объеме выделенных данных. Мы также провели эксперименты с разными параметрами обучения, такими как размер пакета, и выявили, что увеличение размера пакета приводит к значительному улучшению рекомендаций схемы (104.3%). Одним из ключевых результатов является то, что наши модели позволили извлечь данные по финансовым позициям в 9.8% большем количестве случаев. Эти результаты приводят к увеличению точности и эффективности процесса выделения и рекомендации данных. ## Значимость TASER может быть применен в различных финансовых институтах, аналитических компаниях и инвестиционных платформах для повышения эффективности обработки финансовых документов. Он обеспечивает более точную и структурированную выгрузку данных, уменьшая время, затрачиваемое на анализ. Этот под

Annotation:

Real-world financial documents report essential information about an entity's financial holdings that can span millions of different financial instrument types. Yet, these details are often buried in messy, multi-page, fragmented tables - for example, 99.4% of the tables in our dataset have no bounding boxes with the maximum number of rows amounting to 426 per table across 44 pages. To tackle these unique challenges from real-world tables, we present a continuously learning, agentic table extrac...

ID: 2508.13404v2 cs.AI, cs.CL, cs.IR, cs.LG

arXiv PDF

📄 ORFuzz: Fuzzing the "Other Side" of LLM Safety -- Testing Over-Refusal

2025-08-19

Авторы:

Haonan Zhang, Dongxia Wang, Yi Liu, Kexin Chen, Jiashui Wang, Xinlei Ying, Long Liu, Wenhai Wang

## Контекст Large Language Models (LLMs) постоянно совершают ошибки в виде "over-refusal", то есть необоснованного отказа от обработки подозрительно безопасных запросов пользователей. Это проблема возникает из-за слишком утонченных мер безопасности, которые могут приводить к отказам даже в случае присутствия негативных последствий. Так как подобные ошибки могут серьёзно снижать надежность и пользовательский доверие к моделям, они являются критическим функциональным недостатком. На данный момент существуют ограниченные методы для тестирования такого поведения, так как тестирующие бенчмарки и генерация тестовых случаев остаются недостаточно эффективными. Наша работа является первой попыткой создания систематического подхода к обнаружению и анализу таких ошибок. ## Метод Мы предлагаем ORFuzz - первый развивающийся фреймворк для тестирования "over-refusal" в LLMs. Он включает три основных компонента: (1) выбор семян с учётом категорий безопасности для полного покрытия, (2) адаптивная оптимизация мутатора с применением логики логических моделей для произвольного генерирования тестовых случаев, и (3) OR-Judge - модель, которая подтверждена как близка к потребностям пользователя в определении токсичности и отказа. Предложенный подход позволяет генерировать разнообразные, проверенные случаи over-refusal, которые позволяют обнаруживать уязвимости в LLMs. ## Результаты Наши эксперименты показали, что ORFuzz способен генерировать значительно большее число тестовых случаев over-refusal по сравнению с текущими методами, благодаря использованию разнообразия семян и оптимизации логики. Мы обнаружили, что ORFuzz увеличивает среднюю процентную долю over-refusal в десяти разных LLMs до 6.98%, что значительно превышает результаты базовых методов. Благодаря этому, был создан ORFuzzSet - новый бенчмарк с 1,855 случаями over-refusal, который показал 63.56% успеха в тестах на 10 LLMs. Этот результат значительно превосходит существующие бенчмарки. ## Значимость Предложенный подход может быть применён в различных областях, где LLMs используются, таких как клиент-серверные системы, мобильные приложения и системы предсказания. ORFuzz является более продвинутым инструментом для обнаружения over-refusal, что помогает улучшить надежность и доверие к моделям. Мы считаем, что наша работа может способствовать развитию более надежных и пользователь-ориентированных систем на основе LLMs. ## Выводы ORFuzz является первым инструментом для систематического тестирования over-refusal в LLMs. Мы показали, что он способен генерировать более разнообразные и эффективные тестовые случаи, что позволяет обнаружить уязвимости. Мы предлагаем ORFu

Annotation:

Large Language Models (LLMs) increasingly exhibit over-refusal - erroneously rejecting benign queries due to overly conservative safety measures - a critical functional flaw that undermines their reliability and usability. Current methods for testing this behavior are demonstrably inadequate, suffering from flawed benchmarks and limited test generation capabilities, as highlighted by our empirical user study. To the best of our knowledge, this paper introduces the first evolutionary testing fram...

ID: 2508.11222v1 cs.SE, cs.AI, cs.CL, cs.IR

arXiv PDF

📄 Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information

2025-08-19

Авторы:

Youcheng Huang, Bowen Qin, Chen Huang, Duanyu Feng, Xi Yang, Wenqiang Lei

## Контекст Исследование функциональных возможностей Large Reasoning Models (LRMs) в области математики остается актуальным в связи с их успехами в задачах решения математических задач. Однако существующие бенчмарки, ориентированные на проверку решения явно заданных математических задач, скрывают суть истинного интеллектуального поведения. Настоящий интеллектуальный агент должен не только решать задачи, но и способен задавать вопросы, когда задача не хватает информации. Такой функционал отсутствует у LRMs, что становится критическим элементом в их развитии. Этот пробел мотивирует разработку новых подходов к их проверке и развитию. ## Метод Для анализа возможностей LRMs разработана новая датасет, содержащий две категории неполных задач с различными контекстами. Эти задачи были разработаны с целью проверки возможности LRMs уверенно задавать вопросы в ситуациях неопределенности. Методология основывается на создании тестов, которые не только проверяют решение, но и исследуют поведение моделей в ситуациях неопределенности. Это позволило выявить слабые стороны LRMs, такие как переоценка своих возможностей, искаженное понимание задач, и выявить потенциал научных решений. ## Результаты Эксперименты показали, что LRMs существенно проваливаются в задаче проявления инициативы в ситуации нехватки информации. Они часто прибегают к предположениям или начинают "переоценивать" задачи, что приводит к неточностям. Также было выявлено, что модели склонны к "халлуцинациям", что подтверждает проблемы в их моделировании. Эти результаты направляют нас на место мониторинга и тестирования, чтобы улучшить продуктивность моделей в сложных ситуациях. ## Значимость Результаты исследования могут быть применены в различных областях, где требуется настоящая интеллектуальная модель, включая вопросы, требующие проявления проактивности и логического поведения. Данные работы открывают новые пути для развития LRMs, которые не только решают задачи, но и взаимодействуют с пользователями, вправляясь в сложные ситуации. Это может повысить ценность LRMs в реальных приложениях, повысив их удобство и эффективность. ## Выводы Основной вывод заключается в том, что LRMs, несмотря на свои успехи в решении задач, слабо работают в ситуациях, требующих активного взаимодействия с пользователем. Новые модели должны быть разработаны с учетом новых подходов, включая супервайзированный файнтюнинг и более точное моделирование задач. Будущие исследования должны сосредоточиться на преодолении этих проблем для развития истинно интеллектуальных моделей, которые будут проявлять бо

Annotation:

Large Reasoning Models (LRMs) have demonstrated remarkable problem-solving abilities in mathematics, as evaluated by existing benchmarks exclusively on well-defined problems. However, such evaluation setup constitutes a critical gap, since a genuine intelligent agent should not only solve problems (as a math quiz solver), but also be able~to ask for information when the problems lack sufficient information, enabling proactivity in responding users' requests. To bridge such gap, we proposes a new...

ID: 2508.11252v1 cs.AI, cs.CL, cs.IR

arXiv PDF

📄 A Systematic Literature Review of Retrieval-Augmented Generation: Techniques, Metrics, and Challenges

2025-08-12

Авторы:

Andrew Brown, Muhammad Roman, Barry Devereux

## Контекст Генерируемые с помощью ИИ тексты становятся все более распространенными в различных приложениях, от поисковых систем до автоматизированных ответов. Однако ключевыми ограничениями остаются качество и точность получаемых ответов, которые часто не удовлетворяют потребностям пользователей. Эти проблемы напрямую связаны с невозможностью моделей генерировать высказывания, основанные на актуальных данных. Для решения этой проблемы возникла технология Retrieval-Augmented Generation (RAG), которая сочетает модели генерирования текста с системами поиска, позволяя генерировать ответы, гарантированно подкрепленные свежими и точными данными. Однако существует ограниченное число исследований, которые анализируют эффективность RAG и её технических аспектов. Это статья посвящена подробному анализу литературы, направленному на изучение технологии RAG, её методов, технических решений и ограничений. ## Метод Для проведения систематического обзора литературы был выбран фреймворк PRISMA 2020. Использовались пять научных баз данных: ACM Digital Library, IEEE Xplore, Scopus, ScienceDirect и DBLP. Были заданы четкие критерии включения и исключения, основанные на числе цитирований и тематических вопросах. Особое внимание было уделено методологии, архитектуре и оценке эффективности RAG в различных приложениях. Была применена специальная методика для снижения **citation-lag bias**, которая позволила учесть свежие работы, в том числе со слабой цитируемостью, из-за их недавнего опубликования. Это обеспечило более точное отображение современного состояния исследований в области RAG. ## Результаты Из 625 зарегистрированных статей было выбрано 128, удовлетворяющих критериям включения. Изучены архитектуры RAG, включающие нейронные сети для поиска и модели генерирования текста, а также метрики, используемые для оценки качества. Были выделены три основных типа RAG-систем: (i) встраиваемые модели, (ii) адаптивные системы, и (iii) системы, основанные на многоуровневых архитектурах. Также были проанализированы стандартные наборы данных и методы оценки качества, такие как BLEU, ROUGE и METEOR. Были выявлены значительные различия в качестве ответов, зависящие от архитектур и методов. ## Значимость Результаты RAG имеют широкие применения в области научного поиска, вопросов-ответов, искусственного интеллекта в области здравоохранения, финансовых приложениях и других. Одним из преимуществ является повышение точности ответов, получаемых с помощью непосредственного доступа к данным. Это позволяет избежать ошибок, связанных с неточностью моделей генерирования.

Annotation:

This systematic review of the research literature on retrieval-augmented generation (RAG) provides a focused analysis of the most highly cited studies published between 2020 and May 2025. A total of 128 articles met our inclusion criteria. The records were retrieved from ACM Digital Library, IEEE Xplore, Scopus, ScienceDirect, and the Digital Bibliography and Library Project (DBLP). RAG couples a neural retriever with a generative language model, grounding output in up-to-date, non-parametric me...

ID: 2508.06401v1 cs.DL, cs.AI, cs.CL, cs.IR

arXiv PDF

Показано 21 - 25 из 25 записей