📚 Саммари научных статей из arXiv

Найдено 134 результатов по запросу 'cs.CL, cs.IR' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information

2025-08-19

Авторы:

Youcheng Huang, Bowen Qin, Chen Huang, Duanyu Feng, Xi Yang, Wenqiang Lei

## Контекст Исследование функциональных возможностей Large Reasoning Models (LRMs) в области математики остается актуальным в связи с их успехами в задачах решения математических задач. Однако существующие бенчмарки, ориентированные на проверку решения явно заданных математических задач, скрывают суть истинного интеллектуального поведения. Настоящий интеллектуальный агент должен не только решать задачи, но и способен задавать вопросы, когда задача не хватает информации. Такой функционал отсутствует у LRMs, что становится критическим элементом в их развитии. Этот пробел мотивирует разработку новых подходов к их проверке и развитию. ## Метод Для анализа возможностей LRMs разработана новая датасет, содержащий две категории неполных задач с различными контекстами. Эти задачи были разработаны с целью проверки возможности LRMs уверенно задавать вопросы в ситуациях неопределенности. Методология основывается на создании тестов, которые не только проверяют решение, но и исследуют поведение моделей в ситуациях неопределенности. Это позволило выявить слабые стороны LRMs, такие как переоценка своих возможностей, искаженное понимание задач, и выявить потенциал научных решений. ## Результаты Эксперименты показали, что LRMs существенно проваливаются в задаче проявления инициативы в ситуации нехватки информации. Они часто прибегают к предположениям или начинают "переоценивать" задачи, что приводит к неточностям. Также было выявлено, что модели склонны к "халлуцинациям", что подтверждает проблемы в их моделировании. Эти результаты направляют нас на место мониторинга и тестирования, чтобы улучшить продуктивность моделей в сложных ситуациях. ## Значимость Результаты исследования могут быть применены в различных областях, где требуется настоящая интеллектуальная модель, включая вопросы, требующие проявления проактивности и логического поведения. Данные работы открывают новые пути для развития LRMs, которые не только решают задачи, но и взаимодействуют с пользователями, вправляясь в сложные ситуации. Это может повысить ценность LRMs в реальных приложениях, повысив их удобство и эффективность. ## Выводы Основной вывод заключается в том, что LRMs, несмотря на свои успехи в решении задач, слабо работают в ситуациях, требующих активного взаимодействия с пользователем. Новые модели должны быть разработаны с учетом новых подходов, включая супервайзированный файнтюнинг и более точное моделирование задач. Будущие исследования должны сосредоточиться на преодолении этих проблем для развития истинно интеллектуальных моделей, которые будут проявлять бо

Annotation:

Large Reasoning Models (LRMs) have demonstrated remarkable problem-solving abilities in mathematics, as evaluated by existing benchmarks exclusively on well-defined problems. However, such evaluation setup constitutes a critical gap, since a genuine intelligent agent should not only solve problems (as a math quiz solver), but also be able~to ask for information when the problems lack sufficient information, enabling proactivity in responding users' requests. To bridge such gap, we proposes a new...

ID: 2508.11252v1 cs.AI, cs.CL, cs.IR

arXiv PDF

📄 SaraCoder: Orchestrating Semantic and Structural Cues for Profit-Oriented Repository-Level Code Completion

2025-08-16

Авторы:

Xiaohan Chen, Zhongying Pan, Quan Feng, Yu Tian, Shuqun Yang, Mengru Wang, Lina Gong, Yuxia Geng, Piji Li, Xiang Chen

## Контекст Современные системы подсчета кода хорошо успешно решают задачи в локальной области кода, но сталкиваются с рядом проблем при работе на уровне репозитория. Наиболее значимыми проблемами являются следующие: 1. **Semantic misguidance**: Отсутствие глубокого понимания семантических отношений между фрагментами кода приводит к результатам, которые не только не подходят по смыслу, но и порождают нежелательную редундантность и монотонность. 2. **External symbol ambiguity**: Невозможность точно определить внешние символы приводит к ситуациям, когда рекомендации кода не только неудобны, но и могут стать неприемлемыми в контексте задачи. 3. **Text-similarity bias**: Использование только текстовых синтаксических сигналов приводит к ограниченности в результатах и к снижению их качества. `Saracoder` - это система, которая предлагает новый подход к решению этих проблем, ориентируясь на **semantic and structural cues** (семантические и структурные признаки). Эта система использует **Hierarchical Feature Optimization** для активной извлечения и систематического оптимизации результатов поиска, а также **External-Aware Identifier Disambiguator** для решения внешней символьной неоднозначности. ## Метод Проект `Saracoder` основывается на **Hierarchical Feature Optimization**, разработанном для решения проблем семантического и структурного размышления в коде. Методология включает следующие компоненты: 1. **Hierarchical Feature Optimization Module**: - Извлекает глубокие семантические отношения между фрагментами кода. - Выполняет поиск и удаление дубликатов, при этом используя **Novel Graph-Based Metric**, который определяет важность топологических редакций. - Выполняет ре-ранжирование результатов для максимального баланса между **релевантностью** и **разнообразием**. 2. **External-Aware Identifier Disambiguator**: - Улучшает точность поиска и рекомендации кода путем **dependency analysis**. - Обеспечивает решение внешней неоднозначности в символьных связях, работая на уровне **cross-file** и **cross-repository**. Элементы этого фреймворка сочетаются для создания системы, которая не только предлагает более точные рекомендации, но и делает их более уникальными и релевантными в контексте задач репозитория. ## Результаты Работа была проверена на **CrossCodeEval** и **RepoEval-Updated**, крупных датасетах для оценки результатов поиска в коде. Основные результаты: - **Improved relevance and diversity**: Сравнительное тестирование показало, что `Saracoder` превосходит существующие базы, демонстрируя статистически значимую улучшенность показателей качества рекомендаций. - **Addressing external symbol ambiguity**: Тестирование системы показало, что решение внешней символьной неоднозначности (External-Aware Identifier Disambiguator) позволяет повысить точность рекомендаций при работе с внешними символами. - **Cross-Language Performance**: Результаты проверки показали, что `Saracoder` демонстрирует высокую эффе

Annotation:

Retrieval-augmented generation (RAG) for repository-level code completion commonly relies on superficial text similarity, leading to results plagued by semantic misguidance, redundancy, and homogeneity, while also failing to resolve external symbol ambiguity. To address these challenges, we introduce Saracoder, a Hierarchical Feature-Optimized retrieval framework. Its core Hierarchical Feature Optimization module systematically refines candidates by distilling deep semantic relationships, prunin...

ID: 2508.10068v1 cs.SE, cs.CL, cs.IR, cs.PL

arXiv PDF

📄 Jointly Generating and Attributing Answers using Logits of Document-Identifier Tokens

2025-08-14

Авторы:

Lucas Albarede, Jose Moreno, Lynda Tamine, Luce Lefeuvre

## Контекст В статье рассматривается проблема халтурности в работе Large Language Models (LLMs), которая становится критически важной для генерации ответов и их атрибуции. Халтурность приводит к недоверию пользователей и ограничивает эффективность приложений, использующих LLMs. Несмотря на выдающиеся результаты моделей, существуют ряд проблем, связанных с их ответственностью и надежностью. Ранее исследовались меры по улучшению корректности ответов и атрибуций, однако они часто не учитывают сам процесс генерации ответов. Целью данного исследования является разработка метода, который бы позволил LLMs фаильно генерировать ответы и их атрибуции, учитывая внутренние модельные сигналы. ## Метод Метод, предложенный авторами, называется LoDIT (Leveraging Document Identifier Tokens for Joint Generation and Attribution). Он основывается на двух основных этапах: (1) генерации ответов с привязкой к документам с помощью специальных токенов, отражающих идентификаторы документов, и (2) агрегации вклада каждого документа в ответ на основе логитов этих токенов. Метод использует так называемую "разметку документов", при которой каждый документ привязывается к определенным токенам в модели. В процессе генерации ответа эти токены активируются, и их логиты используются для определения вклада каждого документа в полученный ответ. Эта процедура позволяет явно отразить вклад каждого документа в ответ и обеспечивает транспарентную атрибуцию. ## Результаты Исследования проводились на наборе данных Trust-Align, состоящем из задач генерации ответов с атрибуцией. Модель LoDIT показала значительное превосходство по сравнению с состоянием искусства по нескольким метрикам, включая достоверность ответов, надежность атрибуций и эффективность в терминах затратных ресурсов. Авторы также провестили анализ времени выполнения и показали, что LoDIT эффективен в терминах затратных ресурсов, не прибегая к дополнительным вычислениям после генерации ответов. ## Значимость Предложенный подход имеет широкие перспективы в приложениях, требующих надежной и авторитетной генерации ответов с атрибуцией. Он может быть применен в сферах, где важно гарантировать целостность и достоверность ответов, например, в юридических, медицинских и финансовых системах. Благодаря своей транспарентности и эффективности, LoDIT может стать ключевым инструментом для развития доверительных моделей в AI. ## Выводы Статья представляет LoDIT, новый подход к генерации ответов с автоматической атрибуцией с помощью LLMs. Он демонстрирует высокую эффективность и надежность в тестируемых настройках. Будущие исследования будут сф

Annotation:

Despite their impressive performances, Large Language Models (LLMs) remain prone to hallucination, which critically undermines their trustworthiness. While most of the previous work focused on tackling answer and attribution correctness, a recent line of work investigated faithfulness, with a focus on leveraging internal model signals to reflect a model's actual decision-making process while generating the answer. Nevertheless, these methods induce additional latency and have shown limitations i...

ID: 2508.08942v1 cs.CL, cs.IR

arXiv PDF

📄 Link Prediction for Event Logs in the Process Industry

2025-08-14

Авторы:

Anastasia Zhukova, Thomas Walton, Christian E. Matt, Bela Gipp

## Контекст Оптимизация операций, обеспечение безопасности и постоянное совершенствование в промышленности процессов основываются на эффективном использовании операционных данных и прошлых знаний. Однако в этой области существуют значительные проблемы, связанные с разделенностью событий в журналах смен. Рекомендации по подходящим решениям для пользователей становятся сложнее из-за того, что связанные записи, такие как описания проблем с оборудованием или процессами и их решения, часто остаются разделенными. Данная работа адресует эту проблему, используя подход **link prediction** (предсказание связей) из графового машинного обучения, преобразованный в задачу **cross-document coreference resolution (CDCR)** с добавлением **natural language inference (NLI)** и **semantic text similarity (STS)**. Направление **causal inference (CI)** дает дополнительный импульс к улучшению моделей. ## Метод Модель **link prediction** для решения задачи **record linking (RL)** была разработана с использованием **CDCR**, **NLI** и **STS**. Для адаптации модели к текстовым форматам промышленности процессов была предпринята работа над моделью, которая может работать на уровне параграфов, подобно NLI и STS. Модель учитывает как неструктурированный текст, так и структурированные атрибуты записей. Данная техника позволила расширить модели CDCR, предназначенные для новостного дела, на область журналов смен промышленных процессов. Отдельное внимание было уделено адаптации моделей CI для повышения качества рекомендаций. ## Результаты Запуск модели проводился на данных, содержащихся в журналах смен промышленных процессов. На основе функций NLI и STS, а также добавленных элементов CI, был проведен сравнительный анализ модели с лучшими NLI- и STS-движениями. Результаты показали, что RL-модель выдала значительные улучшения, повысив точность предсказания связей на 28% (11.43 балла) по сравнению с NLI и на 27% (11.21 балла) по сравнению с STS. Это демонстрирует эффективность модели в улучшении качества связей в журналах смен, что в свою очередь повышает качество управления знаниями в промышленности процессов. ## Значимость Результаты работы могут быть применены в различных сферах, включая **knowledge management (KM)**, **process optimization** и **safety management** в промышленности процессов. Эффективное решение задачи **record linking** позволяет улучшить качество данных и связи между записями, что приводит к более эффективному использованию данных и повышению безопасности и производительности. Будущие исследования могут сосредоточиться на усовершенствовании моделей CI и их применении в других областях, где требуется подключение разделенных данных. ## Выводы В данной работе был применен подход **link prediction**, адаптированный для задачи **record linking** в журналах смен промышленных процессов

Annotation:

Knowledge management (KM) is vital in the process industry for optimizing operations, ensuring safety, and enabling continuous improvement through effective use of operational data and past insights. A key challenge in this domain is the fragmented nature of event logs in shift books, where related records, e.g., entries documenting issues related to equipment or processes and the corresponding solutions, may remain disconnected. This fragmentation hinders the recommendation of previous solution...

ID: 2508.09096v1 cs.CL, cs.IR

arXiv PDF

📄 BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent

2025-08-13

Авторы:

Zijian Chen, Xueguang Ma, Shengyao Zhuang, Ping Nie, Kai Zou, Andrew Liu, Joshua Green, Kshama Patel, Ruoxi Meng, Mingyi Su, Sahel Sharifymoghaddam, Yanxi Li, Haoran Hong, Xinyu Shi, Xuye Liu, Nandan Thakur, Crystina Zhang, Luyu Gao, Wenhu Chen, Jimmy Lin

---------------------------------------------------- ## Контекст Modern Deep-Research agents, которые объединяют большие лингвистические модели (LLMs) с инструментами поиска, показали свою эффективность в обработке сложных запросов, требующих итеративного планирования поиска и логического анализа результатов. Однако существующие эталоны, такие как BrowseComp, страдают от значимых ограничений. Они полагаются на "черные-ящиковые" веб-API, что ограничивает справедливость сравнений и возможность повторения экспериментов. Также, существует недостаток в прозрачности, так как ученые не могут контролировать корпус документов, что затрудняет изоляцию вклада каждого отдельного компонента, такого как ретрайвер. Эти недостатки затрудняют получение точных выводов о реальных возможностях глубоких исследовательских систем. Мы предлагаем BrowseComp-Plus, бенчмарк, развитый из BrowseComp, с использованием фиксированного, тщательно подобранного корпуса. Он предлагает более справедливое и прозрачное сравнение, что позволяет более точно оценить глубокие исследовательские агенты и методы поиска. ---------------------------------------------------- ## Метод BrowseComp-Plus основывается на BrowseComp, но включает ряд улучшений, нацеленных на повышение справедливости и прозрачности. В нем используется фиксированный корпус документов, который позволяет сравнивать глубокие исследовательские системы в условиях управляемого эксперимента. Каждый запрос в BrowseComp-Plus включает в себя ручно проверенные документы, которые поддерживают ответы на запрос, а также майнытся трудноотличимые негативные примеры. Это позволяет тестировать не только систему в целом, но и отдельные компоненты, такие как ретрайвер или механизмы ранжирования. Бенчмарк также включает в себя меру эффективности поиска и точности цитирования, что дает подробную картину потенциала глубоких исследовательских систем. ---------------------------------------------------- ## Результаты Применение BrowseComp-Plus позволило получить наглядные результаты, подчеркнув разницу в качестве различных систем. Например, open-source модель Search-R1, использующая BM25 retriever, достигла 3.86% точности, в то время как GPT-5, использующий Qwen3-Embedding-8B retriever, показал 70.1% точности при меньшем числе поисковых запросов. Эти результаты доказывают, что BrowseComp-Plus эффективно отличает качество разных методов поиска и позволяет проводить детальный анализ компонентов глубоких исследовательских систем. Также бенчмарк поддерживает эксперименты с разными методами рекомендации документов и методами надёжности цитирования, предоставляя широкий спектр возможностей для дополнительных исследований. ---------------------------------------------------- ## Значимость BrowseComp-Plus предлагает новый стандарт для оценки глубоких исследовательских систем, позволяя сфокусиро

Annotation:

Deep-Research agents, which integrate large language models (LLMs) with search tools, have shown success in improving the effectiveness of handling complex queries that require iterative search planning and reasoning over search results. Evaluations on current benchmarks like BrowseComp relies on black-box live web search APIs, have notable limitations in (1) fairness: dynamic and opaque web APIs hinder fair comparisons and reproducibility of deep research methods; (2) transparency: lack of cont...

ID: 2508.06600v1 cs.CL, cs.IR

arXiv PDF

📄 The ReQAP System for Question Answering over Personal Information

2025-08-13

Авторы:

Philipp Christmann, Gerhard Weikum

## Контекст Современные пользователи сталкиваются с огромным объемом личной информации, которая распределена по различным источникам: календарях, заказам в интернет-магазинах, фитнес-приложениях, электронной почте и социальных сетях. Несмотря на развитие инструментов поиска и анализа данных, пользователям часто трудно получить конкретные ответы на сложные вопросы, которые могут включать в себя фильтрацию, соединение (join) и агрегацию данных из разных источников. Эта сложность возникает из-за необходимости обрабатывать неструктурированные данные, такие как текст сообщений и социальных постов, и взаимодействовать с ними в рамках сложных запросов. Одной из основных проблем является недостаток инструментов, позволяющих пользователям понять, как система приходит к конкретному ответу. Без понимания этого процесса пользователи не могут доверять результатам. Таким образом, необходимо разработать систему, которая не только эффективно обрабатывала бы сложные запросы, но и давала подробный отчет о процессе вычисления ответов. ## Метод Разработанная система, названная ReQAP (Recursive Question Answering over Personal information), решает эту проблему с помощью рекурсивного декомпозирования вопросов и построения дерева операторов для вычисления. Методология ReQAP включает в себя несколько ключевых компонентов: 1. **Интерпретация вопросов**: Используя легковесные языковые модели, система разбирает запросы пользователей и определяет их компоненты, такие как имена сущностей, операции фильтрации и соединения. 2. **Построение дерева операторов**: Для каждого вопроса система создает дерево операторов, где каждый узел представляет собой конкретную операцию (например, фильтрация, соединение или агрегация). 3. **Использование легковесных языковых моделей**: Локальные модели, специально приведенные под задачи ReQAP, используются для понимания контекста и точного выполнения каждого оператора. 4. **Отслеживание ответов**: Каждый результат трассируется до исходных данных, позволяя пользователям просматривать источники, из которых были получены ответы. ## Результаты На практике ReQAP продемонстрировал высокую точность при обработке сложных запросов, включающих фильтрацию, соединение и агрегацию. В ходе тестов выявлено, что система эффективно работает с неструктурированными данными, такими как текст сообщений и социальных постов. Благодаря трассировке результатов пользователи могут видеть, как каждый ответ связан с источником данных, что улучшает доверие к системе. Разработанная рекурсивная модель позволяет адаптировать систему к разнообразным структурам данных, что делает ее

Annotation:

Personal information is abundant on users' devices, from structured data in calendar, shopping records or fitness tools, to unstructured contents in mail and social media posts. This works presents the ReQAP system that supports users with answers for complex questions that involve filters, joins and aggregation over heterogeneous sources. The unique trait of ReQAP is that it recursively decomposes questions and incrementally builds an operator tree for execution. Both the question interpretatio...

ID: 2508.06880v1 cs.CL, cs.IR

arXiv PDF

📄 Two-Stage Quranic QA via Ensemble Retrieval and Instruction-Tuned Answer Extraction

2025-08-13

Авторы:

Mohamed Basem, Islam Oshallah, Ali Hamdi, Khaled Shaban, Hozaifa Kassab

#### Контекст Quranic Question Answering (QQA) является особенно сложной областью исследований из-за языковых и семантических особенностей Классического Арабского языка, а также богатой семантики религиозных текстов. Традиционные подходы к задаче QQA сталкиваются с проблемами, такими как нехватка данных, сложность обработки текстов и низкая точность ответов. Эти проблемы особенно актуальны для задачи QQA, где необходимо выявлять и извлекать конкретные ответы на вопросы, основываясь на тексте Корана. Наша мотивация заключается в развитии эффективных фреймворков, которые могут усилить точность и общую производительность QQA-систем, используя современные модели языковых моделей и техники обучения. #### Метод Мы предлагаем двухступенчатый подход для решения задачи QQA. Во-первых, мы используем концепт ensembling для объединения нескольких моделей языкового понимания, настроенных на арабский язык, для процесса поиска и снятия сигналов (retrieval). Это позволяет повысить точность и разрешать проблемы, связанные с неточным пониманием текста. Во-вторых, мы применяем instruction-tuned large language models, которые обучаются с помощью малого количества обучающих примеров, для выполнения задачи извлечения ответов. Эта техника позволяет использовать модели с меньшим количеством данных для обучения и повысить точность ответа в условиях нехватки ресурсов. Таким образом, наш подход объединяет точность ensemblingа и гибкость instruction-tuningа для решения сложностей QQA. #### Результаты Мы провели эксперименты на Quran QA 2023 Shared Task, используя наши новшества. Для процесса поиска ответов (retrieval), наша модель энасембленинга работала с методом fine-tuningа на арабском языке, что позволило достичь следующих результатов: Mean Average Precision (MAP@10) = 0.3128, Mean Reciprocal Rank (MRR@10) = 0.5763. Для процесса извлечения ответов (extraction), использовав instruction-tuning, мы достигли Precision@10 (pAP@10) = 0.669. Эти результаты показывают, что наш подход был успешным в решении задачи QQA, превосходя предыдущие подходы по метрикам качества. #### Значимость Наше решение может быть применено в различных сферах, включая религиозное образование, теологию и программы, ориентированные на изучение религиозных текстов. Этот подход обладает рядом преимуществ: он эффективен в условиях малого количества тренировочных данных, повышает точность ответов, а также может быть реализован для других специальных областей, где задачи QQA требуются. Мы также видим возможности для будущих исследований в области улучшения моделей, использования различных текстовых ресурсов и расширения области применения нашего подхода. #### Выводы Наш двухступенчатый подход достиг существенных у

Annotation:

Quranic Question Answering presents unique challenges due to the linguistic complexity of Classical Arabic and the semantic richness of religious texts. In this paper, we propose a novel two-stage framework that addresses both passage retrieval and answer extraction. For passage retrieval, we ensemble fine-tuned Arabic language models to achieve superior ranking performance. For answer extraction, we employ instruction-tuned large language models with few-shot prompting to overcome the limitatio...

ID: 2508.06971v1 cs.CL, cs.IR

arXiv PDF

📄 Arce: Augmented Roberta with Contextualized Elucidations for Ner in Automated Rule Checking

2025-08-13

Авторы:

Jian Chen, Jinbao Tian, Yankui Li, Zhou Li

## Контекст Название статьи — Arce: Augmented Roberta with Contextualized Elucidations for Ner in Automated Rule Checking. Авторы: Jian Chen, Jinbao Tian, Yankui Li, Zhou Li. Основная цель — решение проблемы точного извлечения информации из специализированных текстов, в частности, для автоматизированного проверки правил (ARC) в сфере архитектуры, инженерии и строительства (AEC). Несмотря на развитие методов предобучения моделей на обширных текстовых корпусах, стандартные модели всё же сталкиваются с проблемами, связанными с границей домена. Они сталкиваются с трудностями при понимании специальной терминологии и сложных связей в AEC-текстах. Решение этой проблемы через дополнительное предобучение на доменных корпусах требует значительных ресурсов и времени. В этом контексте роль генерации знаний с использованием крупных языковых моделей (LLM) становится ключевой. Однако, необходимо разработать эффективный подход для повышения эффективности меньших моделей, таких как RoBERTa, с помощью знаний, генерируемых моделями LLM. ## Метод Предложенный подход ARCE (Augmented RoBERTa with Contextualized Elucidations) состоит из двух этапов: 1) генерация простых, ясных объяснений с помощью LLM в виде корпуса, названного Cote (Contextualized Explanations); 2) применение этого корпуса для дополнительного предобучения модели RoBERTa. Основной идеей является то, что простые объяснения помогают модели лучше понять специальную терминологию и связи в AEC-данных. Модель ARCE включает в себя ряд технических решений, которые улучшают процесс предобучения и работы модели на задаче NER в сфере AEC. ## Результаты Авторы провели эксперименты на бенчмарк-датасете AEC. Модель ARCE показала результат Macro-F1 77.20%, установив новый состояние технологии для этого задания. Эксперименты также продемонстрировали, что простые, напрямую понятные объяснения (Cote) дают более эффективные результаты, чем более сложные, ролевые рационализации. Эта модель демонстрирует высокую эффективность в извлечении специальных сущностей из сложных текстов AEC. ## Значимость Решение ARCE может быть применено во многих областях, где требуется точное извлечение информации из специализированных текстов, включая АЭК и другие технические сферы. Основное преимущество ARCE заключается в своей эффективности и простоте. Вместо сложных ролевых моделей, он использует простые объяснения, что упрощает понимание модели и повышает точность. Это может существенно снизить затраты на обучение и развитие моделей для сложных доменов. Будущие исследования будут сфокусированы на расширении этого подхода к другим доменам и моделям. ## Выводы Результаты ARCE подтверждают зна

Annotation:

Accurate information extraction from specialized texts is a critical challenge, particularly for named entity recognition (NER) in the architecture, engineering, and construction (AEC) domain to support automated rule checking (ARC). The performance of standard pre-trained models is often constrained by the domain gap, as they struggle to interpret the specialized terminology and complex relational contexts inherent in AEC texts. Although this issue can be mitigated by further pre-training on la...

ID: 2508.07286v1 cs.CL, cs.IR

arXiv PDF

📄 Few-Shot Prompting for Extractive Quranic QA with Instruction-Tuned LLMs

2025-08-12

Авторы:

Mohamed Basem, Islam Oshallah, Ali Hamdi, Ammar Mohammed

## Контекст Исследование посвящено развитию методов Extractive Question Answering (QA) на текстах Корана. Это задача является важной в свете уникальности языка Корана, который отличается сложной структурой, уникальным лексиконом и глубоким смысловым слоем. Несмотря на развитие технологий машинного обучения, эта область сталкивается с рядом проблем, включая недостаточную репрезентативность данных, сложность разбора специфического языка и необходимость точного понимания текста. Эти аспекты приводят к вызовам для создания эффективных моделей QA, которые могли бы обеспечить релевантные и точные ответы. Целью работы является разработка инновационных подходов, которые улучшат точность и качество ответов в условиях незначительного объема данных для обучения. ## Метод Работа предлагает два основных подхода к решению задачи Extractive QA на Коране. Первый подход основан на использовании предобученных моделей с инструкционным настройкой (instruction-tuning), включая модели Gemini и DeepSeek. Для решения задачи разработана специализированная программа для формирования арабских запросов в формате малого обучения (few-shot prompting). Для повышения точности ответов используется продвинутая система пост-обработки, включающая: - **Поддержание субструктурной алернтивативности** (subword alignment) для точного выделения ответов. - **Запрет перекрытия** (overlap suppression), чтобы избежать неточностей при выделении ответов. - **Семантическое фильтрование** (semantic filtering), чтобы удалить несоответствующие ответы. Эти методы позволяют улучшить качество ответов, уменьшив риск генерирования неточных или ложных сведений (hallucinations). ## Результаты Исследования проводятся на корпусе Корана, где применяются варианты описанных подходов. Оценка производится с помощью метрики pAP10 (Precision at 10), которая измеряет точность ответов в 10 вариантах. Наилучший результат демонстрирует модель с малоинвазивным настройкой (few-shot prompting) и пост-обработкой, достигающую pAP10 равного 0.637. Это значительно превосходит результаты моделей, обученных с помощью традиционных методов fine-tuning. Эксперименты показывают, что инструкционное настройко-обучение (instruction-tuning) с использованием арабских запросов эффективно для решения сложных задач QA на небольших объемах данных. ## Значимость Результаты имеют перспективу для применения в сферах, требующих понимания сложных текстов на малоизвестных языках. Из них могут получить выгоду разработчики моделей QA для риторических и социальных текстов, а также исследователи, работающие с неофициальными языками. Помимо того, этот подход демонстрирует выгоду использования небольших обучающих наборов для эффективного решения задач в усло

Annotation:

This paper presents two effective approaches for Extractive Question Answering (QA) on the Quran. It addresses challenges related to complex language, unique terminology, and deep meaning in the text. The second uses few-shot prompting with instruction-tuned large language models such as Gemini and DeepSeek. A specialized Arabic prompt framework is developed for span extraction. A strong post-processing system integrates subword alignment, overlap suppression, and semantic filtering. This improv...

ID: 2508.06103v1 cs.CL, cs.IR

arXiv PDF

📄 A Systematic Literature Review of Retrieval-Augmented Generation: Techniques, Metrics, and Challenges

2025-08-12

Авторы:

Andrew Brown, Muhammad Roman, Barry Devereux

## Контекст Генерируемые с помощью ИИ тексты становятся все более распространенными в различных приложениях, от поисковых систем до автоматизированных ответов. Однако ключевыми ограничениями остаются качество и точность получаемых ответов, которые часто не удовлетворяют потребностям пользователей. Эти проблемы напрямую связаны с невозможностью моделей генерировать высказывания, основанные на актуальных данных. Для решения этой проблемы возникла технология Retrieval-Augmented Generation (RAG), которая сочетает модели генерирования текста с системами поиска, позволяя генерировать ответы, гарантированно подкрепленные свежими и точными данными. Однако существует ограниченное число исследований, которые анализируют эффективность RAG и её технических аспектов. Это статья посвящена подробному анализу литературы, направленному на изучение технологии RAG, её методов, технических решений и ограничений. ## Метод Для проведения систематического обзора литературы был выбран фреймворк PRISMA 2020. Использовались пять научных баз данных: ACM Digital Library, IEEE Xplore, Scopus, ScienceDirect и DBLP. Были заданы четкие критерии включения и исключения, основанные на числе цитирований и тематических вопросах. Особое внимание было уделено методологии, архитектуре и оценке эффективности RAG в различных приложениях. Была применена специальная методика для снижения **citation-lag bias**, которая позволила учесть свежие работы, в том числе со слабой цитируемостью, из-за их недавнего опубликования. Это обеспечило более точное отображение современного состояния исследований в области RAG. ## Результаты Из 625 зарегистрированных статей было выбрано 128, удовлетворяющих критериям включения. Изучены архитектуры RAG, включающие нейронные сети для поиска и модели генерирования текста, а также метрики, используемые для оценки качества. Были выделены три основных типа RAG-систем: (i) встраиваемые модели, (ii) адаптивные системы, и (iii) системы, основанные на многоуровневых архитектурах. Также были проанализированы стандартные наборы данных и методы оценки качества, такие как BLEU, ROUGE и METEOR. Были выявлены значительные различия в качестве ответов, зависящие от архитектур и методов. ## Значимость Результаты RAG имеют широкие применения в области научного поиска, вопросов-ответов, искусственного интеллекта в области здравоохранения, финансовых приложениях и других. Одним из преимуществ является повышение точности ответов, получаемых с помощью непосредственного доступа к данным. Это позволяет избежать ошибок, связанных с неточностью моделей генерирования.

Annotation:

This systematic review of the research literature on retrieval-augmented generation (RAG) provides a focused analysis of the most highly cited studies published between 2020 and May 2025. A total of 128 articles met our inclusion criteria. The records were retrieved from ACM Digital Library, IEEE Xplore, Scopus, ScienceDirect, and the Digital Bibliography and Library Project (DBLP). RAG couples a neural retriever with a generative language model, grounding output in up-to-date, non-parametric me...

ID: 2508.06401v1 cs.DL, cs.AI, cs.CL, cs.IR

arXiv PDF

1
2
11
12
13
14

Показано 121 - 130 из 134 записей