📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 A Systematic Literature Review of Retrieval-Augmented Generation: Techniques, Metrics, and Challenges

2025-08-12

Авторы:

Andrew Brown, Muhammad Roman, Barry Devereux

## Контекст Генерируемые с помощью ИИ тексты становятся все более распространенными в различных приложениях, от поисковых систем до автоматизированных ответов. Однако ключевыми ограничениями остаются качество и точность получаемых ответов, которые часто не удовлетворяют потребностям пользователей. Эти проблемы напрямую связаны с невозможностью моделей генерировать высказывания, основанные на актуальных данных. Для решения этой проблемы возникла технология Retrieval-Augmented Generation (RAG), которая сочетает модели генерирования текста с системами поиска, позволяя генерировать ответы, гарантированно подкрепленные свежими и точными данными. Однако существует ограниченное число исследований, которые анализируют эффективность RAG и её технических аспектов. Это статья посвящена подробному анализу литературы, направленному на изучение технологии RAG, её методов, технических решений и ограничений. ## Метод Для проведения систематического обзора литературы был выбран фреймворк PRISMA 2020. Использовались пять научных баз данных: ACM Digital Library, IEEE Xplore, Scopus, ScienceDirect и DBLP. Были заданы четкие критерии включения и исключения, основанные на числе цитирований и тематических вопросах. Особое внимание было уделено методологии, архитектуре и оценке эффективности RAG в различных приложениях. Была применена специальная методика для снижения **citation-lag bias**, которая позволила учесть свежие работы, в том числе со слабой цитируемостью, из-за их недавнего опубликования. Это обеспечило более точное отображение современного состояния исследований в области RAG. ## Результаты Из 625 зарегистрированных статей было выбрано 128, удовлетворяющих критериям включения. Изучены архитектуры RAG, включающие нейронные сети для поиска и модели генерирования текста, а также метрики, используемые для оценки качества. Были выделены три основных типа RAG-систем: (i) встраиваемые модели, (ii) адаптивные системы, и (iii) системы, основанные на многоуровневых архитектурах. Также были проанализированы стандартные наборы данных и методы оценки качества, такие как BLEU, ROUGE и METEOR. Были выявлены значительные различия в качестве ответов, зависящие от архитектур и методов. ## Значимость Результаты RAG имеют широкие применения в области научного поиска, вопросов-ответов, искусственного интеллекта в области здравоохранения, финансовых приложениях и других. Одним из преимуществ является повышение точности ответов, получаемых с помощью непосредственного доступа к данным. Это позволяет избежать ошибок, связанных с неточностью моделей генерирования.

Annotation:

This systematic review of the research literature on retrieval-augmented generation (RAG) provides a focused analysis of the most highly cited studies published between 2020 and May 2025. A total of 128 articles met our inclusion criteria. The records were retrieved from ACM Digital Library, IEEE Xplore, Scopus, ScienceDirect, and the Digital Bibliography and Library Project (DBLP). RAG couples a neural retriever with a generative language model, grounding output in up-to-date, non-parametric me...

ID: 2508.06401v1 cs.DL, cs.AI, cs.CL, cs.IR

arXiv PDF

📄 ScamAgents: How AI Agents Can Simulate Human-Level Scam Calls

2025-08-12

Авторы:

Sanket Badhe

## Контекст Появление Large Language Models (LLMs) ознаменовало новую эру в области генерируемых текстов, позволивших повысить автоматизацию процессов творчества и повысить эффективность решения задач. Однако с этим связана и новая проблема — возможность использования LLMs для создания сценариев шантажных звонков, которые могут осложнить жизнь пользователям и привести к потерям финансовыми и другими путями. Данная статья раскрывает проблему технологических средств, которые могут быть использованы в этом направлении. ## Метод ScamAgent — это автономная система, которая построена на базе LLMs и использует их для генерирования сценариев шантажных звонков. Она может взаимодействовать с пользователем в течение нескольких очередных раундов, при этом адаптируя свои ответы и учитывая динамику разговора. Это решение позволяет создавать более реалистичные сценарии, которые могут эмулировать реальные ответы пользователя. Для реализации этого процесса используется технология декомпозиции запроса, что позволяет скрыть намерение использования технологии от LLMs. ## Результаты В экспериментах было продемонстрировано, что ScamAgent может создавать шантажные сценарии, которые полностью эмулируют реальные звонки. Данные эксперименты были проведены на больших объемах данных с реальными шантажными звонками, что позволило создать реалистичные модели. Также было проверено, что системы с традиционными методами защиты, такими как блокировка запросов или фильтрация контента, не могут справиться с подобным типом угроз. ## Значимость Результаты, полученные в рамках данного исследования, могут быть применены в сфере защиты данных и предотвращения мошенничества. Данный подход может быть использован для разработки новых методов защиты от мошеннических звонков, в частности для создания моделей, которые могут анализировать и распознавать подобные сценарии. Это может привести к повышению уровня безопасности данных в сетях и повышению полномочий пользователей. ## Выводы В результате исследования было установлено, что технологии генерируемого текста могут быть использованы для создания шантажных сценариев. Данная проблема требует уделения большего внимания, так как может привести к серьезным последствиям. В будущем необходимо развить новые методы анализа данных и технологий для распознавания таких сценариев, чтобы повысить уровень защиты пользователей.

Annotation:

Large Language Models (LLMs) have demonstrated impressive fluency and reasoning capabilities, but their potential for misuse has raised growing concern. In this paper, we present ScamAgent, an autonomous multi-turn agent built on top of LLMs, capable of generating highly realistic scam call scripts that simulate real-world fraud scenarios. Unlike prior work focused on single-shot prompt misuse, ScamAgent maintains dialogue memory, adapts dynamically to simulated user responses, and employs decep...

ID: 2508.06457v1 cs.CR, cs.AI, cs.CL, cs.MA

arXiv PDF

📄 Exploring Superior Function Calls via Reinforcement Learning

2025-08-11

Авторы:

Bingguang Hao, Maolin Wang, Zengzhuang Xu, Yicheng Chen, Cunyin Peng, Jinjie GU, Chenyi Zhuang

## Контекст Функциональные вызовы являются ключевым компонентом для развертывания бо LLM в реальных приложениях, однако существующие методы тренировки часто не способны развивать резонантные стратегии. Методы супервизорного тюнинга приводят к моделям, ограниченным в их возможности, тогда как стандартные методы RL сталкиваются с проблемами в управлении сложной структурой действий. В работе предлагается новый RL-фреймворк, ориентированный на улучшение групповой политики относительной оптимизации с использованием стратегического эксплорения на основе энтропии. Это решение направлено на решение трех ключевых проблем: нехватка эксплорения во время политического обучения, отсутствие структурированного рассуждения в цепочках мыслей и неэффективность верификации извлечения параметров. ## Метод Методология основана на двух этапах подготовки данных. В первой фазе используется итеративный процесс, в котором LLM сам оценивает качество выборки, а во второй фазе используется абстрактное синтаксическое дерево для верификации. Фреймворк RL строится на основе усовершенствованной стратегии "политики с относительным групповым оптимизацией", в которой энтропия эксплорения играет ключевую роль в развитии разума. Это позволяет модели лучше отделять значимые от ненадежных вызовов, строить логические цепочки и эффективно проверять входные данные. ## Результаты Проведенные эксперименты на Berkley Function Calling Leaderboard показали, что предлагаемый подход достигает 86.02% правильности, превосходя стандартные методы GRPO на 6% в сложных сценариях. Особенно выдающиеся результаты получены при применении к моделям, специализирующимся на кодировании. Это подтверждает, что структурированные подходы к генерации языка могут значительно улучшить качество результатов в обучении RL для функциональных вызовов. ## Значимость Предлагаемый подход может быть применен в различных сегментах, где требуется структурированная система логического поведения, таких как кодирование, анализ и визуализация данных. Благодаря стратегическому эксплору и структурному рассуждению, он предлагает более надежные и точные решения. Последствия его развертывания могут включать улучшение производительности систем и создание более удобных интерфейсов для пользователей. ## Выводы Этот рабочий процесс RL показал свою эффективность в решении сложных задач функциональных вызовов, достигнув лидирующих результатов. Мы планируем продолжить работу над более сложными сценариями и расширением возможностей E2E-системы, чтобы обеспечить универсальность и масш

Annotation:

Function calling capabilities are crucial for deploying Large Language Models in real-world applications, yet current training approaches fail to develop robust reasoning strategies. Supervised fine-tuning produces models that rely on superficial pattern matching, while standard reinforcement learning methods struggle with the complex action space of structured function calls. We present a novel reinforcement learning framework designed to enhance group relative policy optimization through strat...

ID: 2508.05118v2 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Bench-2-CoP: Can We Trust Benchmarking for EU AI Compliance?

2025-08-11

Авторы:

Matteo Prandi, Vincenzo Suriani, Federico Pierucci, Marcello Galisai, Daniele Nardi, Piercosma Bisconti

Резюме: ## Контекст Появление General Purpose AI (GPAI) требует эффективных фреймворков для оценки, особенно в свете нормативных требований Европейского Союза, таких как EU AI Act и Code of Practice (CoP). Основными проблемами являются недостатки в существующих методах оценки, не отвечающих новым потребностям регулирования, а именно в сфере учета системных рисков. Одна из основных проблем — "gap" между современными бенчмарками и новой регуляторной терминологией, который необходимо измерить и закрыть. Целью этого исследования является создание автоматизированного подхода для качественного анализа текущих бенчмарков и их соответствия нормативным требованиям. ## Метод Разработан Bench-2-CoP — новый фреймворк, который использует систему LLM-as-judge для оценки 194,955 вопросов, взятых из широко распространенных бенчмарков, с применением таксономии EU AI Act. Основным заданием этого метода является измерение соответствия реальных сценариев рисков систематическим рискам, определенным в CoP. Основной технический подход заключается в сборе и анализе данных с бенчмарков с использованием глубокого обучения и NLP-технологий для выявления соответствия ключевых сценариев рисков и соответствия регуляторным требованиям. ## Результаты На основе Bench-2-CoP, проанализированы вопросы из 194,955 моделей представленных в актуальных бенчмарках. Определены два ключевых результата: (1) 61.6% вопросов относятся к рискам, связанным с "тенденцией к халтурингу", и 31.2% — к "нестабильности производительности", а (2) ни один вопрос не касается критических сценариев, таких как "автономное развитие" и "эволюция самостоятельного управления". Это значит, что бенчмарки не могут служить доказательством рисков, необходимым для соответствия нормативным требованиям. ## Значимость Выявленный "gap" между текущим бенчмарком и нормативным риском является критическим для создания надежного регулирования GPAI. Это демонстрирует необходимость внедрения новых методик для оценки комплексных системных рисков. Результаты могут использоваться для развития будущих оценочных инструментов, которые будут действительно отвечать нормативным требованиям ЕС, сфокусированным на рисках систем, таких как управляемость, автономность и саморепликация. Будущие исследования будут направлены на дальнейшее уточнение фреймворка и поиск решений для перекрытия этого "gap". ## Выводы Выводы Bench-2-CoP открывают новые возможности для конкретных решений рисков, связанных с GPAI. Новый подход к оценке моделей система

Annotation:

The rapid advancement of General Purpose AI (GPAI) models necessitates robust evaluation frameworks, especially with emerging regulations like the EU AI Act and its associated Code of Practice (CoP). Current AI evaluation practices depend heavily on established benchmarks, but these tools were not designed to measure the systemic risks that are the focus of the new regulatory landscape. This research addresses the urgent need to quantify this "benchmark-regulation gap." We introduce Bench-2-CoP,...

ID: 2508.05464v2 cs.AI, cs.CL

arXiv PDF

📄 MolReasoner: Toward Effective and Interpretable Reasoning for Molecular LLMs

2025-08-09

Авторы:

Guojiang Zhao, Sihang Li, Zixiang Lu, Zheng Cheng, Haitao Lin, Lirong Wu, Hanchen Xia, Hengxing Cai, Wentao Guo, Hongshuai Wang, Mingjun Xu, Siyu Zhu, Guolin Ke, Linfeng Zhang, Zhifeng Gao

Многозначные языковые модели (LLMs) доказали свою эффективность во многих областях, но в молекулярной рассуждательной задаче их потенциал остается недостаточно использованным. Основные проблемы — это недостаток доменной специфичности при обучении и недостаток транспарентности в процессе рассуждения. Мы предлагаем MolReasoner — двухступенчатый подход, превращающий LLM из модели меморизации в модель молекулярного рассуждения. В первой стадии Mol-SFT использует синтетические Chain-of-Thought (CoT) примеры, созданные GPT-4o и проверенные на молекулярную точность. Во второй стадии Mol-RL расширяет модель с помощью усовершенствованных функций наград, чтобы усилить логику и улучшить проникновение в молекулярные структуры. Эксперименты показали, что MolReasoner значительно повышает точность и интерпретируемость результатов в сравнении с другими методами, превращая LLM в эффективный инструмент для молекулярной рассуждательной задачи.

Annotation:

Large Language Models(LLMs) have demonstrated remarkable performance across various domains, yet their capabilities in molecular reasoning remain insufficiently explored. Current approaches tend to rely heavily on general-purpose prompting, which lacks domain-specific molecular semantics, while those that use fine-tuning strategies often face challenges with interpretability and reasoning depth. To address these issues, we introduce MolReasoner, a two-stage framework designed to transition LLMs ...

ID: 2508.02066v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 CRINN: Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search

2025-08-09

Авторы:

Xiaoya Li, Xiaofei Sun, Albert Wang, Chris Shum, Jiwei Li

Статья предлагает CRINN (Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search) — новую подходящую для распределительных систем, таких как Retrieval-Augmented Generation (RAG) и Agent-Based Large Language Models (LLM), алгоритм для решения задачи оптимизации Approximate Nearest Neighbor Search (ANNS). Авторы относят ANNS к задачам об ускорении работы, трактуя её как задачу обучения с подкреплением (RL), где скорость выполнения является сигналом вознаграждения. Таким образом, CRINN автоматически генерирует ANNS-решения, обеспечивая быстродействие и сохраняя точность. Экспериментальные результаты показали, что CRINN превосходит существующие решения на трёх из шести бенчмарков данных, сравнявшись с ними на двух. Это доказывает, что LLMs, оснащённые RL, могут эффективно автоматизировать алгоритмическую оптимизацию, требующую специализированных знаний и трудоёмких работ. Доступен код на GitHub: https://github.com/deepreinforce-ai/CRINN.

Annotation:

Approximate nearest-neighbor search (ANNS) algorithms have become increasingly critical for recent AI applications, particularly in retrieval-augmented generation (RAG) and agent-based LLM applications. In this paper, we present CRINN, a new paradigm for ANNS algorithms. CRINN treats ANNS optimization as a reinforcement learning problem where execution speed serves as the reward signal. This approach enables the automatic generation of progressively faster ANNS implementations while maintaining ...

ID: 2508.02091v1 cs.LG, cs.AI, cs.CL, cs.DB

arXiv PDF

📄 Trainable Dynamic Mask Sparse Attention

2025-08-09

Авторы:

Jingze Shi, Yifan Wu, Bingheng Wu, Yiran Peng, Liangdong Wang, Guang Liu, Yuyu Luo

Большие языковые модели сталкиваются с проблемой моделирования длинных контекстов из-за квадратичной сложности стандартного self-attention механизма. Для решения этой проблемы предложен механизм Dynamic Mask Attention (DMA), который эффективно использует две формы спарсинга: содержательно-ориентированную (content-aware) и позиционно-ориентированную (position-aware). DMA динамически генерирует маски для валидных позиций, адаптируясь к контексту, и оптимизирует вычисления, пропуская ненужные регионы. Этот подход эффективно сочетает высокую эффективность и поддержание точности. Исследования показали, что DMA превосходит множественный self-attention, скользящее окно и другие способы в задачах предсказания языка (perplexity) и многозадачных задачах, таких как associative recall. Эксперименты в 1.7B параметров подтвердили, что DMA обеспечивает значительное улучшение в производительности и моделировании длинных контекстов, делая его привлекательным решением для современных моделей.

Annotation:

In large language models, the demand for modeling long contexts is constantly increasing, but the quadratic complexity of the standard self-attention mechanism often becomes a bottleneck. Although existing sparse attention mechanisms have improved efficiency, they may still encounter issues such as static patterns or information loss. We introduce a trainable dynamic mask sparse attention mechanism, Dynamic Mask Attention, which effectively utilizes content-aware and position-aware sparsity. DMA...

ID: 2508.02124v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 LeanK: Learnable K Cache Channel Pruning for Efficient Decoding

2025-08-09

Авторы:

Yike Zhang, Zhiyuan He, Huiqiang Jiang, Chengruidong Zhang, Yuqing Yang, Jianyong Wang, Lili Qiu

Large language models (LLMs) обеспечивают высокую эффективность для задач с длинным контекстом, однако сталкиваются с проблемами эффективности в связи с быстрым увеличением размера ключ-значение (KV) кэша. Предлагаемое решение — LeanK: Learnable K Cache Channel Pruning — — метод, основанный на технике канальной сжатия KV-кэша, использующий новшество двухэтапной обучаемой сжимаемости. LeanK удаляет незначительные канали K-кэша с помощью чистого обучения и удовлетворяет требованиям к статической сжимаемости и аппаратной алгоритмичности. Для повышения производительности включена пользовательская шина аттенции, которая обеспечивает до 70% снижения размера K-кэша и ускорение обработки в 1,3 раза. На основе экспериментов показано, что LeanK эффективно улучшает время выполнения LLM в задачах с длинным контекстом, не приводя к потере точности. Анализ также дает понимание влияния подхода на модельные каналы и заголовки аттенции во время работы с длинным контекстом. Детали реализации доступны по адресу https://aka.ms/LeanK.

Annotation:

Large language models (LLMs) enable long-context tasks but face efficiency challenges due to the growing key-value (KV) cache. We propose LeanK, a learning-based method that prunes unimportant key (K) cache channels by leveraging static channel sparsity. With a novel two-stage training process, LeanK learns channel-wise static mask that could satisfy specific sparsity ratio and hardware alignment requirement. LeanK reduces GPU memory and accelerates decoding without sacrificing accuracy. Experim...

ID: 2508.02215v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 CellForge: Agentic Design of Virtual Cell Models

2025-08-09

Авторы:

Xiangru Tang, Zhuoyun Yu, Jiapeng Chen, Yan Cui, Daniel Shao, Weixu Wang, Fang Wu, Yuchen Zhuang, Wenqi Shi, Zhi Huang, Arman Cohan, Xihong Lin, Fabian Theis, Smita Krishnaswamy, Mark Gerstein

Ограниченность получения точных выводов в биологии часто связана с нехваткой доступных моделей, адаптированных для конкретных задач. Мы предлагаем CellForge, систему, которая автоматически генерирует модели для виртуальных клеток, используя мультиагентный подход. Учитывая только сырые данные одноклеточных мультиомис и задачи, CellForge выдает оптимизированное моделирование и код для его выполнения. Фреймворк включает три модуля: анализ задач для исследования данных и поиска литературы, коллективное разработки моделей специализированными агентами, и автоматический код-генератор. Агенты-эксперты дискутируют решения с модератором для достижения сбалансированных решений. Демонстрируя это на сценариях подвижности клетки при генной модификации, лекарственных воздействиях и инфекциях, мы показали, что CellForge превосходит состояние технологий задач. Этот подход показывает, что совместная работа многообразных агентов может лучше решать сложные задачи моделирования, чем однозначный подход.

Annotation:

Virtual cell modeling represents an emerging frontier at the intersection of artificial intelligence and biology, aiming to predict quantities such as responses to diverse perturbations quantitatively. However, autonomously building computational models for virtual cells is challenging due to the complexity of biological systems, the heterogeneity of data modalities, and the need for domain-specific expertise across multiple disciplines. Here, we introduce CellForge, an agentic system that lever...

ID: 2508.02276v1 cs.LG, cs.AI, cs.CL, q-bio.QM

arXiv PDF

📄 Dialogue Systems Engineering: A Survey and Future Directions

2025-08-09

Авторы:

Mikio Nakano, Hironori Takeuchi, Sadahiro Yoshikawa, Yoichi Matsuyama, Kazunori Komatani

Работа подробно рассматривает понятие **Dialogue Systems Engineering**, как специальный направленный вид программного обеспечения, относящийся к жизненному циклу беседовых систем. Обзор показывает, что с появлением **large language models**, технологии диалоговых систем получили значительный прорыв, однако их эффективное применение в решении важных проблем общественного и бизнес-сектора требует новых подходов к их разработке и эксплуатации. Авторы показывают, что стандартные методы программного обеспечения недостаточно приспособлены для этих целей и предлагают развивать дополнительные подходы, отталкиваясь от теории **Software Engineering Body of Knowledge (SWEBOK)**. Работа определяет недостающие знания в области беседовых систем и определяет направления будущих исследований в этом направлении.

Annotation:

This paper proposes to refer to the field of software engineering related to the life cycle of dialogue systems as Dialogue Systems Engineering, and surveys this field while also discussing its future directions. With the advancement of large language models, the core technologies underlying dialogue systems have significantly progressed. As a result, dialogue system technology is now expected to be applied to solving various societal issues and in business contexts. To achieve this, it is impor...

ID: 2508.02279v1 cs.SE, cs.AI, cs.CL

arXiv PDF

Показано 1231 - 1240 из 1292 записей