📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Publication Trend Analysis and Synthesis via Large Language Model: A Case Study of Engineering in PNAS

2025-10-22

Авторы:

Mason Smetana, Lev Khazanovich

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Scientific literature is increasingly siloed by complex language, static disciplinary structures, and potentially sparse keyword systems, making it cumbersome to capture the dynamic nature of modern science. This study addresses these challenges by introducing an adaptable large language model (LLM)-driven framework to quantify thematic trends and map the evolving landscape of scientific knowledge. The approach is demonstrated over a 20-year collection of more than 1,500 engineering articles pub...

ID: 2510.16152v1 cs.DL, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Named Entity Recognition of Historical Text via Large Language Model

2025-08-27

Авторы:

Shibingfeng Zhang, Giovanni Colavizza

#### Контекст Именная распознавательная сеть (NER) — это задача в области естественного языка, нацеленная на определение и классификацию именованных сущностей (таких как люди, организации, места, даты и другие) в тексте. Она является ключевым элементом для извлечения информации из неструктурированных текстов и подготовки данных для последующих приложений, таких как поиск информации. Однако, в случае исторических текстов, задача NER становится значительно сложнее ввиду нехватки или отсутствия достаточных объемов отмеченных данных, связанной с высокой стоимостью и требованиями к эксперту при ма MANUAL annotation. Более того, специфика языка исторических текстов, включая ковариацию стиля, архаический словарь и несогласованность в аппликации, создает дополнительные сложности для разработки эффективных систем NER для этих источников. #### Метод Мы исследуем возможность применения больших языковых моделей (LLM) для решения задачи NER в исторических текстах с помощью так называемых zero-shot и few-shot prompting стратегий. Эти подходы позволяют использовать готовые модели без необходимости повторной обучения для конкретной задачи, что экономит ресурсы и упрощает процесс. LLMs обладают универсальными свойствами, позволяющими им выполнять широкий спектр задач, включая NER. Мы применяем эти методы к датасету HIPE-2022 (Identifying Historical People, Places and other Entities), который содержит исторические тексты с разными сущностями, такими как люди, места и даты. Мы измеряем результаты, сравнивая их с супервизированными моделями, которые используют традиционные методы машинного обучения. #### Результаты В результате экспериментов, проведенных на HIPE-2022, мы обнаружили, что LLMs, использующие zero-shot и few-shot prompting, сумели достичь приемлемого уровня точности в NER, в пределах 80-90% в зависимости от сущности. Хотя они не достигли уровня традиционных моделей, обученных на конкретной тематике, результаты показали значительную эффективность в решении задач NER для исторических текстов. Это заметно в случаях, когда традиционные методы не могут быть применены из-за отсутствия данных для обучения. Мы также отметили, что LLMs показывают устойчивый результат при распознавании разных сущностей, но остаются недостатки в обработке текстов с высокой грамматической и стилистической переменой. #### Значимость Наша работа открывает новые перспективы для применения LLMs в сфере исторических исследований, где доступ к отмеченным данным ограничен. Эти модели могут быть использованы для извлечения информации из текстов, которые не были ранее проанализированы из-за проблем с данными. Кроме того, LLMs предоста

Annotation:

Large language models have demonstrated remarkable versatility across a wide range of natural language processing tasks and domains. One such task is Named Entity Recognition (NER), which involves identifying and classifying proper names in text, such as people, organizations, locations, dates, and other specific entities. NER plays a crucial role in extracting information from unstructured textual data, enabling downstream applications such as information retrieval from unstructured text. Tra...

ID: 2508.18090v1 cs.DL, cs.AI, cs.CL

arXiv PDF

📄 A Systematic Literature Review of Retrieval-Augmented Generation: Techniques, Metrics, and Challenges

2025-08-12

Авторы:

Andrew Brown, Muhammad Roman, Barry Devereux

## Контекст Генерируемые с помощью ИИ тексты становятся все более распространенными в различных приложениях, от поисковых систем до автоматизированных ответов. Однако ключевыми ограничениями остаются качество и точность получаемых ответов, которые часто не удовлетворяют потребностям пользователей. Эти проблемы напрямую связаны с невозможностью моделей генерировать высказывания, основанные на актуальных данных. Для решения этой проблемы возникла технология Retrieval-Augmented Generation (RAG), которая сочетает модели генерирования текста с системами поиска, позволяя генерировать ответы, гарантированно подкрепленные свежими и точными данными. Однако существует ограниченное число исследований, которые анализируют эффективность RAG и её технических аспектов. Это статья посвящена подробному анализу литературы, направленному на изучение технологии RAG, её методов, технических решений и ограничений. ## Метод Для проведения систематического обзора литературы был выбран фреймворк PRISMA 2020. Использовались пять научных баз данных: ACM Digital Library, IEEE Xplore, Scopus, ScienceDirect и DBLP. Были заданы четкие критерии включения и исключения, основанные на числе цитирований и тематических вопросах. Особое внимание было уделено методологии, архитектуре и оценке эффективности RAG в различных приложениях. Была применена специальная методика для снижения **citation-lag bias**, которая позволила учесть свежие работы, в том числе со слабой цитируемостью, из-за их недавнего опубликования. Это обеспечило более точное отображение современного состояния исследований в области RAG. ## Результаты Из 625 зарегистрированных статей было выбрано 128, удовлетворяющих критериям включения. Изучены архитектуры RAG, включающие нейронные сети для поиска и модели генерирования текста, а также метрики, используемые для оценки качества. Были выделены три основных типа RAG-систем: (i) встраиваемые модели, (ii) адаптивные системы, и (iii) системы, основанные на многоуровневых архитектурах. Также были проанализированы стандартные наборы данных и методы оценки качества, такие как BLEU, ROUGE и METEOR. Были выявлены значительные различия в качестве ответов, зависящие от архитектур и методов. ## Значимость Результаты RAG имеют широкие применения в области научного поиска, вопросов-ответов, искусственного интеллекта в области здравоохранения, финансовых приложениях и других. Одним из преимуществ является повышение точности ответов, получаемых с помощью непосредственного доступа к данным. Это позволяет избежать ошибок, связанных с неточностью моделей генерирования.

Annotation:

This systematic review of the research literature on retrieval-augmented generation (RAG) provides a focused analysis of the most highly cited studies published between 2020 and May 2025. A total of 128 articles met our inclusion criteria. The records were retrieved from ACM Digital Library, IEEE Xplore, Scopus, ScienceDirect, and the Digital Bibliography and Library Project (DBLP). RAG couples a neural retriever with a generative language model, grounding output in up-to-date, non-parametric me...

ID: 2508.06401v1 cs.DL, cs.AI, cs.CL, cs.IR

arXiv PDF

📄 Accelerating Scientific Discovery with Multi-Document Summarization of Impact-Ranked Papers

2025-08-09

Авторы:

Paris Koloveas, Serafeim Chatzopoulos, Dionysis Diamantis, Christos Tryfonopoulos, Thanasis Vergoulis

#### Резюме В научной сфере растет количество публикаций, что усложняет процесс поиска и объединения существующих знаний. Даже при выявлении ценных работ необходимо прочитать множество заглавий и аннотаций, что требует много времени и может привести к несоответствию или несогласованности выводов. Мы предлагаем усовершенствовать широко известный сервис BIP! Finder, добавив возможность генерировать краткие и подробные сводки из результатов поиска, основанных на уровне влияния и популярности документов. Это решение позволяет быстро получить обзор литературы или подробный анализ, организованный вокруг важности документов. Наши результаты показывают, что данная комбинация существующих и новых функций ускоряет работу с литературой и помогает лучше ориентироваться в ней, улучшая продуктивность исследователей.

Annotation:

The growing volume of scientific literature makes it challenging for scientists to move from a list of papers to a synthesized understanding of a topic. Because of the constant influx of new papers on a daily basis, even if a scientist identifies a promising set of papers, they still face the tedious task of individually reading through dozens of titles and abstracts to make sense of occasionally conflicting findings. To address this critical bottleneck in the research workflow, we introduce a s...

ID: 2508.03962v1 cs.DL, cs.AI, cs.CL

arXiv PDF