📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Mason Smetana, Lev Khazanovich
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Scientific literature is increasingly siloed by complex language, static
disciplinary structures, and potentially sparse keyword systems, making it
cumbersome to capture the dynamic nature of modern science. This study
addresses these challenges by introducing an adaptable large language model
(LLM)-driven framework to quantify thematic trends and map the evolving
landscape of scientific knowledge. The approach is demonstrated over a 20-year
collection of more than 1,500 engineering articles pub...
Авторы:
Shibingfeng Zhang, Giovanni Colavizza
#### Контекст
Именная распознавательная сеть (NER) — это задача в области естественного языка, нацеленная на определение и классификацию именованных сущностей (таких как люди, организации, места, даты и другие) в тексте. Она является ключевым элементом для извлечения информации из неструктурированных текстов и подготовки данных для последующих приложений, таких как поиск информации. Однако, в случае исторических текстов, задача NER становится значительно сложнее ввиду нехватки или отсутствия достаточных объемов отмеченных данных, связанной с высокой стоимостью и требованиями к эксперту при ма MANUAL annotation. Более того, специфика языка исторических текстов, включая ковариацию стиля, архаический словарь и несогласованность в аппликации, создает дополнительные сложности для разработки эффективных систем NER для этих источников.
#### Метод
Мы исследуем возможность применения больших языковых моделей (LLM) для решения задачи NER в исторических текстах с помощью так называемых zero-shot и few-shot prompting стратегий. Эти подходы позволяют использовать готовые модели без необходимости повторной обучения для конкретной задачи, что экономит ресурсы и упрощает процесс. LLMs обладают универсальными свойствами, позволяющими им выполнять широкий спектр задач, включая NER. Мы применяем эти методы к датасету HIPE-2022 (Identifying Historical People, Places and other Entities), который содержит исторические тексты с разными сущностями, такими как люди, места и даты. Мы измеряем результаты, сравнивая их с супервизированными моделями, которые используют традиционные методы машинного обучения.
#### Результаты
В результате экспериментов, проведенных на HIPE-2022, мы обнаружили, что LLMs, использующие zero-shot и few-shot prompting, сумели достичь приемлемого уровня точности в NER, в пределах 80-90% в зависимости от сущности. Хотя они не достигли уровня традиционных моделей, обученных на конкретной тематике, результаты показали значительную эффективность в решении задач NER для исторических текстов. Это заметно в случаях, когда традиционные методы не могут быть применены из-за отсутствия данных для обучения. Мы также отметили, что LLMs показывают устойчивый результат при распознавании разных сущностей, но остаются недостатки в обработке текстов с высокой грамматической и стилистической переменой.
#### Значимость
Наша работа открывает новые перспективы для применения LLMs в сфере исторических исследований, где доступ к отмеченным данным ограничен. Эти модели могут быть использованы для извлечения информации из текстов, которые не были ранее проанализированы из-за проблем с данными. Кроме того, LLMs предоста
Annotation:
Large language models have demonstrated remarkable versatility across a wide
range of natural language processing tasks and domains. One such task is Named
Entity Recognition (NER), which involves identifying and classifying proper
names in text, such as people, organizations, locations, dates, and other
specific entities. NER plays a crucial role in extracting information from
unstructured textual data, enabling downstream applications such as information
retrieval from unstructured text.
Tra...
Авторы:
Andrew Brown, Muhammad Roman, Barry Devereux
## Контекст
Генерируемые с помощью ИИ тексты становятся все более распространенными в различных приложениях, от поисковых систем до автоматизированных ответов. Однако ключевыми ограничениями остаются качество и точность получаемых ответов, которые часто не удовлетворяют потребностям пользователей. Эти проблемы напрямую связаны с невозможностью моделей генерировать высказывания, основанные на актуальных данных. Для решения этой проблемы возникла технология Retrieval-Augmented Generation (RAG), которая сочетает модели генерирования текста с системами поиска, позволяя генерировать ответы, гарантированно подкрепленные свежими и точными данными. Однако существует ограниченное число исследований, которые анализируют эффективность RAG и её технических аспектов. Это статья посвящена подробному анализу литературы, направленному на изучение технологии RAG, её методов, технических решений и ограничений.
## Метод
Для проведения систематического обзора литературы был выбран фреймворк PRISMA 2020. Использовались пять научных баз данных: ACM Digital Library, IEEE Xplore, Scopus, ScienceDirect и DBLP. Были заданы четкие критерии включения и исключения, основанные на числе цитирований и тематических вопросах. Особое внимание было уделено методологии, архитектуре и оценке эффективности RAG в различных приложениях. Была применена специальная методика для снижения **citation-lag bias**, которая позволила учесть свежие работы, в том числе со слабой цитируемостью, из-за их недавнего опубликования. Это обеспечило более точное отображение современного состояния исследований в области RAG.
## Результаты
Из 625 зарегистрированных статей было выбрано 128, удовлетворяющих критериям включения. Изучены архитектуры RAG, включающие нейронные сети для поиска и модели генерирования текста, а также метрики, используемые для оценки качества. Были выделены три основных типа RAG-систем: (i) встраиваемые модели, (ii) адаптивные системы, и (iii) системы, основанные на многоуровневых архитектурах. Также были проанализированы стандартные наборы данных и методы оценки качества, такие как BLEU, ROUGE и METEOR. Были выявлены значительные различия в качестве ответов, зависящие от архитектур и методов.
## Значимость
Результаты RAG имеют широкие применения в области научного поиска, вопросов-ответов, искусственного интеллекта в области здравоохранения, финансовых приложениях и других. Одним из преимуществ является повышение точности ответов, получаемых с помощью непосредственного доступа к данным. Это позволяет избежать ошибок, связанных с неточностью моделей генерирования.
Annotation:
This systematic review of the research literature on retrieval-augmented
generation (RAG) provides a focused analysis of the most highly cited studies
published between 2020 and May 2025. A total of 128 articles met our inclusion
criteria. The records were retrieved from ACM Digital Library, IEEE Xplore,
Scopus, ScienceDirect, and the Digital Bibliography and Library Project (DBLP).
RAG couples a neural retriever with a generative language model, grounding
output in up-to-date, non-parametric me...
📄 Accelerating Scientific Discovery with Multi-Document Summarization of Impact-Ranked Papers
2025-08-09Авторы:
Paris Koloveas, Serafeim Chatzopoulos, Dionysis Diamantis, Christos Tryfonopoulos, Thanasis Vergoulis
#### Резюме
В научной сфере растет количество публикаций, что усложняет процесс поиска и объединения существующих знаний. Даже при выявлении ценных работ необходимо прочитать множество заглавий и аннотаций, что требует много времени и может привести к несоответствию или несогласованности выводов. Мы предлагаем усовершенствовать широко известный сервис BIP! Finder, добавив возможность генерировать краткие и подробные сводки из результатов поиска, основанных на уровне влияния и популярности документов. Это решение позволяет быстро получить обзор литературы или подробный анализ, организованный вокруг важности документов. Наши результаты показывают, что данная комбинация существующих и новых функций ускоряет работу с литературой и помогает лучше ориентироваться в ней, улучшая продуктивность исследователей.
Annotation:
The growing volume of scientific literature makes it challenging for
scientists to move from a list of papers to a synthesized understanding of a
topic. Because of the constant influx of new papers on a daily basis, even if a
scientist identifies a promising set of papers, they still face the tedious
task of individually reading through dozens of titles and abstracts to make
sense of occasionally conflicting findings. To address this critical bottleneck
in the research workflow, we introduce a s...