📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 The Statistical Validation of Innovation Lens

2025-08-22

Авторы:

Giacomo Radaelli, Jonah Lynch

```markdown ## Контекст Область исследования связана с анализом и оценкой инновационных исследований, которая становится все более сложной в условиях конкуренции и перегрузки информацией. Авторы отмечают, что в связи с быстрым темпом научного прогресса становится все труднее оценивать и распределять ресурсы для новых научных предложений. Исследования авторов направлены на выявление структурных признаков в научных исследованиях, которые могли бы помочь в принятии обоснованных решений о приоритетах исследований. ## Метод Авторы применяют методологию, основанную на машинном обучении, чтобы выявить структуры в научных исследованиях. Они обучают классификатор, который изучает фундаментальные признаки высокоцитируемых работ в сферах Компьютерных Наук, Физики и PubMed за период с 2010 по 2024 год. Архитектура классификатора включает в себя нейронные сети с дополнительными элементами, чтобы учесть сложности научных текстов. Набор данных включал тысячи работ, структурированных по ключевым признакам, таким как цитирование, сложность текста, ключевые слова и факторы влияния. ## Результаты Классификатор стал маркером успеха в предсказании высокоцитируемых работ. Исследователи доказали, что существуют определенные структуры и характеристики, которые способствуют высокому цитированию. Они выявили, например, что значительная часть высокоцитируемых работ имеет определенную сложность языка, использует ключевые слова, связанные с новыми направлениями, и имеет высокий уровень влияния в широких научных сообществах. ## Значимость Результаты исследований имеют практическое значение для различных дисциплин, так как они позволяют внедрить структурированный подход к оценке и принятию решений о развитии научных исследований. Эффективное применение классификатора помогает оптимизировать ресурсы и стимулировать инновационные направления в науке. Этот подход также может быть применен для развития новых технологий, включая системы рекомендаций и анализа текстов. ## Выводы Авторы приходят к выводу, что существует структура в научных исследованиях, которую можно использовать для предсказания успешности работ. Они предлагают расширить исследования, включив дополнительные сферы исследований и улучшив точность классификатора. Будущие исследования также будут направлены на изучение динамики изменения этих структур в различных научных областях. ```

Annotation:

Information overload and the rapid pace of scientific advancement make it increasingly difficult to evaluate and allocate resources to new research proposals. Is there a structure to scientific discovery that could inform such decisions? We present statistical evidence for such structure, by training a classifier that successfully predicts high-citation research papers between 2010-2024 in the Computer Science, Physics, and PubMed domains.

ID: 2508.14139v1 cs.DL, cs.AI

arXiv PDF

📄 The Role of AI in Facilitating Interdisciplinary Collaboration: Evidence from AlphaFold

2025-08-21

Авторы:

Naixuan Zhao, Chunli Wei, Xinyan Zhang, Jiang Li

## Контекст Область исследования, связанная с использованием искусственного интеллекта (ИИ) в научных исследованиях, набирает все большую популярность. Несмотря на то, что ИИ показал свое влияние в различных областях, его мотивации и перспективы в сфере интеграции разных научных дисциплин остаются неполностью проанализированы. Эта проблема приобретает особую актуальность в контексте того, как ИИ может способствовать улучшению междисциплинарных сотрудничеств. Например, AlphaFold, мощная система сверточного нейронного аппарата, возникла как решение задач генетической структуры белков и стала сильным вдохновителем для исследователей. Однако нет ясности в том, насколько широко ИИ может достигать реальных успехов в сфере междисциплинарных исследований. ## Метод Для изучения этого вопроса была проведена библиометрическая и статистическая оценка, основывающаяся на анализе 1 247 статей, связанных с AlphaFold, полученных из базы данных Scopus. Авторы использовали метод сравнения, чтобы провести анализ стилей и характеров междисциплинарного сотрудничества между группами, использовавшими AlphaFold, и теми, кто этого не делал. Для этого проводился долгий анализ видов авторских коллабораций и тематик в рамках каждой группы. Эта методология позволила выявить тонкие особенности в характере междисциплинарных взаимодействий, связанных с использованием AlphaFold. ## Результаты Результаты исследования показали, что ИИ, представленный AlphaFold, привнес незначительного эффекта на увеличение междисциплинарных сотрудничеств в структурной биологии и компьютерных науках — всего 0,48%. В то же время, для других научных областей, таких как биоинформатика или физика, эффекты были незначимыми. Особенностью является то, что ИИ в некоторой степени усиливает требования к сотрудничеству с конкретными дисциплинами, однако эти требования оказываются ограниченными технологической демократизацией и другими факторами. ## Значимость Эти результаты имеют значительные последствия для теории и практики междисциплинарных исследований. Они показывают, что ИИ, несмотря на свои технические достижения, не является автоматическим средством для объединения разных научных дисциплин. Этот результат может повлиять на стратегии развития ИИ, вынуждая исследователей стараться выстраивать более целенаправленные стратегии для поддержки междисциплинарных сотрудничеств. ## Выводы Изучение влияния AlphaFold позволило делать вывод о том, что ИИ, несмотря на свои преимущества, имеет ограниченные возможности для того, чтобы значительно изменить характер междисципли

Annotation:

The acceleration of artificial intelligence (AI) in science is recognized and many scholars have begun to explore its role in interdisciplinary collaboration. However, the mechanisms and extent of this impact are still unclear. This study, using AlphaFold's impact on structural biologists, examines how AI technologies influence interdisciplinary collaborative patterns. By analyzing 1,247 AlphaFold-related papers and 7,700 authors from Scopus, we employ bibliometric analysis and causal inference ...

ID: 2508.13234v1 cs.DL, cs.AI, cs.CY

arXiv PDF

📄 Can Smaller Large Language Models Evaluate Research Quality?

2025-08-13

Авторы:

Mike Thelwall

## Контекст Существует возрастающий интерес к использованию Больших Моделей Языка (LLM) для оценки качества исследований. Однако большинство исследований фокусируются на крупнейших моделях, таких как Google Gemini и ChatGPT 4o и 4o-mini. Менее изучено, могут ли меньшие модели, такие как Gemma-3-27b-it, давать аналогичные результаты. Узнать это важно для оптимизации затрат и внедрения моделей в ситуации, где необходима безопасность или конфиденциальность. ## Метод Оценка качества исследований проводилась с использованием Google Gemma-3-27b-it, подготовленной на основе уменьшенной версии Gemma-3 с 27 миллиардами параметров. Оценка основывалась на сравнении её выдач с результатами оценки экспертами в 34 областях знаний, основанных на UK Research Excellence Framework 2021. Для избежания неточностей в оценке были проведены 5 повторений каждого эксперимента, чтобы проверить устойчивость результатов. ## Результаты Проанализированы 104,187 статей. Gemma-3-27b-it демонстрировала положительную корреляцию с экспертными оценками во всех 34 областях. Её корреляции были 83.8% такой же сильной, как у ChatGPT 4o, и 94.7% — у ChatGPT 4o-mini. Однако повторение оценки не привело к значительным улучшениям результатов, что отличает Gemma-3-27b-it от более крупных моделей. Меньшая модель даёт достаточно точные результаты, но с менее выраженным диапазоном оценок и более узкой диапазоном вариаций стиля. ## Значимость Полученные результаты показывают, что меньшие модели LLM могут быть эффективными для оценки качества исследований, что делает их применимыми в сценариях, где требуется экономия ресурсов или защищенная обработка данных. Это также открывает возможность использования моделей с меньшим размером в учёных работах, без потери качества оценки. ## Выводы Наше исследование показывает, что качество оценки исследований не является априорной чертой только крупных моделей LLM. Меньшие модели, такие как Gemma-3-27b-it, также могут применяться для этих задач, что делает их полезными для широкого круга приложений. Будущие исследования следует уделить вниманию улучшению методов оценки качества и проверке повторяемости результатов.

Annotation:

Although both Google Gemini (1.5 Flash) and ChatGPT (4o and 4o-mini) give research quality evaluation scores that correlate positively with expert scores in nearly all fields, and more strongly that citations in most, it is not known whether this is true for smaller Large Language Models (LLMs). In response, this article assesses Google's Gemma-3-27b-it, a downloadable LLM (60Gb). The results for 104,187 articles show that Gemma-3-27b-it scores correlate positively with an expert research qualit...

ID: 2508.07196v1 cs.DL, cs.AI

arXiv PDF

📄 A Systematic Literature Review of Retrieval-Augmented Generation: Techniques, Metrics, and Challenges

2025-08-12

Авторы:

Andrew Brown, Muhammad Roman, Barry Devereux

## Контекст Генерируемые с помощью ИИ тексты становятся все более распространенными в различных приложениях, от поисковых систем до автоматизированных ответов. Однако ключевыми ограничениями остаются качество и точность получаемых ответов, которые часто не удовлетворяют потребностям пользователей. Эти проблемы напрямую связаны с невозможностью моделей генерировать высказывания, основанные на актуальных данных. Для решения этой проблемы возникла технология Retrieval-Augmented Generation (RAG), которая сочетает модели генерирования текста с системами поиска, позволяя генерировать ответы, гарантированно подкрепленные свежими и точными данными. Однако существует ограниченное число исследований, которые анализируют эффективность RAG и её технических аспектов. Это статья посвящена подробному анализу литературы, направленному на изучение технологии RAG, её методов, технических решений и ограничений. ## Метод Для проведения систематического обзора литературы был выбран фреймворк PRISMA 2020. Использовались пять научных баз данных: ACM Digital Library, IEEE Xplore, Scopus, ScienceDirect и DBLP. Были заданы четкие критерии включения и исключения, основанные на числе цитирований и тематических вопросах. Особое внимание было уделено методологии, архитектуре и оценке эффективности RAG в различных приложениях. Была применена специальная методика для снижения **citation-lag bias**, которая позволила учесть свежие работы, в том числе со слабой цитируемостью, из-за их недавнего опубликования. Это обеспечило более точное отображение современного состояния исследований в области RAG. ## Результаты Из 625 зарегистрированных статей было выбрано 128, удовлетворяющих критериям включения. Изучены архитектуры RAG, включающие нейронные сети для поиска и модели генерирования текста, а также метрики, используемые для оценки качества. Были выделены три основных типа RAG-систем: (i) встраиваемые модели, (ii) адаптивные системы, и (iii) системы, основанные на многоуровневых архитектурах. Также были проанализированы стандартные наборы данных и методы оценки качества, такие как BLEU, ROUGE и METEOR. Были выявлены значительные различия в качестве ответов, зависящие от архитектур и методов. ## Значимость Результаты RAG имеют широкие применения в области научного поиска, вопросов-ответов, искусственного интеллекта в области здравоохранения, финансовых приложениях и других. Одним из преимуществ является повышение точности ответов, получаемых с помощью непосредственного доступа к данным. Это позволяет избежать ошибок, связанных с неточностью моделей генерирования.

Annotation:

This systematic review of the research literature on retrieval-augmented generation (RAG) provides a focused analysis of the most highly cited studies published between 2020 and May 2025. A total of 128 articles met our inclusion criteria. The records were retrieved from ACM Digital Library, IEEE Xplore, Scopus, ScienceDirect, and the Digital Bibliography and Library Project (DBLP). RAG couples a neural retriever with a generative language model, grounding output in up-to-date, non-parametric me...

ID: 2508.06401v1 cs.DL, cs.AI, cs.CL, cs.IR

arXiv PDF

📄 Accelerating Scientific Discovery with Multi-Document Summarization of Impact-Ranked Papers

2025-08-09

Авторы:

Paris Koloveas, Serafeim Chatzopoulos, Dionysis Diamantis, Christos Tryfonopoulos, Thanasis Vergoulis

#### Резюме В научной сфере растет количество публикаций, что усложняет процесс поиска и объединения существующих знаний. Даже при выявлении ценных работ необходимо прочитать множество заглавий и аннотаций, что требует много времени и может привести к несоответствию или несогласованности выводов. Мы предлагаем усовершенствовать широко известный сервис BIP! Finder, добавив возможность генерировать краткие и подробные сводки из результатов поиска, основанных на уровне влияния и популярности документов. Это решение позволяет быстро получить обзор литературы или подробный анализ, организованный вокруг важности документов. Наши результаты показывают, что данная комбинация существующих и новых функций ускоряет работу с литературой и помогает лучше ориентироваться в ней, улучшая продуктивность исследователей.

Annotation:

The growing volume of scientific literature makes it challenging for scientists to move from a list of papers to a synthesized understanding of a topic. Because of the constant influx of new papers on a daily basis, even if a scientist identifies a promising set of papers, they still face the tedious task of individually reading through dozens of titles and abstracts to make sense of occasionally conflicting findings. To address this critical bottleneck in the research workflow, we introduce a s...

ID: 2508.03962v1 cs.DL, cs.AI, cs.CL

arXiv PDF

📄 Identity Theft in AI Conference Peer Review

2025-08-09

Авторы:

Nihar B. Shah, Melisa Bok, Xukun Liu, Andrew McCallum

## КОНТЕКСТ И ПРОБЛЕМАТИКА Научная переписка и процесс пиар-рецензирования являются ключевыми элементами научного сообщества, обеспечивающими качество и ценность научных работ. Однако, как показывают новые исследования, этот процесс стал целью мошенничества, в том числе в области искусственного интеллекта (AI). Авторы статьи раскрывают случаи **идентификационного кражи** в процессе пиар-рецензирования в AI-конференциях, которые могут оказать значительное влияние на всю научную сферу. Проблема заключается в том, что нечестные исследователи создают фальшивые профили рецензирующих с целью манипулирования оценками научных работ. Они используют слабые места в процессах набора рецензирующих и проверки их идентификации, что позволяет им обойти существующие контроли. Такие действия могут привести к несправедливому принятию или отклонению работ, которые могут не соответствовать высоким стандартам научности. Эта проблема выходит за рамки отдельных случаев и представляет собой серьезную угрозу для всей системы научного сотрудничества. Она подчеркивает необходимость внедрения более строгих мер по защите процесса пиар-рецензирования от мошенничества, особенно в условиях цифровизации и глобализации научного процесса. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для борьбы с идентификационной кражей в процессе пиар-рецензирования авторы предлагают ряд стратегий и технических решений. Одним из ключевых подходов является улучшение процедур проверки идентификации рецензирующих. Это включает в себя использование более надежных методов аутентификации, таких как двухфакторная аутентификация и проверка документов. Кроме того, предлагается внедрение **систем мониторинга и анализа поведения** рецензирующих. Эти системы будут следить за тем, как рецензирующие взаимодействуют с платформами пиар-рецензирования, и выявлять подозрительные действия. Например, если рецензирующий постоянно одобряет работы из одной группы авторов или демонстрирует необычное поведение, это может быть признаком мошенничества. Также предлагается создание системы **централизованного управления процессом пиар-рецензирования**, которая бы обеспечивала более прозрачность и контроль над всеми этапами процесса. Это позволит быстрее выявлять и пресекать попытки мошенничества. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели исследование на основе данных из нескольких AI-конференций, где были выявлены случаи мошенничества. Они использовали различные методы анализа данных для выявления подозрительных действий рецензирующих. Результаты показали, что в некоторых случаях фальшивые рецензирующие были созданы с целью одобрения работ, которые были написаны теми же людьми или их коллегами. Эти рецензирующие демонстрировали необычное поведение, такое как быстрая рецензирование и высокая частота одобрения. Кроме того, исследование показало, что существующие системы проверки идентификации рецензирующих не всегда эффективны в выявлении мошенничества. Это подтверждает необходимость внедрения более строгих мер по защите процесса пиар-рецензирования. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Результаты этого исследования имеют значительное значение для всей научной сферы. Они подчеркивают необходимость внедрения более строгих мер по защите процесса пиар-рецензирования от мошенничества. Это может помочь обеспечить более честный и прозрачный процесс оценки научных работ. Кроме того, предлагаемые методы могут быть применены не только в области AI, но и в других научных дисциплинах. Они могут помочь предотвратить мошенничество и обеспечить высокий уровень достоверности научных публикаций. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, исследование показывает, что идентификационная кража в процессе пиар-рецензирования является серьезной проблемой, которая требует немедленного решения. Авторы предлагают ряд стратегий и технических решений, которые могут помочь в борьбе с этой проблемой. Будущие исследования могут сосредоточиться на разработке более совершенных методов аутентификации и мониторинга поведения рецензирующих. Также необходимо проводить регулярные аудиты процессов пиар-рецензирования для выявления и пресекания попыток мошенничества.

Annotation:

We discuss newly uncovered cases of identity theft in the scientific peer-review process within artificial intelligence (AI) research, with broader implications for other academic procedures. We detail how dishonest researchers exploit the peer-review system by creating fraudulent reviewer profiles to manipulate paper evaluations, leveraging weaknesses in reviewer recruitment workflows and identity verification processes. The findings highlight the critical need for stronger safeguards against i...

ID: 2508.04024v1 cs.DL, cs.AI, cs.CR

arXiv PDF

📄 A Hybrid AI Methodology for Generating Ontologies of Research Topics from Scientific Paper Corpora

2025-08-09

Авторы:

Alessia Pisu, Livio Pompianu, Francesco Osborne, Diego Reforgiato Recupero, Daniele Riboni, Angelo Salatino

## КОНТЕКСТ И ПРОБЛЕМАТИКА Разработка таксономий и онтологий исследовательских тем является ключевой задачей в области управления научным знанием. Такие ресурсы, например, MeSH, UMLS, CSO или NLM, обеспечивают основу для интеллектуальных систем, позволяющих анализировать и интерпретировать научную литературу. Однако традиционные подходы к созданию таких онтологий основывались на ручном кураторстве, что характеризуется высокой трудоемкостью, подверженностью устареванию и ограниченностью в гранулярности. Эти ограничения существенно снижают эффективность их использования в современных интеллектуальных системах. Проблема ускорения и улучшения процесса создания таксономий становится все более актуальной с увеличением объемов научных публикаций. Традиционные методы не справляются с высокой скоростью появления новых тем и их взаимосвязей. Кроме того, существующие онтологии часто не обладают достаточной детализацией для эффективного использования в современных приложениях, таких как научные системы поиска, рекомендательные системы или инструменты для анализа литературы. В данной работе предлагается решение этих проблем путем разработки методологии Sci-OG, которая объединяет автоматизированные и полуавтоматизированные подходы. Целью является создание более точных, актуальных и гранулярных онтологий исследовательских тем за счет интеграции технологий естественного языка и машинного обучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД Методология Sci-OG основывается на трех основных этапах: 1) Topic Discovery, 2) Relationship Classification, и 3) Ontology Construction. На этапе Topic Discovery выявляются потенциальные исследовательские темы путем анализа научных статей. Этот процесс основывается на идентификации ключевых фраз и терминов, которые потенциально могут представлять собой новые или существующие темы. На втором этапе, Relationship Classification, выполняется классификация семантических взаимосвязей между парами тем. Основным компонентом этого этапа является интеграция модели языка на основе энкодера с дополнительными признаками, описывающими встречаемость тем в научной литературе. Это позволяет точнее определять семантические отношения, такие как родственные, иерархические или ассоциативные связи между темами. На последнем этапе, Ontology Construction, производится организация и обогащение полученных тем в структурированную онтологию. Этот шаг включает в себя уточнение и переорганизацию взаимосвязей, создание иерархической структуры и проверку консистенции. Решение интегрирует энкодер-основу языковой модели совместно с метриками встречаемости тем, что позволяет достичь высокой точности классификации. Этот подход был протестирован на датасете из 21 649 ручной аннотации семантических троек, показав высокую эффективность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки методологии Sci-OG был использован датасет, содержащий 21 649 семантических троек, которые были ручной аннотированы. Эксперименты проводились сравнением с несколькими альтернативными подходами, включая SciBERT и другие модели языкового моделирования, такие как GPT4-mini. Результаты показали, что Sci-OG достигает наивысшего значения F1-меры (0.951), превосходя другие модели. Кроме того, был проведен исследовательский кейс, в котором Sci-OG была применена для расширения онтологии CSO в области кибербезопасности. Этот кейс демонстрирует практическую эффективность методологии в реальных условиях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемая методология имеет широкие возможности применения в области управления научным знанием. Sci-OG позволяет автоматизировать и ускорить процесс создания и обновления онтологий, что важно в условиях быстрого роста научных публикаций. Это открывает новые возможности для улучшения научных поисковых систем, рекомендательных сервисов и инструментов анализа литературы. Кроме того, Sci-OG может быть использована для расширения существующих онтологий, таких как CSO, в различных научных областях, что позволяет повысить их актуальность и гранулярность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Разработанная методология Sci-OG является важной шагом вперед в области автоматизации создания онтологий исследовательских тем. Её высокая точность и эффективность демонстрируют потенциал для практического использования в различных научных и технологических областях. В будущем можно рассмотреть возможность дальнейшего улучшения модели за счет интеграции более продвинутых языковых моделей и увеличения разнообразия данных для обучения. Также предлагается исследовать возможности применения этого подхода к другим областям, таким как медицина, биология или социальные науки.

Annotation:

Taxonomies and ontologies of research topics (e.g., MeSH, UMLS, CSO, NLM) play a central role in providing the primary framework through which intelligent systems can explore and interpret the literature. However, these resources have traditionally been manually curated, a process that is time-consuming, prone to obsolescence, and limited in granularity. This paper presents Sci-OG, a semi-auto\-mated methodology for generating research topic ontologies, employing a multi-step approach: 1) Topic ...

ID: 2508.04213v1 cs.DL, cs.AI, cs.IR

arXiv PDF

Показано 11 - 17 из 17 записей