📊 Статистика дайджестов
Всего дайджестов: 35039 Добавлено сегодня: 432
Последнее обновление: сегодня
Авторы:
Giacomo Radaelli, Jonah Lynch
```markdown
## Контекст
Область исследования связана с анализом и оценкой инновационных исследований, которая становится все более сложной в условиях конкуренции и перегрузки информацией. Авторы отмечают, что в связи с быстрым темпом научного прогресса становится все труднее оценивать и распределять ресурсы для новых научных предложений. Исследования авторов направлены на выявление структурных признаков в научных исследованиях, которые могли бы помочь в принятии обоснованных решений о приоритетах исследований.
## Метод
Авторы применяют методологию, основанную на машинном обучении, чтобы выявить структуры в научных исследованиях. Они обучают классификатор, который изучает фундаментальные признаки высокоцитируемых работ в сферах Компьютерных Наук, Физики и PubMed за период с 2010 по 2024 год. Архитектура классификатора включает в себя нейронные сети с дополнительными элементами, чтобы учесть сложности научных текстов. Набор данных включал тысячи работ, структурированных по ключевым признакам, таким как цитирование, сложность текста, ключевые слова и факторы влияния.
## Результаты
Классификатор стал маркером успеха в предсказании высокоцитируемых работ. Исследователи доказали, что существуют определенные структуры и характеристики, которые способствуют высокому цитированию. Они выявили, например, что значительная часть высокоцитируемых работ имеет определенную сложность языка, использует ключевые слова, связанные с новыми направлениями, и имеет высокий уровень влияния в широких научных сообществах.
## Значимость
Результаты исследований имеют практическое значение для различных дисциплин, так как они позволяют внедрить структурированный подход к оценке и принятию решений о развитии научных исследований. Эффективное применение классификатора помогает оптимизировать ресурсы и стимулировать инновационные направления в науке. Этот подход также может быть применен для развития новых технологий, включая системы рекомендаций и анализа текстов.
## Выводы
Авторы приходят к выводу, что существует структура в научных исследованиях, которую можно использовать для предсказания успешности работ. Они предлагают расширить исследования, включив дополнительные сферы исследований и улучшив точность классификатора. Будущие исследования также будут направлены на изучение динамики изменения этих структур в различных научных областях.
```
Annotation:
Information overload and the rapid pace of scientific advancement make it
increasingly difficult to evaluate and allocate resources to new research
proposals. Is there a structure to scientific discovery that could inform such
decisions? We present statistical evidence for such structure, by training a
classifier that successfully predicts high-citation research papers between
2010-2024 in the Computer Science, Physics, and PubMed domains.
📄 The Role of AI in Facilitating Interdisciplinary Collaboration: Evidence from AlphaFold
2025-08-21Авторы:
Naixuan Zhao, Chunli Wei, Xinyan Zhang, Jiang Li
## Контекст
Область исследования, связанная с использованием искусственного интеллекта (ИИ) в научных исследованиях, набирает все большую популярность. Несмотря на то, что ИИ показал свое влияние в различных областях, его мотивации и перспективы в сфере интеграции разных научных дисциплин остаются неполностью проанализированы. Эта проблема приобретает особую актуальность в контексте того, как ИИ может способствовать улучшению междисциплинарных сотрудничеств. Например, AlphaFold, мощная система сверточного нейронного аппарата, возникла как решение задач генетической структуры белков и стала сильным вдохновителем для исследователей. Однако нет ясности в том, насколько широко ИИ может достигать реальных успехов в сфере междисциплинарных исследований.
## Метод
Для изучения этого вопроса была проведена библиометрическая и статистическая оценка, основывающаяся на анализе 1 247 статей, связанных с AlphaFold, полученных из базы данных Scopus. Авторы использовали метод сравнения, чтобы провести анализ стилей и характеров междисциплинарного сотрудничества между группами, использовавшими AlphaFold, и теми, кто этого не делал. Для этого проводился долгий анализ видов авторских коллабораций и тематик в рамках каждой группы. Эта методология позволила выявить тонкие особенности в характере междисциплинарных взаимодействий, связанных с использованием AlphaFold.
## Результаты
Результаты исследования показали, что ИИ, представленный AlphaFold, привнес незначительного эффекта на увеличение междисциплинарных сотрудничеств в структурной биологии и компьютерных науках — всего 0,48%. В то же время, для других научных областей, таких как биоинформатика или физика, эффекты были незначимыми. Особенностью является то, что ИИ в некоторой степени усиливает требования к сотрудничеству с конкретными дисциплинами, однако эти требования оказываются ограниченными технологической демократизацией и другими факторами.
## Значимость
Эти результаты имеют значительные последствия для теории и практики междисциплинарных исследований. Они показывают, что ИИ, несмотря на свои технические достижения, не является автоматическим средством для объединения разных научных дисциплин. Этот результат может повлиять на стратегии развития ИИ, вынуждая исследователей стараться выстраивать более целенаправленные стратегии для поддержки междисциплинарных сотрудничеств.
## Выводы
Изучение влияния AlphaFold позволило делать вывод о том, что ИИ, несмотря на свои преимущества, имеет ограниченные возможности для того, чтобы значительно изменить характер междисципли
Annotation:
The acceleration of artificial intelligence (AI) in science is recognized and
many scholars have begun to explore its role in interdisciplinary
collaboration. However, the mechanisms and extent of this impact are still
unclear. This study, using AlphaFold's impact on structural biologists,
examines how AI technologies influence interdisciplinary collaborative
patterns. By analyzing 1,247 AlphaFold-related papers and 7,700 authors from
Scopus, we employ bibliometric analysis and causal inference ...
Авторы:
Mike Thelwall
## Контекст
Существует возрастающий интерес к использованию Больших Моделей Языка (LLM) для оценки качества исследований. Однако большинство исследований фокусируются на крупнейших моделях, таких как Google Gemini и ChatGPT 4o и 4o-mini. Менее изучено, могут ли меньшие модели, такие как Gemma-3-27b-it, давать аналогичные результаты. Узнать это важно для оптимизации затрат и внедрения моделей в ситуации, где необходима безопасность или конфиденциальность.
## Метод
Оценка качества исследований проводилась с использованием Google Gemma-3-27b-it, подготовленной на основе уменьшенной версии Gemma-3 с 27 миллиардами параметров. Оценка основывалась на сравнении её выдач с результатами оценки экспертами в 34 областях знаний, основанных на UK Research Excellence Framework 2021. Для избежания неточностей в оценке были проведены 5 повторений каждого эксперимента, чтобы проверить устойчивость результатов.
## Результаты
Проанализированы 104,187 статей. Gemma-3-27b-it демонстрировала положительную корреляцию с экспертными оценками во всех 34 областях. Её корреляции были 83.8% такой же сильной, как у ChatGPT 4o, и 94.7% — у ChatGPT 4o-mini. Однако повторение оценки не привело к значительным улучшениям результатов, что отличает Gemma-3-27b-it от более крупных моделей. Меньшая модель даёт достаточно точные результаты, но с менее выраженным диапазоном оценок и более узкой диапазоном вариаций стиля.
## Значимость
Полученные результаты показывают, что меньшие модели LLM могут быть эффективными для оценки качества исследований, что делает их применимыми в сценариях, где требуется экономия ресурсов или защищенная обработка данных. Это также открывает возможность использования моделей с меньшим размером в учёных работах, без потери качества оценки.
## Выводы
Наше исследование показывает, что качество оценки исследований не является априорной чертой только крупных моделей LLM. Меньшие модели, такие как Gemma-3-27b-it, также могут применяться для этих задач, что делает их полезными для широкого круга приложений. Будущие исследования следует уделить вниманию улучшению методов оценки качества и проверке повторяемости результатов.
Annotation:
Although both Google Gemini (1.5 Flash) and ChatGPT (4o and 4o-mini) give
research quality evaluation scores that correlate positively with expert scores
in nearly all fields, and more strongly that citations in most, it is not known
whether this is true for smaller Large Language Models (LLMs). In response,
this article assesses Google's Gemma-3-27b-it, a downloadable LLM (60Gb). The
results for 104,187 articles show that Gemma-3-27b-it scores correlate
positively with an expert research qualit...
Авторы:
Andrew Brown, Muhammad Roman, Barry Devereux
## Контекст
Генерируемые с помощью ИИ тексты становятся все более распространенными в различных приложениях, от поисковых систем до автоматизированных ответов. Однако ключевыми ограничениями остаются качество и точность получаемых ответов, которые часто не удовлетворяют потребностям пользователей. Эти проблемы напрямую связаны с невозможностью моделей генерировать высказывания, основанные на актуальных данных. Для решения этой проблемы возникла технология Retrieval-Augmented Generation (RAG), которая сочетает модели генерирования текста с системами поиска, позволяя генерировать ответы, гарантированно подкрепленные свежими и точными данными. Однако существует ограниченное число исследований, которые анализируют эффективность RAG и её технических аспектов. Это статья посвящена подробному анализу литературы, направленному на изучение технологии RAG, её методов, технических решений и ограничений.
## Метод
Для проведения систематического обзора литературы был выбран фреймворк PRISMA 2020. Использовались пять научных баз данных: ACM Digital Library, IEEE Xplore, Scopus, ScienceDirect и DBLP. Были заданы четкие критерии включения и исключения, основанные на числе цитирований и тематических вопросах. Особое внимание было уделено методологии, архитектуре и оценке эффективности RAG в различных приложениях. Была применена специальная методика для снижения **citation-lag bias**, которая позволила учесть свежие работы, в том числе со слабой цитируемостью, из-за их недавнего опубликования. Это обеспечило более точное отображение современного состояния исследований в области RAG.
## Результаты
Из 625 зарегистрированных статей было выбрано 128, удовлетворяющих критериям включения. Изучены архитектуры RAG, включающие нейронные сети для поиска и модели генерирования текста, а также метрики, используемые для оценки качества. Были выделены три основных типа RAG-систем: (i) встраиваемые модели, (ii) адаптивные системы, и (iii) системы, основанные на многоуровневых архитектурах. Также были проанализированы стандартные наборы данных и методы оценки качества, такие как BLEU, ROUGE и METEOR. Были выявлены значительные различия в качестве ответов, зависящие от архитектур и методов.
## Значимость
Результаты RAG имеют широкие применения в области научного поиска, вопросов-ответов, искусственного интеллекта в области здравоохранения, финансовых приложениях и других. Одним из преимуществ является повышение точности ответов, получаемых с помощью непосредственного доступа к данным. Это позволяет избежать ошибок, связанных с неточностью моделей генерирования.
Annotation:
This systematic review of the research literature on retrieval-augmented
generation (RAG) provides a focused analysis of the most highly cited studies
published between 2020 and May 2025. A total of 128 articles met our inclusion
criteria. The records were retrieved from ACM Digital Library, IEEE Xplore,
Scopus, ScienceDirect, and the Digital Bibliography and Library Project (DBLP).
RAG couples a neural retriever with a generative language model, grounding
output in up-to-date, non-parametric me...
📄 Accelerating Scientific Discovery with Multi-Document Summarization of Impact-Ranked Papers
2025-08-09Авторы:
Paris Koloveas, Serafeim Chatzopoulos, Dionysis Diamantis, Christos Tryfonopoulos, Thanasis Vergoulis
#### Резюме
В научной сфере растет количество публикаций, что усложняет процесс поиска и объединения существующих знаний. Даже при выявлении ценных работ необходимо прочитать множество заглавий и аннотаций, что требует много времени и может привести к несоответствию или несогласованности выводов. Мы предлагаем усовершенствовать широко известный сервис BIP! Finder, добавив возможность генерировать краткие и подробные сводки из результатов поиска, основанных на уровне влияния и популярности документов. Это решение позволяет быстро получить обзор литературы или подробный анализ, организованный вокруг важности документов. Наши результаты показывают, что данная комбинация существующих и новых функций ускоряет работу с литературой и помогает лучше ориентироваться в ней, улучшая продуктивность исследователей.
Annotation:
The growing volume of scientific literature makes it challenging for
scientists to move from a list of papers to a synthesized understanding of a
topic. Because of the constant influx of new papers on a daily basis, even if a
scientist identifies a promising set of papers, they still face the tedious
task of individually reading through dozens of titles and abstracts to make
sense of occasionally conflicting findings. To address this critical bottleneck
in the research workflow, we introduce a s...
Авторы:
Nihar B. Shah, Melisa Bok, Xukun Liu, Andrew McCallum
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Научная переписка и процесс пиар-рецензирования являются ключевыми элементами научного сообщества, обеспечивающими качество и ценность научных работ. Однако, как показывают новые исследования, этот процесс стал целью мошенничества, в том числе в области искусственного интеллекта (AI). Авторы статьи раскрывают случаи **идентификационного кражи** в процессе пиар-рецензирования в AI-конференциях, которые могут оказать значительное влияние на всю научную сферу.
Проблема заключается в том, что нечестные исследователи создают фальшивые профили рецензирующих с целью манипулирования оценками научных работ. Они используют слабые места в процессах набора рецензирующих и проверки их идентификации, что позволяет им обойти существующие контроли. Такие действия могут привести к несправедливому принятию или отклонению работ, которые могут не соответствовать высоким стандартам научности.
Эта проблема выходит за рамки отдельных случаев и представляет собой серьезную угрозу для всей системы научного сотрудничества. Она подчеркивает необходимость внедрения более строгих мер по защите процесса пиар-рецензирования от мошенничества, особенно в условиях цифровизации и глобализации научного процесса.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Для борьбы с идентификационной кражей в процессе пиар-рецензирования авторы предлагают ряд стратегий и технических решений. Одним из ключевых подходов является улучшение процедур проверки идентификации рецензирующих. Это включает в себя использование более надежных методов аутентификации, таких как двухфакторная аутентификация и проверка документов.
Кроме того, предлагается внедрение **систем мониторинга и анализа поведения** рецензирующих. Эти системы будут следить за тем, как рецензирующие взаимодействуют с платформами пиар-рецензирования, и выявлять подозрительные действия. Например, если рецензирующий постоянно одобряет работы из одной группы авторов или демонстрирует необычное поведение, это может быть признаком мошенничества.
Также предлагается создание системы **централизованного управления процессом пиар-рецензирования**, которая бы обеспечивала более прозрачность и контроль над всеми этапами процесса. Это позволит быстрее выявлять и пресекать попытки мошенничества.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Авторы провели исследование на основе данных из нескольких AI-конференций, где были выявлены случаи мошенничества. Они использовали различные методы анализа данных для выявления подозрительных действий рецензирующих.
Результаты показали, что в некоторых случаях фальшивые рецензирующие были созданы с целью одобрения работ, которые были написаны теми же людьми или их коллегами. Эти рецензирующие демонстрировали необычное поведение, такое как быстрая рецензирование и высокая частота одобрения.
Кроме того, исследование показало, что существующие системы проверки идентификации рецензирующих не всегда эффективны в выявлении мошенничества. Это подтверждает необходимость внедрения более строгих мер по защите процесса пиар-рецензирования.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Результаты этого исследования имеют значительное значение для всей научной сферы. Они подчеркивают необходимость внедрения более строгих мер по защите процесса пиар-рецензирования от мошенничества. Это может помочь обеспечить более честный и прозрачный процесс оценки научных работ.
Кроме того, предлагаемые методы могут быть применены не только в области AI, но и в других научных дисциплинах. Они могут помочь предотвратить мошенничество и обеспечить высокий уровень достоверности научных публикаций.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
В заключение, исследование показывает, что идентификационная кража в процессе пиар-рецензирования является серьезной проблемой, которая требует немедленного решения. Авторы предлагают ряд стратегий и технических решений, которые могут помочь в борьбе с этой проблемой.
Будущие исследования могут сосредоточиться на разработке более совершенных методов аутентификации и мониторинга поведения рецензирующих. Также необходимо проводить регулярные аудиты процессов пиар-рецензирования для выявления и пресекания попыток мошенничества.
Annotation:
We discuss newly uncovered cases of identity theft in the scientific
peer-review process within artificial intelligence (AI) research, with broader
implications for other academic procedures. We detail how dishonest researchers
exploit the peer-review system by creating fraudulent reviewer profiles to
manipulate paper evaluations, leveraging weaknesses in reviewer recruitment
workflows and identity verification processes. The findings highlight the
critical need for stronger safeguards against i...
📄 A Hybrid AI Methodology for Generating Ontologies of Research Topics from Scientific Paper Corpora
2025-08-09Авторы:
Alessia Pisu, Livio Pompianu, Francesco Osborne, Diego Reforgiato Recupero, Daniele Riboni, Angelo Salatino
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Разработка таксономий и онтологий исследовательских тем является ключевой задачей в области управления научным знанием. Такие ресурсы, например, MeSH, UMLS, CSO или NLM, обеспечивают основу для интеллектуальных систем, позволяющих анализировать и интерпретировать научную литературу. Однако традиционные подходы к созданию таких онтологий основывались на ручном кураторстве, что характеризуется высокой трудоемкостью, подверженностью устареванию и ограниченностью в гранулярности. Эти ограничения существенно снижают эффективность их использования в современных интеллектуальных системах.
Проблема ускорения и улучшения процесса создания таксономий становится все более актуальной с увеличением объемов научных публикаций. Традиционные методы не справляются с высокой скоростью появления новых тем и их взаимосвязей. Кроме того, существующие онтологии часто не обладают достаточной детализацией для эффективного использования в современных приложениях, таких как научные системы поиска, рекомендательные системы или инструменты для анализа литературы.
В данной работе предлагается решение этих проблем путем разработки методологии Sci-OG, которая объединяет автоматизированные и полуавтоматизированные подходы. Целью является создание более точных, актуальных и гранулярных онтологий исследовательских тем за счет интеграции технологий естественного языка и машинного обучения.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Методология Sci-OG основывается на трех основных этапах: 1) Topic Discovery, 2) Relationship Classification, и 3) Ontology Construction. На этапе Topic Discovery выявляются потенциальные исследовательские темы путем анализа научных статей. Этот процесс основывается на идентификации ключевых фраз и терминов, которые потенциально могут представлять собой новые или существующие темы.
На втором этапе, Relationship Classification, выполняется классификация семантических взаимосвязей между парами тем. Основным компонентом этого этапа является интеграция модели языка на основе энкодера с дополнительными признаками, описывающими встречаемость тем в научной литературе. Это позволяет точнее определять семантические отношения, такие как родственные, иерархические или ассоциативные связи между темами.
На последнем этапе, Ontology Construction, производится организация и обогащение полученных тем в структурированную онтологию. Этот шаг включает в себя уточнение и переорганизацию взаимосвязей, создание иерархической структуры и проверку консистенции.
Решение интегрирует энкодер-основу языковой модели совместно с метриками встречаемости тем, что позволяет достичь высокой точности классификации. Этот подход был протестирован на датасете из 21 649 ручной аннотации семантических троек, показав высокую эффективность.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Для оценки методологии Sci-OG был использован датасет, содержащий 21 649 семантических троек, которые были ручной аннотированы. Эксперименты проводились сравнением с несколькими альтернативными подходами, включая SciBERT и другие модели языкового моделирования, такие как GPT4-mini. Результаты показали, что Sci-OG достигает наивысшего значения F1-меры (0.951), превосходя другие модели.
Кроме того, был проведен исследовательский кейс, в котором Sci-OG была применена для расширения онтологии CSO в области кибербезопасности. Этот кейс демонстрирует практическую эффективность методологии в реальных условиях.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Предлагаемая методология имеет широкие возможности применения в области управления научным знанием. Sci-OG позволяет автоматизировать и ускорить процесс создания и обновления онтологий, что важно в условиях быстрого роста научных публикаций. Это открывает новые возможности для улучшения научных поисковых систем, рекомендательных сервисов и инструментов анализа литературы.
Кроме того, Sci-OG может быть использована для расширения существующих онтологий, таких как CSO, в различных научных областях, что позволяет повысить их актуальность и гранулярность.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
Разработанная методология Sci-OG является важной шагом вперед в области автоматизации создания онтологий исследовательских тем. Её высокая точность и эффективность демонстрируют потенциал для практического использования в различных научных и технологических областях.
В будущем можно рассмотреть возможность дальнейшего улучшения модели за счет интеграции более продвинутых языковых моделей и увеличения разнообразия данных для обучения. Также предлагается исследовать возможности применения этого подхода к другим областям, таким как медицина, биология или социальные науки.
Annotation:
Taxonomies and ontologies of research topics (e.g., MeSH, UMLS, CSO, NLM)
play a central role in providing the primary framework through which
intelligent systems can explore and interpret the literature. However, these
resources have traditionally been manually curated, a process that is
time-consuming, prone to obsolescence, and limited in granularity. This paper
presents Sci-OG, a semi-auto\-mated methodology for generating research topic
ontologies, employing a multi-step approach: 1) Topic ...
Показано 11 -
17
из 17 записей