📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 Big Tech-Funded AI Papers Have Higher Citation Impact, Greater Insularity, and Larger Recency Bias

2025-12-08

Авторы:

Max Martin Gnewuch, Jan Philip Wahle, Terry Ruas, Bela Gipp

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Over the past four decades, artificial intelligence (AI) research has flourished at the nexus of academia and industry. However, Big Tech companies have increasingly acquired the edge in computational resources, big data, and talent. So far, it has been largely unclear how many papers the industry funds, how their citation impact compares to non-funded papers, and what drives industry interest. This study fills that gap by quantifying the number of industry-funded papers at 10 top AI conferences...

ID: 2512.05714v1 cs.DL, cs.AI, cs.CL

arXiv PDF

📄 ARISE: Agentic Rubric-Guided Iterative Survey Engine for Automated Scholarly Paper Generation

2025-11-25

Авторы:

Zi Wang, Xingqiao Wang, Sangah Lee, Xiaowei Xu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The rapid expansion of scholarly literature presents significant challenges in synthesizing comprehensive, high-quality academic surveys. Recent advancements in agentic systems offer considerable promise for automating tasks that traditionally require human expertise, including literature review, synthesis, and iterative refinement. However, existing automated survey-generation solutions often suffer from inadequate quality control, poor formatting, and limited adaptability to iterative feedback...

ID: 2511.17689v1 cs.DL, cs.AI

arXiv PDF

📄 Moving Pictures of Thought: Extracting Visual Knowledge in Charles S. Peirce's Manuscripts with Vision-Language Models

2025-11-19

Авторы:

Carlo Teo Pedretti, Davide Picca, Dario Rodighiero

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Diagrams are crucial yet underexplored tools in many disciplines, demonstrating the close connection between visual representation and scholarly reasoning. However, their iconic form poses obstacles to visual studies, intermedial analysis, and text-based digital workflows. In particular, Charles S. Peirce consistently advocated the use of diagrams as essential for reasoning and explanation. His manuscripts, often combining textual content with complex visual artifacts, provide a challenging case...

ID: 2511.13378v1 cs.DL, cs.AI, cs.LG, cs.MM

arXiv PDF

📄 AI Literacy in UAE Libraries: Assessing Competencies, Training Needs, and Ethical Considerations for the Digital Age

2025-11-06

Авторы:

Zafar Imam Khan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The study explores the current state of artificial intelligence (AI) literacy levels among library professionals employing a quantitative approach consisting of 92 surveys of LIS professionals in the United Arab Emirates (UAE). Findings of the study revealed the presence of strong cognitive competencies, while there were gaps observed in behavioral and normative competencies, especially related to AI biases, AI-powered learning, and ethical considerations. There was a disconnect observed between...

ID: 2511.01353v1 cs.DL, cs.AI

arXiv PDF

📄 Can Small and Reasoning Large Language Models Score Journal Articles for Research Quality and Do Averaging and Few-shot Help?

2025-10-29

Авторы:

Mike Thelwall, Ehsan Mohammadi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Assessing published academic journal articles is a common task for evaluations of departments and individuals. Whilst it is sometimes supported by citation data, Large Language Models (LLMs) may give more useful indications of article quality. Evidence of this capability exists for two of the largest LLM families, ChatGPT and Gemini, and the medium sized LLM Gemma3 27b, but it is unclear whether smaller LLMs and reasoning models have similar abilities. This is important because larger models may...

ID: 2510.22389v1 cs.DL, cs.AI

arXiv PDF

📄 Publication Trend Analysis and Synthesis via Large Language Model: A Case Study of Engineering in PNAS

2025-10-22

Авторы:

Mason Smetana, Lev Khazanovich

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Scientific literature is increasingly siloed by complex language, static disciplinary structures, and potentially sparse keyword systems, making it cumbersome to capture the dynamic nature of modern science. This study addresses these challenges by introducing an adaptable large language model (LLM)-driven framework to quantify thematic trends and map the evolving landscape of scientific knowledge. The approach is demonstrated over a 20-year collection of more than 1,500 engineering articles pub...

ID: 2510.16152v1 cs.DL, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Layout-Aware OCR for Black Digital Archives with Unsupervised Evaluation

2025-09-18

Авторы:

Fitsum Sileshi Beyene, Christopher L. Dancy

## Контекст Область исследования, связанная с Optical Character Recognition (OCR) для текстов в черных цифровых архивных носителях, становится все более актуальной в исследовательских и практических задачах. Многие цифровые архивы, включая новостные издания и старые документы, имеют специфические особенности типографии, визуальных деградаций и нестандартных логик разметки, что затрудняет автоматическую распознавание текста и требует развития специализированных подходов. Большинство существующих систем OCR не учитывают эти факторы, что приводит к ошибкам и неточностям в текстовом распознавании. Эта проблема является особенно актуальной для цифровых архивов черных сообществ, где существуют уникальные требования к сохранению структуры и логики разметки текста. В нашей работе мы сосредотачиваемся на этих характеристиках и предлагаем систему OCR, учитывающую логику разметки, которая включает в себя методы машинного обучения и анализа структуры текста. ## Метод Мы предлагаем разработанную систему OCR, ориентированную на разметку, которая использует сочетание нескольких технических приемов. Методология включает в себя синтетическое генерирование структурных логик разметки, виртуальное моделирование различных стилей типографии и автоматическое адаптирование моделей распознавания текста. Используется модель You Only Look Once (YOLO), адаптированная для распознавания сложных разметок. Мы также внедрили метод нейронной сети для обучения моделей с учетом контекста текста, что позволило увеличить точность распознавания в текстах, характерных для черных цифровых архивов. Использование автоматических оценочных параметров позволяет сравнить результаты с исходными данными и убедиться в том, что модель учитывает специфику разметки. ## Результаты Мы проверили нашу систему OCR на датасете, состоящем из 400 страниц из 10 различных черных цифровых архивов. Наши результаты показали, что логика разметки текста, учтенная в нашей системе, приводит к значительному повышению точности в распознавании текста и сохранению структуры. Мы также приложили три оценочных метрики: Semantic Coherence Score (SCS), Region Entropy (RE) и Textual Redundancy Score (TRS), которые помогли измерить не только точность распознавания, но и качество сохранения семантической логики и убедиться в том, что модель не утрачивает информативности в тексте. ## Значимость Наша работа имеет большое значение для сохранения и анализа цифровых архивов черных сообществ. Она может быть применена в различных областях, включая хранение и анализ исторических документов, создание моделей для распознавания текста в специ

Annotation:

Despite their cultural and historical significance, Black digital archives continue to be a structurally underrepresented area in AI research and infrastructure. This is especially evident in efforts to digitize historical Black newspapers, where inconsistent typography, visual degradation, and limited annotated layout data hinder accurate transcription, despite the availability of various systems that claim to handle optical character recognition (OCR) well. In this short paper, we present a la...

ID: 2509.13236v1 cs.DL, cs.AI

arXiv PDF

📄 Animer une base de connaissance: des ontologies aux mod{è}les d'I.A. g{é}n{é}rative

2025-09-05

Авторы:

Peter Stockinger

## Контекст В условиях вырастающего интереса к неантропоцентрическим аналитическим моделям в области социальных и гуманитарных наук, данная статья предлагает семиотический (структурный) подход к гибридизации символьной ИИ и нейронаучной (или под-символьной) ИИ в контексте разработки и использования знаний базы для областей исследований. Авторы описывают экосистему LaCAS (Open Archives in Linguistic and Cultural Studies), которая включает в себя таксономию, RDF/OWL-онтологию, сервисы Linked Open Data (LOD), сборку и экспертную деятельность, а также публикационные функции. Эта система развернута в Национальном Институте Вост Acronym (INA) в Париже и использует программный комплекс Okapi (Open Knowledge and Annotation Interface) для управления документами. LaCAS в настоящее время содержит около 160 000 документальных ресурсов и десять макро-областей знаний, собравших несколько тысяч компонентов. Особое внимание уделяется значимости исследований в области языков мира (около 540 языков) и конкретному языку (например, кечуа). ## Метод Проект LaCAS разработан с использованием гибридной модели, объединяющей моделируемый и данным-ориентированный подходы. Он использует стандартные технологии Интернета ресурсов (RDF, OWL) и программное обеспечение Okapi для управления документами. Система Okapi обеспечивает интерфейс для управления знаниями, включая разработку тематических коллекций, агрегацию индексов, поиск и внедрение подсказок. База знаний построена на основе терминологического словаря и использует семантические технологии (RDF/OWL) для организации знаний. Особенностью методологии является применение контекстуализированных моделей для генерации процесса разработки контекстуальных моделей, а также для оценки и интеграции нейронных моделей. ## Результаты В рамках экспериментов использовались данные из LaCAS, включая около 160 000 ресурсов и 10 макро-областей знаний. Авторы проводили подробный анализ структуры базы знаний, в том числе тематических коллекций и семантических связей. Они применяли контекстуализированные модели для генерации контекстуальных моделей и интеграции нейронных моделей. На примере языка кечуа были продемонстрированы возможности системы для выявления и агрегирования индексов, поиска связанных сведений и предложения контекстуальных моделей. Эти результаты позволяют увидеть, как гибридный подход обеспечивает эффективное управление базой знаний, сохраняя структурные значимости. ## Значимость Результаты имеют широкое применение в области контролируемого использования нейронных технологий в гуманитарных

Annotation:

In a context where the social sciences and humanities are experimenting with non-anthropocentric analytical frames, this article proposes a semiotic (structural) reading of the hybridization between symbolic AI and neural (or sub-symbolic) AI based on a field of application: the design and use of a knowledge base for area studies. We describe the LaCAS ecosystem -- Open Archives in Linguistic and Cultural Studies (thesaurus; RDF/OWL ontology; LOD services; harvesting; expertise; publication), de...

ID: 2509.01304v1 cs.DL, cs.AI

arXiv PDF

📄 Named Entity Recognition of Historical Text via Large Language Model

2025-08-27

Авторы:

Shibingfeng Zhang, Giovanni Colavizza

#### Контекст Именная распознавательная сеть (NER) — это задача в области естественного языка, нацеленная на определение и классификацию именованных сущностей (таких как люди, организации, места, даты и другие) в тексте. Она является ключевым элементом для извлечения информации из неструктурированных текстов и подготовки данных для последующих приложений, таких как поиск информации. Однако, в случае исторических текстов, задача NER становится значительно сложнее ввиду нехватки или отсутствия достаточных объемов отмеченных данных, связанной с высокой стоимостью и требованиями к эксперту при ма MANUAL annotation. Более того, специфика языка исторических текстов, включая ковариацию стиля, архаический словарь и несогласованность в аппликации, создает дополнительные сложности для разработки эффективных систем NER для этих источников. #### Метод Мы исследуем возможность применения больших языковых моделей (LLM) для решения задачи NER в исторических текстах с помощью так называемых zero-shot и few-shot prompting стратегий. Эти подходы позволяют использовать готовые модели без необходимости повторной обучения для конкретной задачи, что экономит ресурсы и упрощает процесс. LLMs обладают универсальными свойствами, позволяющими им выполнять широкий спектр задач, включая NER. Мы применяем эти методы к датасету HIPE-2022 (Identifying Historical People, Places and other Entities), который содержит исторические тексты с разными сущностями, такими как люди, места и даты. Мы измеряем результаты, сравнивая их с супервизированными моделями, которые используют традиционные методы машинного обучения. #### Результаты В результате экспериментов, проведенных на HIPE-2022, мы обнаружили, что LLMs, использующие zero-shot и few-shot prompting, сумели достичь приемлемого уровня точности в NER, в пределах 80-90% в зависимости от сущности. Хотя они не достигли уровня традиционных моделей, обученных на конкретной тематике, результаты показали значительную эффективность в решении задач NER для исторических текстов. Это заметно в случаях, когда традиционные методы не могут быть применены из-за отсутствия данных для обучения. Мы также отметили, что LLMs показывают устойчивый результат при распознавании разных сущностей, но остаются недостатки в обработке текстов с высокой грамматической и стилистической переменой. #### Значимость Наша работа открывает новые перспективы для применения LLMs в сфере исторических исследований, где доступ к отмеченным данным ограничен. Эти модели могут быть использованы для извлечения информации из текстов, которые не были ранее проанализированы из-за проблем с данными. Кроме того, LLMs предоста

Annotation:

Large language models have demonstrated remarkable versatility across a wide range of natural language processing tasks and domains. One such task is Named Entity Recognition (NER), which involves identifying and classifying proper names in text, such as people, organizations, locations, dates, and other specific entities. NER plays a crucial role in extracting information from unstructured textual data, enabling downstream applications such as information retrieval from unstructured text. Tra...

ID: 2508.18090v1 cs.DL, cs.AI, cs.CL

arXiv PDF

📄 Information Ecosystem Reengineering via Public Sector Knowledge Representation

2025-08-26

Авторы:

Mayukh Bagchi

## Контекст В условиях цифровой трансформации публичных секторов и усиления интеллектуальных государственных платформ становится ключевым выполнять технологическую переобучку информационных источников, сервисов и систем — Information Ecosystem Reengineering (IER). Такая переобучка требует учитывать многоуровневую структуру предметной области, в которой взаимодействие субъектов происходит через разнообразные каналы смысла, языка и понятийных связей. Данная сложность часто приводит к неполноте или неточности решений при реинжиниринге. Мотивированы тем, чтобы обеспечить прозрачность, трассируемость и эффективность таких процессов, автор предлагает новый подход — Representation Disentanglement. Этот подход целью имеет разделить сложную структуру представления знаний на отдельные слои, чтобы повысить удобочитаемость и поддерживать аудиту составляющих будущих решений. ## Метод Предлагаемый подход основывается на онтологии-драйвенной моделировании, широко применяемой в системном анализе и реинжиниринге. Разделение знаний взято на несколько уровней: 1) семантическое разделение понятий и связей, 2) логическое описание структуры информации, 3) применение техник машинного обучения для интеллектуальной обработки данных. Технологический стек включает в себя моделирование на основе терминологических сетей, индексацию знаний с использованием семантических поисковых систем и применение гибридных моделей, объединяющих технические и аналитические моделирования. Этот подход позволяет не только разделить знания, но и сделать их трассируемыми для последующих аналитических и решающих процессов. ## Результаты Исследования проводятся на реальных данных открытых секторов, включая государственные порталы и сервисы. Наблюдается улучшение транспарентности и уменьшение конфликтующих представлений в одних и тех же данных. Особое внимание уделяется улучшению удобочитаемости решений для государственных систем, что позволяет улучшить уровень доверия к решениям, опирающимся на AI. Результаты показывают, что применение Representation Disentanglement приводит к улучшению качества реинжиниринга и повышению эффективности управления знаниями в государственных системах. ## Значимость Предложенный подход может применяться в различных областях, включая управление государственными системами, транспарентное управление ресурсами и услугами, а также в сегменте цифровой трансформации государственных услуг. Он повышает уровень транспарентности и соблюдения нормативных требований в системах AI-ориентированных управлений. Разделение

Annotation:

Information Ecosystem Reengineering (IER) -- the technological reconditioning of information sources, services, and systems within a complex information ecosystem -- is a foundational challenge in the digital transformation of public sector services and smart governance platforms. From a semantic knowledge management perspective, IER becomes especially entangled due to the potentially infinite number of possibilities in its conceptualization, namely, as a result of manifoldness in the multi-leve...

ID: 2508.15916v1 cs.DL, cs.AI

arXiv PDF

Показано 1 - 10 из 17 записей