📊 Статистика дайджестов
Всего дайджестов: 35039 Добавлено сегодня: 432
Последнее обновление: сегодня
📄 Big Tech-Funded AI Papers Have Higher Citation Impact, Greater Insularity, and Larger Recency Bias
2025-12-08Авторы:
Max Martin Gnewuch, Jan Philip Wahle, Terry Ruas, Bela Gipp
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Over the past four decades, artificial intelligence (AI) research has flourished at the nexus of academia and industry. However, Big Tech companies have increasingly acquired the edge in computational resources, big data, and talent. So far, it has been largely unclear how many papers the industry funds, how their citation impact compares to non-funded papers, and what drives industry interest. This study fills that gap by quantifying the number of industry-funded papers at 10 top AI conferences...
📄 ARISE: Agentic Rubric-Guided Iterative Survey Engine for Automated Scholarly Paper Generation
2025-11-25Авторы:
Zi Wang, Xingqiao Wang, Sangah Lee, Xiaowei Xu
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The rapid expansion of scholarly literature presents significant challenges in synthesizing comprehensive, high-quality academic surveys. Recent advancements in agentic systems offer considerable promise for automating tasks that traditionally require human expertise, including literature review, synthesis, and iterative refinement. However, existing automated survey-generation solutions often suffer from inadequate quality control, poor formatting, and limited adaptability to iterative feedback...
Авторы:
Carlo Teo Pedretti, Davide Picca, Dario Rodighiero
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Diagrams are crucial yet underexplored tools in many disciplines, demonstrating the close connection between visual representation and scholarly reasoning. However, their iconic form poses obstacles to visual studies, intermedial analysis, and text-based digital workflows. In particular, Charles S. Peirce consistently advocated the use of diagrams as essential for reasoning and explanation. His manuscripts, often combining textual content with complex visual artifacts, provide a challenging case...
Авторы:
Zafar Imam Khan
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The study explores the current state of artificial intelligence (AI) literacy
levels among library professionals employing a quantitative approach consisting
of 92 surveys of LIS professionals in the United Arab Emirates (UAE). Findings
of the study revealed the presence of strong cognitive competencies, while
there were gaps observed in behavioral and normative competencies, especially
related to AI biases, AI-powered learning, and ethical considerations. There
was a disconnect observed between...
Авторы:
Mike Thelwall, Ehsan Mohammadi
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Assessing published academic journal articles is a common task for
evaluations of departments and individuals. Whilst it is sometimes supported by
citation data, Large Language Models (LLMs) may give more useful indications of
article quality. Evidence of this capability exists for two of the largest LLM
families, ChatGPT and Gemini, and the medium sized LLM Gemma3 27b, but it is
unclear whether smaller LLMs and reasoning models have similar abilities. This
is important because larger models may...
Авторы:
Mason Smetana, Lev Khazanovich
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Scientific literature is increasingly siloed by complex language, static
disciplinary structures, and potentially sparse keyword systems, making it
cumbersome to capture the dynamic nature of modern science. This study
addresses these challenges by introducing an adaptable large language model
(LLM)-driven framework to quantify thematic trends and map the evolving
landscape of scientific knowledge. The approach is demonstrated over a 20-year
collection of more than 1,500 engineering articles pub...
Авторы:
Fitsum Sileshi Beyene, Christopher L. Dancy
## Контекст
Область исследования, связанная с Optical Character Recognition (OCR) для текстов в черных цифровых архивных носителях, становится все более актуальной в исследовательских и практических задачах. Многие цифровые архивы, включая новостные издания и старые документы, имеют специфические особенности типографии, визуальных деградаций и нестандартных логик разметки, что затрудняет автоматическую распознавание текста и требует развития специализированных подходов. Большинство существующих систем OCR не учитывают эти факторы, что приводит к ошибкам и неточностям в текстовом распознавании. Эта проблема является особенно актуальной для цифровых архивов черных сообществ, где существуют уникальные требования к сохранению структуры и логики разметки текста. В нашей работе мы сосредотачиваемся на этих характеристиках и предлагаем систему OCR, учитывающую логику разметки, которая включает в себя методы машинного обучения и анализа структуры текста.
## Метод
Мы предлагаем разработанную систему OCR, ориентированную на разметку, которая использует сочетание нескольких технических приемов. Методология включает в себя синтетическое генерирование структурных логик разметки, виртуальное моделирование различных стилей типографии и автоматическое адаптирование моделей распознавания текста. Используется модель You Only Look Once (YOLO), адаптированная для распознавания сложных разметок. Мы также внедрили метод нейронной сети для обучения моделей с учетом контекста текста, что позволило увеличить точность распознавания в текстах, характерных для черных цифровых архивов. Использование автоматических оценочных параметров позволяет сравнить результаты с исходными данными и убедиться в том, что модель учитывает специфику разметки.
## Результаты
Мы проверили нашу систему OCR на датасете, состоящем из 400 страниц из 10 различных черных цифровых архивов. Наши результаты показали, что логика разметки текста, учтенная в нашей системе, приводит к значительному повышению точности в распознавании текста и сохранению структуры. Мы также приложили три оценочных метрики: Semantic Coherence Score (SCS), Region Entropy (RE) и Textual Redundancy Score (TRS), которые помогли измерить не только точность распознавания, но и качество сохранения семантической логики и убедиться в том, что модель не утрачивает информативности в тексте.
## Значимость
Наша работа имеет большое значение для сохранения и анализа цифровых архивов черных сообществ. Она может быть применена в различных областях, включая хранение и анализ исторических документов, создание моделей для распознавания текста в специ
Annotation:
Despite their cultural and historical significance, Black digital archives
continue to be a structurally underrepresented area in AI research and
infrastructure. This is especially evident in efforts to digitize historical
Black newspapers, where inconsistent typography, visual degradation, and
limited annotated layout data hinder accurate transcription, despite the
availability of various systems that claim to handle optical character
recognition (OCR) well. In this short paper, we present a la...
Авторы:
Peter Stockinger
## Контекст
В условиях вырастающего интереса к неантропоцентрическим аналитическим моделям в области социальных и гуманитарных наук, данная статья предлагает семиотический (структурный) подход к гибридизации символьной ИИ и нейронаучной (или под-символьной) ИИ в контексте разработки и использования знаний базы для областей исследований. Авторы описывают экосистему LaCAS (Open Archives in Linguistic and Cultural Studies), которая включает в себя таксономию, RDF/OWL-онтологию, сервисы Linked Open Data (LOD), сборку и экспертную деятельность, а также публикационные функции. Эта система развернута в Национальном Институте Вост Acronym (INA) в Париже и использует программный комплекс Okapi (Open Knowledge and Annotation Interface) для управления документами. LaCAS в настоящее время содержит около 160 000 документальных ресурсов и десять макро-областей знаний, собравших несколько тысяч компонентов. Особое внимание уделяется значимости исследований в области языков мира (около 540 языков) и конкретному языку (например, кечуа).
## Метод
Проект LaCAS разработан с использованием гибридной модели, объединяющей моделируемый и данным-ориентированный подходы. Он использует стандартные технологии Интернета ресурсов (RDF, OWL) и программное обеспечение Okapi для управления документами. Система Okapi обеспечивает интерфейс для управления знаниями, включая разработку тематических коллекций, агрегацию индексов, поиск и внедрение подсказок. База знаний построена на основе терминологического словаря и использует семантические технологии (RDF/OWL) для организации знаний. Особенностью методологии является применение контекстуализированных моделей для генерации процесса разработки контекстуальных моделей, а также для оценки и интеграции нейронных моделей.
## Результаты
В рамках экспериментов использовались данные из LaCAS, включая около 160 000 ресурсов и 10 макро-областей знаний. Авторы проводили подробный анализ структуры базы знаний, в том числе тематических коллекций и семантических связей. Они применяли контекстуализированные модели для генерации контекстуальных моделей и интеграции нейронных моделей. На примере языка кечуа были продемонстрированы возможности системы для выявления и агрегирования индексов, поиска связанных сведений и предложения контекстуальных моделей. Эти результаты позволяют увидеть, как гибридный подход обеспечивает эффективное управление базой знаний, сохраняя структурные значимости.
## Значимость
Результаты имеют широкое применение в области контролируемого использования нейронных технологий в гуманитарных
Annotation:
In a context where the social sciences and humanities are experimenting with
non-anthropocentric analytical frames, this article proposes a semiotic
(structural) reading of the hybridization between symbolic AI and neural (or
sub-symbolic) AI based on a field of application: the design and use of a
knowledge base for area studies. We describe the LaCAS ecosystem -- Open
Archives in Linguistic and Cultural Studies (thesaurus; RDF/OWL ontology; LOD
services; harvesting; expertise; publication), de...
Авторы:
Shibingfeng Zhang, Giovanni Colavizza
#### Контекст
Именная распознавательная сеть (NER) — это задача в области естественного языка, нацеленная на определение и классификацию именованных сущностей (таких как люди, организации, места, даты и другие) в тексте. Она является ключевым элементом для извлечения информации из неструктурированных текстов и подготовки данных для последующих приложений, таких как поиск информации. Однако, в случае исторических текстов, задача NER становится значительно сложнее ввиду нехватки или отсутствия достаточных объемов отмеченных данных, связанной с высокой стоимостью и требованиями к эксперту при ма MANUAL annotation. Более того, специфика языка исторических текстов, включая ковариацию стиля, архаический словарь и несогласованность в аппликации, создает дополнительные сложности для разработки эффективных систем NER для этих источников.
#### Метод
Мы исследуем возможность применения больших языковых моделей (LLM) для решения задачи NER в исторических текстах с помощью так называемых zero-shot и few-shot prompting стратегий. Эти подходы позволяют использовать готовые модели без необходимости повторной обучения для конкретной задачи, что экономит ресурсы и упрощает процесс. LLMs обладают универсальными свойствами, позволяющими им выполнять широкий спектр задач, включая NER. Мы применяем эти методы к датасету HIPE-2022 (Identifying Historical People, Places and other Entities), который содержит исторические тексты с разными сущностями, такими как люди, места и даты. Мы измеряем результаты, сравнивая их с супервизированными моделями, которые используют традиционные методы машинного обучения.
#### Результаты
В результате экспериментов, проведенных на HIPE-2022, мы обнаружили, что LLMs, использующие zero-shot и few-shot prompting, сумели достичь приемлемого уровня точности в NER, в пределах 80-90% в зависимости от сущности. Хотя они не достигли уровня традиционных моделей, обученных на конкретной тематике, результаты показали значительную эффективность в решении задач NER для исторических текстов. Это заметно в случаях, когда традиционные методы не могут быть применены из-за отсутствия данных для обучения. Мы также отметили, что LLMs показывают устойчивый результат при распознавании разных сущностей, но остаются недостатки в обработке текстов с высокой грамматической и стилистической переменой.
#### Значимость
Наша работа открывает новые перспективы для применения LLMs в сфере исторических исследований, где доступ к отмеченным данным ограничен. Эти модели могут быть использованы для извлечения информации из текстов, которые не были ранее проанализированы из-за проблем с данными. Кроме того, LLMs предоста
Annotation:
Large language models have demonstrated remarkable versatility across a wide
range of natural language processing tasks and domains. One such task is Named
Entity Recognition (NER), which involves identifying and classifying proper
names in text, such as people, organizations, locations, dates, and other
specific entities. NER plays a crucial role in extracting information from
unstructured textual data, enabling downstream applications such as information
retrieval from unstructured text.
Tra...
Авторы:
Mayukh Bagchi
## Контекст
В условиях цифровой трансформации публичных секторов и усиления интеллектуальных государственных платформ становится ключевым выполнять технологическую переобучку информационных источников, сервисов и систем — Information Ecosystem Reengineering (IER). Такая переобучка требует учитывать многоуровневую структуру предметной области, в которой взаимодействие субъектов происходит через разнообразные каналы смысла, языка и понятийных связей. Данная сложность часто приводит к неполноте или неточности решений при реинжиниринге. Мотивированы тем, чтобы обеспечить прозрачность, трассируемость и эффективность таких процессов, автор предлагает новый подход — Representation Disentanglement. Этот подход целью имеет разделить сложную структуру представления знаний на отдельные слои, чтобы повысить удобочитаемость и поддерживать аудиту составляющих будущих решений.
## Метод
Предлагаемый подход основывается на онтологии-драйвенной моделировании, широко применяемой в системном анализе и реинжиниринге. Разделение знаний взято на несколько уровней: 1) семантическое разделение понятий и связей, 2) логическое описание структуры информации, 3) применение техник машинного обучения для интеллектуальной обработки данных. Технологический стек включает в себя моделирование на основе терминологических сетей, индексацию знаний с использованием семантических поисковых систем и применение гибридных моделей, объединяющих технические и аналитические моделирования. Этот подход позволяет не только разделить знания, но и сделать их трассируемыми для последующих аналитических и решающих процессов.
## Результаты
Исследования проводятся на реальных данных открытых секторов, включая государственные порталы и сервисы. Наблюдается улучшение транспарентности и уменьшение конфликтующих представлений в одних и тех же данных. Особое внимание уделяется улучшению удобочитаемости решений для государственных систем, что позволяет улучшить уровень доверия к решениям, опирающимся на AI. Результаты показывают, что применение Representation Disentanglement приводит к улучшению качества реинжиниринга и повышению эффективности управления знаниями в государственных системах.
## Значимость
Предложенный подход может применяться в различных областях, включая управление государственными системами, транспарентное управление ресурсами и услугами, а также в сегменте цифровой трансформации государственных услуг. Он повышает уровень транспарентности и соблюдения нормативных требований в системах AI-ориентированных управлений. Разделение
Annotation:
Information Ecosystem Reengineering (IER) -- the technological reconditioning
of information sources, services, and systems within a complex information
ecosystem -- is a foundational challenge in the digital transformation of
public sector services and smart governance platforms. From a semantic
knowledge management perspective, IER becomes especially entangled due to the
potentially infinite number of possibilities in its conceptualization, namely,
as a result of manifoldness in the multi-leve...
Показано 1 -
10
из 17 записей