📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Annif at the GermEval-2025 LLMs4Subjects Task: Traditional XMTC Augmented by Efficient LLMs

2025-08-25

Авторы:

Osma Suominen, Juho Inkinen, Mona Lehtinen

## Контекст В статье представлена система Annif в рамках задачи GermEval-2025 LLMs4Subjects (Subtask 2). Задача подразумевала создание предсказаний по темам библиографических записей с использованием больших языковых моделей, с фокусом на эффективности вычислений. Этот объект исследования является важной задачей в области автоматического классификационного индексирования библиотечных коллекций. Мотивация заключается в улучшении системы Annif, которая уже демонстрировала высокую эффективность в предыдущем LLMs4Subjects задании, и в изучении возможностей новых языковых моделей для улучшения ранжирования тематических категорий. ## Метод Система Annif основывается на автоматизированном инструменте для классификационного индексирования. Для улучшения своей системы, авторы использовали сочетание многих малых и эффективных языковых моделей для трансляции и синтетической данной, а также больших языковых моделей для ранжирования кандидатов. Была внедрена методика генерации синтетических данных для обучения моделей с помощью трансформации существующих библиографических записей. Эта архитектура сочетает в себе мощь больших моделей и эффективность малых моделей, чтобы достичь оптимального баланса качества и скорости. ## Результаты На экспериментальных данных была достигнута высокая точность и эффективность. Данные были подготовлены с применением синтетических данных и дополнены трансформацией библиографических записей. Результаты показали, что Annif расположилась на первом месте в общем рейтинге и в оценке качества Subtask 2. Эти результаты указывают на эффективность сочетания множества небольших моделей для трансляции и синтетической генерации данных, а также на высокую полезность языковых моделей для ранжирования тематических предсказаний. ## Значимость Исследование имеет значительное значение для автоматического классификационного индексирования в библиотечных коллекциях. Оно предоставляет новые возможности для использования языковых моделей в реальных задачах. Также оно демонстрирует перспективы сочетания многих малых моделей для улучшения производительности и качества. Это может быть применено в других областях, где требуется быстрая и точная классификация больших объемов данных. ## Выводы Система Annif демонстрировала выдающиеся результаты в задаче GermEval-2025 LLMs4Subjects Subtask 2. Основным достижением является показательная эффективность и точность, достигнутая с помощью сочетания множества малых моделей и ранжирования тематических предсказаний с помощью языковых моделей

Annotation:

This paper presents the Annif system in the LLMs4Subjects shared task (Subtask 2) at GermEval-2025. The task required creating subject predictions for bibliographic records using large language models, with a special focus on computational efficiency. Our system, based on the Annif automated subject indexing toolkit, refines our previous system from the first LLMs4Subjects shared task, which produced excellent results. We further improved the system by using many small and efficient language mod...

ID: 2508.15877v1 cs.CL, cs.AI, cs.IR, cs.LG, I.2.7

arXiv PDF

📄 LongRecall: A Structured Approach for Robust Recall Evaluation in Long-Form Text

2025-08-23

Авторы:

MohamamdJavad Ardestani, Ehsan Kamalloo, Davood Rafiei

#### Контекст Оценка заполненности (recall) в машинно-генерируемом тексте является ключевым аспектом в областях, таких как медицина, право и списочная оценка вопросов (list-based question answering, QA). Ошибки в заполненности могут привести к серьезным последствиям. Существующие метрики заполненности часто основываются на лексическом совпадении, что приводит к ошибкам при работе с неподтвержденными сущностями и парафразированными ответами. Методы LLM-as-a-Judge, основанные на широком контексте, могут повысить покрытие семантических отношений, но остаются подверженными ошибкам, таким как халлуцинации и неподтвержденные заявления. Наша мотивация заключается в разработке глобального подхода, который обеспечит точную и структурированную оценку заполненности в долгих форматах текста. #### Метод Мы предлагаем LongRecall, который представляет собой структурированный трехступенчатый подход к оценке заполненности. В первой стадии ответ разбивается на самодостаточные факты, второй стадии подвергаются лексическому и семантическому фильтрации, чтобы ограничить круг возможных совпадений. На третьей стадии применяется структурированная проверка вывода для подтверждения аллергенности ответов. Этот подход уменьшает число ложноположительных и ложноотрицательных результатов, а также учитывает различные фразирования и контекстные изменения. Мы использовали данные из трех сложных бенчмарков QA для оценки нашего подхода, включая людские аннотации и методы LLM-as-a-Judge. #### Результаты Наши эксперименты показали, что LongRecall улучшает точность оценки заполненности по сравнению с лексическими методами и LLM-as-a-Judge. Мы измерили статистически значимые повышения в достижении точных результатов, особенно при работе с парафразированными ответами и неподтвержденными сущностями. Данные результаты демонстрируют высокую точность и разрешительность нашего подхода в области оценки заполненности в долгих формах текста. #### Значимость Наш подход может применяться в различных задачах, таких как медицинская экспертиза, юридическая практика и сложные списковые задачи QA. Он обеспечивает точную оценку заполненности, уменьшает ошибки и позволяет работать с различными формами выражения ответов. Это делает LongRecall основополагающим элементом для систематической оценки заполненности в различных областях приложений. #### Выводы Мы представили LongRecall — новую структурированную методику для оценки заполненности в долгих формах текста. Наши результаты показали, что LongRecall превосходит существующие методы в точности и широком покрытии ответов. Будущие исследования будут направлены на усовер

Annotation:

LongRecall. The completeness of machine-generated text, ensuring that it captures all relevant information, is crucial in domains such as medicine and law and in tasks like list-based question answering (QA), where omissions can have serious consequences. However, existing recall metrics often depend on lexical overlap, leading to errors with unsubstantiated entities and paraphrased answers, while LLM-as-a-Judge methods with long holistic prompts capture broader semantics but remain prone to mis...

ID: 2508.15085v1 cs.CL, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 Reflect then Learn: Active Prompting for Information Extraction Guided by Introspective Confusion

2025-08-15

Авторы:

Dong Zhao, Yadong Wang, Xiang Chen, Chenxi Wang, Hongliang Dai, Chuanxing Geng, Shengzhong Zhang, Shaoyuan Li, Sheng-Jun Huang

------------------------------------------- ## Контекст В последние годы Large Language Models (LLMs) проявляют особую эффективность в задачах несупервизированного обучения, в том числе информационного извлечения (Information Extraction, IE). Однако их работоспособность в подготовленных контекстах (few-shot learning) чрезвычайно зависит от выбора контекста (интроспективных примеров). Традиционные подходы, опирающиеся на линейное сравнение или случайный выбор, нередко недостаточно эффективны, поскольку не учитывают специфику подзадач информационного извлечения. Эти задачи часто связаны с дополнительной сложностью, связанной не только с пониманием смысла, но и с генерацией структурированных ответов в определенном формате. Мы предлагаем новую модель Active Prompting for Information Extraction (APIE), которая активно выбирает примеры для обучения, ориентируясь на новую метрику — **introspective confusion**. Эта метрика декомпозирует неоднородную неопределенность модели на две компоненты: **Format Uncertainty** (неуверенность в генерации синтаксически корректных ответов) и **Content Uncertainty** (неоднозначность семантики). ------------------------------------------- ## Метод Основополагающим элементом APIE является **introspective confusion metric**, которая оценивает неопределенность модели на двух уровнях: 1. **Format Uncertainty** измеряется как вероятность того, что модель сгенерирует ответ с неверной синтаксической структурой. 2. **Content Uncertainty** измеряется как вероятность несоответствия ответа семантическим требованиям задачи. Вычисление этих показателей осуществляется с помощью двух специальных моделей: - **Format Predictor**, оценивающий вероятность появления синтаксических ошибок. - **Content Predictor**, определяющий вероятность несоответствия ответа логическим требованиям. Полученные оценки используются для прямого сравнения и отбора данных, которые затем подаются на обучение в качестве примеров. Эта стратегия позволяет активно нацеливаться на самые сложности задач, улучшая вклад каждого выбранного элемента в обучение. ------------------------------------------- ## Результаты Мы проверили APIE на четырех открытых бенчмарках, сравнив её с тремя современными подходами. Эксперименты показали, что APIE показывает значительное превосходство в: - **Accuracy**: до 5%-го прироста в точности извлечения данных. - **Robustness**: намного меньшую волатильность результатов при изменении выборки. - **Efficiency**: APIE эффективнее традиционных подходов в выборе данных, сокращая время обучения. Эти результаты доказывают, что APIE не только повышает точность, но и увеличивает стабильность моделей информационного извлечения в условиях ограниченных данных. ------------------------------------------- ## Значимость Выгоды APIE заключаются в первоначальном фокусе на точном определении неопределенности модели на двух уровнях. Это позволяет: - Улучшить **применение в реальной жиз

Annotation:

Large Language Models (LLMs) show remarkable potential for few-shot information extraction (IE), yet their performance is highly sensitive to the choice of in-context examples. Conventional selection strategies often fail to provide informative guidance, as they overlook a key source of model fallibility: confusion stemming not just from semantic content, but also from the generation of well-structured formats required by IE tasks. To address this, we introduce Active Prompting for Information E...

ID: 2508.10036v1 cs.CL, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 HealthBranches: Synthesizing Clinically-Grounded Question Answering Datasets via Decision Pathways

2025-08-13

Авторы:

Cristian Cosentino, Annamaria Defilippo, Marco Dossena, Christopher Irwin, Sara Joubbi, Pietro Liò

#### Контекст В области искусственного интеллекта, специально развитые датасеты, посвященные медицинской Question-Answering (Q&A), играют ключевую роль в измерении и улучшении моделей ло LLM (Large Language Models). Одной из сложностей в этой области является возникновение задач, требующих многоэтапного интерпретационного моделирования, что требует высокой точности и надежности моделей. Наличие таких датасетов позволяет оценивать модели не только с точки зрения точности ответов, но и с точки зрения того, насколько интерпретируема и логично обоснована их работа. Проблема в том, что существующие датасеты часто не покрывают все аспекты клинического решательства, что делает их менее эффективными для тренировки моделей, предназначенных для работы в высокорисковых сферах, таких как медицина. #### Метод HealthBranches — это инновационный датасет, строительство которого основывается на методологии, основанной на клинических путях решения. Он создается через семиавтоматизированный процесс, который преобразует решательные пути, извлеченные из научных и клинических источников, в реалистичные сценарии, основанные на случаях пациентов. Этот процесс включает в себя выделение ключевых факторов, соединение их в логические цепи, а также формирование вопросов и ответов, которые точно отражают клинические ситуации. Датасет состоит из 4063 случаев из 17 различных медицинских областей, таких как кардиология, дерматология и оториноларингология. На каждый случай прикреплен решательный путь, который позволяет оценивать не только верность ответов, но и логику их построения. Эта структурированная архитектура датасета позволяет проводить многоэтапный анализ моделей ЛЛМ, включая их способность к многошаговой инференции и работе в контекстах Retrieval-Augmented Generation (RAG). #### Результаты В ходе экспериментов HealthBranches было протестировано на различных моделях ЛЛМ, включая модели с открытым исходным кодом и коммерческие модели со значительным числом параметров. Было проведено ряд экспериментов, включая задачи открытого ответа, множественного выбора и структурированного Retrieval-Augmented Generation. Результаты показали, что HealthBranches достигает высокой степени сложности, требуя от моделей не только верного ответа, но и подтверждения логики рассуждений. Особое внимание было уделено оценке точности интерпретации ответов, а также возможности моделей работать с цепочками клинического решательства. Это дало возможность провести сравнительный анализ, показав, что HealthBranches делает модели более интерпретируемыми и надежными в клиническом контексте. #### Значимость HealthBranches представляет собой революционный подход к созданию датасетов для

Annotation:

HealthBranches is a novel benchmark dataset for medical Question-Answering (Q&A), specifically designed to evaluate complex reasoning in Large Language Models (LLMs). This dataset is generated through a semi-automated pipeline that transforms explicit decision pathways from medical source into realistic patient cases with associated questions and answers. Covering 4,063 case studies across 17 healthcare topics, each data point is based on clinically validated reasoning chains. HealthBranches sup...

ID: 2508.07308v1 cs.CL, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 Improving Crash Data Quality with Large Language Models: Evidence from Secondary Crash Narratives in Kentucky

2025-08-09

Авторы:

Xu Zhang, Mei Chen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Повышение качества данных о дорожно-транспортных происшествиях (ДТП) является ключевым фактором для повышения безопасности дорожного движения. Одной из серьезных проблем в этой области является точная идентификация вторичных ДТП, которые часто недостаточно задокументированы в основных отчетах. Вторичные ДТП — это события, которые происходят в результате задержек или перенаправлений трафика, вызванных первичным ДТП. Традиционные методы анализа часто не могут эффективно обрабатывать свободные текстовые описания событий, что приводит к потере важной информации. В штате Кентукки были собраны и проверены вручную 16 656 нарратива ДТП за период 2015–2022 годов, в которых было подтверждено 3 803 вторичных ДТП. Эти данные показывают, что традиционные методы классификации и анализа текстовых данных страдают от ограниченной точности и высокого уровня ложноположительных результатов. Поэтому необходимо разработать более точные и эффективные методы, основанные на современных технологиях обработки естественного языка (НЛП), для анализа таких текстовых данных. Использование передовых моделей НЛП, таких как Large Language Models (LLMs) и файн-тюнинговые трансформеры, может предоставить новые возможности для улучшения качества данных. Однако эти модели отличаются по точности, скорости работы и вычислительным требованиям. Таким образом, целью данного исследования является оценка эффективности различных моделей НЛП для улучшения качества данных о ДТП, специально в контексте идентификации вторичных ДТП. ## ПРЕДЛОЖЕННЫЙ МЕТОД В исследовании были использованы три класса моделей для анализа текстовых нарративов ДТП: 1. **Zero-shot Large Language Models (LLMs):** Эти модели, такие как LLaMA3:70B, DeepSeek-R1:70B, Qwen3:32B и Gemma3:27B, работают без предварительной калибровки на специфических данных. Они используют обширные знания, встроенные в модели, для классификации текстов. 2. **Файн-тюнинговые трансформеры:** Этот класс включает модели BERT, DistilBERT, RoBERTa, XLNet и Longformer, которые были специально оттюнированы на данных ДТП Кентукки за период 2015–2021 годов. 3. **Традиционная логистическая регрессия:** Этот метод использовался в качестве базового для сравнения с более передовыми моделями. Модели были обучены на данных 2015–2021 годов и протестированы на данных 2022 года, которые содержали 1 771 нарратив. Методология включала в себя подготовку данных, обучение моделей и оценку их производительности с использованием метрик, таких как точность (accuracy) и F1-score. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Результаты экспериментов показали, что файн-тюнинговые трансформеры достигли наилучших результатов. Модель RoBERTa показала наивысший F1-score (0,90) и точность (95%). Эти результаты значительно превосходят базовый метод логистической регрессии, который достиг F1-score только 0,66. Zero-shot LLMs также показали высокую эффективность, особенно Gemma3:27B, которая достигла F1-score 0,86 и высокого recall (0,94). Однако эти модели требуют значительных вычислительных ресурсов. Например, обработка данных с помощью DeepSeek-R1:70B заняла до 723 минут, в то время как файн-тюнинговые модели обрабатывали тестирующий набор за секунды после короткого обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Исследование демонстрирует практическую значимость использования передовых моделей НЛП для улучшения качества данных о ДТП. Файн-тюнинговые трансформеры, такие как RoBERTa, предоставляют высокую точность и эффективность, что делает их подходящими для реального применения. Кроме того, исследование подчеркивает важность разработки эффективных стратегий развертывания, таких как локальное размещение моделей с целью обеспечения конфиденциальности, а также использование ансамблей моделей для повышения точности. Инкрементальная обработка данных может также помочь в обеспечении масштабируемости таких систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показывает, что файн-тюнинговые трансформеры являются наиболее эффективными для улучшения качества данных о ДТП. Однако существует потенциал для дальнейшего улучшения с помощью оптимизации размеров моделей и использования меньших LLMs для сокращения времени обработки. Будущие исследования могут фокусироваться на разработке более эффективных методов для реального времени обработки данных и интеграции этих технологий в существующие системы мониторинга безопасности дорожного движения.

Annotation:

This study evaluates advanced natural language processing (NLP) techniques to enhance crash data quality by mining crash narratives, using secondary crash identification in Kentucky as a case study. Drawing from 16,656 manually reviewed narratives from 2015-2022, with 3,803 confirmed secondary crashes, we compare three model classes: zero-shot open-source large language models (LLMs) (LLaMA3:70B, DeepSeek-R1:70B, Qwen3:32B, Gemma3:27B); fine-tuned transformers (BERT, DistilBERT, RoBERTa, XLNet, ...

ID: 2508.04399v1 cs.CL, cs.AI, cs.IR, cs.LG

arXiv PDF

Показано 11 - 15 из 15 записей