📚 Саммари научных статей из arXiv

Найдено 78 результатов по запросу 'cs.CL, cs.AI, cs.IR' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Efficient Code Embeddings from Code Generation Models

2025-09-02

Авторы:

Daria Kryvosheieva, Saba Sturua, Michael Günther, Scott Martens, Han Xiao

## Контекст Код считается одной из наиболее важных моделей текущей информационной эпохи. На повседневной основе люди используют код для решения разнообразных задач, а его качественное понимание и восприятие являются ключевыми факторами успеха во многих технологических областях. Однако активный рост количества программных систем породил проблемы с поиском и восприятием кода. Отсутствие эффективных систем поиска кода, сочетающих в себе научные предложения и технические решения, является типичной проблемой. Данная работа описывает `jina-code-embeddings`, модель, предназначенную для решения этих проблем путем эффективного кодирования и поиска кода. ## Метод `jina-code-embeddings` является результатом инновационного подхода, который использует авторегрессионный фреймворк, предварительно обученный на различных языках программирования и текстовых данных. Модель создает векторное представление кода, используя последний токен авторегрессионного слоя. Эта модель предназначена для решения задач поиска кода, восстановления кода по естественному языку и технического вопроса-ответа. Для обучения применяется только нулевой или первый токен в качестве подсказки, что позволяет эффективно использовать ресурсы. ## Результаты На тренировочной выборке, содержащей 1,2 миллиарда пар естественного языка и кода, модель показала свою эффективность. Она достигла state-of-the-art результатов в задачах восстановления кода, технического вопроса-ответа и определения семантической схожести кода. Эксперименты проводились на различных датасетах, таких как CodeSearchNet и Stack Overflow, что подтвердило хорошую общую стойкость модели. Данные результаты демонстрируют высокий показатель презентабельности и эффективности использования модели в реальных сценариях. ## Значимость `jina-code-embeddings` может применяться в различных областях технических и неконтентных задач. Она может помочь в поиске и восстановлении кода, вопросах-ответах в технических областях, а также в анализе и сравнении кода для достижения лучшего базового понимания. Особенно важным является её моментальное влияние на область AI-powered coding, подтверждая достижения модели в конкурентных результатах. ## Выводы `jina-code-embeddings` достигла статуса лидера в семантическом поиске кода и восстановлении кода по естественному языку. Она продемонстрировала свою эффективность на многих датасетах и в разных задачах. Основным направлением будущих исследований является улучшение модели для повышения её точности и уменьшения потребления ресурсов во время обучения и применения.

Annotation:

jina-code-embeddings is a novel code embedding model suite designed to retrieve code from natural language queries, perform technical question-answering, and identify semantically similar code snippets across programming languages. It makes innovative use of an autoregressive backbone pre-trained on both text and code, generating embeddings via last-token pooling. We outline the training recipe and demonstrate state-of-the-art performance despite the relatively small size of the models, validati...

ID: 2508.21290v1 cs.CL, cs.AI, cs.IR, 68T50, I.2.7

arXiv PDF

📄 Going over Fine Web with a Fine-Tooth Comb: Technical Report of Indexing Fine Web for Problematic Content Search and Retrieval

2025-09-02

Авторы:

Inés Altemir Marinas, Anastasiia Kucherenko, Andrei Kucharavy

## Контекст Modern large language models (LLMs) значительно полагаются на масштабные web-данные, такие как Common Crawl, которые обеспечивают более 80% тренировочной информации для многих современных моделей. Однако необратимость и неприкасаемость веб-контента создают значительные проблемы в плане качества данных, безопасности и этики. Несмотря на критическую роль качества данных в тренировке моделей, поиск и анализ потенциально вредоносного контента в них оставался ограниченным в размерах из-за высоких требований к вычислительным ресурсам. Исследовательская работа предлагает новый подход к индексации и анализу LLM тренировочных данных, используя ElasticSearch-based pipeline, который позволяет оптимизировать поиск и анализ наиболее сложных участков. Применив этот подход к FineWeb-2 корпусу (1.5TB, данные на четырех языках), проект успешно отобразил возможность эффективного использования данных в реальном времени, обеспечивая более безопасные и ответственные AI-системы. ## Метод Проект вводит фреймворк для индексации и анализа LLM тренировочных данных, основанный на ElasticSearch-pipeline. Эта архитектура включает в себя множество модулей для оптимизированного поиска и анализа large-scale datasets. Методология включает многоуровневую индексацию, что позволяет легко выполнять поиск по большим объемам данных. Архитектура базируется на ElasticSearch, который обеспечивает быстрые поисковые запросы и высокую масштабируемость. Данный подход позволяет быстро анализировать и мониторить FineWeb-2 корпус, который состоит из 1.5TB данных на четырех языках, с минимальными задержками во время выполнения поиска. Этот метод демонстрирует возможность в реальном времени мониторить и анализировать данные для поиска потенциально вредоносного контента. ## Результаты Эксперименты показали, что ElasticSearch-based pipeline обеспечивает быстрые и эффективные поисковые запросы в FineWeb-2 корпусе. Большинство запросов выполняются за миллисекунды, а все запросы — за менее 2 секунд. Данный подход позволяет выполнять широкий диапазон поисковых операций, включая поиск по словам, фразам и даже контексту. На основе этого фреймворка был проведен анализ FineWeb-2 корпуса, позволяя выявить потенциально вредоносные элементы данных. Результаты показали, что использование ElasticSearch-based pipeline позволило эффективно искать потенциально вредоносный контент, обеспечивая быструю и точную обработку данных. ## Значимость Основным преимуществом этой работы является возможность эффективного мониторинга и анализа large-scale datasets в режиме реального времени. Это может быть применено в различных областях, включая сетевую безопасность, моделирование новостных текстов и поиск потенциально

Annotation:

Large language models (LLMs) rely heavily on web-scale datasets like Common Crawl, which provides over 80\% of training data for some modern models. However, the indiscriminate nature of web crawling raises challenges in data quality, safety, and ethics. Despite the critical importance of training data quality, prior research on harmful content has been limited to small samples due to computational constraints. This project presents a framework for indexing and analyzing LLM training datasets us...

ID: 2508.21788v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 Overview of BioASQ 2024: The twelfth BioASQ challenge on Large-Scale Biomedical Semantic Indexing and Question Answering

2025-08-30

Авторы:

Anastasios Nentidis, Georgios Katsimpras, Anastasia Krithara, Salvador Lima-López, Eulàlia Farré-Maduell, Martin Krallinger, Natalia Loukachevitch, Vera Davydova, Elena Tutubalina, Georgios Paliouras

#### Контекст BioASQ 2024 — это двенадцатый этап международного соревнования по биоинформатике, которое организуется в рамках конференции и лабораторий оценки (Conference and Labs of the Evaluation Forum, CLEF) 2024. Задача состоит в развитии методов широкомасштабного биомедицинского семантического индексирования и ответов на вопросы. Этот проект способствует развитию методов оценки систем получения информации в медицине и биологии, а также содействует повышению качества информационных систем в этих областях. Основные проблемы, которые решаются в рамках BioASQ, заключаются в улучшении точности и скорости обработки биомедицинских текстов, а также в развитии методов выделения и индексирования семантических сущностей в больших биоинформатических коллекциях. #### Метод В соревновании приняли участие 37 команд, подавших более 700 заявок на четыре разных задачи. Задачи включали: Task a — MultiCardioNER, которая затрагивала настройку систем на детектирование клинических сущностей в контексте кардиологии на многоязычных данных; Task b и Task Synergy — уже имеющиеся задачи, связанные с поиском и индексированием биоинформатических данных; Task BIONNE — задача распознавания названий сущностей в русском и английском языках с учетом вложенных структур. Участникам предоставлялись большие объемы данных, включая биомедицинские статьи, которые необходимо было обработать с использованием различных методов, включая машинное обучение, естественное обучение, сопоставление и описательные методы. #### Результаты В результате соревнования были получены высокоточные результаты, подтверждающие прогресс в области биоинформатики. Задача MultiCardioNER демонстрировала высокую точность в распознавании сущностей, в то время как задача BIONNE продемонстрировала прогресс в распознавании вложенных сущностей в русском и английском языках. Задачи Task b и Synergy также демонстрировали прогресс в области биоинформатического поиска и индексирования. В целом, команды достигли высокого уровня производительности, подтверждая развитие состояния технологий в области биоинформатики. #### Значимость Результаты этого соревнования имеют высокую значимость для развития технологий в области биоинформатики и медицины. Они могут применяться для создания более точных и быстрых систем поиска информации в биомедицинских текстах, что влечет за собой улучшение качества оказания медицинской помощи и увеличение эффективности научных исследований. Инновационные методы, разработанные в рамках этого соревнования, могут быть использованы в различных областях, включая клиническую практику, науч

Annotation:

This is an overview of the twelfth edition of the BioASQ challenge in the context of the Conference and Labs of the Evaluation Forum (CLEF) 2024. BioASQ is a series of international challenges promoting advances in large-scale biomedical semantic indexing and question answering. This year, BioASQ consisted of new editions of the two established tasks b and Synergy, and two new tasks: a) MultiCardioNER on the adaptation of clinical entity detection to the cardiology domain in a multilingual setti...

ID: 2508.20532v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 Overview of BioASQ 2025: The Thirteenth BioASQ Challenge on Large-Scale Biomedical Semantic Indexing and Question Answering

2025-08-30

Авторы:

Anastasios Nentidis, Georgios Katsimpras, Anastasia Krithara, Martin Krallinger, Miguel Rodríguez-Ortega, Eduard Rodriguez-López, Natalia Loukachevitch, Andrey Sakhovskiy, Elena Tutubalina, Dimitris Dimitriadis, Grigorios Tsoumakas, George Giannakoulas, Alexandra Bekiaridou, Athanasios Samaras, Giorgio Maria Di Nunzio, Nicola Ferro, Stefano Marchesin, Marco Martinelli, Gianmaria Silvello, Georgios Paliouras

## Контекст BioASQ 2025 — это тринадцатая открытая международная конференция и лаборатории для оценки развития технологий биомедицинских семантических индексирования и вопросов-ответов (QA). Она является частью конференции CLEF 2025. Миссия BioASQ — двигать линию хода вперед в области биоинформатики и здравоохранения, предоставляя платформу для исследователей, работающих над развитием методов автоматического понимания и индексирования биоинформации. В этом году BioASQ включила шесть раздельных задач: две основные, связанные с семантическим индексированием и QA, и четыре новые, касающиеся клинической сводки, лингвистического анализа и информационного извлечения в сфере биоинформатики. ## Метод Задачи BioASQ-b и BioASQ-Synergy основываются на предыдущих выпусках и включают оценку систем, выполняющих семантическое индексирование и ответы на вопросы в биоинформатике. Новые задачи включают Task MultiClinSum — многоязычное клиническое сводление, Task BioNNE-L — лингвистический анализ вхождения сущностей в русском и английском языках, Task ELCardioCC — клиническое кодирование в кардиологии, и Task GutBrainIE — извлечение информации о взаимодействии желудочно-кишечного тракта и мозга. Это был одновременный эксперимент, включающий широкий спектр технологий, от естественных языковых моделей до конкретных алгоритмов для специализированных задач. ## Результаты Системы, участвовавшие в BioASQ 2025, показали высокую эффективность. В задаче QA биоинформатики, полученные результаты демонстрируют, что современные модели естественного языка, такие как LLMs (Large Language Models), могут достигать высокой точности при вопросах, связанных с биоинформатикой. В задаче клинического индексирования, проводившейся в рамках Task MultiClinSum, системы показали высокую точность в сравнении с конкурентами. Для новых задач, таких как Task BioNNE-L, задача лингвистического анализа вхождений сущностей, зарегистрировано несколько моделей с высокой точностью в русском языке, что подтверждает растущий интерес к решениям для языков, отличных от английского. ## Значимость BioASQ 2025 имеет значительное значение для развития биоинформатики и здравоохранения. Она демонстрирует прогресс в сфере автоматизации биоинформатических задач, включая семантическое индексирование, QA, клиническое сводление и информационное извлечение. Результаты достигнутые в этом году указывают на то, что технологии, такие как глубокое обучение и естественные языковые модели, могут быть успешно применены для решения реальных биомедицинских проблем. Инноваци

Annotation:

This is an overview of the thirteenth edition of the BioASQ challenge in the context of the Conference and Labs of the Evaluation Forum (CLEF) 2025. BioASQ is a series of international challenges promoting advances in large-scale biomedical semantic indexing and question answering. This year, BioASQ consisted of new editions of the two established tasks, b and Synergy, and four new tasks: a) Task MultiClinSum on multilingual clinical summarization. b) Task BioNNE-L on nested named entity linking...

ID: 2508.20554v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 Inference Gap in Domain Expertise and Machine Intelligence in Named Entity Recognition: Creation of and Insights from a Substance Use-related Dataset

2025-08-29

Авторы:

Sumon Kanti Dey, Jeanne M. Powell, Azra Ismail, Jeanmarie Perrone, Abeed Sarker

## Контекст Одна из наиболее актуальных проблем современной публичной ситуации является неправомерное использование опиатов. Этот вид незаконного поведения имеет значительное влияние на клиническое здравоохранение и социальное благополучие. Несмотря на важность этой проблемы, неправомерное использование опиатов часто недостаточно сообщается в традиционных системах здравоохранения. Альтернативный источник информации являются социальные сети, где пользователи честно делятся своими первоочередными впечатлениями и историями. Это делает их полезными для исследования социальных и клинических последствий неправомерного использования опиатов. Однако эта информация часто остается недостаточно использована в академических исследованиях. Для решения этой проблемы, авторы предлагают разработать и исследовать рамку для определения сущностей (NER), способную извлечь два типа самосообщенных последствий от использования опиатов: клинические (например, вызываемые отступлениями, депрессией) и социальные (например, незанятость). Для этой цели также представлен масштабируемый набор данных RedditImpacts 2.0, который улучшает предыдущие подходы с помощью новых рекомендаций по аннотации и фокусируется на первоочередных рассказах. ## Метод Для реализации рамки NER был применен метод настройки предварительно обученных моделей на классификацию текстов. Модели были подготовлены с использованием технологии трансформеров, а именно при помощи преобразователя DeBERTa-large. Оценка моделей проводилась в условиях незначительного или нулевого обучения (zero- и few-shot learning). Также осуществлялись сравнения с текущими лидирующими технологиями в области машинного обучения. Данные для тестирования были извлечены из социальных сетевых публикаций, отфильтрованных по тематике и структуре, чтобы обеспечить качественную меткунию и отражение реальных клинических и социальных проблем. ## Результаты Проведенное исследование демонстрирует, что лучшая модель NER, настроенная на данных RedditImpacts 2.0, достигла точности 61% при оценивании токенов на задачу классификации последствий от опиатов. Это результат был достигнут с помощью DeBERTa-large. Модель показала стабильную превосходность по сравнению с текущими технологиями в ключевых показателях: точности, правильности распознавания сущностей и соблюдении задач. Тем не менее, даже этот результат значительно отстает от интерспециалистского согласия (Cohen's kappa: 0.81), показывая существующую проблему в достижении полного согласия между гуманным оцениванием и машинными системами. ## Значимость Результаты этого исследовани

Annotation:

Nonmedical opioid use is an urgent public health challenge, with far-reaching clinical and social consequences that are often underreported in traditional healthcare settings. Social media platforms, where individuals candidly share first-person experiences, offer a valuable yet underutilized source of insight into these impacts. In this study, we present a named entity recognition (NER) framework to extract two categories of self-reported consequences from social media narratives related to opi...

ID: 2508.19467v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 Evaluating Structured Decoding for Text-to-Table Generation: Evidence from Three Datasets

2025-08-26

Авторы:

Julian Oestreich, Lydia Müller

#### Контекст Текстово-табличная генерация — это важная задача, связанная с преобразованием текстовых данных в табличный формат. Она находит применение в широком спектре областей, от журналистики до анализа данных. Однако существуют ряд проблем, связанных с недостаточной точностью и алгебраической корректностью генерируемых таблиц, которые могут быть вызваны недостаточным учетом структуры при генерации. Текущие подходы, основанные на одношаговой подсказке (one-shot prompting), часто недостаточно эффективны при генерации таблиц с высокой структурной сложностью. Мотивация для данного исследования заключается в изучении возможностей структурированного декодирования (structured decoding) для улучшения качества генерируемых таблиц. #### Метод Проведено систематическое сравнение структурированного декодирования с одношаговым подходом (one-shot prompting) на трех различных бенчмарках: E2E, Rotowire и Livesum. Использовались текстово-предсказательные модели текста до таблицы (text-to-table) на основе LLMs размеров до 32 миллиардов параметров. Задача решалась с применением схем-руководства (schema-guided), при котором в процессе генерации таблицы использовались структурные ограничения. Эксперименты были проведены с использованием метрик, оценивающих точность, валидность и алгебраическую корректность результатов на уровне ячеек, строк и таблиц. Общее количество экспериментов составило 72, что дало возможность получить подробную аналитику взаимосвязи между подходами и характеристиками данных. #### Результаты Результаты экспериментов показали, что структурированное декодирование повышает качество генерируемых таблиц в Rotowire, где требуется высокий уровень точности в алгебраических вычислениях. В случае E2E, где требуется преобразовывать текст в короткие таблицы, структурированное декодирование показало меньшую эффективность из-за ограничений в использовании большого количества текстовой информации. В Livesum, где требуется агрегирование информации из длинных текстов, структурированное декодирование также не дало значительных преимуществ, поскольку оно не способно эффективно обрабатывать огромные объемы текста. Оценка метрик показала, что хотя структурированное декодирование повышает точность в Rotowire, оно может привести к ухудшению качества в других случаях. #### Значимость Этот подход может быть применен в текстово-табличной генерации для различных сценариев, включая новостной анализ, создание отчетов и анализ текстов в реальном времени. Он обладает преимуществами в ситуациях, когда необходима высокая точность и ст

Annotation:

We present a comprehensive evaluation of structured decoding for text-to-table generation with large language models (LLMs). While previous work has primarily focused on unconstrained generation of tables, the impact of enforcing structural constraints during generation remains underexplored. We systematically compare schema-guided (structured) decoding to standard one-shot prompting across three diverse benchmarks - E2E, Rotowire, and Livesum - using open-source LLMs of up to 32B parameters, as...

ID: 2508.15910v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 MizanQA: Benchmarking Large Language Models on Moroccan Legal Question Answering

2025-08-26

Авторы:

Adil Bahaj, Mounir Ghogho

## Контекст В последние годы рост и развитие крупных языковых моделей (LLM) оказывают значительное влияние на область естественного общения (NLP). Однако эти модели часто сталкиваются с ограничениями при работе в специализированных доменах, таких как юридический, особенно в низкоресурсных языковых контекстах, таких как арабский. Особенностью данной сферы является не только техническая сложность, но также богатость лексических и юридических норм, которые часто отличаются от основных логик развитых моделей. Это приводит к явному недостатку в качественных данных и вызовам при использовании LLM в таких областях. В работе предлагается новый бенчмарк, **MizanQA**, который специально разработан для оценки LLM в области задач юридического вопроса и ответа (QA) на марокканском языке. Он получил название "Mizan" — значение этого слова в переводе с арабского — "весы", что символизирует честь и справедливость в судебных процессах. Бенчмарк учитывает богатый языковой и юридический контекст, включая традиционное марокканское право, а также влияние законодательства французского происхождения. Он состоит из более чем 1700 вопросов с несколькими вариантами ответов, что позволяет получать сложные решения в области юридического анализа. Этот бенчмарк представляет собой новый этап в развитии технологий NLP в целом и в юридической сфере в частности. ## Метод **MizanQA** отличается своим разнообразным подходом к сбору данных и методологии. Для создания данных использовались специальные юридические документы, законы, судебные решения и традиционные марокканские тексты. Ответы на вопросы были подготовлены специалистами в области юриспруденции, чтобы гарантировать точность и корректность. Методология основывается на создании многомерных задач, включающих не только сопоставление вопросов с ответами, но и выявление интерпретаций закона. Оценка была произведена с использованием нескольких моделей, включая многоязычные языковые модели и те, которые специально разработаны для арабского языка. Эти модели были проверены на возможности понимания специфических юридических терминов, контекстуальных смыслов и неоднозначных формулировок в законных текстах. ## Результаты Эксперименты показали, что даже самые продвинутые языковые модели стругаются с задачами, требующими глубокого юридического понимания и умения работать с текстами, характерными для марокканского законодательства. Например, модели, которые показали высокую производительность на глобальных задачах, снижались в производительности в случае локальных задач, относящихся к Марокко

Annotation:

The rapid advancement of large language models (LLMs) has significantly propelled progress in natural language processing (NLP). However, their effectiveness in specialized, low-resource domains-such as Arabic legal contexts-remains limited. This paper introduces MizanQA (pronounced Mizan, meaning "scale" in Arabic, a universal symbol of justice), a benchmark designed to evaluate LLMs on Moroccan legal question answering (QA) tasks, characterised by rich linguistic and legal complexity. The data...

ID: 2508.16357v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 Annif at the GermEval-2025 LLMs4Subjects Task: Traditional XMTC Augmented by Efficient LLMs

2025-08-25

Авторы:

Osma Suominen, Juho Inkinen, Mona Lehtinen

## Контекст В статье представлена система Annif в рамках задачи GermEval-2025 LLMs4Subjects (Subtask 2). Задача подразумевала создание предсказаний по темам библиографических записей с использованием больших языковых моделей, с фокусом на эффективности вычислений. Этот объект исследования является важной задачей в области автоматического классификационного индексирования библиотечных коллекций. Мотивация заключается в улучшении системы Annif, которая уже демонстрировала высокую эффективность в предыдущем LLMs4Subjects задании, и в изучении возможностей новых языковых моделей для улучшения ранжирования тематических категорий. ## Метод Система Annif основывается на автоматизированном инструменте для классификационного индексирования. Для улучшения своей системы, авторы использовали сочетание многих малых и эффективных языковых моделей для трансляции и синтетической данной, а также больших языковых моделей для ранжирования кандидатов. Была внедрена методика генерации синтетических данных для обучения моделей с помощью трансформации существующих библиографических записей. Эта архитектура сочетает в себе мощь больших моделей и эффективность малых моделей, чтобы достичь оптимального баланса качества и скорости. ## Результаты На экспериментальных данных была достигнута высокая точность и эффективность. Данные были подготовлены с применением синтетических данных и дополнены трансформацией библиографических записей. Результаты показали, что Annif расположилась на первом месте в общем рейтинге и в оценке качества Subtask 2. Эти результаты указывают на эффективность сочетания множества небольших моделей для трансляции и синтетической генерации данных, а также на высокую полезность языковых моделей для ранжирования тематических предсказаний. ## Значимость Исследование имеет значительное значение для автоматического классификационного индексирования в библиотечных коллекциях. Оно предоставляет новые возможности для использования языковых моделей в реальных задачах. Также оно демонстрирует перспективы сочетания многих малых моделей для улучшения производительности и качества. Это может быть применено в других областях, где требуется быстрая и точная классификация больших объемов данных. ## Выводы Система Annif демонстрировала выдающиеся результаты в задаче GermEval-2025 LLMs4Subjects Subtask 2. Основным достижением является показательная эффективность и точность, достигнутая с помощью сочетания множества малых моделей и ранжирования тематических предсказаний с помощью языковых моделей

Annotation:

This paper presents the Annif system in the LLMs4Subjects shared task (Subtask 2) at GermEval-2025. The task required creating subject predictions for bibliographic records using large language models, with a special focus on computational efficiency. Our system, based on the Annif automated subject indexing toolkit, refines our previous system from the first LLMs4Subjects shared task, which produced excellent results. We further improved the system by using many small and efficient language mod...

ID: 2508.15877v1 cs.CL, cs.AI, cs.IR, cs.LG, I.2.7

arXiv PDF

📄 LongRecall: A Structured Approach for Robust Recall Evaluation in Long-Form Text

2025-08-23

Авторы:

MohamamdJavad Ardestani, Ehsan Kamalloo, Davood Rafiei

#### Контекст Оценка заполненности (recall) в машинно-генерируемом тексте является ключевым аспектом в областях, таких как медицина, право и списочная оценка вопросов (list-based question answering, QA). Ошибки в заполненности могут привести к серьезным последствиям. Существующие метрики заполненности часто основываются на лексическом совпадении, что приводит к ошибкам при работе с неподтвержденными сущностями и парафразированными ответами. Методы LLM-as-a-Judge, основанные на широком контексте, могут повысить покрытие семантических отношений, но остаются подверженными ошибкам, таким как халлуцинации и неподтвержденные заявления. Наша мотивация заключается в разработке глобального подхода, который обеспечит точную и структурированную оценку заполненности в долгих форматах текста. #### Метод Мы предлагаем LongRecall, который представляет собой структурированный трехступенчатый подход к оценке заполненности. В первой стадии ответ разбивается на самодостаточные факты, второй стадии подвергаются лексическому и семантическому фильтрации, чтобы ограничить круг возможных совпадений. На третьей стадии применяется структурированная проверка вывода для подтверждения аллергенности ответов. Этот подход уменьшает число ложноположительных и ложноотрицательных результатов, а также учитывает различные фразирования и контекстные изменения. Мы использовали данные из трех сложных бенчмарков QA для оценки нашего подхода, включая людские аннотации и методы LLM-as-a-Judge. #### Результаты Наши эксперименты показали, что LongRecall улучшает точность оценки заполненности по сравнению с лексическими методами и LLM-as-a-Judge. Мы измерили статистически значимые повышения в достижении точных результатов, особенно при работе с парафразированными ответами и неподтвержденными сущностями. Данные результаты демонстрируют высокую точность и разрешительность нашего подхода в области оценки заполненности в долгих формах текста. #### Значимость Наш подход может применяться в различных задачах, таких как медицинская экспертиза, юридическая практика и сложные списковые задачи QA. Он обеспечивает точную оценку заполненности, уменьшает ошибки и позволяет работать с различными формами выражения ответов. Это делает LongRecall основополагающим элементом для систематической оценки заполненности в различных областях приложений. #### Выводы Мы представили LongRecall — новую структурированную методику для оценки заполненности в долгих формах текста. Наши результаты показали, что LongRecall превосходит существующие методы в точности и широком покрытии ответов. Будущие исследования будут направлены на усовер

Annotation:

LongRecall. The completeness of machine-generated text, ensuring that it captures all relevant information, is crucial in domains such as medicine and law and in tasks like list-based question answering (QA), where omissions can have serious consequences. However, existing recall metrics often depend on lexical overlap, leading to errors with unsubstantiated entities and paraphrased answers, while LLM-as-a-Judge methods with long holistic prompts capture broader semantics but remain prone to mis...

ID: 2508.15085v1 cs.CL, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 Benchmarking Computer Science Survey Generation

2025-08-23

Авторы:

Weihang Su, Anzhe Xie, Qingyao Ai, Jianming Long, Jiaxin Mao, Ziyi Ye, Yiqun Liu

## Контекст Область исследования, связанная с поиском и анализом информации в области научных публикаций, является важной для улучшения доступности и понимания научных знаний. Настоящий взгляд на мотивации, связанные с развитием технологий для автоматизации генерации научных статей, показывает, что это помогает улучшить процесс сбора и подбора сведений для научных статей. Однако существуют сложности, такие как необходимость ручной работы и нехватка бенчмарков для оценки автоматизированных технологий. Эти ограничения затрудняют развитие систем, которые могли бы эффективно автоматизировать генерацию статей научных обзоров, как в области компьютерных наук. ## Метод В данном исследовании предлагается SurGE (Survey Generation Evaluation), новый бенчмарк для оценки моделей, которые генерируют научные обзоры в области компьютерных наук. Бенчмарк включает (1) коллекцию тестовых примеров, каждый из которых содержит описание темы, экспертно написанный обзор и его список цитирований, и (2) крупную коллекцию академических документов, служащую как базу для поиска информации. Методология включает разработку фреймворка для автоматической оценки генерируемых статей по таким критериям, как полнота информации, точность цитирований, структурная организация и качество содержания. Это позволяет провести комплексную оценку моделей, выделив сложности и трудности в задаче генерации научных обзоров. ## Результаты В ходе экспериментов были протестированы различные модели, включая LLMs (large language models), для оценки их работы в SurGE. Результаты показали, что генерация научных обзоров остается высокой сложной задачей, даже для моделей с самостоятельной оценкой. Оценка показала существующие проблемы, такие как несогласованность цитирований, неполнота информации и несоответствие структурным требованиям. Эти результаты подчеркивают необходимость дальнейшего исследования для улучшения моделей, чтобы они могли стать более эффективными и точными в генерации научных статей. ## Значимость Научные обзоры играют важную роль в научном сообществе, поскольку они дают обзор развития науки и помогают в понимании перспектив. Улучшенные модели генерации обзоров могут иметь значительное влияние, облегчив процесс создания обзорных статей и улучшив доступность научной информации. В то же время, SurGE может стать базой для открытого развития технологий в этой области, позволяя разработчикам создавать и тестировать модели с открытым кодом. Это дает возможность совершенствовать технологии и привлекать внимание к задаче генерации обзоров в научных статьях. ## Выводы В этом исследовани

Annotation:

Scientific survey articles play a vital role in summarizing research progress, yet their manual creation is becoming increasingly infeasible due to the rapid growth of academic literature. While large language models (LLMs) offer promising capabilities for automating this process, progress in this area is hindered by the absence of standardized benchmarks and evaluation protocols. To address this gap, we introduce SurGE (Survey Generation Evaluation), a new benchmark for evaluating scientific su...

ID: 2508.15658v1 cs.CL, cs.AI, cs.IR

arXiv PDF

1
2
5
6
7
8

Показано 61 - 70 из 78 записей