📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Dario Loi, Elena Maria Muià, Federico Siciliano, Giovanni Trappolini, Vincenzo Crisà, Peter Kruger, Fabrizio Silvestri

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We present AutoBench, a fully automated and self-sustaining framework for evaluating Large Language Models (LLMs) through reciprocal peer assessment. This paper provides a rigorous scientific validation of the AutoBench methodology, originally developed as an open-source project by eZecute S.R.L.. Unlike static benchmarks that suffer from test-set contamination and limited adaptability, AutoBench dynamically generates novel evaluation tasks while models alternately serve as question generators, ...
ID: 2510.22593v1 cs.CL, cs.AI, I.2.7; I.2.11; H.3.4; D.2.8
Авторы:

Ozan Gokdemir, Neil Getty, Robert Underwood, Sandeep Madireddy, Franck Cappello, Arvind Ramanathan, Ian T. Foster, Rick L. Stevens

#### Контекст В последние годы научный знаний растет с прежде невиданной скоростью, что приводит к изменению требований к методам оценки моделей языкового моделирования. Традиционные бенчмарки часто не отражают современные научные открытия, что снижает их актуальность. Задача создания новых бенчмарков требует значительных затрат времени и ресурсов. Наша цель — разработать модульный фреймворк для автоматизации генерации бенчмарков с несколькими выборками (MCQA) на основе больших корпусов научных статей. Этот подход позволяет эффективно отражать последние достижения науки в оценке языковых моделей и снизить необходимую работу вручную. #### Метод Мы предлагаем модульную архитектуру, которая автоматизирует все этапы создания MCQA: извлечение информации из PDF-файлов, семантическое кластеризация и фрагментирование, генерация вопросов и экспериментальная оценка. Мы применили этот подход для генерации бенчмарков по 22 000 статей в области радиационной и онкологической биологии. Для оценки моделей мы использовали три набора вопросов: синтетические, аннотированные экспертами и тесты Astro Radiation and Cancer Biology 2023. Модели тестировались в двух режимах: базовой аккуратности и в варианте с вспомогательным вспомогательным поиском (RAG), использующим семантические фрагменты и рассуждения, скопированные из GPT-4.1. #### Результаты Эксперименты показали, что 77% от вопросов были верно решены синтетическими бенчмарками, а 62% — экспертно аннотированными. Использование логики рассуждения из GPT-4.1 для поиска ответов повысило точность на 10% в сравнении с базовым подходом. Малые модели, например Модель А, показали высокую точность на тестах от 2023 года, даже превосходя GPT-4. Эти результаты указывают на эффективность использования рассуждений для повышения точности научных бенчмарков. #### Значимость Наш подход может быть применен в различных научных областях для создания наборов тестов, отражающих последние достижения. Он позволяет не только проверить модели, но и улучшить их подготовку на основе семантических фрагментов и логики рассуждения. Это особенно важно для моделей с малым количеством параметров, которые могут превосходить даже мощные системы, такие как GPT-4, в конкретных областях. #### Выводы Мы разработали мощный и модульный фреймворк для автоматического создания MCQA-бенчмарков, что позволяет адаптировать языковые модели к новым научным знаниям. Наши результаты показывают, что использование логики рассуждения для поиска ответов может значительно улучшить точность оценки моделей. Будущие исследования б
Annotation:
As scientific knowledge grows at an unprecedented pace, evaluation benchmarks must evolve to reflect new discoveries and ensure language models are tested on current, diverse literature. We propose a scalable, modular framework for generating multiple-choice question-answering (MCQA) benchmarks directly from large corpora of scientific papers. Our pipeline automates every stage of MCQA creation, including PDF parsing, semantic chunking, question generation, and model evaluation. As a case study,...
ID: 2509.10744v1 cs.CL, cs.AI, I.2.7; I.2.11