📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 GrandJury: A Collaborative Machine Learning Model Evaluation Protocol for Dynamic Quality Rubrics
2025-08-09Авторы:
Arthur Cho
Многоуровневые генеративные модели теперь лежат в основе многих AI-систем, включая создание текстов, суммаризацию, многоходовое рассуждение и контекстуальные диалоги. Однако существующие методы оценки этих моделей основываются на статичных тестах, которые не отражают динамичность пользовательских потребностей и меняющихся реальностей. Мы предлагаем GrandJury — протокол оценки, который использует временную агрегацию, доказательство целостности, а также атрибуцию задач и многокритерийную оценку человеческими оценщиками. Этот подход позволяет создавать многообразные, отчетливые и ответственные оценки, отражающие эволюцию согласия и выявляющий различия в мнениях. Мы предоставили открытый инструментарий и общедоступный набор данных для демонстрации нашего подхода. GrandJury предлагает новый подход к эффективной оценке моделей без абсолютных правдивых ответов.
Annotation:
Generative Machine Learning models have become central to modern systems,
powering applications in creative writing, summarization, multi-hop reasoning,
and context-aware dialogue. These models underpin large-scale AI assistants,
workflow automation, and autonomous decision-making. In such domains,
acceptable response is rarely absolute or static, but plural and highly
context-dependent. Yet standard evaluation regimes still rely on static,
benchmark-style tests, incentivizing optimization towar...