📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Arthur Cho

Многоуровневые генеративные модели теперь лежат в основе многих AI-систем, включая создание текстов, суммаризацию, многоходовое рассуждение и контекстуальные диалоги. Однако существующие методы оценки этих моделей основываются на статичных тестах, которые не отражают динамичность пользовательских потребностей и меняющихся реальностей. Мы предлагаем GrandJury — протокол оценки, который использует временную агрегацию, доказательство целостности, а также атрибуцию задач и многокритерийную оценку человеческими оценщиками. Этот подход позволяет создавать многообразные, отчетливые и ответственные оценки, отражающие эволюцию согласия и выявляющий различия в мнениях. Мы предоставили открытый инструментарий и общедоступный набор данных для демонстрации нашего подхода. GrandJury предлагает новый подход к эффективной оценке моделей без абсолютных правдивых ответов.
Annotation:
Generative Machine Learning models have become central to modern systems, powering applications in creative writing, summarization, multi-hop reasoning, and context-aware dialogue. These models underpin large-scale AI assistants, workflow automation, and autonomous decision-making. In such domains, acceptable response is rarely absolute or static, but plural and highly context-dependent. Yet standard evaluation regimes still rely on static, benchmark-style tests, incentivizing optimization towar...
ID: 2508.02926v2 cs.LG, cs.AI, cs.HC, I.2.6; I.2.7