Let's Measure Information Step-by-Step: LLM-Based Evaluation Beyond Vibes
2508.05469v1
cs.LG, cs.IT, math.IT
2025-08-09
Авторы:
Zachary Robertson, Sanmi Koyejo
Резюме на русском
Многие из modern AI-систем, таких как LLMs, оцениваются с помощью метрик, которые могут быть легко обойдены стратегическими агентами, уменьшая их ценность. Мы предлагаем методы оценки, основанные на идее игровой силы, которые избегают этого недостатка. Наши результаты показывают, что f-мутационная информация является единственным неуязвимым к таким опасностям методом, если выполняются определенные условия. Тем не менее, в задачах с небольшим объемом данных, использование Shannon mutual information может быть неэффективно, поэтому мы вводим меры, основанные на total variation distance, которые проще в реализации. Мы проверяем эти методы в 10 различных областях, от перевода до рецензирования, и показываем, что они показывают 10-100 раз лучшую устойчивость к атакам, чем существующие методы. Также, мы обнаружили, что эффективность оценки следует инверсному-U-образному закону, при котором оптимальная диверсификация ответов наблюдается при compression ratio ~10:1. Эти находки дают новый перспективу на решение проблемы использования LLMs в системах обучения с подкреплением.
Abstract
We develop mechanisms for evaluating AI systems without ground truth by
exploiting a connection between gaming resistance and output quality. The data
processing inequality ensures post-hoc attempts to game a metric degrades both
information content and task performance. We prove that f-mutual information
measures are the unique gaming resistant mechanisms under natural conditions,
with the overseer acting as an agent. While Shannon mutual information faces
exponential sample complexity, bounded measures like total variation distance
remain tractable. Empirically, across ten domains from translation to peer
review, all information-theoretic mechanisms achieve perfect discrimination (d
> 0.5) between faithful and strategic agents. In contrast, LLM judges exhibit
systematic evaluation inversion, preferring fabricated content over accurate
summaries. Our mechanisms show 10-100x better robustness to adversarial
manipulation than current practices. We also find performance follows an
inverted-U curve with compression ratio, peaking at 10:1 where agent responses
exhibit optimal information diversity (3 effective dimensions), giving a
bias-variance perspective on when our approach is expected to be most
effective.
Ссылки и действия
Дополнительные ресурсы: