No-Knowledge Alarms for Misaligned LLMs-as-Judges

2509.08593v1 cs.AI, stat.ML, 90C05, 68T27, I.2.3; F.4.1 2025-09-12
Авторы:

Andrés Corrada-Emmanuel

Резюме на русском

#### Контекст В последние годы искусственная интеллектуальная система, такая как Large Language Models (LLMs), набирают всё большую популярность в различных сферах, включая моделирование сложных решений. Однако, когда LLMs используются в качестве судей для оценки решений других моделей, возникает проблема мониторинга этих судей. Если нет доступа к истинным ответам на задачи, невозможно гарантировать, что судьи точно оценивают решения. Это приводит к потечению доверия к цепочкам мониторинга, которые могут стать бесконечными. Одним из способов уменьшить неопределенность в оценке является использование логической согласованности между несогласными судьями. Опираясь на выявленные несоответствия, можно вычислить возможные эталонные оценки возможностей оценки этих моделей. #### Метод Для решения этой проблемы предлагается методология, основанная на логическом анализе диспутов между моделями. Алгоритм использует технику линейного программирования, которая позволяет вычислить возможные варианты точности оценки на основе расхождений в решениях. Эта модель может работать со всеми типами логических задач и не требует доступа к истинным ответам. Тестирование проводится на отдельных задачах, где модели-судьи выдают ответы на вопросы, а затем проводится анализ расхождений в их ответах. Для этого разрабатывается программа, которая может выявить несоответствия в оценках, даже если некоторые модели могут иметь высокую долеуверенность в своих ответах. #### Результаты Исследование проводилось на наборе тестовых данных, представляющих собой множество задач, оцениваемых разными моделями-судьями. Данные включили разные типы задач, начиная от простых слов до сложных историй. В результате, программа могла выявлять логические противоречия в ответах моделей-судьей, не требуя доступа к истинному ответу. Эта модель демонстрирует способность обнаруживать ошибки в оценках судьями, даже когда они имеют высокую уверенность в своих ответах. Это, в свою очередь, способствует созданию более надежной системы мониторинга без доверия к истинному ответу. #### Значимость Результаты этой работы могут иметь значительное значение в области мониторинга и использования LLMs в сложных задачах. Они могут использоваться в сферах, где необходимо убедиться в правильности решений, например в области отбора персонала, оценки медицинских решений, или даже в юридических системах. Преимущество этой модели заключается в том, что она может обнаруживать логические противоречия с помощью логического анализа, а не на основе доступа к истинным ответам. Потенциально, эта модель может сущест

Abstract

If we use LLMs as judges to evaluate the complex decisions of other LLMs, who or what monitors the judges? Infinite monitoring chains are inevitable whenever we do not know the ground truth of the decisions by experts and we do not want to trust them. One way to ameliorate our evaluation uncertainty is to exploit the use of logical consistency between disagreeing experts. By observing how LLM judges agree and disagree while grading other LLMs, we can compute the only possible evaluations of their grading ability. For example, if two LLM judges disagree on which tasks a third one completed correctly, they cannot both be 100\% correct in their judgments. This logic can be formalized as a Linear Programming problem in the space of integer response counts for any finite test. We use it here to develop no-knowledge alarms for misaligned LLM judges. The alarms can detect, with no false positives, that at least one member or more of an ensemble of judges are violating a user specified grading ability requirement.

Ссылки и действия