No-Knowledge Alarms for Misaligned LLMs-as-Judges
2509.08593v1
cs.AI, stat.ML, 90C05, 68T27, I.2.3; F.4.1
2025-09-12
Авторы:
Andrés Corrada-Emmanuel
Резюме на русском
#### Контекст
В последние годы искусственная интеллектуальная система, такая как Large Language Models (LLMs), набирают всё большую популярность в различных сферах, включая моделирование сложных решений. Однако, когда LLMs используются в качестве судей для оценки решений других моделей, возникает проблема мониторинга этих судей. Если нет доступа к истинным ответам на задачи, невозможно гарантировать, что судьи точно оценивают решения. Это приводит к потечению доверия к цепочкам мониторинга, которые могут стать бесконечными. Одним из способов уменьшить неопределенность в оценке является использование логической согласованности между несогласными судьями. Опираясь на выявленные несоответствия, можно вычислить возможные эталонные оценки возможностей оценки этих моделей.
#### Метод
Для решения этой проблемы предлагается методология, основанная на логическом анализе диспутов между моделями. Алгоритм использует технику линейного программирования, которая позволяет вычислить возможные варианты точности оценки на основе расхождений в решениях. Эта модель может работать со всеми типами логических задач и не требует доступа к истинным ответам. Тестирование проводится на отдельных задачах, где модели-судьи выдают ответы на вопросы, а затем проводится анализ расхождений в их ответах. Для этого разрабатывается программа, которая может выявить несоответствия в оценках, даже если некоторые модели могут иметь высокую долеуверенность в своих ответах.
#### Результаты
Исследование проводилось на наборе тестовых данных, представляющих собой множество задач, оцениваемых разными моделями-судьями. Данные включили разные типы задач, начиная от простых слов до сложных историй. В результате, программа могла выявлять логические противоречия в ответах моделей-судьей, не требуя доступа к истинному ответу. Эта модель демонстрирует способность обнаруживать ошибки в оценках судьями, даже когда они имеют высокую уверенность в своих ответах. Это, в свою очередь, способствует созданию более надежной системы мониторинга без доверия к истинному ответу.
#### Значимость
Результаты этой работы могут иметь значительное значение в области мониторинга и использования LLMs в сложных задачах. Они могут использоваться в сферах, где необходимо убедиться в правильности решений, например в области отбора персонала, оценки медицинских решений, или даже в юридических системах. Преимущество этой модели заключается в том, что она может обнаруживать логические противоречия с помощью логического анализа, а не на основе доступа к истинным ответам. Потенциально, эта модель может сущест
Abstract
If we use LLMs as judges to evaluate the complex decisions of other LLMs, who
or what monitors the judges? Infinite monitoring chains are inevitable whenever
we do not know the ground truth of the decisions by experts and we do not want
to trust them. One way to ameliorate our evaluation uncertainty is to exploit
the use of logical consistency between disagreeing experts. By observing how
LLM judges agree and disagree while grading other LLMs, we can compute the only
possible evaluations of their grading ability. For example, if two LLM judges
disagree on which tasks a third one completed correctly, they cannot both be
100\% correct in their judgments. This logic can be formalized as a Linear
Programming problem in the space of integer response counts for any finite
test. We use it here to develop no-knowledge alarms for misaligned LLM judges.
The alarms can detect, with no false positives, that at least one member or
more of an ensemble of judges are violating a user specified grading ability
requirement.