📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 No-Knowledge Alarms for Misaligned LLMs-as-Judges

2025-09-12

Авторы:

Andrés Corrada-Emmanuel

#### Контекст В последние годы искусственная интеллектуальная система, такая как Large Language Models (LLMs), набирают всё большую популярность в различных сферах, включая моделирование сложных решений. Однако, когда LLMs используются в качестве судей для оценки решений других моделей, возникает проблема мониторинга этих судей. Если нет доступа к истинным ответам на задачи, невозможно гарантировать, что судьи точно оценивают решения. Это приводит к потечению доверия к цепочкам мониторинга, которые могут стать бесконечными. Одним из способов уменьшить неопределенность в оценке является использование логической согласованности между несогласными судьями. Опираясь на выявленные несоответствия, можно вычислить возможные эталонные оценки возможностей оценки этих моделей. #### Метод Для решения этой проблемы предлагается методология, основанная на логическом анализе диспутов между моделями. Алгоритм использует технику линейного программирования, которая позволяет вычислить возможные варианты точности оценки на основе расхождений в решениях. Эта модель может работать со всеми типами логических задач и не требует доступа к истинным ответам. Тестирование проводится на отдельных задачах, где модели-судьи выдают ответы на вопросы, а затем проводится анализ расхождений в их ответах. Для этого разрабатывается программа, которая может выявить несоответствия в оценках, даже если некоторые модели могут иметь высокую долеуверенность в своих ответах. #### Результаты Исследование проводилось на наборе тестовых данных, представляющих собой множество задач, оцениваемых разными моделями-судьями. Данные включили разные типы задач, начиная от простых слов до сложных историй. В результате, программа могла выявлять логические противоречия в ответах моделей-судьей, не требуя доступа к истинному ответу. Эта модель демонстрирует способность обнаруживать ошибки в оценках судьями, даже когда они имеют высокую уверенность в своих ответах. Это, в свою очередь, способствует созданию более надежной системы мониторинга без доверия к истинному ответу. #### Значимость Результаты этой работы могут иметь значительное значение в области мониторинга и использования LLMs в сложных задачах. Они могут использоваться в сферах, где необходимо убедиться в правильности решений, например в области отбора персонала, оценки медицинских решений, или даже в юридических системах. Преимущество этой модели заключается в том, что она может обнаруживать логические противоречия с помощью логического анализа, а не на основе доступа к истинным ответам. Потенциально, эта модель может сущест

Annotation:

If we use LLMs as judges to evaluate the complex decisions of other LLMs, who or what monitors the judges? Infinite monitoring chains are inevitable whenever we do not know the ground truth of the decisions by experts and we do not want to trust them. One way to ameliorate our evaluation uncertainty is to exploit the use of logical consistency between disagreeing experts. By observing how LLM judges agree and disagree while grading other LLMs, we can compute the only possible evaluations of thei...

ID: 2509.08593v1 cs.AI, stat.ML, 90C05, 68T27, I.2.3; F.4.1

arXiv PDF