DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models
2509.15587v1
cs.CL, cs.AI, cs.LG
2025-09-23
Авторы:
Tsz Ting Chung, Lemao Liu, Mo Yu, Dit-Yan Yeung
Резюме на русском
## Контекст
Логическое разумение естественным языком является ключевым аспектом измерения человеческого интеллекта с помощью Больших Лингвистических Моделей (LLM). Однако существующие бенчмарки, оценивающие логическое разумение, часто склеивают множество разных логических навыков, что приводит к недостоверным оценкам отдельных навыков. Более того, эти бенчмарки ограничены в разнообразии языка и не соответствуют распределению, которое должно иметь идеальный бенчмарк для логического разума. Это может привести к смещенным оценкам производительности. Наша цель — изучить эти проблемы и предложить новый классический бенчмарк для логического разума, который будет более разнообразным и достоверным.
## Метод
Мы предлагаем **DivLogicEval** — новый классический логический бенчмарк, состоящий из природных предложений, которые включают разнообразные утверждения, поднимающие вопросы логики. Данные были созданы с учетом разнообразия языка и логических структур, чтобы обеспечить более достоверный анализ. Также представлен новый метод оценки, который уменьшает влияние биаса и случайности, присущих LLM. Мы проводим эксперименты с различными популярными LLM, чтобы оценить их производительность в логическом разумении.
## Результаты
Мы провели эксперименты с DivLogicEval, использовав разные LLM. Наши результаты показывают, насколько трудно для этих моделей выполнять логический разум, особенно когда задачи требуют изящного логического рассуждения. Мы сравнили результаты различных моделей и выявили сильные и слабые стороны каждой из них. Наш оптимизированный метод оценки позволил избежать биаз и случайности, обеспечив более точные результаты.
## Значимость
Бенчмарк DivLogicEval может быть применен в различных областях, таких как оценка логического разума в LLM, развитие новых логических моделей и исследование новых методов оценки. Он предлагает более разнообразное и достоверное окружение для тестирования логических навыков. Это может привести к улучшению LLM в разделе логического разума и дать новые идеи для будущих исследований в этой области.
## Выводы
Предложенный бенчмарк DivLogicEval демонстрирует значительные достижения в области логического разума для LLM. Он предоставляет более достоверный и разнообразный пример для тестирования логических навыков. В будущем мы планируем расширить DivLogicEval, включив более сложные задачи и продолжить исследовать новые методы оценки для LLM.
Abstract
Logic reasoning in natural language has been recognized as an important
measure of human intelligence for Large Language Models (LLMs). Popular
benchmarks may entangle multiple reasoning skills and thus provide unfaithful
evaluations on the logic reasoning skill. Meanwhile, existing logic reasoning
benchmarks are limited in language diversity and their distributions are
deviated from the distribution of an ideal logic reasoning benchmark, which may
lead to biased evaluation results. This paper thereby proposes a new classical
logic benchmark DivLogicEval, consisting of natural sentences composed of
diverse statements in a counterintuitive way. To ensure a more reliable
evaluation, we also introduce a new evaluation metric that mitigates the
influence of bias and randomness inherent in LLMs. Through experiments, we
demonstrate the extent to which logical reasoning is required to answer the
questions in DivLogicEval and compare the performance of different popular LLMs
in conducting logical reasoning.
Ссылки и действия
Дополнительные ресурсы: