DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models

2509.15587v1 cs.CL, cs.AI, cs.LG 2025-09-23

Авторы:

Tsz Ting Chung, Lemao Liu, Mo Yu, Dit-Yan Yeung

Резюме на русском

## Контекст Логическое разумение естественным языком является ключевым аспектом измерения человеческого интеллекта с помощью Больших Лингвистических Моделей (LLM). Однако существующие бенчмарки, оценивающие логическое разумение, часто склеивают множество разных логических навыков, что приводит к недостоверным оценкам отдельных навыков. Более того, эти бенчмарки ограничены в разнообразии языка и не соответствуют распределению, которое должно иметь идеальный бенчмарк для логического разума. Это может привести к смещенным оценкам производительности. Наша цель — изучить эти проблемы и предложить новый классический бенчмарк для логического разума, который будет более разнообразным и достоверным. ## Метод Мы предлагаем **DivLogicEval** — новый классический логический бенчмарк, состоящий из природных предложений, которые включают разнообразные утверждения, поднимающие вопросы логики. Данные были созданы с учетом разнообразия языка и логических структур, чтобы обеспечить более достоверный анализ. Также представлен новый метод оценки, который уменьшает влияние биаса и случайности, присущих LLM. Мы проводим эксперименты с различными популярными LLM, чтобы оценить их производительность в логическом разумении. ## Результаты Мы провели эксперименты с DivLogicEval, использовав разные LLM. Наши результаты показывают, насколько трудно для этих моделей выполнять логический разум, особенно когда задачи требуют изящного логического рассуждения. Мы сравнили результаты различных моделей и выявили сильные и слабые стороны каждой из них. Наш оптимизированный метод оценки позволил избежать биаз и случайности, обеспечив более точные результаты. ## Значимость Бенчмарк DivLogicEval может быть применен в различных областях, таких как оценка логического разума в LLM, развитие новых логических моделей и исследование новых методов оценки. Он предлагает более разнообразное и достоверное окружение для тестирования логических навыков. Это может привести к улучшению LLM в разделе логического разума и дать новые идеи для будущих исследований в этой области. ## Выводы Предложенный бенчмарк DivLogicEval демонстрирует значительные достижения в области логического разума для LLM. Он предоставляет более достоверный и разнообразный пример для тестирования логических навыков. В будущем мы планируем расширить DivLogicEval, включив более сложные задачи и продолжить исследовать новые методы оценки для LLM.

Abstract

Logic reasoning in natural language has been recognized as an important measure of human intelligence for Large Language Models (LLMs). Popular benchmarks may entangle multiple reasoning skills and thus provide unfaithful evaluations on the logic reasoning skill. Meanwhile, existing logic reasoning benchmarks are limited in language diversity and their distributions are deviated from the distribution of an ideal logic reasoning benchmark, which may lead to biased evaluation results. This paper thereby proposes a new classical logic benchmark DivLogicEval, consisting of natural sentences composed of diverse statements in a counterintuitive way. To ensure a more reliable evaluation, we also introduce a new evaluation metric that mitigates the influence of bias and randomness inherent in LLMs. Through experiments, we demonstrate the extent to which logical reasoning is required to answer the questions in DivLogicEval and compare the performance of different popular LLMs in conducting logical reasoning.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация