DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models

2509.15587v2 cs.CL, cs.AI, cs.LG 2025-09-24
Авторы:

Tsz Ting Chung, Lemao Liu, Mo Yu, Dit-Yan Yeung

Резюме на русском

#### Контекст Современные технологии в области глубокого обучения позволили значительно продвинуться в области логического разума в языках, особенно в тех, как бо LARGE LANGUAGE MODELS (LLMs). Улучшение логического рассуждения в естественных языках является ключевым аспектом исследований в ИИ, так как оно играет важную роль в предсказании текстов, обработке естественного языка и обобщения знаний. Однако, текущие модели имеют тяжелые проблемы с логическим рассуждением. Одна из проблем заключается в том, что предыдущие тесты, оценивающие логические модели, часто слишком специфичны и не учтут важные ситуации. Также, многие существующие бенчмарки для оценки логического рассуждения в LLMs либо недостаточно точно охватывают его, либо не учитывают разнообразие языков и логических структур. Это приводит к неверной оценке моделей. Данный материал предлагает новую модель, которая может помочь получить более точную оценку логических способностей моделей. #### Метод Мы предлагаем новую модель, названную DivLogicEval, которая представляет собой рамку для оценки логических способностей лардж-лангуэдж моделей. Модель основывается на новых принципах логического рассуждения, которые учитывают разнообразие языков и логических структур. В рамках этого проекта мы создали датасет, состоящий из сложных логических задач, которые требуют тщательного исследования. Была также разработана новая метрика для оценки результатов, минимизирующая влияние биаса и ненадежности в стандартных метриках. Наши исследования включали в себя тщательную проверку логических моделей, сравнение их результатов с реальными данными и тестирование разных моделей на разных языках. #### Результаты Мы провели ряд экспериментов с популярными моделями логического рассуждения, включая GPT-3, T5, BERT и другие. Мы получили результаты, показывающие, насколько эти модели способны выполнять логические задачи с разным уровнем сложности. Наши эксперименты показали, что новый бенчмарк DivLogicEval дает более точные оценки, чем существующие методы. Мы также сравнили показатели моделей на разных языках и получили интересные выводы о том, как разные модели справляются с задачами в зависимости от языка. #### Значимость Наш бенчмарк может применяться в различных областях, в том числе в обучении новых моделей логического рассуждения, в тестировании моделей на разнообразии языков и в оценке улучшений моделей. Он предлагает новый подход к оценке логических моделей, который может быть использован для представления более точных и детальных

Abstract

Logic reasoning in natural language has been recognized as an important measure of human intelligence for Large Language Models (LLMs). Popular benchmarks may entangle multiple reasoning skills and thus provide unfaithful evaluations on the logic reasoning skill. Meanwhile, existing logic reasoning benchmarks are limited in language diversity and their distributions are deviated from the distribution of an ideal logic reasoning benchmark, which may lead to biased evaluation results. This paper thereby proposes a new classical logic benchmark DivLogicEval, consisting of natural sentences composed of diverse statements in a counterintuitive way. To ensure a more reliable evaluation, we also introduce a new evaluation metric that mitigates the influence of bias and randomness inherent in LLMs. Through experiments, we demonstrate the extent to which logical reasoning is required to answer the questions in DivLogicEval and compare the performance of different popular LLMs in conducting logical reasoning.

Ссылки и действия