DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models
2509.15587v2
cs.CL, cs.AI, cs.LG
2025-09-24
Авторы:
Tsz Ting Chung, Lemao Liu, Mo Yu, Dit-Yan Yeung
Резюме на русском
#### Контекст
Современные технологии в области глубокого обучения позволили значительно продвинуться в области логического разума в языках, особенно в тех, как бо LARGE LANGUAGE MODELS (LLMs). Улучшение логического рассуждения в естественных языках является ключевым аспектом исследований в ИИ, так как оно играет важную роль в предсказании текстов, обработке естественного языка и обобщения знаний. Однако, текущие модели имеют тяжелые проблемы с логическим рассуждением. Одна из проблем заключается в том, что предыдущие тесты, оценивающие логические модели, часто слишком специфичны и не учтут важные ситуации. Также, многие существующие бенчмарки для оценки логического рассуждения в LLMs либо недостаточно точно охватывают его, либо не учитывают разнообразие языков и логических структур. Это приводит к неверной оценке моделей. Данный материал предлагает новую модель, которая может помочь получить более точную оценку логических способностей моделей.
#### Метод
Мы предлагаем новую модель, названную DivLogicEval, которая представляет собой рамку для оценки логических способностей лардж-лангуэдж моделей. Модель основывается на новых принципах логического рассуждения, которые учитывают разнообразие языков и логических структур. В рамках этого проекта мы создали датасет, состоящий из сложных логических задач, которые требуют тщательного исследования. Была также разработана новая метрика для оценки результатов, минимизирующая влияние биаса и ненадежности в стандартных метриках. Наши исследования включали в себя тщательную проверку логических моделей, сравнение их результатов с реальными данными и тестирование разных моделей на разных языках.
#### Результаты
Мы провели ряд экспериментов с популярными моделями логического рассуждения, включая GPT-3, T5, BERT и другие. Мы получили результаты, показывающие, насколько эти модели способны выполнять логические задачи с разным уровнем сложности. Наши эксперименты показали, что новый бенчмарк DivLogicEval дает более точные оценки, чем существующие методы. Мы также сравнили показатели моделей на разных языках и получили интересные выводы о том, как разные модели справляются с задачами в зависимости от языка.
#### Значимость
Наш бенчмарк может применяться в различных областях, в том числе в обучении новых моделей логического рассуждения, в тестировании моделей на разнообразии языков и в оценке улучшений моделей. Он предлагает новый подход к оценке логических моделей, который может быть использован для представления более точных и детальных
Abstract
Logic reasoning in natural language has been recognized as an important
measure of human intelligence for Large Language Models (LLMs). Popular
benchmarks may entangle multiple reasoning skills and thus provide unfaithful
evaluations on the logic reasoning skill. Meanwhile, existing logic reasoning
benchmarks are limited in language diversity and their distributions are
deviated from the distribution of an ideal logic reasoning benchmark, which may
lead to biased evaluation results. This paper thereby proposes a new classical
logic benchmark DivLogicEval, consisting of natural sentences composed of
diverse statements in a counterintuitive way. To ensure a more reliable
evaluation, we also introduce a new evaluation metric that mitigates the
influence of bias and randomness inherent in LLMs. Through experiments, we
demonstrate the extent to which logical reasoning is required to answer the
questions in DivLogicEval and compare the performance of different popular LLMs
in conducting logical reasoning.
Ссылки и действия
Дополнительные ресурсы: