Generics and Default Reasoning in Large Language Models

2508.13718v1 cs.CL, cs.AI, cs.LO 2025-08-21
Авторы:

James Ravi Kirkpatrick, Rachel Katharine Sterken

Резюме на русском

#################### ## Контекст #################### Область исследования фокусируется на исследовании возможностей бо LLM (Large Language Models) в области дефеасильного логического рассуждения, заключающегося в работе с генериками и умозрительными выводами. Генерики (например, "Птицы летают", "Черные вороны") широко исследуются в лингвистике, философии, логике и психологии. Эти утверждения характеризуются своей способностью допускать исключения, что делает их важной составляющей умозрительного рассуждения и понятийного приобщения. Несмотря на их центральность, дефеасильное рассуждение часто представляет собой сложную задачу для логических моделей. Особенностью работы является оценка возможности 28 LLMs осуществлять дефеасильное рассуждение с использованием 20 различных моделей немонотонной логики. Это направление исследований имеет практическое значение для развития интеллектуальных систем, где важна способность машин осуществлять умозрительные выводы на основе неполных или исключительных данных. #################### ## Метод #################### Использовались 28 LLMs, алгоритмы и методики дефеасильного рассуждения. Характеристики каждой модели включали в себя информацию о размере, архитектуре, обучении и возможности использования форматов подсказок (prompting). Набор используемых данных состоял из 20 моделей дефеасильного логического рассуждения, включая генерики и их исключения. Модели проверяли на способности различать дефеасильные и дедуктивные выводы, а также на точность в определении подходящих исключений. Для оценки производительности различные типы подсказок использовались: zero-shot, few-shot, chain-of-thought (CoT). Эксперименты проводились с различными уровнями температуры (temperature), чтобы изучить влияние случайности на результаты. Данные обрабатывались с помощью статистических методов для оценки точности, достоверности и качества выводов. #################### ## Результаты #################### Проведенные эксперименты показали, что некоторые модели LLMs демонстрируют высокую точность в дефеасильном логическом рассуждении, особенно при использовании стиля подсказок chain-of-thought (CoT). Однако полученные результаты очень сильно различаются между моделями и в зависимости от стиля подсказки. Заметно, что многие модели склонны интерпретировать генерики как универсальные утверждения, что приводит к ошибкам. Также, значительная часть моделей сталкивалась с трудностями при различении дефеасильных и дедуктивных выводов. Использование few-shot prompting по-прежнему давало незначительное повышение производительности, но chain-of-thought (CoT) prompting часто приводило к существенной деградации результатов (средняя ошиб

Abstract

This paper evaluates the capabilities of 28 large language models (LLMs) to reason with 20 defeasible reasoning patterns involving generic generalizations (e.g., 'Birds fly', 'Ravens are black') central to non-monotonic logic. Generics are of special interest to linguists, philosophers, logicians, and cognitive scientists because of their complex exception-permitting behaviour and their centrality to default reasoning, cognition, and concept acquisition. We find that while several frontier models handle many default reasoning problems well, performance varies widely across models and prompting styles. Few-shot prompting modestly improves performance for some models, but chain-of-thought (CoT) prompting often leads to serious performance degradation (mean accuracy drop -11.14%, SD 15.74% in models performing above 75% accuracy in zero-shot condition, temperature 0). Most models either struggle to distinguish between defeasible and deductive inference or misinterpret generics as universal statements. These findings underscore both the promise and limits of current LLMs for default reasoning.

Ссылки и действия