Language Models Do Not Follow Occam's Razor: A Benchmark for Inductive and Abductive Reasoning

2509.03345v1 cs.AI, cs.CL 2025-09-05
Авторы:

Yunxin Sun, Abulhair Saparov

Резюме на русском

#### Контекст Разумеющиеся системы — это высшая планта немыслимого. Их мощь заключается в способности решать задачи, которые вновь и вновь удивляют человека. Однако, несмотря на это, есть области, в которых они еще не достигли идеального мастерства. Одним из таких направлений является мета-рациональная модель, в которой возникает необходимость в эффективном индуктивном и абдуктивном рассуждении. Эта проблема говорит о необходимости дополнить модели, так как текущие модели не всегда способны построить высококачественные гипотезы для объяснения наблюдений в рамках сложных мировых моделей. #### Метод Для возможности эффективного тестирования и сравнения различных моделей был разработан специальный новый концептуальный инструмент — InAbHyD (Incomplete Abductive Hypothesis Discovery). Это датасет, ориентированный на программирование и синтетическую модель, где каждая примерная ситуация состоит из неполной мировой модели и набора наблюдений. Задача для искусственного интеллекта — сформулировать гипотезы, которые объясняют наблюдения в рамках неполной мировой модели. Для оценки качества гипотез был предложен новый метрический подход, основанный на принципе Оккама. Для оценки моделей была проведена серия экспериментов, включающих некоторые из самых современных технологий, таких как включение контекста в обучение и RLVR. #### Результаты Эксперименты проводились на InAbHyD-диапазоне, сравнивая результаты с различными моделями текста. Результаты показали, что хотя некоторые технологии типа in-context learning и RLVR улучшают качество результатов, модели всё же сталкиваются с трудностями при обработке сложных мировых моделей. Хотя они могут выполнять обычное индуктивное и абдуктивное рассуждение на простых уровнях, они испытывают трудности при работе с более сложными примерами. Это означает, что есть узкие места в их понятии взаимосвязи между сложными моделями и выводом высококачественных гипотез. #### Значимость Наша исследовательская работа имеет значение в нескольких областях. Она открывает новый подход к оценке моделей в области логической моделирования и стратегической моделирования. Области применения включают развитие новых технологий для практических задач, в которых необходимы дополнительные решения, например, в области развития AI-моделей для робототехники или медицины, где необходимо выделить самые релевантные способы решения задач. Это также может привести к улучшению общей модели рассуждения в системах AI, повышая их качество и эффективность. #### Выводы Наша работа показала, что, хотя модели языка продвинулись в рассуждениях, они всё еще имею

Abstract

Reasoning is a core capability in artificial intelligence systems, for which large language models (LLMs) have recently shown remarkable progress. However, most work focuses exclusively on deductive reasoning, which is problematic since other types of reasoning are also essential in solving real-world problems, and they are less explored. This work focuses on evaluating LLMs' inductive and abductive reasoning capabilities. We introduce a programmable and synthetic dataset, InAbHyD (pronounced in-a-bid), where each reasoning example consists of an incomplete world model and a set of observations. The task for the intelligent agent is to produce hypotheses to explain observations under the incomplete world model to solve each reasoning example. We propose a new metric to evaluate the quality of hypotheses based on Occam's Razor. We evaluate and analyze some state-of-the-art LLMs. Our analysis shows that LLMs can perform inductive and abductive reasoning in simple scenarios, but struggle with complex world models and producing high-quality hypotheses, even with popular reasoning-enhancing techniques such as in-context learning and RLVR.

Ссылки и действия