GEAR: A General Evaluation Framework for Abductive Reasoning

2509.24096v1 cs.CL, cs.AI, cs.LG 2025-10-01
Авторы:

Kaiyu He, Peilin Wu, Mian Zhang, Kun Wan, Wentian Zhao, Xinya Du, Zhiyu Chen

Резюме на русском

## Контекст С появлением больших языковых моделей (LLMs), исследования фокусируются на инструкционном следовании и дедуктивном разумении. Однако остается вопрос: могут ли эти модели создавать новые знания, и как их эффективность можно оценить? Абдуктивное разумение, которое заключается в генерации плюральных и предположительных гипотез для объяснения наблюдений, предлагается как возможность для экспериментов с получением новых знаний. Однако оценка таких моделей остается нетривиальной, требующей прозрачных и автоматизированных методов. ## Метод Мы предлагаем GEAR (General Evaluation for Abductive Reasoning) - автоматизированную, технически независимую и масштабируемую фреймворк для оценки абдуктивного разумения. Фреймворк основывается на трех ключевых метриках: **последовательность (consistency)**, которая гарантирует, что каждая гипотеза объясняет наблюдения; **генерализуемость (generalizability)**, которая проверяет, предсказывают ли гипотезы значимые результаты на невидимых входных данных; и **разнообразие (diversity)**, которое требует, чтобы комплект гипотез включал различные возможные варианты и структуры решений. Фреймворк не требует ручной маркировки золотыми ответами, стабильный и открытый для развития, так как оценки улучшаются только при появлении новых релевантных предположений. ## Результаты Мы использовали GEAR для оценки девяти моделей БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ (LLMs) на четырёх тестах абдуктивного разумения, состоящих из 1,500 задач. Эксперименты породили более 50,000 гипотез и раскрыли отличия моделей, не видимые в традиционных оценках с золотыми ответами. Например, хотя некоторые модели показали высокую точность в ответах на задачи, они ограничивались решениями в пределах ограниченных структур, в то время как другие модели демонстрировали более разнообразные решения, позволяя повысить разнообразие и генерализуемость по результатам. ## Значимость GEAR предоставляет области применения в обучении моделей к широкому спектру задач абдуктивного разумения, включая здравословное вмешательство в выводы, синтез новых теорий и развитие творческих решений. Этот фреймворк позволяет избегать ограничений традиционных методов с золотыми ответами, позволяя моделям развиваться в течение времени. Благодаря ему модели могут получать новые и разнообразные знания, что является ключевым для развития интеллектуальных систем. ## Выводы GEAR предоставляет мощный и автоматизированный метод для оценки абдуктивного разумения, предоставляя новые тренировочные сигналы для моделей БОЛЬШИХ ЯЗЫКОВЫХ

Abstract

Since the advent of large language models (LLMs), research has focused on instruction following and deductive reasoning. A central question remains: can these models discover new knowledge, and how can we evaluate this ability? We address this by studying abductive reasoning-the generation of plausible hypotheses to explain observations-and introduce GEAR (General Evaluation for Abductive Reasoning), a general-purpose, fully automated, transparent, and label-free evaluation paradigm. GEAR scores hypothesis sets by three metrics: consistency (each hypothesis explains the observations), generalizability (consistent hypotheses make meaningful predictions on unseen inputs), and diversity (the set covers distinct predictions and patterns). Built this way, GEAR is scalable (no human gold answers), reliable (deterministic scoring aligned with classical abduction), and open-ended (scores improve only when models produce new plausible hypotheses, unlike static benchmarks that saturate once accuracy is high). Using GEAR, we conduct a fine-grained study of nine LLMs on four abduction benchmarks with 1,500 problems, generating over 50,000 candidate hypotheses and revealing model differences obscured by gold-answer or purely human evaluations. We further propose a momentum-based curriculum that adjusts GEAR-derived training data by learning velocity: it starts with what the model learns quickly and shifts toward harder objectives such as generating diverse hypotheses once the model is confident on foundational objectives. Without gold-label supervision, this strategy improves all GEAR objectives and these gains transfer to established abductive reasoning benchmarks. Taken together, GEAR provides a principled framework that evaluates abduction and supplies label-free, scalable training signals that help LLMs produce more diverse and reliable hypotheses.

Ссылки и действия