Complex Logical Instruction Generation

2508.09125v1 cs.CL, cs.LG 2025-08-14

Авторы:

Mian Zhang, Shujian Liu, Sixun Dong, Ming Yin, Yebowen Hu, Xun Wang, Steven Ma, Song Wang, Sathish Reddy Indurthi, Haoyun Deng, Zhiyu Zoey Chen, Kaiqiang Song

Резюме на русском

## Контекст Одним из ключевых моментов в развитии интеллектуальных систем является возможность правильно понимать и выполнять контрольные инструкции, которые включают в себя логические конструкции. Эти инструкции могут включать в себя условия, вложенные уровни, рекурсию и вызовы функций. Понимание таких инструкций является основополагающим этапом для развития умений, таких как разумное принятие решений, агентное поведение и решение задач. Но значительная часть ресурса инструкций в жизни и в сфере бизнеса подстрекает модели глубокого обучения к более сложному уровню логического понимания. Недостаток в глубине и сложности тестируемых инструкций в существующих бенчмарках наводит на путь исследования, которое может улучшить понимание и выполнение сложных логических инструкций в области глубокого обучения. ## Метод Предлагается набор инструментов LogicIFGen и LogicIFEval для оптимизации и проверки логических инструкций. LogicIFGen — это автоматизированная система, которая может выражать логические конструкции в виде инструкций, включающих условия, вложенные вызовы и рекурсию. Она работает со скриптами программного кода и может сгенерировать готовые инструкции для моделей. LogicIFEval — это новый набор данных, содержащий 426 инструкций, основывающихся на логических конструкциях, которые могут быть проверены в терминах точности и полноты выполнения моделями. Оба инструмента позволяют улучшить метрики точности и оценить глубину логического понимания моделей. ## Результаты На тестовой выборке было протестировано несколько глубинно обученных моделей, включая СhineseLLM, GPT-4 и LLAMA. Эксперименты показали, что даже самые современные модели показывают незначительную долю правильного выполнения (менее 60%) на LogicIFEval. Это значит, что логическое понимание и выполнение все еще остаются сложными для моделей, даже при использовании передовых методов. Набор данных LogicIFEval позволяет отличать модели, которые обладают высоким уровнем логического понимания и выполнения сложных инструкций от тех, которые еще не достигли этого уровня. ## Значимость Набор LogicIFEval может применяться в тестах глубинного понимания языка и выполнения инструкций в сферах, таких как искусственный интеллект, автоматизация процессов и робототехника. Он также может способствовать развитию новых методов, позволяющих моделям быстрее и точнее реагировать на сложные логические задачи. Этот бенчмарк может стать новым стандартом для тестирования моделей, нацеленных на повышение качества логического понимания и выполнения. ## Выводы Исследование LogicIFGen и LogicIFEval показало, что существующие модели глубокого обучения еще не достигли не

Abstract

Instruction following has catalyzed the recent era of Large Language Models (LLMs) and is the foundational skill underpinning more advanced capabilities such as reasoning and agentic behaviors. As tasks grow more challenging, the logic structures embedded in natural language instructions becomes increasingly intricate. However, how well LLMs perform on such logic-rich instructions remains under-explored. We propose LogicIFGen and LogicIFEval. LogicIFGen is a scalable, automated framework for generating verifiable instructions from code functions, which can naturally express rich logic such as conditionals, nesting, recursion, and function calls. We further curate a collection of complex code functions and use LogicIFGen to construct LogicIFEval, a benchmark comprising 426 verifiable logic-rich instructions. Our experiments demonstrate that current state-of-the-art LLMs still struggle to correctly follow the instructions in LogicIFEval. Most LLMs can only follow fewer than 60% of the instructions, revealing significant deficiencies in the instruction-following ability. Code and Benchmark: https://github.com/mianzhang/LogicIF

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Complex Logical Instruction Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Enhancing Job Matching: Occupation, Skill and Qualification Linking with the ESC...

Навигация