Complex Logical Instruction Generation
2508.09125v1
cs.CL, cs.LG
2025-08-14
Авторы:
Mian Zhang, Shujian Liu, Sixun Dong, Ming Yin, Yebowen Hu, Xun Wang, Steven Ma, Song Wang, Sathish Reddy Indurthi, Haoyun Deng, Zhiyu Zoey Chen, Kaiqiang Song
Резюме на русском
## Контекст
Одним из ключевых моментов в развитии интеллектуальных систем является возможность правильно понимать и выполнять контрольные инструкции, которые включают в себя логические конструкции. Эти инструкции могут включать в себя условия, вложенные уровни, рекурсию и вызовы функций. Понимание таких инструкций является основополагающим этапом для развития умений, таких как разумное принятие решений, агентное поведение и решение задач. Но значительная часть ресурса инструкций в жизни и в сфере бизнеса подстрекает модели глубокого обучения к более сложному уровню логического понимания. Недостаток в глубине и сложности тестируемых инструкций в существующих бенчмарках наводит на путь исследования, которое может улучшить понимание и выполнение сложных логических инструкций в области глубокого обучения.
## Метод
Предлагается набор инструментов LogicIFGen и LogicIFEval для оптимизации и проверки логических инструкций. LogicIFGen — это автоматизированная система, которая может выражать логические конструкции в виде инструкций, включающих условия, вложенные вызовы и рекурсию. Она работает со скриптами программного кода и может сгенерировать готовые инструкции для моделей. LogicIFEval — это новый набор данных, содержащий 426 инструкций, основывающихся на логических конструкциях, которые могут быть проверены в терминах точности и полноты выполнения моделями. Оба инструмента позволяют улучшить метрики точности и оценить глубину логического понимания моделей.
## Результаты
На тестовой выборке было протестировано несколько глубинно обученных моделей, включая СhineseLLM, GPT-4 и LLAMA. Эксперименты показали, что даже самые современные модели показывают незначительную долю правильного выполнения (менее 60%) на LogicIFEval. Это значит, что логическое понимание и выполнение все еще остаются сложными для моделей, даже при использовании передовых методов. Набор данных LogicIFEval позволяет отличать модели, которые обладают высоким уровнем логического понимания и выполнения сложных инструкций от тех, которые еще не достигли этого уровня.
## Значимость
Набор LogicIFEval может применяться в тестах глубинного понимания языка и выполнения инструкций в сферах, таких как искусственный интеллект, автоматизация процессов и робототехника. Он также может способствовать развитию новых методов, позволяющих моделям быстрее и точнее реагировать на сложные логические задачи. Этот бенчмарк может стать новым стандартом для тестирования моделей, нацеленных на повышение качества логического понимания и выполнения.
## Выводы
Исследование LogicIFGen и LogicIFEval показало, что существующие модели глубокого обучения еще не достигли не
Abstract
Instruction following has catalyzed the recent era of Large Language Models
(LLMs) and is the foundational skill underpinning more advanced capabilities
such as reasoning and agentic behaviors. As tasks grow more challenging, the
logic structures embedded in natural language instructions becomes increasingly
intricate. However, how well LLMs perform on such logic-rich instructions
remains under-explored. We propose LogicIFGen and LogicIFEval. LogicIFGen is a
scalable, automated framework for generating verifiable instructions from code
functions, which can naturally express rich logic such as conditionals,
nesting, recursion, and function calls. We further curate a collection of
complex code functions and use LogicIFGen to construct LogicIFEval, a benchmark
comprising 426 verifiable logic-rich instructions. Our experiments demonstrate
that current state-of-the-art LLMs still struggle to correctly follow the
instructions in LogicIFEval. Most LLMs can only follow fewer than 60% of the
instructions, revealing significant deficiencies in the instruction-following
ability. Code and Benchmark: https://github.com/mianzhang/LogicIF
Ссылки и действия
Дополнительные ресурсы: