Improved Generalized Planning with LLMs through Strategy Refinement and Reflection

2508.13876v1 cs.AI, cs.CL 2025-08-21
Авторы:

Katharina Stein, Nils Hodel, Daniel Fišer, Jörg Hoffmann, Michael Katz, Alexander Koller

Резюме на русском

## Контекст Планирование общего характера (generalized planning) предполагает разработку планов, которые могут применяться к любым задачам в заданном планировательном домене (PDDL domain). Одним из популярных подходов является использование генерируемых текстовыми моделями глубоким обучением (LLMs) для создания Python-программ, реализующих такие планы. Однако, существуют проблемы: однако одна стратегия, сгенерированная моделью, не всегда удачно реализуется, и ошибки в ней могут привести к неверной реализации плана. Без возможности отладки стратегии до её реализации в коде, качество решений может оставаться низким. Это ограничивает широкое применение таких подходов. ## Метод Мы предлагаем новый подход, основанный на трех ключевых усовершенствованиях. Во-первых, мы преобразуем стратегию, сгенерированную моделью, в псевдокод, чтобы упростить её анализ и оптимизацию. Во-вторых, мы вводим автоматическую отладку псевдокода, которая позволяет выявлять и исправлять ошибки до формирования самого плана. В-третьих, мы добавляем шаг отражения в процесс отладки Python-программ: запрашивая от модели разъяснений о проблемах в работе программы, мы улучшаем её качество. Наконец, наша система генерирует несколько вариантов реализаций программы и выбирает наилучший. ## Результаты Мы проверили наш подход на 17 бенчмарк-доменах PDDL. Он позволил улучшить качество решений, снизив частоту ошибок и увеличив число успешно решённых задач. На 12 доменах наши методы позволили создать программы, которые решают все задачи, сгенерированные инструментом для генерации испытаний. Это свидетельствует о значительном повышении качества за счёт введённых усовершенствований. ## Значимость Наш подход может быть применён в сферах, где требуется автоматизация процессов, требующих генерации общих решений, таких как управление роботами, логистика, разработка программных систем. Он обеспечивает высокое качество решений, гибкость в адаптации к новым задачам и улучшенную отладочную возможность. Эти достижения открывают новые перспективы для применения текстовых моделей глубокого обучения в общем планировании. ## Выводы Мы представили усовершенствованный подход к общему планированию с использованием текстовых моделей глубокого обучения. Введение псевдокода, автоматической отладки и шага отражения значительно улучшил качество решений. Этот подход демонстрирует перспективы текстовых моделей глубокого обучения в области общего планирования и может быть использован в различных практических приложениях. Будущие исследования будут ориентированы на улучшение точности и гибкости моделей, а

Abstract

LLMs have recently been used to generate Python programs representing generalized plans in PDDL planning, i.e., plans that generalize across the tasks of a given PDDL domain. Previous work proposed a framework consisting of three steps: the LLM first generates a summary and then a strategy for the domain, both in natural language, and then implements that strategy as a Python program, that gets debugged on example planning tasks. In that work, only one strategy is generated and passed directly to the program generation. If the strategy is incorrect, its implementation will therefore result in an incorrect generalized plan. Here, we introduce an approach that generates the strategy in the form of pseudocode and enables automatic debugging of the pseudocode, hence allowing us to identify and fix errors prior to the generation of the generalized plan itself. Additionally, we extend the Python debugging phase with a reflection step prompting the LLM to pinpoint the reason for the observed plan failure. Finally, we take inspiration from LLM code generation to produce several program variants and pick the best one. Running experiments on 17 benchmark domains, we show that these extensions substantially improve (and never deteriorate) the quality of the generalized plans. In 12 of the domains, our best Python programs solve all tasks that can be generated with the respective instance generator.

Ссылки и действия