Improved Generalized Planning with LLMs through Strategy Refinement and Reflection
2508.13876v1
cs.AI, cs.CL
2025-08-21
Авторы:
Katharina Stein, Nils Hodel, Daniel Fišer, Jörg Hoffmann, Michael Katz, Alexander Koller
Резюме на русском
## Контекст
Планирование общего характера (generalized planning) предполагает разработку планов, которые могут применяться к любым задачам в заданном планировательном домене (PDDL domain). Одним из популярных подходов является использование генерируемых текстовыми моделями глубоким обучением (LLMs) для создания Python-программ, реализующих такие планы. Однако, существуют проблемы: однако одна стратегия, сгенерированная моделью, не всегда удачно реализуется, и ошибки в ней могут привести к неверной реализации плана. Без возможности отладки стратегии до её реализации в коде, качество решений может оставаться низким. Это ограничивает широкое применение таких подходов.
## Метод
Мы предлагаем новый подход, основанный на трех ключевых усовершенствованиях. Во-первых, мы преобразуем стратегию, сгенерированную моделью, в псевдокод, чтобы упростить её анализ и оптимизацию. Во-вторых, мы вводим автоматическую отладку псевдокода, которая позволяет выявлять и исправлять ошибки до формирования самого плана. В-третьих, мы добавляем шаг отражения в процесс отладки Python-программ: запрашивая от модели разъяснений о проблемах в работе программы, мы улучшаем её качество. Наконец, наша система генерирует несколько вариантов реализаций программы и выбирает наилучший.
## Результаты
Мы проверили наш подход на 17 бенчмарк-доменах PDDL. Он позволил улучшить качество решений, снизив частоту ошибок и увеличив число успешно решённых задач. На 12 доменах наши методы позволили создать программы, которые решают все задачи, сгенерированные инструментом для генерации испытаний. Это свидетельствует о значительном повышении качества за счёт введённых усовершенствований.
## Значимость
Наш подход может быть применён в сферах, где требуется автоматизация процессов, требующих генерации общих решений, таких как управление роботами, логистика, разработка программных систем. Он обеспечивает высокое качество решений, гибкость в адаптации к новым задачам и улучшенную отладочную возможность. Эти достижения открывают новые перспективы для применения текстовых моделей глубокого обучения в общем планировании.
## Выводы
Мы представили усовершенствованный подход к общему планированию с использованием текстовых моделей глубокого обучения. Введение псевдокода, автоматической отладки и шага отражения значительно улучшил качество решений. Этот подход демонстрирует перспективы текстовых моделей глубокого обучения в области общего планирования и может быть использован в различных практических приложениях. Будущие исследования будут ориентированы на улучшение точности и гибкости моделей, а
Abstract
LLMs have recently been used to generate Python programs representing
generalized plans in PDDL planning, i.e., plans that generalize across the
tasks of a given PDDL domain. Previous work proposed a framework consisting of
three steps: the LLM first generates a summary and then a strategy for the
domain, both in natural language, and then implements that strategy as a Python
program, that gets debugged on example planning tasks. In that work, only one
strategy is generated and passed directly to the program generation. If the
strategy is incorrect, its implementation will therefore result in an incorrect
generalized plan. Here, we introduce an approach that generates the strategy in
the form of pseudocode and enables automatic debugging of the pseudocode, hence
allowing us to identify and fix errors prior to the generation of the
generalized plan itself. Additionally, we extend the Python debugging phase
with a reflection step prompting the LLM to pinpoint the reason for the
observed plan failure. Finally, we take inspiration from LLM code generation to
produce several program variants and pick the best one. Running experiments on
17 benchmark domains, we show that these extensions substantially improve (and
never deteriorate) the quality of the generalized plans. In 12 of the domains,
our best Python programs solve all tasks that can be generated with the
respective instance generator.
Ссылки и действия
Дополнительные ресурсы: