Benchmarking LLMs in Web API Integration Tasks
2509.20172v2
cs.SE, cs.LG
2025-09-29
Авторы:
Daniel Maninger, Leon Chemnitz, Amir Molzam Sharifloo, Jannis Brugger, Mira Mezini
Резюме на русском
## Контекст
В современном цифровом мире API-интеграция является ключевым компонентом создания современных программных систем. Однако ручное создание кода для интеграции с веб-API часто является задачей, требующей значительных усилий и ресурсов. Несмотря на то, что Большие Лингвистические Модели (LLM) стали популярны в сфере разработки программного обеспечения, их потенциал в автоматизации генерации кода для интеграции с веб-API еще не до конца изучен. Это включает в себя автоматическое создание кода для вызова веб-API, что требует точного понимания запросов и ответов, а также обработки специфических требований API. Было проведено исследование, чтобы оценить эффективность LLMs в этой области и выявить существующие проблемы в их применении.
## Метод
Для оценки способностей LLMs в задачах интеграции с веб-API была разработана подробная методология. Основной элемент этой методологии является создание датасета с реальными задачами интеграции с веб-API, который включает запросы и ответы, а также спецификации API. Модели LLM были применены для генерирования кода, соответствующего этим задачам. Результаты этих генераций были измерены на основе точности кода, правильности вызовов и отсутствия ошибок. Также были проведены эксперименты с различными LLM, включая общедоступные модели с открытым кодом, для сравнения их производительности.
## Результаты
В результате проведенных экспериментов было обнаружено, что генерация кода для вызова веб-API представляет собой сложную задачу для LLMs. В тестах было замечено, что модели часто создают неточный код, включая ошибки в использовании аргументов, неверные URL-адреса, и даже создание несуществующих API-конечных точек. Ни одна открытая модель LLM не смогла решить более 40% задач, что указывает на существующие ограничения в их подходе к этой задаче. Эти результаты подтверждают, что генерация кода для веб-API-интеграции является задачей, требующей больших усилий для достижения высокой точности и надежности.
## Значимость
Эти результаты имеют значительное значение для области разработки программного обеспечения, особенно для тех, кто работает с API-интеграцией. Несмотря на то, что LLMs могут сэкономить время и усилия, они еще не достигли уровня достоверности, необходимого для автоматизированного создания кода в этой области. Этот подход может быть применен в ситуациях, когда требуется быстрая разработка, но требуется ручное внимание для проверки результатов. Будущие исследования могут сфокусироваться на улучшении точности и качества генерируемого кода, а также на расширении возможностей LLMs в сложных за
Abstract
API integration is a cornerstone of our digital infrastructure, enabling
software systems to connect and interact. However, as shown by many studies,
writing or generating correct code to invoke APIs, particularly web APIs, is
challenging. Although large language models (LLMs) have become popular in
software development, their effectiveness in automating the generation of web
API integration code remains unexplored. In order to address this, we present a
dataset and evaluation pipeline designed to assess the ability of LLMs to
generate web API invocation code. Our experiments with several open-source LLMs
reveal that generating API invocations poses a significant challenge, resulting
in hallucinated endpoints, incorrect argument usage, and other errors. None of
the evaluated open-source models were able to solve more than 40% of the tasks.
Ссылки и действия
Дополнительные ресурсы: