Benchmarking LLMs in Web API Integration Tasks

2509.20172v2 cs.SE, cs.LG 2025-09-29

Авторы:

Daniel Maninger, Leon Chemnitz, Amir Molzam Sharifloo, Jannis Brugger, Mira Mezini

Резюме на русском

## Контекст В современном цифровом мире API-интеграция является ключевым компонентом создания современных программных систем. Однако ручное создание кода для интеграции с веб-API часто является задачей, требующей значительных усилий и ресурсов. Несмотря на то, что Большие Лингвистические Модели (LLM) стали популярны в сфере разработки программного обеспечения, их потенциал в автоматизации генерации кода для интеграции с веб-API еще не до конца изучен. Это включает в себя автоматическое создание кода для вызова веб-API, что требует точного понимания запросов и ответов, а также обработки специфических требований API. Было проведено исследование, чтобы оценить эффективность LLMs в этой области и выявить существующие проблемы в их применении. ## Метод Для оценки способностей LLMs в задачах интеграции с веб-API была разработана подробная методология. Основной элемент этой методологии является создание датасета с реальными задачами интеграции с веб-API, который включает запросы и ответы, а также спецификации API. Модели LLM были применены для генерирования кода, соответствующего этим задачам. Результаты этих генераций были измерены на основе точности кода, правильности вызовов и отсутствия ошибок. Также были проведены эксперименты с различными LLM, включая общедоступные модели с открытым кодом, для сравнения их производительности. ## Результаты В результате проведенных экспериментов было обнаружено, что генерация кода для вызова веб-API представляет собой сложную задачу для LLMs. В тестах было замечено, что модели часто создают неточный код, включая ошибки в использовании аргументов, неверные URL-адреса, и даже создание несуществующих API-конечных точек. Ни одна открытая модель LLM не смогла решить более 40% задач, что указывает на существующие ограничения в их подходе к этой задаче. Эти результаты подтверждают, что генерация кода для веб-API-интеграции является задачей, требующей больших усилий для достижения высокой точности и надежности. ## Значимость Эти результаты имеют значительное значение для области разработки программного обеспечения, особенно для тех, кто работает с API-интеграцией. Несмотря на то, что LLMs могут сэкономить время и усилия, они еще не достигли уровня достоверности, необходимого для автоматизированного создания кода в этой области. Этот подход может быть применен в ситуациях, когда требуется быстрая разработка, но требуется ручное внимание для проверки результатов. Будущие исследования могут сфокусироваться на улучшении точности и качества генерируемого кода, а также на расширении возможностей LLMs в сложных за

Abstract

API integration is a cornerstone of our digital infrastructure, enabling software systems to connect and interact. However, as shown by many studies, writing or generating correct code to invoke APIs, particularly web APIs, is challenging. Although large language models (LLMs) have become popular in software development, their effectiveness in automating the generation of web API integration code remains unexplored. In order to address this, we present a dataset and evaluation pipeline designed to assess the ability of LLMs to generate web API invocation code. Our experiments with several open-source LLMs reveal that generating API invocations poses a significant challenge, resulting in hallucinated endpoints, incorrect argument usage, and other errors. None of the evaluated open-source models were able to solve more than 40% of the tasks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Benchmarking LLMs in Web API Integration Tasks

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Language Models for Software Engineering: A Reproducibility Crisis

Neural Variable Name Repair: Learning to Rename Identifiers for Readability

stable-pretraining-v1: Foundation Model Research Made Simple

Agint: Agentic Graph Compilation for Software Engineering Agents

Is the Cure Still Worse Than the Disease? Test Overfitting by LLMs in Automated ...

Навигация