Benchmarking Web API Integration Code Generation

2509.20172v1 cs.SE, cs.LG 2025-09-26
Авторы:

Daniel Maninger, Leon Chemnitz, Amir Molzam Sharifloo, Jannis Brugger, Mira Mezini

Резюме на русском

## Контекст API integration является ключевым элементом современной цифровой инфраструктуры, обеспечивая взаимодействие между программными системами. Однако создание или генерация кода для вызова API, особенно веб-API, является затруднительной задачей. Несмотря на то, что большие языковые модели (LLMs) набирают популярность в разработке программного обеспечения, их эффективность в автоматизации генерирования кода для интеграции веб-API пока неизучена. Для заполнения этого пробела, авторы предлагают датасет и процедуру оценки, позволяющие измерить способность LLMs сгенерировать код для вызова веб-API. ## Метод Проведена аналитическая модель, основанная на датасете, содержащем задачи интеграции веб-API. Датасет был сконструирован на основе реальных случаев, включая различные сценарии использования веб-API. Для оценки моделей использовались несколько LLMs, включая те, которые доступны как открытый код. Метод включал в себя этапы создания задач, оценки результатов и сравнения моделей. ## Результаты Эксперименты показали, что генерация кода для вызова веб-API является сложной задачей. Многие модели сгенерировали недостоверные или совсем неверные коды, включая несуществующие конечные точки и неправильно используемые аргументы. Ни одна открытая модель не смогла решить более 40% задач. Это указывает на существующие ограничения в текущих LLMs при работе с конкретными задачами интеграции API. ## Значимость Результаты имеют большое значение для развития технологий генерирования кода и интеграции API. Они могут быть применены в сферах, где необходима автоматизация разработки программного обеспечения, в том числе в разработке веб-приложений и сервисов. Несмотря на ограничения, эти находки могут побудить развитие более точных и надежных моделей для решения задач API-интеграции. ## Выводы Главные достижения статьи заключаются в разработке датасета и оценке способности LLMs генерировать код для вызова веб-API. Однако в результатах значительные ограничения, которые открывают путь для будущих исследований в области улучшения моделей и адаптации их к специфике API-интеграции.

Abstract

API integration is a cornerstone of our digital infrastructure, enabling software systems to connect and interact. However, as shown by many studies, writing or generating correct code to invoke APIs, particularly web APIs, is challenging. Although large language models~(LLMs) have become popular in software development, their effectiveness in automating the generation of web API integration code remains unexplored. In order to address this, we present a dataset and evaluation pipeline designed to assess the ability of LLMs to generate web API invocation code. Our experiments with several open-source LLMs reveal that generating API invocations poses a significant challenge, resulting in hallucinated endpoints, incorrect argument usage, and other errors. None of the evaluated open-source models were able to solve more than 40% of the tasks.

Ссылки и действия