Benchmark Dataset Generation and Evaluation for Excel Formula Repair with LLMs

2508.11715v1 cs.SE, cs.AI 2025-08-19
Авторы:

Ananya Singha, Harshita Sahijwani, Walt Williams, Emmanuel Aboah Boateng, Nick Hausman, Miguel Di Luca, Keegan Choudhury, Chaya Binet, Vu Le, Tianwei Chen, Oryan Rokeah Chen, Sulaiman Vesal, Sadid Hasan

Резюме на русском

## Контекст Использование Excel широко распространено во всех сферах жизнедеятельности, но особенно часто встречается в офисных программах и анализе данных. Несмотря на это, Excel представляет собой сложное инструмент, которое часто вызывает проблемы для новичков. Ошибки в формулах могут привести к непредвиденным результатам или ошибкам в работе программы, которые трудно выявить и исправить. Большинство существующих систем помощи в редактировании формул ограничены в способности обеспечить качественное объяснение и автоматическое исправление этих ошибок. Это создает спрос на разработку методик, которые могли бы облегчить работу с Excel и увеличить его доступность. Наша исследовательская группа решилась справиться с этим вызовом, разработав новую методику генерации данных для обучения и оценки моделей. ## Метод Мы предлагаем новую систему для генерации данных для бенчмарка, которая позволяет синтезировать высококачественные примеры ошибок в формулах Excel. Мы начинаем с маленького набора данных, полученных из онлайн-форумов, и используем технологии глубокого обучения, чтобы расширить его. Наша методика включает в себя несколько этапов: простое создание примеров, проверка их качества с помощью моделей текстового понимания, и выполнение проверок для убеждения в правильности решения. Наша система также позволяет проверить не только синтаксический корректность, но и семантическую верность решения. Благодаря этому, мы получили бенчмарк, содержащий 618 высококачественных примеров различных ошибок, связанных с формулами в Excel. Кроме того, мы разработали контекст-автоматизированную модель для исправления формул, которая использует технологии LLMs для разбора и исправления формул в контексте рабочего листа. ## Результаты Мы провели ряд экспериментов, используя нашу новую модель и другие модели текстовых моделей, такие как GPT-4, Phi-3 и Mistral. Мы провели эксперименты с использованием наших выборок для проверки качества, точности и полноты решений. Модель, которую мы предлагаем, показала лучшие результаты на новом бенчмарке, сравниваясь с другими моделями. Мы также проверили качество наших данных с помощью ручного анализа, что позволило нам понять, какие ошибки и функции встречаются чаще всего в Excel. ## Значимость Наша работа имеет значительные приложения в области обучения и автоматизации процесса исправления ошибок в Excel. Мы предлагаем новый подход к генерации данных для обучения моделей, который может быть применен для разработки аналогичных бенчмарков для других низкоуровневых языков программирования. Мы также выделили преимущества нашей модели в том, что она может использовать

Abstract

Excel is a pervasive yet often complex tool, particularly for novice users, where runtime errors arising from logical mistakes or misinterpretations of functions pose a significant challenge. While large language models (LLMs) offer promising assistance by explaining formula errors, the automated correction of these semantic runtime errors remains an open problem. A primary challenge to advancing models for such scenarios is the severe lack of high-quality, comprehensive datasets for training and rigorous evaluation. This paper addresses this gap by introducing a novel approach for constructing a benchmark dataset specifically designed for Excel formula repair. We propose a data generation pipeline, which leverages a small set of curated seed samples from online forums to synthetically expand the dataset. Our pipeline integrates few-shot prompting with LLMs and employs a robust \textit{LLM-as-a-Judge} validation framework, combined with execution-based checks to ensure the correctness and semantic fidelity of the generated data. This process produced a benchmark dataset of 618 high-quality samples, covering common runtime errors. Furthermore, we propose a context-aware baseline technique for Excel formula repair that utilizes LLMs to leverage both the faulty formula, and relevant spreadsheet context. We evaluate the performance of various LLMs (GPT-4o, GPT-4.1, Phi-3, Mistral) on our newly generated benchmark using execution-based metrics. Our analysis demonstrates the dataset's quality through manual annotation and provides insights into error and function distributions. The proposed generation methodology is highly scalable and can be readily adapted to create evaluation benchmarks for similar code repair tasks in other low-resource programming languages.

Ссылки и действия