Benchmark Dataset Generation and Evaluation for Excel Formula Repair with LLMs
2508.11715v1
cs.SE, cs.AI
2025-08-19
Авторы:
Ananya Singha, Harshita Sahijwani, Walt Williams, Emmanuel Aboah Boateng, Nick Hausman, Miguel Di Luca, Keegan Choudhury, Chaya Binet, Vu Le, Tianwei Chen, Oryan Rokeah Chen, Sulaiman Vesal, Sadid Hasan
Резюме на русском
## Контекст
Использование Excel широко распространено во всех сферах жизнедеятельности, но особенно часто встречается в офисных программах и анализе данных. Несмотря на это, Excel представляет собой сложное инструмент, которое часто вызывает проблемы для новичков. Ошибки в формулах могут привести к непредвиденным результатам или ошибкам в работе программы, которые трудно выявить и исправить. Большинство существующих систем помощи в редактировании формул ограничены в способности обеспечить качественное объяснение и автоматическое исправление этих ошибок. Это создает спрос на разработку методик, которые могли бы облегчить работу с Excel и увеличить его доступность. Наша исследовательская группа решилась справиться с этим вызовом, разработав новую методику генерации данных для обучения и оценки моделей.
## Метод
Мы предлагаем новую систему для генерации данных для бенчмарка, которая позволяет синтезировать высококачественные примеры ошибок в формулах Excel. Мы начинаем с маленького набора данных, полученных из онлайн-форумов, и используем технологии глубокого обучения, чтобы расширить его. Наша методика включает в себя несколько этапов: простое создание примеров, проверка их качества с помощью моделей текстового понимания, и выполнение проверок для убеждения в правильности решения. Наша система также позволяет проверить не только синтаксический корректность, но и семантическую верность решения. Благодаря этому, мы получили бенчмарк, содержащий 618 высококачественных примеров различных ошибок, связанных с формулами в Excel. Кроме того, мы разработали контекст-автоматизированную модель для исправления формул, которая использует технологии LLMs для разбора и исправления формул в контексте рабочего листа.
## Результаты
Мы провели ряд экспериментов, используя нашу новую модель и другие модели текстовых моделей, такие как GPT-4, Phi-3 и Mistral. Мы провели эксперименты с использованием наших выборок для проверки качества, точности и полноты решений. Модель, которую мы предлагаем, показала лучшие результаты на новом бенчмарке, сравниваясь с другими моделями. Мы также проверили качество наших данных с помощью ручного анализа, что позволило нам понять, какие ошибки и функции встречаются чаще всего в Excel.
## Значимость
Наша работа имеет значительные приложения в области обучения и автоматизации процесса исправления ошибок в Excel. Мы предлагаем новый подход к генерации данных для обучения моделей, который может быть применен для разработки аналогичных бенчмарков для других низкоуровневых языков программирования. Мы также выделили преимущества нашей модели в том, что она может использовать
Abstract
Excel is a pervasive yet often complex tool, particularly for novice users,
where runtime errors arising from logical mistakes or misinterpretations of
functions pose a significant challenge. While large language models (LLMs)
offer promising assistance by explaining formula errors, the automated
correction of these semantic runtime errors remains an open problem. A primary
challenge to advancing models for such scenarios is the severe lack of
high-quality, comprehensive datasets for training and rigorous evaluation. This
paper addresses this gap by introducing a novel approach for constructing a
benchmark dataset specifically designed for Excel formula repair. We propose a
data generation pipeline, which leverages a small set of curated seed samples
from online forums to synthetically expand the dataset. Our pipeline integrates
few-shot prompting with LLMs and employs a robust \textit{LLM-as-a-Judge}
validation framework, combined with execution-based checks to ensure the
correctness and semantic fidelity of the generated data. This process produced
a benchmark dataset of 618 high-quality samples, covering common runtime
errors. Furthermore, we propose a context-aware baseline technique for Excel
formula repair that utilizes LLMs to leverage both the faulty formula, and
relevant spreadsheet context. We evaluate the performance of various LLMs
(GPT-4o, GPT-4.1, Phi-3, Mistral) on our newly generated benchmark using
execution-based metrics. Our analysis demonstrates the dataset's quality
through manual annotation and provides insights into error and function
distributions. The proposed generation methodology is highly scalable and can
be readily adapted to create evaluation benchmarks for similar code repair
tasks in other low-resource programming languages.
Ссылки и действия
Дополнительные ресурсы: