LyS at SemEval 2025 Task 8: Zero-Shot Code Generation for Tabular QA
2508.09012v1
cs.CL, cs.AI, cs.LG
2025-08-14
Авторы:
Adrián Gude, Roi Santos-Ríos, Francisco Prado-Valiño, Ana Ezquerro, Jesús Vilares
Резюме на русском
#### Контекст
Проблема Tabular Question Answering (Tabular QA) заключается в том, чтобы извлечь ответы из табличных данных на основе вопроса, что требует не только понимания текста, но и структурных отношений между столбцами таблицы. Данная задача сложна ввиду разнообразия форматов табличных данных, их громоздкости и неполноты. Существующие решения сталкиваются с проблемой недостатка данных для обучения, особенно во внешних сценариях. Мотивация заключается в создании алгоритмов, которые могут обойтись без задачи-специфического тренировочного контекста, сфокусировавшись на задаче в области кода. Одним из вариантов является использование генерируемого кода для выделения ответа, что позволяет объединить текстовое понимание с вычислительными возможностями.
#### Метод
Мы предлагаем zero-shot pipeline, основанный на Large Language Model (LLM) для генерирования функционального кода. Основная модель выбирает наиболее значимые столбцы и анализирует их типы данных, чтобы повысить точность выборки ответа. Если результат неудачный, алгоритм переходит к итеративному уточнению, используя обратную связь об ошибке для выдачи нового запроса. Это позволяет улучшить надежность системы. Мы также использовали процедуры обработки языка, например, парсинг столбцов, для повышения удобочитаемости и точности. Эта модель применима к внешним данным, не требуя дополнительного тренировочного контекста.
#### Результаты
Мы проверили нашу модель на данных SemEval 2025 Task 8. В тестовой фазе наша система показала результат, ранжирующий на 33-м месте из 53 участников. Это достижение достигается без задачи-специфического обучения, что подтверждает эффективность zero-shot подхода. Мы выявили, что основные характеристики успешности заключаются в том, как LLM понимает степень значимости отдельных столбцов и способен осуществлять вычисления на их основе. Также мы провели внутренний эксперимент с дополнительным контролем качества, что подтвердило улучшение точности в сравнении с базовой версией.
#### Значимость
Наш подход является полезным для сценариев, где доступ к тренировочным данным ограничен, но требуется точное извлечение информации. Это помогает решать задачи в таких областях, как бизнес-аналитика, журналистика и даже клиентская поддержка. Одним из преимуществ является гибкость: мы можем применять нашу модель к различным типам таблиц и вопросам. Если будут доступны более разнообразные данные, это может повысить её точность и общую эффективность.
#### Выводы
Мы установили, что zero-shot код-генерация является выгодным подходом для Tabular QA, особенно в условиях ограниченности ресурсов. Наша
Abstract
This paper describes our participation in SemEval 2025 Task 8, focused on
Tabular Question Answering. We developed a zero-shot pipeline that leverages an
Large Language Model to generate functional code capable of extracting the
relevant information from tabular data based on an input question. Our approach
consists of a modular pipeline where the main code generator module is
supported by additional components that identify the most relevant columns and
analyze their data types to improve extraction accuracy. In the event that the
generated code fails, an iterative refinement process is triggered,
incorporating the error feedback into a new generation prompt to enhance
robustness. Our results show that zero-shot code generation is a valid approach
for Tabular QA, achieving rank 33 of 53 in the test phase despite the lack of
task-specific fine-tuning.
Ссылки и действия
Дополнительные ресурсы: