LyS at SemEval 2025 Task 8: Zero-Shot Code Generation for Tabular QA

2508.09012v1 cs.CL, cs.AI, cs.LG 2025-08-14

Авторы:

Adrián Gude, Roi Santos-Ríos, Francisco Prado-Valiño, Ana Ezquerro, Jesús Vilares

Резюме на русском

#### Контекст Проблема Tabular Question Answering (Tabular QA) заключается в том, чтобы извлечь ответы из табличных данных на основе вопроса, что требует не только понимания текста, но и структурных отношений между столбцами таблицы. Данная задача сложна ввиду разнообразия форматов табличных данных, их громоздкости и неполноты. Существующие решения сталкиваются с проблемой недостатка данных для обучения, особенно во внешних сценариях. Мотивация заключается в создании алгоритмов, которые могут обойтись без задачи-специфического тренировочного контекста, сфокусировавшись на задаче в области кода. Одним из вариантов является использование генерируемого кода для выделения ответа, что позволяет объединить текстовое понимание с вычислительными возможностями. #### Метод Мы предлагаем zero-shot pipeline, основанный на Large Language Model (LLM) для генерирования функционального кода. Основная модель выбирает наиболее значимые столбцы и анализирует их типы данных, чтобы повысить точность выборки ответа. Если результат неудачный, алгоритм переходит к итеративному уточнению, используя обратную связь об ошибке для выдачи нового запроса. Это позволяет улучшить надежность системы. Мы также использовали процедуры обработки языка, например, парсинг столбцов, для повышения удобочитаемости и точности. Эта модель применима к внешним данным, не требуя дополнительного тренировочного контекста. #### Результаты Мы проверили нашу модель на данных SemEval 2025 Task 8. В тестовой фазе наша система показала результат, ранжирующий на 33-м месте из 53 участников. Это достижение достигается без задачи-специфического обучения, что подтверждает эффективность zero-shot подхода. Мы выявили, что основные характеристики успешности заключаются в том, как LLM понимает степень значимости отдельных столбцов и способен осуществлять вычисления на их основе. Также мы провели внутренний эксперимент с дополнительным контролем качества, что подтвердило улучшение точности в сравнении с базовой версией. #### Значимость Наш подход является полезным для сценариев, где доступ к тренировочным данным ограничен, но требуется точное извлечение информации. Это помогает решать задачи в таких областях, как бизнес-аналитика, журналистика и даже клиентская поддержка. Одним из преимуществ является гибкость: мы можем применять нашу модель к различным типам таблиц и вопросам. Если будут доступны более разнообразные данные, это может повысить её точность и общую эффективность. #### Выводы Мы установили, что zero-shot код-генерация является выгодным подходом для Tabular QA, особенно в условиях ограниченности ресурсов. Наша

Abstract

This paper describes our participation in SemEval 2025 Task 8, focused on Tabular Question Answering. We developed a zero-shot pipeline that leverages an Large Language Model to generate functional code capable of extracting the relevant information from tabular data based on an input question. Our approach consists of a modular pipeline where the main code generator module is supported by additional components that identify the most relevant columns and analyze their data types to improve extraction accuracy. In the event that the generated code fails, an iterative refinement process is triggered, incorporating the error feedback into a new generation prompt to enhance robustness. Our results show that zero-shot code generation is a valid approach for Tabular QA, achieving rank 33 of 53 in the test phase despite the lack of task-specific fine-tuning.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LyS at SemEval 2025 Task 8: Zero-Shot Code Generation for Tabular QA

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация