Summarize-Exemplify-Reflect: Data-driven Insight Distillation Empowers LLMs for Few-shot Tabular Classification

2508.21561v1 cs.LG, cs.CL 2025-09-02

Авторы:

Yifei Yuan, Jiatong Li, Weijia Zhang, Mohammad Aliannejadi, Evangelos Kanoulas, Renjun Hu

Резюме на русском

## Контекст Область исследования, связанная с применением бо LLM для решения задач классификации в табличных данных, характеризуется особенностями, связанными с трудностями, вызванными разнообразием структур подаваемых данных. Установлено, что традиционные модели часто сталкиваются с трудностями при обработке таких данных из-за необходимости ручного подготовки подходящих классификаторов. Высокая сложность и низкая универсальность методов увеличивают риск ошибок и неэффективности. Название работы "Summarize-Exemplify-Reflect: Data-driven Insight Distillation Empowers LLMs for Few-shot Tabular Classification" отражает фокус на использовании техник сбора и анализа данных для повышения универсальности и точности LLMs. Основной мотивацией является развитие более эффективных и универсальных подходов для обработки табличных данных с минимальным вводом ручных данных. ## Метод Метод, описанный в статье, фокусируется на создании нового фреймворка InsightTab, в котором используются принципы разделения задач на части, подхода "сначала простое" и техники отражения инсайтов. Этот подход включает в себя несколько этапов: 1) сбор и разбиение табличных данных на составляющие части, 2) использование глубокого обучения для построения сводки инсайтов, 3) генерация стратегических примеров для демонстрации модели, 4) обратная связь и рефлексия для повышения точности. Основные технические решения включают использование глубокого нейронного анализа, генерации подходящих примеров и улучшение моделей с помощью рефлексии инсайтов. Этот подход позволяет LLMs более эффективно использовать небольшие обучающие выборки для классификации. ## Результаты Для оценки эффективности InsightTab проводились несколько экспериментов на 9 разных датасетах, включая как стандартные табличные данные, так и более сложные структурированные данные. Модель показала значительную улучшение результатов по сравнению с состоянием искусства в классификации. Особенно выдачные результаты были получены при использовании небольших обучающих выборок. Анализы также показали, что InsightTab подходит для различных ситуаций и имеет высокую точность при классификации даже в условиях несовершенства данных. Также использовались ablation studies для проверки отдельных компонентов фреймворка, что подтвердило его эффективность. ## Значимость Полученные результаты демонстрируют значительный потенциал InsightTab в нескольких областях, включая клиническую практику, финансовый анализ и другие области, где необходима эффективная классификация в табличных данных. Основное преимущество InsightTab заключается в его универсальности и мощи при работе с небольшими обучающими выборками. Это не только повышает эффективно

Abstract

Recent studies show the promise of large language models (LLMs) for few-shot tabular classification but highlight challenges due to the variability in structured data. To address this, we propose distilling data into actionable insights to enable robust and effective classification by LLMs. Drawing inspiration from human learning processes, we introduce InsightTab, an insight distillation framework guided by principles of divide-and-conquer, easy-first, and reflective learning. Our approach integrates rule summarization, strategic exemplification, and insight reflection through deep collaboration between LLMs and data modeling techniques. The obtained insights enable LLMs to better align their general knowledge and capabilities with the particular requirements of specific tabular tasks. We extensively evaluate InsightTab on nine datasets. The results demonstrate consistent improvement over state-of-the-art methods. Ablation studies further validate the principle-guided distillation process, while analyses emphasize InsightTab's effectiveness in leveraging labeled data and managing bias.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Summarize-Exemplify-Reflect: Data-driven Insight Distillation Empowers LLMs for Few-shot Tabular Classification

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

Towards Active Synthetic Data Generation for Finetuning Language Models

AlignSAE: Concept-Aligned Sparse Autoencoders

Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financ...

BanglaSentNet: An Explainable Hybrid Deep Learning Framework for Multi-Aspect Se...

Навигация