Table Detection with Active Learning

2509.20003v1 cs.CV, cs.AI, cs.CL, cs.LG 2025-09-26

Авторы:

Somraj Gautam, Nachiketa Purohit, Gaurav Harit

Резюме на русском

## Контекст Обработка и анализ данных постоянно набирает обороты, в том числе в сфере обучения с подкреплением. Одним из важных заданий является обнаружение и извлечение таблиц из документов, которое имеет широкое применение в различных областях, таких как бизнес-анализ, документооборот и ИИ-приложения. Однако этот процесс часто связан с высокими затратами на аннотацию данных, которые необходимы для обучения моделей. Активное обучение (Active Learning, AL) предлагает эффективное решение для этой проблемы, позволяя снизить затраты на аннотацию, выбирая самые полезные образцы для изучения модели. Однако многие текущие AL-методы ориентированы на обычные задачи классификации, а не на задачи обнаружения объектов, таких как обнаружение таблиц. Наша исследовательская группа рассматривает возможности использования AL для обнаружения таблиц в документах, чтобы улучшить эффективность и точность. ## Метод Мы предлагаем инновационный подход к обнаружению таблиц, основанный на активном обучении. Метод включает следующие этапы: 1. **Инициализация**: Мы начинаем с набора экземпляров, аннотированных вручную, который используется для инициализации модели. 2. **Обучение модели**: Модель обучается на этом начальном наборе данных, чтобы выявить признаки для дальнейшего выявления таблиц. 3. **Выбор образцов для аннотации**: Алгоритм активного обучения выбирает образцы, которые считаются наиболее важными для модели на основе мер информативности и разнообразия. Этот выбор основывается на сочетании некоторых метрик, таких как неопределенность и множественность. 4. **Обучение и повторение**: Аннотированные образцы добавляются к обучающему набору, и процесс повторяется, чтобы улучшить точность модели. Для оценки эффективности нашего подхода мы использовали два бенчмарк-данных: TableBank-LaTeX и TableBank-Word. Эти данные представляют собой таблицы, созданные с помощью различных текстовых процессоров, что дает разнообразие в стилях и структурах таблиц. Мы проводим эксперименты с двумя современными архитектурами обнаружения таблиц: CascadeTabNet и YOLOv9. ## Результаты В ходе экспериментов мы сравнили нашу AL-методику с традиционным случайным выбором образцов для аннотации. Наши результаты показывают, что AL-метод эффективнее, снижает затраты на аннотацию при ограниченном бюджете и позволяет повысить точность. На двух датасетах TableBank-LaTeX и TableBank-Word наши результаты по метрике mAP (mean Average Precision) показали, что AL-метод дает значительные пользы в сравнении с случайным выбором. Мы также сравнили нашу модель с другими AL-методами и установили, что наш подход дает более высокий mAP на ограниченном бюджете аннотации. ## Значимость Наш подход мо

Abstract

Efficient data annotation remains a critical challenge in machine learning, particularly for object detection tasks requiring extensive labeled data. Active learning (AL) has emerged as a promising solution to minimize annotation costs by selecting the most informative samples. While traditional AL approaches primarily rely on uncertainty-based selection, recent advances suggest that incorporating diversity-based strategies can enhance sampling efficiency in object detection tasks. Our approach ensures the selection of representative examples that improve model generalization. We evaluate our method on two benchmark datasets (TableBank-LaTeX, TableBank-Word) using state-of-the-art table detection architectures, CascadeTabNet and YOLOv9. Our results demonstrate that AL-based example selection significantly outperforms random sampling, reducing annotation effort given a limited budget while maintaining comparable performance to fully supervised models. Our method achieves higher mAP scores within the same annotation budget.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Table Detection with Active Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Sel...

DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmente...

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

Training-Free Diffusion Priors for Text-to-Image Generation via Optimization-bas...

Навигация