Table Detection with Active Learning
2509.20003v1
cs.CV, cs.AI, cs.CL, cs.LG
2025-09-26
Авторы:
Somraj Gautam, Nachiketa Purohit, Gaurav Harit
Резюме на русском
## Контекст
Обработка и анализ данных постоянно набирает обороты, в том числе в сфере обучения с подкреплением. Одним из важных заданий является обнаружение и извлечение таблиц из документов, которое имеет широкое применение в различных областях, таких как бизнес-анализ, документооборот и ИИ-приложения. Однако этот процесс часто связан с высокими затратами на аннотацию данных, которые необходимы для обучения моделей. Активное обучение (Active Learning, AL) предлагает эффективное решение для этой проблемы, позволяя снизить затраты на аннотацию, выбирая самые полезные образцы для изучения модели. Однако многие текущие AL-методы ориентированы на обычные задачи классификации, а не на задачи обнаружения объектов, таких как обнаружение таблиц. Наша исследовательская группа рассматривает возможности использования AL для обнаружения таблиц в документах, чтобы улучшить эффективность и точность.
## Метод
Мы предлагаем инновационный подход к обнаружению таблиц, основанный на активном обучении. Метод включает следующие этапы:
1. **Инициализация**: Мы начинаем с набора экземпляров, аннотированных вручную, который используется для инициализации модели.
2. **Обучение модели**: Модель обучается на этом начальном наборе данных, чтобы выявить признаки для дальнейшего выявления таблиц.
3. **Выбор образцов для аннотации**: Алгоритм активного обучения выбирает образцы, которые считаются наиболее важными для модели на основе мер информативности и разнообразия. Этот выбор основывается на сочетании некоторых метрик, таких как неопределенность и множественность.
4. **Обучение и повторение**: Аннотированные образцы добавляются к обучающему набору, и процесс повторяется, чтобы улучшить точность модели.
Для оценки эффективности нашего подхода мы использовали два бенчмарк-данных: TableBank-LaTeX и TableBank-Word. Эти данные представляют собой таблицы, созданные с помощью различных текстовых процессоров, что дает разнообразие в стилях и структурах таблиц. Мы проводим эксперименты с двумя современными архитектурами обнаружения таблиц: CascadeTabNet и YOLOv9.
## Результаты
В ходе экспериментов мы сравнили нашу AL-методику с традиционным случайным выбором образцов для аннотации. Наши результаты показывают, что AL-метод эффективнее, снижает затраты на аннотацию при ограниченном бюджете и позволяет повысить точность. На двух датасетах TableBank-LaTeX и TableBank-Word наши результаты по метрике mAP (mean Average Precision) показали, что AL-метод дает значительные пользы в сравнении с случайным выбором. Мы также сравнили нашу модель с другими AL-методами и установили, что наш подход дает более высокий mAP на ограниченном бюджете аннотации.
## Значимость
Наш подход мо
Abstract
Efficient data annotation remains a critical challenge in machine learning,
particularly for object detection tasks requiring extensive labeled data.
Active learning (AL) has emerged as a promising solution to minimize annotation
costs by selecting the most informative samples. While traditional AL
approaches primarily rely on uncertainty-based selection, recent advances
suggest that incorporating diversity-based strategies can enhance sampling
efficiency in object detection tasks. Our approach ensures the selection of
representative examples that improve model generalization. We evaluate our
method on two benchmark datasets (TableBank-LaTeX, TableBank-Word) using
state-of-the-art table detection architectures, CascadeTabNet and YOLOv9. Our
results demonstrate that AL-based example selection significantly outperforms
random sampling, reducing annotation effort given a limited budget while
maintaining comparable performance to fully supervised models. Our method
achieves higher mAP scores within the same annotation budget.