AMELIA: A Family of Multi-task End-to-end Language Models for Argumentation
2508.17926v1
cs.CL, cs.AI
2025-08-27
Авторы:
Henri Savigny, Bruno Yun
Резюме на русском
#################################
## Контекст
#################################
Аргументная майнинг (argument mining) — это ветвь искусственного интеллекта, которая специализируется на автоматическом извлечении и анализе аргументативных структур из естественного языка. Одним из основных элементов этой области является идентификация и классификация аргументов, а также определение их взаимосвязей в тексте. Однако существуют значительные вызовы, связанные с решением этой задачи, в том числе сложностью анализа естественного языка, разнообразием структур аргументов и отсутствием широко известных решений, предназначенных для работы с несколькими задачами одновременно. Наша мотивация заключается в разработке модели, которая может эффективно выполнять несколько задач аргументной майнинга, уменьшая необходимость в многообразии моделей и упростив применение в различных приложениях.
#################################
## Метод
#################################
Для достижения этой цели мы привлекаем Meta AI's Llama-3.1-8B-Instruct — мощную модель языкового моделирования. Мы разрабатываем многозадачную модель, используя три основных подхода:
1. **Fine-tuning на отдельных задачах**: каждая задача обучается отдельно, чтобы достичь максимальной точности в отдельности.
2. **Fine-tuning на нескольких задачах одновременно**: это позволяет модели универсально работать на нескольких задачах, но не гарантирует оптимального результата на каждой из них.
3. **Merging моделей**: после отдельного fine-tuning задач, модели объединяются, чтобы сгладить недостатки каждой отдельной модели.
Мы также создаем многозадачный датасет, объединяя 19 существующих датасетов в единое целое, чтобы обеспечить широкий спектр тестовых случаев.
#################################
## Результаты
#################################
Наши эксперименты показали, что fine-tuning на отдельных задачах обеспечивает высокую точность для индивидуальных задач, но не оптимален для общей гибкости. Fine-tuning на нескольких задачах одновременно демонстрирует хороший уровень универсальности, но может быть менее эффективен на отдельных задачах. Объединение моделей, обученных на отдельных задачах, дает лучшую компромиссную стратегию: оно дает высокую точность на нескольких задачах одновременно, с меньшим потреблением ресурсов, чем полностью многозадачный подход.
#################################
## Значимость
#################################
Модель AMELIA может применяться в различных приложениях, включая анализ текстов, моделирование дискуссий и поддержку принятия решений. Она предлагает несколько преимуществ, таких как уменьшение ресурсоемкости, увеличение точности на нескольких задачах одновременно и гибкость в обработке различных аргументативных структур. Эта модель может стать полезной для академических исследований, практических приложений в области данных и в обучении моделей других моделей.
#################################
Abstract
Argument mining is a subfield of argumentation that aims to automatically
extract argumentative structures and their relations from natural language
texts. This paper investigates how a single large language model can be
leveraged to perform one or several argument mining tasks. Our contributions
are two-fold. First, we construct a multi-task dataset by surveying and
converting 19 well-known argument mining datasets from the literature into a
unified format. Second, we explore various training strategies using Meta AI's
Llama-3.1-8B-Instruct model: (1) fine-tuning on individual tasks, (2)
fine-tuning jointly on multiple tasks, and (3) merging models fine-tuned
separately on individual tasks. Our experiments show that task-specific
fine-tuning significantly improves individual performance across all tasks.
Moreover, multi-task fine-tuning maintains strong performance without
degradation, suggesting effective transfer learning across related tasks.
Finally, we demonstrate that model merging offers a viable compromise: it
yields competitive performance while mitigating the computational costs
associated with full multi-task fine-tuning.
Ссылки и действия
Дополнительные ресурсы: