AMELIA: A Family of Multi-task End-to-end Language Models for Argumentation

2508.17926v1 cs.CL, cs.AI 2025-08-27
Авторы:

Henri Savigny, Bruno Yun

Резюме на русском

################################# ## Контекст ################################# Аргументная майнинг (argument mining) — это ветвь искусственного интеллекта, которая специализируется на автоматическом извлечении и анализе аргументативных структур из естественного языка. Одним из основных элементов этой области является идентификация и классификация аргументов, а также определение их взаимосвязей в тексте. Однако существуют значительные вызовы, связанные с решением этой задачи, в том числе сложностью анализа естественного языка, разнообразием структур аргументов и отсутствием широко известных решений, предназначенных для работы с несколькими задачами одновременно. Наша мотивация заключается в разработке модели, которая может эффективно выполнять несколько задач аргументной майнинга, уменьшая необходимость в многообразии моделей и упростив применение в различных приложениях. ################################# ## Метод ################################# Для достижения этой цели мы привлекаем Meta AI's Llama-3.1-8B-Instruct — мощную модель языкового моделирования. Мы разрабатываем многозадачную модель, используя три основных подхода: 1. **Fine-tuning на отдельных задачах**: каждая задача обучается отдельно, чтобы достичь максимальной точности в отдельности. 2. **Fine-tuning на нескольких задачах одновременно**: это позволяет модели универсально работать на нескольких задачах, но не гарантирует оптимального результата на каждой из них. 3. **Merging моделей**: после отдельного fine-tuning задач, модели объединяются, чтобы сгладить недостатки каждой отдельной модели. Мы также создаем многозадачный датасет, объединяя 19 существующих датасетов в единое целое, чтобы обеспечить широкий спектр тестовых случаев. ################################# ## Результаты ################################# Наши эксперименты показали, что fine-tuning на отдельных задачах обеспечивает высокую точность для индивидуальных задач, но не оптимален для общей гибкости. Fine-tuning на нескольких задачах одновременно демонстрирует хороший уровень универсальности, но может быть менее эффективен на отдельных задачах. Объединение моделей, обученных на отдельных задачах, дает лучшую компромиссную стратегию: оно дает высокую точность на нескольких задачах одновременно, с меньшим потреблением ресурсов, чем полностью многозадачный подход. ################################# ## Значимость ################################# Модель AMELIA может применяться в различных приложениях, включая анализ текстов, моделирование дискуссий и поддержку принятия решений. Она предлагает несколько преимуществ, таких как уменьшение ресурсоемкости, увеличение точности на нескольких задачах одновременно и гибкость в обработке различных аргументативных структур. Эта модель может стать полезной для академических исследований, практических приложений в области данных и в обучении моделей других моделей. #################################

Abstract

Argument mining is a subfield of argumentation that aims to automatically extract argumentative structures and their relations from natural language texts. This paper investigates how a single large language model can be leveraged to perform one or several argument mining tasks. Our contributions are two-fold. First, we construct a multi-task dataset by surveying and converting 19 well-known argument mining datasets from the literature into a unified format. Second, we explore various training strategies using Meta AI's Llama-3.1-8B-Instruct model: (1) fine-tuning on individual tasks, (2) fine-tuning jointly on multiple tasks, and (3) merging models fine-tuned separately on individual tasks. Our experiments show that task-specific fine-tuning significantly improves individual performance across all tasks. Moreover, multi-task fine-tuning maintains strong performance without degradation, suggesting effective transfer learning across related tasks. Finally, we demonstrate that model merging offers a viable compromise: it yields competitive performance while mitigating the computational costs associated with full multi-task fine-tuning.

Ссылки и действия