Evaluation of LLMs in AMR Parsing

2508.05028v1 cs.CL, cs.AI 2025-08-09
Авторы:

Shu Han Ho

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Проблема представления и понимания смысла предложений лежит в основе многих прикладных задач компьютерной лингвистики. За последние годы в этой области было достигнуто значительное прогрессирование, однако существующие модели часто сталкиваются со сложностями в обработке семантических структур, особенно в случаях сложных или неявных отношений между концептами. Одним из перспективных подходов является использование Abstract Meaning Representation (AMR) – формализма, который кодирует смысл предложения в виде структурированных графов, где узлы обозначают концепты, а ребра – семантические отношения. Несмотря на ряд успехов в области AMR-парсинга, многие современные методы требуют сложных пайплайнов, включающих предварительную обработку, специализированные архитектуры и тщательное настройку гиперпараметров. Кроме того, многие из этих моделей требуют значительных вычислительных ресурсов и не всегда обеспечивают оптимальное балансирование между структурной валидностью и семантической точностью. В последнее время Large Language Models (LLMs) стали важной тенденцией в компьютерной лингвистике за счет их универсальности и возможности файнтюнинга для специфических задач. Однако оценка возможностей декодер-only LLMs в задачах AMR-парсинга оставалась недостаточно исследованной. Эта проблематика ставит под сомнение, могут ли простые методы файнтюнинга LLMs достичь результатов, сравнимых со сложными современными методами AMR-парсинга. Данная статья направлена на исследование этого вопроса, оценивая возможности четырех различных архитектур LLMs в контексте AMR-парсинга. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках исследования была предпринята стратегия файнтюнинга четырех различных архитектур LLMs: Phi 3.5, Gemma 2, LLaMA 3.2 и DeepSeek R1 LLaMA Distilled. Цель заключалась в оценке их способности к AMR-парсингу с использованием минимальных модификаций и стандартных подходов к файнтюнингу. Для реализации эксперимента был использован LDC2020T02 Gold AMR3.0 test set как основной датасет. Архитектура каждой модели оставалась в оригинальном виде, но доработана специфическими методами для обработки входных данных в формате AMR. Основной акцент был сделан на сохранении простоты процесса файнтюнинга, чтобы оценить естественные способности LLMs в работе с семантическими графами. Для Phi 3.5 и Gemma 2 были использованы стандартные настройки файнтюнинга, ориентированные на повышение точности распознования семантических отношений. Для LLaMA 3.2 и DeepSeek R1 LLaMA Distilled были доработаны методы кодирования входных данных, чтобы оптимизировать представление структур графов. Финальная модель LLaMA 3.2 показала лучшие результаты в терминах сбалансированного сочетания семантической точности и структурной валидности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В ходе экспериментов была проведена оценка качества AMR-парсинга на основе метрики SMATCH F1, которая измеряет точность сопоставления предсказанных и истинных графов. Результаты показали, что LLaMA 3.2 достигает SMATCH F1 в 0.804 на полном тестовом наборе LDC2020T02, что соответствует результатам APT + Silver (IBM) и приближается к Graphene Smatch (MBSE) на 0.854. Phi 3.5 показала высокую структурную валидность, однако ее семантическая точность была ниже, чем у LLaMA 3.2. Это подтверждает гипотезу о том, что различные архитектуры LLMs могут иметь различные сильные стороны в контексте AMR-парсинга. Gemma 2 и DeepSeek R1 LLaMA Distilled также демонстрировали приемлемые результаты, но не достигали уровня LLaMA 3.2 в терминах общей производительности. Эти результаты подтверждают, что простой файнтюнинг декодер-only LLMs может быть эффективным методом для AMR-парсинга, особенно в контексте LLaMA 3.2. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Данное исследование демонстрирует практическую значимость использования LLMs в задачах AMR-парсинга. Благодаря простоте файнтюнинга и высокой производительности, модель LLaMA 3.2 может быть использована в различных приложениях, таких как семантический анализ текста, машинный перевод и системы вопросо-ответ. Особенно важно отметить, что высокие результаты LLaMA 3.2 были достигнуты без необходимости сложной настройки или дополнительных модификаций, что делает эту модель привлекательной для практического применения в промышленных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Настоящее исследование показывает, что файнтюнинг декодер-only LLMs может быть эффективным методом для AMR-парсинга, особенно при использовании модели LLaMA 3.2. Однако существуют возможности для дальнейших улучшений, включая оптимизацию архитектуры для более точного представления семантических отношений и структурных характеристик графов. Будущие исследования могут фокусироваться на разработке более сложных методов файнтюнинга, а также на исследовании возможностей других архитектур LLMs в контексте AMR-парсинга. Кроме того, важным направлением может быть интеграция LLMs с другими методами семантического анализа для достижения еще более высоких результатов.

Abstract

Meaning Representation (AMR) is a semantic formalism that encodes sentence meaning as rooted, directed, acyclic graphs, where nodes represent concepts and edges denote semantic relations. Finetuning decoder only Large Language Models (LLMs) represent a promising novel straightfoward direction for AMR parsing. This paper presents a comprehensive evaluation of finetuning four distinct LLM architectures, Phi 3.5, Gemma 2, LLaMA 3.2, and DeepSeek R1 LLaMA Distilled using the LDC2020T02 Gold AMR3.0 test set. Our results have shown that straightfoward finetuning of decoder only LLMs can achieve comparable performance to complex State of the Art (SOTA) AMR parsers. Notably, LLaMA 3.2 demonstrates competitive performance against SOTA AMR parsers given a straightforward finetuning approach. We achieved SMATCH F1: 0.804 on the full LDC2020T02 test split, on par with APT + Silver (IBM) at 0.804 and approaching Graphene Smatch (MBSE) at 0.854. Across our analysis, we also observed a consistent pattern where LLaMA 3.2 leads in semantic performance while Phi 3.5 excels in structural validity.

Ссылки и действия