📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Richard Willats, Josh Pennington, Aravind Mohan, Bertie Vidgen
## Контекст
Классификация вопросов, связанных с модерацией контента, остается вызовом для современных систем модерации. Одним из основных признаков является то, что правила модерации часто меняются, что приводит к необходимости регулярной переобучения моделей. Это не только увеличивает затраты на ресурсы, но и затрудняет достижение высокой точности в классификации. Кроме того, существующие системы часто не демонстрируют достаточной транспарентности, что снижает доверие пользователей и организаций. Учитывая эти проблемы, необходимо разработать методы, которые позволят классификационным системам быстро адаптироваться к изменениям политик модерации, обеспечивая точность и ясность в процессе принятия решений.
## Метод
Методология, представленная в статье, основывается на подходе Retrieval-Augmented Generation (RAG). В отличие от традиционных классификационных систем, которые опираются на предварительно обученные параметры, RAG-системы используют внешний источник знаний для оценки контента. В данном случае, источником знаний является политика модерации. Рассматриваемая методика превращает задачу классификации из "этот контент является явлением ненормативных высказываний?" в "этот контент нарушает политику модерации по ненормативным высказываниям?". Это делает процесс классификации более гибким и контекстуализированным. Для реализации возможности RAG использована система Contextual Policy Engine (CPE), которая использует технологии генерирующих моделей для анализа контента и вывода решений на базе политики модерации.
## Результаты
Рассмотренная система прошла три эксперимента, посвященных оценке системы классификации на основе RAG. В первом эксперименте система была сравнена с трех ведущих коммерческих системами модерации, и демонстрировала сопоставимую точность классификации. Во втором эксперименте проверялась способность системы взаимодействовать с конкретными группами пользователей, демонстрируя точность в жесткой корректировке политики модерации. Наконец, в третьем эксперименте была проверена возможность системы адаптироваться к изменению политики модерации без переобучения, что демонстрирует динамическую гибкость и транспарентность. Результаты показали, что RAG-системы могут предоставить высокую точность классификации и ясность решений, что является ключевым преимуществом для модерации контента и других классификационных задач.
## Значимость
Результаты системы RAG имеют широкие применения в модерации контента, где необходима строгая адаптация к изменяющимся политикам. Кроме того, технология RAG может быть применена в других классификационных за
Annotation:
Robust content moderation requires classification systems that can quickly
adapt to evolving policies without costly retraining. We present classification
using Retrieval-Augmented Generation (RAG), which shifts traditional
classification tasks from determining the correct category in accordance with
pre-trained parameters to evaluating content in relation to contextual
knowledge retrieved at inference. In hate speech detection, this transforms the
task from "is this hate speech?" to "does this ...
Авторы:
Keummin Ka, Junhyeong Park, Jahyun Jeon, Youngjae Yu
## Контекст
В последние годы новейшие образовательные достижения в области Vision-Language Models (VLMs) продемонстрировали заметные улучшения в области визуального восприятия и рассуждения. Однако недостаточное внимание уделялось вопросам последовательного вывода и семантического вербального разумения, которые являются основными составляющими человеческого логического роста. Многие многомодальные системы сейчас способны выполнять некоторые виды рассуждений по логике, но говорят о сложностях при работе с инфографическими данными. Отсутствие решений, которые могли бы способствовать развитию таких аспектов умственных способностей, поднимает вопрос о том, как лучше модели могут интерпретировать и обрабатывать сложные визуально-текстовые данные. Это желание вдохновило создание InfoCausalQA, новый подход, который использует инфографики для выявления и оценки различных типов каузальных отношений.
## Метод
Созданная модель InfoCausalQA основывается на многомодальном подходе, который комбинирует визуальные и текстовые данные. Базовая методология состоит в том, чтобы использовать многоуровневую архитектуру для восприятия и обработки инфографических пар. Она использует техники глубокого обучения для распознавания структуры изображений и интерпретации текста, а также для выделения ключевых элементов, которые могут помочь в выполнении каузальных рассуждений. Модель предлагает два основных задания: первое — оценка квантитативных отношений на основе визуальных трендов, а второе — понимание семантических отношений, включая причинно-следственные, взаимосвязи времени и интервенционные. Для проведения экспериментов было собрано 494 пар текста с инфографиками из четырех открытых источников. Далее, GPT-4o был использован для генерации 1482 вопросов с несколькими вариантами ответов, которые подверглись редактированию человеческими экспертами для гарантии того, что ответы будут требовать глубокого понимания инфографики, а не простой выбора по словам.
## Результаты
Полученные результаты показали, что нынешние VLMs несколько ограничены в способности выполнять продолжительные рассуждения. Задача 1, связанная с квантитативным рассуждением, требует моделей построения логических цепочек на основе визуальных данных, но несколько VLMs, включая CLIP и LXMERT, показали очень низкую точность в ответах. Кроме того, задача 2, связанная с семантическими отношениями, показала еще большую сложность для моделей. Наибольшую сложность вызывали рассуждения по временным отношениям и интервенционным законам. В целом, модели VLMs оказались не способны выполня
Annotation:
Recent advances in Vision-Language Models (VLMs) have demonstrated impressive
capabilities in perception and reasoning. However, the ability to perform
causal inference -- a core aspect of human cognition -- remains underexplored,
particularly in multimodal settings. In this study, we introduce InfoCausalQA,
a novel benchmark designed to evaluate causal reasoning grounded in
infographics that combine structured visual data with textual context. The
benchmark comprises two tasks: Task 1 focuses o...
Авторы:
Yanbin Wei, Jiangyue Yan, Chun Kang, Yang Chen, Hua Liu, James T. Kwok, Yu Zhang
#### Контекст
Large Multimodal Models (LMMs) показали свою способность к generalised zero-shot вопросам и ответам (QA) в различных областях, включая graph QA, которая включает в себя сложные графовые топологии. Однако большинство текущих подходов ограничиваются одним типом графовой представления, называемым Topology Representation Form (TRF), таким как промпт-объединенные текстовые описания или стилизованные визуальные стили. Такие "одно-размерное" решение не учитывает особенности и предпочтения различных моделей или задач, часто приводящие к неверным или слишком длинным ответам. Для решения этой проблемы мы проанализировали характеристики и слабые стороны существующих TRFs и разработали новый набор TRFs, названный $F_{ZS}$, призванный оптимизировать zero-shot graph QA.
#### Метод
Мы предлагаем DynamicTRF — развитое фреймворком, которое адаптивно выбирает лучший TRF для каждого вопроса во время выполнения. DynamicTRF состоит из двух ключевых компонентов. Во-первых, мы создали TRF Preference (TRFP) dataset, который рангован TRFs по их Graph Response Efficiency (GRE), чтобы определить предпочтения вопросов. Во-вторых, мы обучили TRF router, который использует TRFP dataset для адаптивного выделения лучшего TRF из комплекса $F_{ZS}$. Эта структура обеспечивает улучшение точности и краткости в zero-shot graph QA.
#### Результаты
Мы провели эксперименты на 7 внутренних задачах алгоритмического graph QA и 2 задачах за их пределами. Результаты показали, что DynamicTRF значительно улучшает точность zero-shot graph QA LMMs в отличие от стандартных подходов. Мы также провели анализ влияния каждого из компонентов на общую производительность, подтвердив эффективность DynamicTRF'a в сочетании с $F_{ZS}$.
#### Значимость
DynamicTRF может применяться в различных областях, где требуется zero-shot обучение для graph QA. Он предоставляет значительные преимущества по сравнению с традиционными подходами, такими как улучшение точности и эффективность ответа. Мы видим будущие исследования в расширении $F_{ZS}$ и экспериментах с другими моделями, а также в оптимизации GRE metrics для более широкого применения.
#### Выводы
Мы представили DynamicTRF, первый фреймворк, который адаптивно выбирает графовые представления для zero-shot graph QA. Это вытянуло значительные улучшения над существующими подходами. Наша работа открывает путь для будущих исследований в области графовых задач QA и динамического выбора представлений.
Annotation:
Large Multimodal Models (LMMs) have shown generalized zero-shot capabilities
in diverse domain question-answering (QA) tasks, including graph QA that
involves complex graph topologies. However, most current approaches use only a
single type of graph representation, namely Topology Representation Form (TRF),
such as prompt-unified text descriptions or style-fixed visual styles. Those
"one-size-fits-all" approaches fail to consider the specific preferences of
different models or tasks, often leadi...
Авторы:
Andrew Brown, Muhammad Roman, Barry Devereux
## Контекст
Генерируемые с помощью ИИ тексты становятся все более распространенными в различных приложениях, от поисковых систем до автоматизированных ответов. Однако ключевыми ограничениями остаются качество и точность получаемых ответов, которые часто не удовлетворяют потребностям пользователей. Эти проблемы напрямую связаны с невозможностью моделей генерировать высказывания, основанные на актуальных данных. Для решения этой проблемы возникла технология Retrieval-Augmented Generation (RAG), которая сочетает модели генерирования текста с системами поиска, позволяя генерировать ответы, гарантированно подкрепленные свежими и точными данными. Однако существует ограниченное число исследований, которые анализируют эффективность RAG и её технических аспектов. Это статья посвящена подробному анализу литературы, направленному на изучение технологии RAG, её методов, технических решений и ограничений.
## Метод
Для проведения систематического обзора литературы был выбран фреймворк PRISMA 2020. Использовались пять научных баз данных: ACM Digital Library, IEEE Xplore, Scopus, ScienceDirect и DBLP. Были заданы четкие критерии включения и исключения, основанные на числе цитирований и тематических вопросах. Особое внимание было уделено методологии, архитектуре и оценке эффективности RAG в различных приложениях. Была применена специальная методика для снижения **citation-lag bias**, которая позволила учесть свежие работы, в том числе со слабой цитируемостью, из-за их недавнего опубликования. Это обеспечило более точное отображение современного состояния исследований в области RAG.
## Результаты
Из 625 зарегистрированных статей было выбрано 128, удовлетворяющих критериям включения. Изучены архитектуры RAG, включающие нейронные сети для поиска и модели генерирования текста, а также метрики, используемые для оценки качества. Были выделены три основных типа RAG-систем: (i) встраиваемые модели, (ii) адаптивные системы, и (iii) системы, основанные на многоуровневых архитектурах. Также были проанализированы стандартные наборы данных и методы оценки качества, такие как BLEU, ROUGE и METEOR. Были выявлены значительные различия в качестве ответов, зависящие от архитектур и методов.
## Значимость
Результаты RAG имеют широкие применения в области научного поиска, вопросов-ответов, искусственного интеллекта в области здравоохранения, финансовых приложениях и других. Одним из преимуществ является повышение точности ответов, получаемых с помощью непосредственного доступа к данным. Это позволяет избежать ошибок, связанных с неточностью моделей генерирования.
Annotation:
This systematic review of the research literature on retrieval-augmented
generation (RAG) provides a focused analysis of the most highly cited studies
published between 2020 and May 2025. A total of 128 articles met our inclusion
criteria. The records were retrieved from ACM Digital Library, IEEE Xplore,
Scopus, ScienceDirect, and the Digital Bibliography and Library Project (DBLP).
RAG couples a neural retriever with a generative language model, grounding
output in up-to-date, non-parametric me...
📄 Memp: Exploring Agent Procedural Memory
2025-08-12Авторы:
Runnan Fang, Yuan Liang, Xiaobin Wang, Jialong Wu, Shuofei Qiao, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang
## Контекст
Large Language Models (LLMs) становятся все более успешными в решении разнообразных задач, но их процедурная память часто оказывается недостаточно устойчивой и гибкой. Эта проблема наблюдается при мануальном программировании памяти или при ее интеграции с статическими параметрами. В настоящей работе рассматривается задача обеспечения агентов с выработкой процедурной памяти, которая была бы изучаемой, обновляемой и жизненно длительной. Такие подходы могут увеличить эффективность агентов и позволить им работать в нестандартных ситуациях, не подразумеваемых при их разработке.
## Метод
Методология, предлагаемая в работе, основывается на создании механизмов для построения, восстановления и обновления процедурной памяти. Агенту предлагается два уровня абстракции: пошаговые инструкции и скрипт-ориентированные абстракции. Для этого используется нейронная сеть, которая проанализировала большой объем данных, чтобы сформировать эти уровни абстракции. Изучены различные стратегии для построения, поиска и обновления памяти, которые позволяют агенту взаимодействовать с процедурным знанием в процессе работы. Динамическая система обновления позволяет максимально адаптировать память к новым опытным данным.
## Результаты
Для оценки эффективности предложенного подхода проведены эксперименты на двух наборах данных: TravelPlanner и ALFWorld. Эти эксперименты показали, что агенты с динамической процедурной памятью показали высокую эффективность в решении задач, а также существенно улучшили свои результаты в сравнении с базовыми моделями. Также показано, что модели с более сильными предварительно обученными моделями могут быть эффективно использованы для повышения производительности более слабых моделей, если эти модели работают с общей процедурной памятью.
## Значимость
Результаты этой работы могут быть применены в различных областях, таких как разработка систем-агентов для управления процессами, диалоговые системы, интеллектуальные системы поддержки решения задач и др. Этот подход увеличивает гибкость, эффективность и устойчивость агентов к изменениям в задачах и условиях работы. Также, он открывает новые возможности для развития методов обучения с подкреплением и динамического управления знаниями.
## Выводы
Работа представляет собой значительный шаг в направлении создания устойчивой, обновляемой процедурной памяти для агентов, основанных на LLMs. Она показывает, что подход Memp может быть эффективно использован для улучшения результатов в различных задачах. В будущем могут быть проведены дополнительные исследования для идентификации новых стратегий построения и об
Annotation:
Large Language Models (LLMs) based agents excel at diverse tasks, yet they
suffer from brittle procedural memory that is manually engineered or entangled
in static parameters. In this work, we investigate strategies to endow agents
with a learnable, updatable, and lifelong procedural memory. We propose Memp
that distills past agent trajectories into both fine-grained, step-by-step
instructions and higher-level, script-like abstractions, and explore the impact
of different strategies for Build, R...
Авторы:
Andrea Nasuto, Stefano Maria Iacus, Francisco Rowe, Devika Jain
Давайте создадим максимально подробное резюме научной статьи по выбранной тематике.
## Контекст
В последние годы нейронные сети, особенно большие модели языка (LLM), приобрели важное место в области социальных наук. Они позволяют проводить более точные и масштабные анализы в различных направлениях. Однако возникает вопрос о том, могут ли эти модели, получившись на одних языках, адаптироваться к другим языкам, которые не участвовали в их обучении. Этот вопрос особенно актуален при работе с дискурсом, который характеризуется культурными и политическими особенностями. Например, проблемы иммиграции — это тема, которая очень сильно варьируется в её характере в разных странах. В связи с этим, в исследовании используется модель LLaMA 3.2-3B, которая была приспособлена для работы с тематикой иммиграции, протестированная на 13 языках. Цель — выявить, может ли модель работать на новых языках, если была подготовлена только на нескольких. Также исследуется вопрос, можно ли исправить предрасположения модели к определенным языкам и темам с помощью целенаправленного обучения на других языках.
## Метод
Чтобы провести исследование, применялась модель LLaMA 3.2-3B, которая была приспособлена для обработки данных, связанных с иммиграцией. Модель была обучена на данных из социальных сетей, а именно — X/Twitter. Использовались данные на 13 языках, включая как широко распространенные, так и менее известные. Особое внимание было уделено исследованию того, может ли модель научиться распознавать иммиграционные темы, произносимые на других языках, не приспособляясь именно к ним во время обучения. Было проверено, насколько значительно меняется результат, если во время обучения добавлять целенаправленно новые языки. Также были изучены признаки предрасположений модели к определенным языкам и темам, которые могут возникать при обучении на ограниченном наборе данных.
## Результаты
Исследование показало, что модель, обученная на одном или двух языках, впоследствии может достаточно точно различать иммиграционные темы на новых языках. Это означает, что модель способна понять "тему" — без необходимости знать все деталиы языка. Однако, в то же время, модель показала лучшие результаты в классификации позиций (про- или анти-иммиграционные), когда была приспособлена к нескольким языкам одновременно. Изучение предрасположений показало, что модель склоняется к темам, которые являются более популярными в широком обществе. Однако, даже небольшое добавление данных на непредставленные языки во время обучения приво
Annotation:
Large language models (LLMs) are transforming social-science research by
enabling scalable, precise analysis. Their adaptability raises the question of
whether knowledge acquired through fine-tuning in a few languages can transfer
to unseen languages that only appeared during pre-training. To examine this, we
fine-tune lightweight LLaMA 3.2-3B models on monolingual, bilingual, or
multilingual data sets to classify immigration-related tweets from X/Twitter
across 13 languages, a domain characteri...
Авторы:
Abolfazl Ansari, Delvin Ce Zhang, Nafis Irtiza Tripto, Dongwon Lee
## Контекст
В последние годы появление и развитие Generative AI (GenAI), особенно в области Large Language Models (LLMs), привлекло внимание в различных сферах, включая журналистику. Эта технология позволяет автоматизировать процессы создания новостных материалов, снижая затраты на ручную работу. Однако применение LLMs в новичестве порождает ряд проблем, в том числе вопросы о точности информации, авторстве и потенциальной деградации качества журналистики. Эти факторы могут повлиять на доверие зрителей к новостным источникам и влиять на профессиональную репутацию журналистов. Исследование посвящено изучению генеративных технологий в новичестве и их влияния на стиль написания, точность и информационное содержание новостных статей.
## Метод
Для проведения исследования были проанализированы более 40 000 новостных статей, публикуемых различными новостными сайтами, включая крупные медийные площадки, локальные и колледжевые новости. Использовались три разных текстовых детектора для определения использования LLMs: Binoculars, Fast-Detect GPT и GPTZero. Эти инструменты позволяют проверить содержание текста на признаки генеративного текста, такие как стиль написания, присутствие грамматических ошибок и уникальность выражений. Был проведен анализ текста на уровне предложений, чтобы определить, где именно используются LLMs (например, в интродукции, основной части или заключении). Кроме того, проведена лингвистическая аналитика текста для изучения стилей написания, словарного ассортимента и уровня формальности в зависимости от типа новостного источника.
## Результаты
Исследование выявило, что использование LLMs в новичестве значительно увеличилось в последние годы, особенно в локальных и колледжевых новостях. При этом наблюдается, что LLMs чаще всего используются в начале новостей (интродукция), в то время как заключение (контент) в большинстве случаев написано руками. Лингвистический анализ показал, что использование LLMs повышает грамматическую точность и словообороты, что представляет собой положительный момент. Однако, тексты, сгенерированные LLMs, чаще оказываются более простыми в формализации и избирательными в выборе стиля, что приводит к появлению более монотонных и стандартных текстов. Этот эффект наиболее заметен в локальных новостных статьях.
## Значимость
Исследование имеет значительное значение для развития журналистики в контексте технологического прогресса. Данные показали, что GenAI может стать полезным инструментом для автоматизации новостного процесса, увеличивая производительность и сокращая время на создание новостей. Но есть и негативные
Annotation:
The rapid rise of Generative AI (GenAI), particularly LLMs, poses concerns
for journalistic integrity and authorship. This study examines AI-generated
content across over 40,000 news articles from major, local, and college news
media, in various media formats. Using three advanced AI-text detectors (e.g.,
Binoculars, Fast-Detect GPT, and GPTZero), we find substantial increase of
GenAI use in recent years, especially in local and college news. Sentence-level
analysis reveals LLMs are often used i...
Авторы:
Sanket Badhe
## Контекст
Появление Large Language Models (LLMs) ознаменовало новую эру в области генерируемых текстов, позволивших повысить автоматизацию процессов творчества и повысить эффективность решения задач. Однако с этим связана и новая проблема — возможность использования LLMs для создания сценариев шантажных звонков, которые могут осложнить жизнь пользователям и привести к потерям финансовыми и другими путями. Данная статья раскрывает проблему технологических средств, которые могут быть использованы в этом направлении.
## Метод
ScamAgent — это автономная система, которая построена на базе LLMs и использует их для генерирования сценариев шантажных звонков. Она может взаимодействовать с пользователем в течение нескольких очередных раундов, при этом адаптируя свои ответы и учитывая динамику разговора. Это решение позволяет создавать более реалистичные сценарии, которые могут эмулировать реальные ответы пользователя. Для реализации этого процесса используется технология декомпозиции запроса, что позволяет скрыть намерение использования технологии от LLMs.
## Результаты
В экспериментах было продемонстрировано, что ScamAgent может создавать шантажные сценарии, которые полностью эмулируют реальные звонки. Данные эксперименты были проведены на больших объемах данных с реальными шантажными звонками, что позволило создать реалистичные модели. Также было проверено, что системы с традиционными методами защиты, такими как блокировка запросов или фильтрация контента, не могут справиться с подобным типом угроз.
## Значимость
Результаты, полученные в рамках данного исследования, могут быть применены в сфере защиты данных и предотвращения мошенничества. Данный подход может быть использован для разработки новых методов защиты от мошеннических звонков, в частности для создания моделей, которые могут анализировать и распознавать подобные сценарии. Это может привести к повышению уровня безопасности данных в сетях и повышению полномочий пользователей.
## Выводы
В результате исследования было установлено, что технологии генерируемого текста могут быть использованы для создания шантажных сценариев. Данная проблема требует уделения большего внимания, так как может привести к серьезным последствиям. В будущем необходимо развить новые методы анализа данных и технологий для распознавания таких сценариев, чтобы повысить уровень защиты пользователей.
Annotation:
Large Language Models (LLMs) have demonstrated impressive fluency and
reasoning capabilities, but their potential for misuse has raised growing
concern. In this paper, we present ScamAgent, an autonomous multi-turn agent
built on top of LLMs, capable of generating highly realistic scam call scripts
that simulate real-world fraud scenarios. Unlike prior work focused on
single-shot prompt misuse, ScamAgent maintains dialogue memory, adapts
dynamically to simulated user responses, and employs decep...
Авторы:
Yilun Hua, Evan Wang, Yoav Artzi
Далее приводится подробное резюме научной статьи под названием "Post-training for Efficient Communication via Convention Formation", написанной Yilun Hua, Evan Wang, Yoav Artzi.
## Контекст
В современных текстовых генерирующих моделях, включая Large Language Models (LLMs), возникают сложности с адаптацией языка в процессе многократных взаимодействий. Хотя человеческие коммуникации становятся более эффективными в многократных интеракциях, LLMs не способны естественно показывать схожий подход. Наиболее заметным отличием является нехватка возможности участников взаимодействия договориться о ад-хок-конвенциях, которые помогают улучшить эффективность общения. Данный эффект часто наблюдается при работе с текстовыми моделями, которые выделяются нестандартным поведением в многотоновых ситуациях. Изучение этой проблемы может помочь в развитии моделей, которые лучше адаптируются к естественным коммуникационным ситуациям.
## Метод
Авторы предлагают метод воспитания моделей, который использует эвристики, чтобы идентифицировать примеры конвенционального поведения в тексте. Метод включает в себя следующие этапы:
1. **Идентификация примеров**: Авторы используют инструменты для автоматической идентификации примеров конвенционального поведения в тексте.
2. **Изменение поведения моделей**: Для изменения поведения моделей во время выполнения, авторы применяют техники на основе обучения на примере (few-shot learning).
3. **Оценка поведения**: Результаты поведения модели оцениваются с помощью базового теста, который измеряет эффективность в текстовых взаимодействиях.
Таким образом, авторы предлагают метод, который может быть применен к различным моделям, чтобы улучшить их способность договариваться о конвенциях в текстовых взаимодействиях.
## Результаты
Авторы проводят эксперименты на двух новых бенчмарках для оценки способности моделей к конвенциональному поведению. Они используют две эвристически определенные методики:
1. **Набор тестов по интеракциям**: Авторы создали набор тестов, который позволяет исследовать способность моделей к конвенциональному поведению в текстовых интеракциях. Этот набор тестов включает в себя взаимодействия с различными уровнями сложности, чтобы протестировать способность моделей создавать и применять конвенции.
2. **Набор тестов по документ-ориентированному выводу**: Для оценки способности моделей применять конвенциональные подходы в реальных условиях, авторы проводят эксперименты на базе документ-ориентированного вывода, где модели должны делать выводы на основе документов.
Эксперименты показали, что в последствии воспитания модели становятся более эффективными в создании и примен
Annotation:
Humans communicate with increasing efficiency in multi-turn interactions, by
adapting their language and forming ad-hoc conventions. In contrast, prior work
shows that LLMs do not naturally show this behavior. We develop a post-training
process to develop this ability through targeted fine-tuning on heuristically
identified demonstrations of convention formation. We evaluate with two new
benchmarks focused on this capability. First, we design a focused,
cognitively-motivated interaction benchmar...
📄 Evaluation of LLMs in AMR Parsing
2025-08-11Авторы:
Shu Han Ho
## Контекст
Абстрактная Модель Значений (AMR) — семантический формализм, который кодирует значение предложения в виде графов, ориентированных на рут-узел, с рутированными нодами, представляющими концепты, и ребрами, обозначающими семантические отношения. Развитие Легких Языковых Моделей (LLM) привносит новые возможности в область АМР-парсинга. В частности, оптимизация специализированных декодеров для парсинга АМР требует значительных вычислительных ресурсов и сложности в управлении. Файнтюнинг декодер-только LLM представляет более простой и эффективный подход. Несмотря на то, что LLM показывают успех в широком спектре задач, их применение к АМР-парсингу еще не тщательно изучено. Мы рассмотрим значимость файнтюнинга LLM для АМР-парсинга, а также проанализируем результаты по сравнению с имеющимися в науке решениями.
## Метод
Мы использовали четыре декодер-только LLM: Phi 3.5, Gemma 2, LLaMA 3.2 и DeepSeek R1 LLaMA Distilled. Эти модели были файнтюнированы на LDC2020T02 Gold AMR3.0 тестовом наборе данных. Мы установили определенные гиперпараметры для каждой модели и тренировали их в тестовой среде. Эксперименты проводились с использованием различных метрик, включая SMATCH F1, для оценки производительности. Мы также провели анализ различных аспектов, таких как семантическая и структурная точность, чтобы понять, какие модели более эффективны в каких областях.
## Результаты
Наша оценка показала, что файнтюнинг декодер-только LLM может достигать иногда значительной производительности в АМР-парсинге, которая сопоставима с текущими лучшими решениями. Модель LLaMA 3.2 показала самые высокие результаты в семантической точности, достигнув SMATCH F1: 0.804, что совпадает с результатами APT + Silver (IBM) и приближается к Graphene Smatch (MBSE). С другой стороны, Phi 3.5 демонстрировала наилучшие результаты в структурной точности. Это свидетельствует о том, что различные модели предлагают разные уровни эффективности в разных аспектах АМР-парсинга.
## Значимость
Наше исследование показывает, что файнтюнинг LLM может стать эффективным инструментом для АМР-парсинга, даже не требуя такой сложной инфраструктуры, как в существующих комплексных решениях. Это может упростить развитие инструментов для семантического анализа текста. Результаты также указывают на то, что различные модели LLM предлагают разные преимущества в разных областях, что может помочь в выборе лучшей модели для определенных сценариев применения.
## Выводы
Мы доказали, что файнтюнинг LLM может представлять собой достаточ
Annotation:
AMR (Abstract Meaning Representation) is a semantic formalism that encodes
sentence meaning as rooted, directed, acyclic graphs, where nodes represent
concepts and edges denote semantic relations. Finetuning decoder only Large
Language Models (LLMs) represent a promising novel straightfoward direction for
AMR parsing. This paper presents a comprehensive evaluation of finetuning four
distinct LLM architectures, Phi 3.5, Gemma 2, LLaMA 3.2, and DeepSeek R1 LLaMA
Distilled using the LDC2020T02 Gold...
Показано 7201 -
7210
из 7506 записей