📚 Саммари научных статей из arXiv

Найдено 2042 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 StepFun-Formalizer: Unlocking the Autoformalization Potential of LLMs through Knowledge-Reasoning Fusion

2025-08-09

Авторы:

Yutong Wu, Di Huang, Ruosi Wan, Yue Peng, Shijie Shang, Chenrui Cao, Lei Qi, Rui Zhang, Zidong Du, Jie Yan, Xing Hu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Autoformalization — это процесс преобразования математических утверждений на естественном языке в формальный язык, который может быть обработан системами формальной проверки доказательств или формальной верификации. Несмотря на значительные успехи, достигнутые благодаря применению моделей языкового обработки (LLMs), эта задача все еще столкнулась со значительными трудностями. Одной из главных проблем является низкая точность преобразования, вызванная недостаточным освоением моделями формального доменного знания и ограниченными способностями к резону при анализе естественного языка и выравнивании его с формальным представлением. Ключевыми требованиями для эффективного autoformalization являются: 1) полное понимание формальных объектов и знаний домена, необходимых для корректного идентификации и представления математических конструкций, и 2) способность к резонированию над естественным языком для точного отображения неформальных контекстов в формальные выражения. Без первого, модели не могут корректно опознавать формальные объекты; без второго, они не могут точно интерпретировать реальные контексты и сопоставить их с формальными выражениями. Существующие подходы часто падают в точности из-за нехватки этих ключевых способностей. Таким образом, необходимо разработать методологию, которая бы объединяла эти две составляющие в единый процесс обучения, позволяя моделям достигать высокой точности в autoformalization. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить выявленные проблемы, авторы представляют ThinkingF — комплексную пайплайн для синтеза данных и обучения моделей, нацеленную на улучшение обеих ключевых способностей. Эта пайплайн состоит из двух основных этапов: построение высококачественных датасетов и их использование в процессе обучения моделей. В первом этапе создаются два датасета. Первый датасет формируется путем дистилляции и выбора большого количества примеров, богатых формальным знанием. Этот датасет направлен на развитие глубокого понимания формального домена у моделей. Второй датасет формируется с помощью генерации неформально-формальных рассуждений, которые основываются на шаблонах, разработанных экспертами. Эти шаблоны помогают обучать модели к резонированию и выравниванию между неформальным и формальным языком. Во втором этапе применяются два метода обучения: Supervised Fine-Tuning (SFT) и Reinforcement Learning with Value-Reward (RLVR). Эти методы позволяют моделям не только освоить формальные знания, но и улучшить способность к резонированию и выравниванию. Архитектура моделей, полученных в результате этого процесса, основана на базовых LLMs размером 7B и 32B. Эти модели показывают высокую способность к формальному знанию и неформально-формальному выравниванию, что является результатом функционального слияния двух ключевых способностей. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного подхода были проведены эксперименты на двух фундаментальных датасетах: FormalMATH-Lite и ProverBench. Модель StepFun-Formalizer-32B достигла рекордных результатов, показав BEq@1 (exact match accuracy) в 40.5% на FormalMATH-Lite и 26.7% на ProverBench. Эти результаты значительно превосходят результаты предыдущих моделей, как общего назначения, так и специализированных под autoformalization. Было показано, что модели, обученные с помощью ThinkingF, не только лучше понимают формальные объекты, но также эффективнее выравнивают неформальные контексты с формальными выражениями. Эти результаты демонстрируют значительный прогресс в решении проблем недостаточной точности, которая была характерна для предыдущих подходов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный подход имеет широкое применение в областях, требующих формальной верификации и автоматизации математических доказательств. Он может быть использован в разработке программного обеспечения, системах автоматической проверки доказательств, а также в образовательных целях для обучения студентов формальной математике. Преимущества этого подхода заключаются в высокой точности преобразования, что позволяет автоматизировать процесс преобразования неформальных математических утверждений в формальные, что значительно экономит время и усилия человека. Кроме того, этот подход может быть использован в различных научных и инженерных дисциплинах, где формальные выражения играют ключевую роль. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ StepFun-Formalizer представляет собой значительный шаг вперед в области autoformalization. Он не только показывает высокую точность, но также открывает новые возможности для применения LLMs в формальных задачах. Будущие исследования могут фокуссироваться на дальнейшем улучшении моделей, особенно в области резонирования и выравнивания между неформальным и формальным языками, а также на расширении областей применения этого подхода.

Annotation:

Autoformalization aims to translate natural-language mathematical statements into a formal language. While LLMs have accelerated progress in this area, existing methods still suffer from low accuracy. We identify two key abilities for effective autoformalization: comprehensive mastery of formal-language domain knowledge, and reasoning capability of natural language problem understanding and informal-formal alignment. Without the former, a model cannot identify the correct formal objects; without...

ID: 2508.04440v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Automated Generation of Curriculum-Aligned Multiple-Choice Questions for Malaysian Secondary Mathematics Using Generative AI

2025-08-09

Авторы:

Rohaizah Abdul Wahid, Muhamad Said Nizamuddin Nadim, Suliana Sulaiman, Syahmi Akmal Shaharudin, Muhammad Danial Jupikil, Iqqwan Jasman Su Azlan Su

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современной образовательной практике существует актуальная проблема создания высококачественных и масштабируемых оценивающих инструментов, особенно в условиях ограниченных ресурсов. Эта проблема особенно остро стоит в регионах с низким уровнем ресурсов, где языки обучения, такие как Бахаса Мелайу, имеют ограниченные ресурсы для разработки образовательного контента. Малазийская система образования сталкивается с трудностями в обеспечении точности и соответствия учебному плану при создании оценивающих материалов. Это создает потребность в инновационных подходах, которые могли бы обеспечить качество и соответствие курсивному плану. Generative AI (GenAI) представляет собой перспективное решение для автоматического генерирования оценивающих вопросов, однако этот подход не без вызовов. Одной из ключевых проблем является обеспечение фактической точности и соответствия учебному плану, особенно для ресурсоемких языков. Таким образом, требуется разработка методологий, которые могли бы обеспечить высокое качество автоматически генерируемых вопросов, основанных на официальных учебных материалах и планах. Цель данного исследования – разработка и сравнение различных методологий автоматического генерирования вопросов для математики 1 класса на языке Бахаса Мелайу, используя модель OpenAI's GPT-4. Исследование рассматривает четыре последовательных подхода к генерации вопросов: от базовых незаземленных подсказок до более сложных методологий, основанных на Retrieval-Augmented Generation (RAG). Исследование также анализирует точность и соответствие учебному плану, используя специально разработанные методы оценки, такие как Semantic Textual Similarity (STS) и RAG-based Question-Answering (RAG-QA). ## ПРЕДЛОЖЕННЫЙ МЕТОД В исследовании были разработаны четыре последовательных подхода к генерации вопросов. Первые два метода основаны на незаземленных подсказках, которые генерируют вопросы без непосредственного использования дополнительных контекстуальных данных. Эти методы включают структурированные и базовые подходы к формулировке запросов. Третий и четвертый подходы основаны на RAG-методологии, которая дополняет модель генерации дополнительными контекстуальными данными. Один из них использует фреймворк LangChain для упрощения процесса, а другой реализуется вручную для более тонкого контроля над процессом. Оба подхода используют официальные учебные материалы, включая заметки учителей и годовой учебный план (RPT), для обеспечения соответствия учебному плану. Кроме того, была разработана двойная система оценки для проверки генерируемых вопросов. Одна из компонентов, STS, измеряет соответствие вопросов учебному плану, а другая, RAG-QA, проверяет фактическую точность вопросов путем их проверки с помощью дополнительных контекстуальных данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании проведены эксперименты, которые сравнивают четыре подхода к генерации вопросов. Результаты показывают, что RAG-based подходы значительно превосходят незаземленные подсказки в терминах соответствия учебному плану и фактической точности. Методы, основанные на RAG, продемонстрировали лучшие результаты в измерении STS и RAG-QA, показывая высокий уровень соответствия курсивному плану. Дополнительно, исследование провело анализ того, как удобство использования фреймворка LangChain сравнивается с более тонким контролем, предоставляемым ручной реализацией. Это показало, что фреймворк LangChain обеспечивает более простой интеграцию, но может ограничивать точность контроля. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Данное исследование имеет значительное практическое применение в области образования, особенно в регионах с низким уровнем ресурсов. Разработанная методология может быть использована для создания высококачественных оценивающих материалов, которые соответствуют учебному плану и обеспечивают фактическую точность. Это может быть особенно полезно для регионов, где языки обучения имеют ограниченные ресурсы. Преимущества этого подхода включают в себя масштабируемость, высокую точность и возможность адаптации к конкретным учебным планам. Это может способствовать развитию EdTech-решений в Малазии и других регионах с похожими условиями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует, что RAG-based подходы являются эффективными для генерации высококачественных оценивающих вопросов, соответствующих учебному плану. Это открывает перспективы для дальнейшего развития EdTech-решений, особенно в регионах с низким уровнем ресурсов. Будущие исследования могут фокусироваться на улучшении точности и эффективности таких систем, а также на расширении их применения на другие предметы и регионы.

Annotation:

This paper addresses the critical need for scalable and high-quality educational assessment tools within the Malaysian education system. It highlights the potential of Generative AI (GenAI) while acknowledging the significant challenges of ensuring factual accuracy and curriculum alignment, especially for low-resource languages like Bahasa Melayu. This research introduces and compares four incremental pipelines for generating Form 1 Mathematics multiple-choice questions (MCQs) in Bahasa Melayu u...

ID: 2508.04442v1 cs.CL, cs.AI

arXiv PDF

📄 Enhancing Dialogue Annotation with Speaker Characteristics Leveraging a Frozen LLM

2025-08-09

Авторы:

Thomas Thebaud, Yen-Ju Lu, Matthew Wiesner, Peter Viechnicki, Najim Dehak

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современных системах диалоговой транскрипции широко используются технологии обработки естественного языка, в том числе Большие Языковые Модели (Large Language Models, LLMs). Они применяются для улучшения грамматики, пунктуации и читаемости транскриптов. Однако, несмотря на высокую эффективность, существует ряд проблем, связанных с дополнительной обработкой диалоговых данных. Одной из таких проблем является нехватка контекстуальной информации о говорящих, такой как их возраст, пол, эмоциональное состояние и другие характеристики. Данные метаданные могут значительно обогатить транскрипты, облегчить анализ и улучшить понимание контекста. Однако, добавление таких метаданных обычно требует тяжелой работы по их сбору и аннотации, что требует больших вычислительных ресурсов и времени. Кроме того, многие существующие подходы требуют тщательной доработки моделей для конкретных задач, что может быть затратно и трудоемко. Это создает потребность в более эффективном и модульном подходе к добавлению метаданных о говорящих, который мог бы использовать преимущества существующих моделей без необходимости их дополнительного обучения. В данной работе авторы предлагают решение этой проблемы, используя модели, замороженные на определенном этапе (frozen models), для добавления метаданных о говорящих, таких как возраст, пол и эмоциональное состояние. Они используют модели Whisper и WavLM для обработки аудиоданных и LLAMA для обработки текстовой информации, без необходимости дополнительного обучения этих моделей. Этот подход позволяет сохранить модульность и скорость обработки, одновременно обеспечивая высокую точность в определении характеристик говорящих. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения задачи обогащения диалоговых транскриптов метаданными о говорящих, авторы предлагают использовать модели Whisper и WavLM для обработки аудиоданных и LLAMA для обработки текста. Основная идея заключается в том, чтобы использовать эти модели в "замороженном" состоянии, т.е. без необходимости их доработки или дополнительного обучения для конкретной задачи. Аудиоданные обрабатываются с помощью Whisper или WavLM для извлечения акустических функций, а затем эти функции передаются в LLAMA для определения метаданных, таких как возраст, пол и эмоциональное состояние. Для связи аудио- и текстовых представлений используются легковесные коннекторы, которые позволяют эффективно передавать информацию между моделями. Это позволяет сохранить модульность системы, т.е. каждая модель может работать независимо, а результаты их работы собираются в единый набор метаданных. Кроме того, авторы демонстрируют, что LLAMA может быть использована для прямого сравнения x-векторов (x-vectors), что позволяет достичь низкого уровня ошибок (Equal Error Rate, EER) в некоторых сценариях. Этот подход имеет несколько преимуществ. Во-первых, он позволяет использовать предобученные модели без необходимости их дополнительного обучения, что существенно снижает вычислительные затраты. Во-вторых, модульная структура позволяет легко добавлять или изменять компоненты системы без необходимости переобучения всей модели. Наконец, этот подход обеспечивает высокую скорость обработки, что делает его пригодным для реального времени. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода авторы провели серию экспериментов на различных наборах данных. Они использовали данные, содержащие диалоги с различными характеристиками говорящих, для тестирования способности моделей определять возраст, пол и эмоциональное состояние. Результаты экспериментов показали, что предложенный метод достигает высокой точности в определении этих характеристик, при этом сохраняя высокую скорость обработки. В частности, авторы показали, что модель LLAMA может быть использована для прямого сравнения x-векторов, достигая Equal Error Rate (EER) в 8.8% в некоторых сценариях. Это говорит о высокой точности модели в определении характеристик говорящих. Кроме того, предложенный метод показал хорошую производительность на различных наборах данных, что подтверждает его универсальность и применимость в различных контекстах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в области диалоговой транскрипции и анализа речи. Он может быть использован для обогащения транскриптов метаданными о говорящих, что может быть полезно в таких областях, как анализ эмоций, улучшение качества обслуживания клиентов, а также в области медицинского и психологического консультирования. Одним из ключевых преимуществ этого метода является его модульность и высокая скорость обработки, что делает его пригодным для использования в реальном времени. Кроме того, использование замороженных моделей снижает вычислительные затраты, что делает этот подход более доступным для более широкого круга пользователей. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен новый метод для обогащения диалоговых транскриптов метаданными о говорящих, использующий замороженные модели Whisper, WavLM и LLAMA. Этот подход показал высокую точность и скорость обработки, одновременно сохраняя модульность и легковесность системы. В будущем можно рассмотреть возможность дальнейшего улучшения этого метода, в том числе путем интеграции более точных моделей для обработки аудио- и текстовых данных. Кроме того, можно исследовать возможность применения этого подхода к другим областям, таким как анализ социальных интеракций или мониторинг эмоционального состояния в реальном времени.

Annotation:

In dialogue transcription pipelines, Large Language Models (LLMs) are frequently employed in post-processing to improve grammar, punctuation, and readability. We explore a complementary post-processing step: enriching transcribed dialogues by adding metadata tags for speaker characteristics such as age, gender, and emotion. Some of the tags are global to the entire dialogue, while some are time-variant. Our approach couples frozen audio foundation models, such as Whisper or WavLM, with a frozen ...

ID: 2508.04795v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization

2025-08-09

Авторы:

Negar Foroutan, Clara Meister, Debjit Paul, Joel Niklaus, Sina Ahmadi, Antoine Bosselut, Rico Sennrich

## КОНТЕКСТ И ПРОБЛЕМАТИКА Tokenization — это первый и, как часто случается, наименее анализируемый шаг в большинстве конвейеров обработки естественного языка (NLP). Традиционные алгоритмы для обучения токенизаторов основываются на частотном подходе, который предпочитает языки, преобладающие в обучающих данных. Это приводит к неравномерному качеству токенизации для языков с малоресурсными данными, которые часто имеют длинные, морфологически неправильные токены или содержат <UNK> (неизвестные слова). Это неравенство в токенизации усиливает существующие социально-экономические неравенства между пользователями разных языков, создавая недостаток доступности для менее распространенных языков. Например, токенизация для редких языков может быть неэффективной и требовать больше вычислительных ресурсов, что приводит к увеличению финансового бремени для пользователей этих языков. Подходы к улучшению справедливости токенизации являются критически важными, особенно в многоязычных контекстах, где необходимо обеспечить равномерное качество обработки текста на разных языках. Традиционные методы, такие как Byte Pair Encoding (BPE), не учитывают неравенство между языками в процессе обучения, что может приводить к непропорциональным результатам для менее распространенных языков. Для решения этой проблемы необходимо разработать методы, которые могут обеспечить более справедливую токенизацию для всех языков, независимо от их ресурсности. Это подход, ориентированный на справедливость (fairness-aware), становится важной составляющей для создания более инклюзивных и доступных NLP-систем. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается Parity-aware Byte Pair Encoding (BPE) — модификация широко используемого алгоритма BPE, ориентированная на улучшение справедливости токенизации в многоязычных наборах данных. Основная идея Parity-aware BPE заключается в том, чтобы максимизировать сжатие для языка, который в данный момент имеет наихудшую компрессию. На каждом шаге слияния алгоритм выбирает пару символов, которая приводит к наибольшему улучшению для языка с наименьшим коэффициентом сжатия. Таким образом, алгоритм стремится к более равномерному распределению длин токенов между языками, тем самым уменьшая неравенство в токенизации. Parity-aware BPE не требует значительных изменений в существующей архитектруре BPE, но добавляет дополнительный механизм для мониторинга и коррекции неравенства между языками. Такой подход позволяет сохранить высокую степень глобального сжатия, при этом существенно улучшая равномерность токенизации между языками. Этот метод также позволяет сохранить качество модели языка на задачах обработки естественного языка, не нанося значительных потерь в производительности модели. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на многоязычных данных, чтобы оценить эффективность Parity-aware BPE по сравнению со стандартным BPE. Использовались наборы данных, представляющие широкий спектр языков, включая как ресурсоемкие, так и малоресурсные языки. Результаты показали, что Parity-aware BPE значительно улучшил справедливость токенизации, сократив неравенство в длине токенов между языками. Это было достигнуто без существенного ухудшения глобального коэффициента сжатия. Кроме того, авторы протестировали модели языкового моделирования, обученные на токенизированных данных, и не обнаружили существенного ухудшения качества модели на задачах, таких как перевод и классификация текста. Это подтверждает, что Parity-aware BPE может быть эффективно использован в приложениях NLP без потери качества. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод Parity-aware BPE имеет значительное практическое применение в многоязычных NLP-системах. Он может быть использован для улучшения доступности и справедливости систем обработки естественного языка для менее распространенных языков. Это особенно важно в контексте развития инклюзивных технологий, где необходимо обеспечить равное качество обработки для всех пользователей, независимо от языка. Parity-aware BPE может быть применен в различных областях, таких как машинный перевод, анализ социальных сетей, обработка клиентских запросов и другие приложения, где необходима поддержка множества языков. Преимущество этого метода заключается в том, что он позволяет сохранить высокое качество модели языка, не увеличивая вычислительные затраты. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что Parity-aware BPE является эффективным методом для улучшения справедливости токенизации в многоязычных контекстах. Он позволяет сократить неравенство в длине токенов между языками, не нанося существенных потерь в глобальном сжатии и качестве модели. Будущие исследования могут расширить этот подход, включив дополнительные механизмы для улучшения справедливости и доступности NLP-систем для менее распространенных языков. Также может быть исследовано влияние Parity-aware BPE на другие аспекты моделей языкового обработки, таких как интерпретируемость и эффективность.

Annotation:

Tokenization is the first -- and often least scrutinized -- step of most NLP pipelines. Standard algorithms for learning tokenizers rely on frequency-based objectives, which favor languages dominant in the training data and consequently leave lower-resource languages with tokenizations that are disproportionately longer, morphologically implausible, or even riddled with <UNK> placeholders. This phenomenon ultimately amplifies computational and financial inequalities between users from different ...

ID: 2508.04796v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Persistent Instability in LLM's Personality Measurements: Effects of Scale, Reasoning, and Conversation History

2025-08-09

Авторы:

Tommaso Tosato, Saskia Helbling, Yorguin-Jose Mantilla-Ramos, Mahmood Hegazy, Alberto Tosato, David John Lemay, Irina Rish, Guillaume Dumas

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие больших языковых моделей (LLM) сталкивается с фундаментальной проблемой предсказуемости и стабильности поведения систем искусственного интеллекта. В контексте стремительного внедрения LLM в критически важные области - от медицинской диагностики до финансового консультирования и образовательных платформ - последовательность поведения становится не просто технической характеристикой, а фактором общественной безопасности. Однако понимание "личностных" характеристик этих моделей остаётся крайне ограниченным, что создаёт риск непредсказуемых последствий при масштабном развертывании. Существующие подходы к оценке поведения LLM фокусируются преимущественно на задачах классификации или генерации текста, упуская фундаментальный аспект стабильности личностных проявлений. Традиционные психологические инструменты, такие как Big Five Inventory (BFI-44) и Short Dark Triad (SD3), были разработаны для измерения стабильных черт личности у человека, но их применимость к искусственным системам вызывает серьёзные сомнения. Более того, предполагается, что модели большего масштаба должны демонстрировать более стабильное поведение благодаря большей "объёмности" знаний, однако эмпирическое подтверждение этой гипотезы отсутствует. Критической проблемой является отсутствие систематической методологии для оценки стабильности личностных характеристик LLM в различных условиях. Исследователи не располагают данными о том, насколько мелкие изменения в формулировках запросов, порядке вопросов или контексте взаимодействия влияют на измеряемые "личностные" характеристики моделей. Это создаёт потенциальный риск для разработчиков и пользователей, которые могут полагаться на кажущуюся стабильность поведения системы, не осознавая её чувствительности к тривиальным изменениям входных данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы разработали комплексную оценочную рамку PERSIST (PERsonality Stability in Synthetic Text), которая представляет собой многомерный аналитический комплекс для систематического изучения стабильности личностных измерений в LLM. Рамка охватывает более 25 открытых моделей с количеством параметров от 1 до 671 миллиарда, что позволяет провести масштабный анализ зависимости стабильности от размера модели. В рамках исследования было собрано более 500,000 ответов моделей, что обеспечивает статистическую значимость полученных результатов. Методология включает два типа инструментов для измерения личностных характеристик: традиционные психологические шкалы (BFI-44 для оценки "Большой пятёрки" и SD3 для измерения "тёмной триады" личности) и специально адаптированные для LLM инструменты. Это двойное применение позволило исследовать гипотезу о том, что нестабильность может быть вызвана несоответствием человекоцентричных инструментов особенностям искусственных систем. Систематическое варьирование параметров включало четыре ключевых фактора: порядок вопросов, парафразирование формулировок, задание конкретных персон модели, и режимы рассуждений (включая chain-of-thought подход). Каждый фактор тестировался в изоляции и в комбинациях для выявления синергетических эффектов. Особое внимание уделялось влиянию истории предыдущих взаимодействий на текущие измерения, что имитирует реальные сценарии использования, где модели работают в контексте продолжительных диалогов. Аналитический аппарат включал статистические методы оценки вариативности ответов, корреляционный анализ между различными условиями тестирования, и разработку метрик для количественной оценки стабильности. Для каждой модели и условия рассчитывались стандартные отклонения показателей личности, коэффициенты корреляции между повторными измерениями, и индекс чувствительности к изменениям входных данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Результаты экспериментов продемонстрировали удивительно высокий уровень вариативности в личностных измерениях даже у самых крупных моделей. Модели с 400+ миллиардами параметров показывали стандартное отклонение показателей личности более 0.4 по шкале от 0 до 1, что указывает на существенную нестабильность. Это опровергает распространённое представление о том, что увеличение размера модели автоматически приводит к более предсказу

Annotation:

Large language models require consistent behavioral patterns for safe deployment, yet their personality-like traits remain poorly understood. We present PERSIST (PERsonality Stability in Synthetic Text), a comprehensive evaluation framework testing 25+ open-source models (1B-671B parameters) across 500,000+ responses. Using traditional (BFI-44, SD3) and novel LLM-adapted personality instruments, we systematically vary question order, paraphrasing, personas, and reasoning modes. Our findings chal...

ID: 2508.04826v1 cs.CL, cs.AI

arXiv PDF

📄 RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory

2025-08-09

Авторы:

Jun Liu, Zhenglun Kong, Changdi Yang, Fan Yang, Tianqi Li, Peiyan Dong, Joannah Nanjekye, Hao Tang, Geng Yuan, Wei Niu, Wenbin Zhang, Pu Zhao, Xue Lin, Dong Huang, Yanzhi Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Multi-agent large language model (LLM) systems представляют собой мощное средство для решения сложных задач резонуирования и коллаборативного принятия решений. Однако существующие подходы к координации таких систем характеризуются рядом недостатков. Традиционные схемы маршрутизации контекста, такие как статические или полнотекстовые стратегии, часто приводят к избыточному потреблению токенов, излишнему обращению к памяти и ограниченной адаптивности в рамках различных этапов взаимодействия. Эти проблемы усугубляются тем, что современные LLMs требовательны к вычислительным ресурсам, а неэффективное использование контекста может привести к существенным накладным расходам. Дополнительной проблемой является отсутствие механизмов динамической адаптации контекста к конкретной роли или задаче, что может приводить к потере релевантности информации в процессе взаимодействия агентов. Также, существующие метрики оценки качества ответов часто ограничиваются простыми мерами точности (QA accuracy), не учитывая более глубокие аспекты генерируемых объяснений. Таким образом, необходим новый подход, который обеспечивал бы эффективную, адаптивную и ресурсоэкономичную координацию в мульти-агентных системах LLMs. ## ПРЕДЛОЖЕННЫЙ МЕТОД RCR-Router представляет собой инновационный модульный фреймворк для контекстной маршрутизации в мульти-агентных системах LLMs. Он основывается на концепции ролево-ориентированного контекстного роутинга, где для каждого агента динамически выбирается релевантный подмножество памяти в зависимости от его роли и текущего этапа задачи. Это позволяет сократить количество обрабатываемых токенов, сохраняя при этом высокое качество ответов. Ключевым элементом RCR-Router является легковесная скоринговая политика, которая определяет релевантность памяти для каждого агента. Помимо этого, выходные данные агентов интегрируются в общую память в процессе итеративного обращения, что позволяет достичь прогрессивного уточнения контекста. Этот подход не только сокращает избыточность, но также повышает адаптивность системы в различных сценариях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности RCR-Router проведены эксперименты на трех бенчмарках мульти-хоп QA: HotPotQA, MuSiQue и 2WikiMultihop. Результаты демонстрируют значительное сокращение потребления токенов (до 30%) без ухудшения, и в некоторых случаях даже с улучшением, качества ответов. Благодаря динамическому контекстному роутингу, система показывает высокую эффективность в использовании ресурсов, особенно в сравнении со статическими методами. Для более глубокого анализа была также предложена метрика Answer Quality Score, которая учитывает качество генерируемых объяснений в дополнение к стандартной мере точности. Это позволяет более полно оценить вклад системы в решение сложных задач. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ RCR-Router открывает новые возможности для применения мульти-агентных LLMs в областях, требующих высокоэффективное использование вычислительных ресурсов. Он может быть использован в таких сферах, как сложные системы рекомендаций, интеллектуальные поисковые системы и автоматизированные системы поддержки принятия решений. Преимущества этого метода заключаются в его способности адаптироваться к конкретным задачам и ролям агентов, что повышает эффективность взаимодействия и сокращает излишние расходы. Также, предложенная метрика Answer Quality Score может стать важным инструментом для оценки качества решений в будущих системах. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ RCR-Router является первым шагом к созданию более эффективных и адаптивных мульти-агентных систем на основе LLMs. Будущие исследования могут фокусироваться на дальнейшем улучшении механизмов контекстного роутинга, расширении области применения и интеграции с другими модулями для повышения общей производительности. Также, развитие метрик оценки качества, основанных на объяснениях, может стать ключевым направлением в будущем.

Annotation:

Multi-agent large language model (LLM) systems have shown strong potential in complex reasoning and collaborative decision-making tasks. However, most existing coordination schemes rely on static or full-context routing strategies, which lead to excessive token consumption, redundant memory exposure, and limited adaptability across interaction rounds. We introduce RCR-Router, a modular and role-aware context routing framework designed to enable efficient, adaptive collaboration in multi-agent LL...

ID: 2508.04903v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 Towards Robust Evaluation of Visual Activity Recognition: Resolving Verb Ambiguity with Sense Clustering

2025-08-09

Авторы:

Louie Hong Yao, Nicholas Jarvis, Tianyu Jiang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Визуальная распознавательная система для распознавания действий является важной областью исследований в области компьютерного зрения и языковых технологий. Однако, оценка эффективности таких систем сталкивается с некоторыми проблемами, связанными с неоднозначностью семантики глаголов и разнообразием точек зрения на изображения. Например, одно и то же действие может быть описано разными синонимичными глаголами (например, "brushing" и "grooming") или может иметь различные описания в зависимости от контекста (например, "piloting" vs. "operating"). Традиционные методы оценки, основанные на точном совпадении с единственным "золотым" ответом, не могут учитывать эту неоднозначность, что приводит к неполной и неточной оценке производительности моделей. Данная проблематика становится особенно актуальной при работе с большими наборами данных, где изображения могут быть интерпретированы по-разному в зависимости от контекста или цели. Таким образом, необходимо разработать более гибкий и точный метод оценки, который учитывал бы различные толкования действий и обеспечил бы более корректную оценку моделей распознавания действий. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают использовать визуально-языковой кластеринговый фреймворк для решения проблемы неоднозначности семантики глаголов. Этот фреймворк построен на основе создания кластеров смыслов (sense clusters) для глаголов, которые представляют различные интерпретации действий. Каждый кластер соответствует определенному перспективному виду на действие, который может быть выражен разными глаголами. Метод включает в себя анализ набора данных imSitu, где для каждого изображения определяется среднее количество кластеров, соответствующих разным интерпретациям. Например, для одного изображения может быть определено 2,8 кластера, каждый из которых представляет отдельный взгляд на действие. Авторы также проводят сравнение различных моделей распознавания действий, используя кластеризацию смыслов в качестве более точного метода оценки, по сравнению с традиционными подходами. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены ряд экспериментов на базе данных imSitu. Результаты показали, что каждое изображение может быть описано с помощью нескольких кластеров, что подтверждает наличие неоднозначности в интерпретации действий. Авторы также провели сравнение результатов различных моделей распознавания действий, используя как традиционный подход, так и кластеризацию смыслов. Результаты показали, что кластеризация смыслов лучше согласуется с человеческим суждением, что делает этот подход более точным и надежным. Кроме того, авторы провели анализ выравнивания моделей с человеческим опытом, который показал, что кластеризация смыслов лучше отражает различные точки зрения на действия, чем традиционные методы оценки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод кластеризации смыслов имеет широкое применение в области распознавания действий, особенно в ситуациях, где необходимо учитывать неоднозначность семантики. Этот подход может быть использован в различных приложениях, таких как распознавание действий в реальном времени, автоматическая аннотация изображений, а также в системах поддержки принятия решений, где точное понимание контекста играет ключевую роль. Преимуществом данного подхода является его способность учитывать различные перспективы и толкования действий, что позволяет получить более точную и контекстуальную оценку. Это может привести к улучшению качества распознавания действий и увеличению доверия к таким системам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, предложенный метод кластеризации смыслов для глаголов предлагает более гибкий и точный способ оценки моделей распознавания действий. Этот подход не только улучшает точность оценки, но также лучше согласуется с человеческим суждением. Будущие исследования могут фокусироваться на дальнейшем улучшении этого метода, включая расширение его применения на другие наборы данных и доработку алгоритмов кластеризации для еще более точного анализа. Также, можно рассмотреть возможность использования этого подхода в сочетании с другими методами оценки, такими как нейронные сети и глубокое обучение, для создания еще более надежных и точных систем распознавания действий.

Annotation:

Evaluating visual activity recognition systems is challenging due to inherent ambiguities in verb semantics and image interpretation. When describing actions in images, synonymous verbs can refer to the same event (e.g., brushing vs. grooming), while different perspectives can lead to equally valid but distinct verb choices (e.g., piloting vs. operating). Standard exact-match evaluation, which relies on a single gold answer, fails to capture these ambiguities, resulting in an incomplete assessme...

ID: 2508.04945v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 A Multi-Stage Large Language Model Framework for Extracting Suicide-Related Social Determinants of Health

2025-08-09

Авторы:

Song Wang, Yishu Wei, Haotian Ma, Max Lovitt, Kelly Deng, Yuan Meng, Zihan Xu, Jingze Zhang, Yunyu Xiao, Ying Ding, Xuhai Xu, Joydeep Ghosh, Yifan Peng

## КОНТЕКСТ И ПРОБЛЕМАТИКА Раскрытие социальных детерминантов здоровья (SDoH), связанных с суицидальностью, является ключевым для ранней идентификации рисков и разработки эффективных программ профилактики. SDoH включают в себя широкий спектр факторов, таких как социально-экономические условия, доступность медицинских услуг, социальные поддерживающие сети и психологические условия, которые могут существенно повлиять на риск суицидального поведения. Однако исследования в этой области сталкиваются с рядом проблем. Во-первых, распределение SDoH-факторов характеризуется длиннохвостым распределением, где некоторые факторы являются редкими, но крайне важными. Это создает сложности для традиционных моделей, которые часто не могут эффективно обрабатывать редкие факторы. Во-вторых, анализ ключевых стрессоров, которые предшествуют суицидальным инцидентам, представляет собой трудную задачу из-за неструктурированности данных, таких как клинические записи, социальные медиа-посты и другие текстовые источники. Наконец, проблема объяснимости моделей остается критической, так как для эффективного применения необходимо, чтобы результаты модели были интерпретируемыми и понятными для клиницистов и исследователей. Целью данного исследования является разработка эффективного подхода для извлечения SDoH-факторов из неструктурированных текстов, с целью улучшения точности, эффективности и объяснимости таких моделей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают многоступенчатый фреймворк на основе больших языковых моделей (LLM) для извлечения SDoH-факторов. Этот фреймворк состоит из нескольких этапов, начиная с предварительной обработки данных, затем идет фильтрация и извлечение ключевых фрагментов текста, содержащих потенциальные SDoH-факторы. Затем применяется модель файн-тюнинга, специально адаптированная для задачи извлечения SDoH. Ключевой особенностью этого фреймворка является его многоступенчатая архитектура, которая позволяет постепенно уточнять результаты. На каждом этапе модель выполняет более глубокий анализ текста, с тем чтобы выявить все более тонкие и контекстуальные факторы. Для этого используются различные модели, включая BioBERT, GPT-3.5-turbo и DeepSeek-R1. Кроме того, фреймворк включает механизмы для генерации объяснений, которые помогают пользователям понять, почему модель выделила определенные факторы. Также исследование сравнивает производительность этого фреймворка с другими современными моделями, такими как BioBERT и GPT-3.5-turbo, чтобы оценить его эффективность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предложенного фреймворка. Эксперименты включали автоматические оценки на больших наборах данных, а также пилотное исследование с участием пользователей. В результате, предложенный фреймворк показал значительное улучшение по сравнению с другими моделями в задаче извлечения SDoH-факторов. Он не только повысил точность извлечения, но и предоставил более подробные объяснения, что способствовало быстрому и точному аннотированию данных. Использование файн-тюнинга для меньшей, задаче-специфической модели также показало хорошие результаты, сократившие затраты на вычисления при сохранении высокой точности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк имеет значительное практическое применение в области психического здоровья и профилактики суицидов. Благодаря высокой точности и объяснимости модели, он может быть использован для ранней идентификации людей, находящихся в рисковой группе. Это может повлиять на разработку более эффективных стратегий профилактики и поддержки людей, которые могут быть подвержены суицидальным мыслям. Кроме того, фреймворк может быть применен в клинической практике для анализа клинических записей и других текстовых данных, что позволит клиницистам быстрее и точнее определять факторы риска. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует успех многоступенчатого фреймворка для извлечения SDoH-факторов, связанных с суицидальностью. Он не только повышает точность и эффективность извлечения, но и улучшает объяснимость модели, что является критическим для клинического применения. В будущем, исследователи могут расширить этот подход, включив более широкие наборы данных и разработав более продвинутые методы для анализа контекста и взаимосвязей между различными факторами. Это может привести к еще более точным и информативным моделям, которые будут играть важную роль в снижении суицидального риска.

Annotation:

Background: Understanding social determinants of health (SDoH) factors contributing to suicide incidents is crucial for early intervention and prevention. However, data-driven approaches to this goal face challenges such as long-tailed factor distributions, analyzing pivotal stressors preceding suicide incidents, and limited model explainability. Methods: We present a multi-stage large language model framework to enhance SDoH factor extraction from unstructured text. Our approach was compared to...

ID: 2508.05003v1 cs.CL, cs.AI

arXiv PDF

📄 Dialogues Aspect-based Sentiment Quadruple Extraction via Structural Entropy Minimization Partitioning

2025-08-09

Авторы:

Kun Peng, Cong Cao, Hao Peng, Zhifeng Hao, Lei Jiang, Kongjing Gu, Yanbing Liu, Philip S. Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Проблема извлечения четырёхкомпонентных структур (target-aspect-opinion-sentiment quadruple) в рамках диалогов представляет собой одну из ключевых задач в области анализа настроения (sentiment analysis). Диалоги, в отличие от текстов с единым авторством, характеризуются многокруглыми обсуждениями, в которых участвуют несколько интерлокуторов, часто с неявными или контекстуальными связями. Традиционные методы анализа настроения в диалогах строятся на предположении, что существует единое распределение элементов настроения в рамках всего диалога. Однако это предположение часто не соответствует действительности. Диалоги могут содержать несколько семантически независимых поддиалогов, соотношение между которыми не всегда очевидно. Такая сложность приводит к значительному увеличению шума при извлечении элементов настроения, так как модели пытаются установить связи между словами, которые фактически не относятся друг к другу. Это может привести к неточным результатам и понижению качества извлечения. Кроме того, существующие методы часто не учитывают структурную и семантическую комплексность диалогов, что делает задачу извлечения четырёхкомпонентных структур ещё более сложной. Ключевой проблемой является необходимость разделения диалога на семантически независимые части, чтобы уменьшить шум и повысить точность извлечения. Однако простое разделение диалога на основе ответов или последовательных сообщений не гарантирует сохранение семантической целостности. Таким образом, необходимо разработать более информированный подход, который мог бы оптимально разделять диалоги на поддиалоги, сохраняя в то же время важные семантические связи. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают инновационный подход, основанный на алгоритме структурного энтропийного минимизации (structural entropy minimization) для разделения диалогов на семантически независимые поддиалоги. Этот метод позволяет выделить те утверждения (utterances), которые несут релевантную информацию, отделяя их от несвязанных или менее важных частей. Алгоритм оптимизирует разделение, минимизируя энтропию, что гарантирует максимальное сохранение связанной информации и исключение шума. Помимо разделения, авторы предлагают двухступенчатый фреймворк для извлечения четырёхкомпонентных структур. На первом этапе выделяются отдельные элементы настроения (target, aspect, opinion, sentiment) на уровне каждого утверждения. На втором этапе производится сопоставление этих элементов на уровне поддиалогов, что позволяет формировать полные четырёхкомпонентные структуры. Ключевой архитектурной особенностью этого метода является его способность сохранить контекстуальные связи между элементами настроения в рамках поддиалогов, избегая ошибок, вызванных несвязанными утверждениями. Такой подход позволяет существующим моделям извлечения настроения работать более эффективно и точно, снижая влияние шума. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода авторы провели широкий спектр экспериментов на датасетах, предназначенных для задачи DiaASQ. Эти датасеты включают диалоги с несколькими интерлокуторами и несколькими раундами обсуждения. Результаты показали, что предложенный метод значительно превосходит существующие подходы по метрикам точности и полноты извлечения четырёхкомпонентных структур. Кроме того, эксперименты показали, что использование алгоритма структурного энтропийного минимизации для разделения диалогов на поддиалоги значительно сокращает время вычислений и снижает вычислительные затраты. Это делает метод более эффективным с точки зрения ресурсов, необходимых для обработки больших диалогов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, требующих детального анализа диалогов, таких как обработка естественного языка (NLP), анализ медиа-контента, и анализ отзывов клиентов. Благодаря его способности точно извлекать четырёхкомпонентные структуры, он может быть использован для автоматического мониторинга отзывов, определения ключевых тем обсуждения, и повышения качества взаимодействия в чат-ботах. Преимущества этого метода заключаются в его высокой точности, низких вычислительных затратах и способности эффективно обрабатывать сложные структуры диалогов. Это делает его применимым в различных отраслевых приложениях, где необходимо понимание контекста и точное извлечение элементов настроения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предложенный метод значительно улучшает качество извлечения четырёхкомпонентных структур в диалогах, обеспечивая высокую точность и низкие вычислительные затраты. Однако дальнейшие исследования могут быть направлены на улучшение алгоритма структурного энтропийного минимизации для ещё более тонкого разделения диалогов. Кроме того, могут быть исследованы возможности применения этого подхода к другим типам текстовых данных, таким как социальные медиа или мультимодальные диалоги.

Annotation:

Dialogues Aspect-based Sentiment Quadruple Extraction (DiaASQ) aims to extract all target-aspect-opinion-sentiment quadruples from a given multi-round, multi-participant dialogue. Existing methods typically learn word relations across entire dialogues, assuming a uniform distribution of sentiment elements. However, we find that dialogues often contain multiple semantically independent sub-dialogues without clear dependencies between them. Therefore, learning word relationships across the entire ...

ID: 2508.05023v1 cs.CL, cs.AI

arXiv PDF

📄 Evaluation of LLMs in AMR Parsing

2025-08-09

Авторы:

Shu Han Ho

## КОНТЕКСТ И ПРОБЛЕМАТИКА Проблема представления и понимания смысла предложений лежит в основе многих прикладных задач компьютерной лингвистики. За последние годы в этой области было достигнуто значительное прогрессирование, однако существующие модели часто сталкиваются со сложностями в обработке семантических структур, особенно в случаях сложных или неявных отношений между концептами. Одним из перспективных подходов является использование Abstract Meaning Representation (AMR) – формализма, который кодирует смысл предложения в виде структурированных графов, где узлы обозначают концепты, а ребра – семантические отношения. Несмотря на ряд успехов в области AMR-парсинга, многие современные методы требуют сложных пайплайнов, включающих предварительную обработку, специализированные архитектуры и тщательное настройку гиперпараметров. Кроме того, многие из этих моделей требуют значительных вычислительных ресурсов и не всегда обеспечивают оптимальное балансирование между структурной валидностью и семантической точностью. В последнее время Large Language Models (LLMs) стали важной тенденцией в компьютерной лингвистике за счет их универсальности и возможности файнтюнинга для специфических задач. Однако оценка возможностей декодер-only LLMs в задачах AMR-парсинга оставалась недостаточно исследованной. Эта проблематика ставит под сомнение, могут ли простые методы файнтюнинга LLMs достичь результатов, сравнимых со сложными современными методами AMR-парсинга. Данная статья направлена на исследование этого вопроса, оценивая возможности четырех различных архитектур LLMs в контексте AMR-парсинга. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках исследования была предпринята стратегия файнтюнинга четырех различных архитектур LLMs: Phi 3.5, Gemma 2, LLaMA 3.2 и DeepSeek R1 LLaMA Distilled. Цель заключалась в оценке их способности к AMR-парсингу с использованием минимальных модификаций и стандартных подходов к файнтюнингу. Для реализации эксперимента был использован LDC2020T02 Gold AMR3.0 test set как основной датасет. Архитектура каждой модели оставалась в оригинальном виде, но доработана специфическими методами для обработки входных данных в формате AMR. Основной акцент был сделан на сохранении простоты процесса файнтюнинга, чтобы оценить естественные способности LLMs в работе с семантическими графами. Для Phi 3.5 и Gemma 2 были использованы стандартные настройки файнтюнинга, ориентированные на повышение точности распознования семантических отношений. Для LLaMA 3.2 и DeepSeek R1 LLaMA Distilled были доработаны методы кодирования входных данных, чтобы оптимизировать представление структур графов. Финальная модель LLaMA 3.2 показала лучшие результаты в терминах сбалансированного сочетания семантической точности и структурной валидности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В ходе экспериментов была проведена оценка качества AMR-парсинга на основе метрики SMATCH F1, которая измеряет точность сопоставления предсказанных и истинных графов. Результаты показали, что LLaMA 3.2 достигает SMATCH F1 в 0.804 на полном тестовом наборе LDC2020T02, что соответствует результатам APT + Silver (IBM) и приближается к Graphene Smatch (MBSE) на 0.854. Phi 3.5 показала высокую структурную валидность, однако ее семантическая точность была ниже, чем у LLaMA 3.2. Это подтверждает гипотезу о том, что различные архитектуры LLMs могут иметь различные сильные стороны в контексте AMR-парсинга. Gemma 2 и DeepSeek R1 LLaMA Distilled также демонстрировали приемлемые результаты, но не достигали уровня LLaMA 3.2 в терминах общей производительности. Эти результаты подтверждают, что простой файнтюнинг декодер-only LLMs может быть эффективным методом для AMR-парсинга, особенно в контексте LLaMA 3.2. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Данное исследование демонстрирует практическую значимость использования LLMs в задачах AMR-парсинга. Благодаря простоте файнтюнинга и высокой производительности, модель LLaMA 3.2 может быть использована в различных приложениях, таких как семантический анализ текста, машинный перевод и системы вопросо-ответ. Особенно важно отметить, что высокие результаты LLaMA 3.2 были достигнуты без необходимости сложной настройки или дополнительных модификаций, что делает эту модель привлекательной для практического применения в промышленных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Настоящее исследование показывает, что файнтюнинг декодер-only LLMs может быть эффективным методом для AMR-парсинга, особенно при использовании модели LLaMA 3.2. Однако существуют возможности для дальнейших улучшений, включая оптимизацию архитектуры для более точного представления семантических отношений и структурных характеристик графов. Будущие исследования могут фокусироваться на разработке более сложных методов файнтюнинга, а также на исследовании возможностей других архитектур LLMs в контексте AMR-парсинга. Кроме того, важным направлением может быть интеграция LLMs с другими методами семантического анализа для достижения еще более высоких результатов.

Annotation:

Meaning Representation (AMR) is a semantic formalism that encodes sentence meaning as rooted, directed, acyclic graphs, where nodes represent concepts and edges denote semantic relations. Finetuning decoder only Large Language Models (LLMs) represent a promising novel straightfoward direction for AMR parsing. This paper presents a comprehensive evaluation of finetuning four distinct LLM architectures, Phi 3.5, Gemma 2, LLaMA 3.2, and DeepSeek R1 LLaMA Distilled using the LDC2020T02 Gold AMR3.0 t...

ID: 2508.05028v1 cs.CL, cs.AI

arXiv PDF

1
2
199
200
201
202
203
204
205

Показано 2001 - 2010 из 2042 записей