📚 Саммари научных статей из arXiv

Найдено 2042 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 AMELIA: A Family of Multi-task End-to-end Language Models for Argumentation

2025-08-27

Авторы:

Henri Savigny, Bruno Yun

################################# ## Контекст ################################# Аргументная майнинг (argument mining) — это ветвь искусственного интеллекта, которая специализируется на автоматическом извлечении и анализе аргументативных структур из естественного языка. Одним из основных элементов этой области является идентификация и классификация аргументов, а также определение их взаимосвязей в тексте. Однако существуют значительные вызовы, связанные с решением этой задачи, в том числе сложностью анализа естественного языка, разнообразием структур аргументов и отсутствием широко известных решений, предназначенных для работы с несколькими задачами одновременно. Наша мотивация заключается в разработке модели, которая может эффективно выполнять несколько задач аргументной майнинга, уменьшая необходимость в многообразии моделей и упростив применение в различных приложениях. ################################# ## Метод ################################# Для достижения этой цели мы привлекаем Meta AI's Llama-3.1-8B-Instruct — мощную модель языкового моделирования. Мы разрабатываем многозадачную модель, используя три основных подхода: 1. **Fine-tuning на отдельных задачах**: каждая задача обучается отдельно, чтобы достичь максимальной точности в отдельности. 2. **Fine-tuning на нескольких задачах одновременно**: это позволяет модели универсально работать на нескольких задачах, но не гарантирует оптимального результата на каждой из них. 3. **Merging моделей**: после отдельного fine-tuning задач, модели объединяются, чтобы сгладить недостатки каждой отдельной модели. Мы также создаем многозадачный датасет, объединяя 19 существующих датасетов в единое целое, чтобы обеспечить широкий спектр тестовых случаев. ################################# ## Результаты ################################# Наши эксперименты показали, что fine-tuning на отдельных задачах обеспечивает высокую точность для индивидуальных задач, но не оптимален для общей гибкости. Fine-tuning на нескольких задачах одновременно демонстрирует хороший уровень универсальности, но может быть менее эффективен на отдельных задачах. Объединение моделей, обученных на отдельных задачах, дает лучшую компромиссную стратегию: оно дает высокую точность на нескольких задачах одновременно, с меньшим потреблением ресурсов, чем полностью многозадачный подход. ################################# ## Значимость ################################# Модель AMELIA может применяться в различных приложениях, включая анализ текстов, моделирование дискуссий и поддержку принятия решений. Она предлагает несколько преимуществ, таких как уменьшение ресурсоемкости, увеличение точности на нескольких задачах одновременно и гибкость в обработке различных аргументативных структур. Эта модель может стать полезной для академических исследований, практических приложений в области данных и в обучении моделей других моделей. #################################

Annotation:

Argument mining is a subfield of argumentation that aims to automatically extract argumentative structures and their relations from natural language texts. This paper investigates how a single large language model can be leveraged to perform one or several argument mining tasks. Our contributions are two-fold. First, we construct a multi-task dataset by surveying and converting 19 well-known argument mining datasets from the literature into a unified format. Second, we explore various training s...

ID: 2508.17926v1 cs.CL, cs.AI

arXiv PDF

📄 Debiasing Multilingual LLMs in Cross-lingual Latent Space

2025-08-27

Авторы:

Qiwei Peng, Guimin Hu, Yekun Chai, Anders Søgaard

## Контекст Скрытые предрассудки в больших моделях естественного языка (LLMs) являются важной проблемой, особенно в мультилингвальных задачах. Несмотря на прогресс в методах debiasing, модели часто не могут эффективно перевести эти техники на другие языки. Эта проблема становится критичной при кросс-лингвальных задачах, где необходимо уменьшить уровень скрытого англоцентризма и улучшить контекстуальную гранулярность. Несмотря на работы по оценке кросс-лингвальной трансфертивности таких методов, есть недостаток моделей, которые могли бы адаптироваться к различным языкам. В настоящей работе предлагается первый подход, в котором debiasing выполняется в "скрытом" пространстве, а не напрямую на выходных данных модели. ## Метод Для создания кросс-лингвального пространства использован автоэнкодер, основанный на параллельных данных (TED Talk скриптов). Обучение автоэнкодера направлено на создание низкоразмерного пространства, которое сохраняет гранулярность языка и позволяет эффективно передавать скрытые предрассудки между языками. Для дебиасинга использованы две техники: SentDebias и HardDebias. Данные для экспериментов были извлечены из входных предложений моделей и представлены в трех языках (французский, немецкий, голландский), с целью оценки эффективности кросс-лингвального дебиасинга. ## Результаты Эксперименты показали, что автоэнкодер эффективно строит кросс-лингвальное пространство, сохраняя языковые характеристики и уменьшая корреляцию скрытых предрассудков. Техники debiasing, примененные в этом пространстве, показали значительный повышение эффективности по сравнению с дебиасингом напрямую в выходных данных модели. В частности, SentDebias показал улучшение в 10% для всех языков в сравнении с безучетом входа в пространство. HardDebias также показал улучшение в 7%, особенно для языков с меньшим представительством в обучающих данных. ## Значимость Данный подход может быть применен в различных мультилингвальных задачах, включая перевод, суммирование текста и распознавание субъективных выражений. Он предоставляет преимущества в улучшении скрытого дебиасинга, а также работы с языками с недостатком данных. Будущие исследования могут сосредоточиться на улучшении алгоритмов автоэнкодера и расширении кросс-лингвального пространства для широкого спектма языков. ## Выводы Результаты экспериментов показали, что дебиасинг в кросс-лингвальном пространстве значительно улучшает эффективность и кросс-лингвальную трансфертивность LLMs. Этот подход может стать базой для дальнейшего раз

Annotation:

Debiasing techniques such as SentDebias aim to reduce bias in large language models (LLMs). Previous studies have evaluated their cross-lingual transferability by directly applying these methods to LLM representations, revealing their limited effectiveness across languages. In this work, we therefore propose to perform debiasing in a joint latent space rather than directly on LLM representations. We construct a well-aligned cross-lingual latent space using an autoencoder trained on parallel TED ...

ID: 2508.17948v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Understanding Subword Compositionality of Large Language Models

2025-08-27

Авторы:

Qiwei Peng, Yekun Chai, Anders Søgaard

## Контекст Понимание способа формирования слов из подстроковых элементов (субвордов) является ключевой проблемой в анализе и генерации текстов с помощью бо LARGE LANGUAGE MODELS (LLM). LLMs обрабатывают последовательности субвордов, комбинируя их в слова. Эта способность является критической для понимания и генерирования значимых текстов. Несмотря на то, что субворды широко используются в машинном обучении, существуют недостатки в понимании того, как LLM объединяют эти элементы в целостные слова. Эта проблема становится все более актуальной в свет растущего интереса к LLM в области текстового понимания, генерации и доступности. В данной работе мы описываем подробный анализ того, как LLM обрабатывают субворды и компонуют их в слова, чтобы понять, что LLM "видят" в словах и как они это делают. ## Метод Мы провели три ключевых эксперимента для изучения способа построения слов из подстроковых элементов в LLM: **структурная схожесть**, **семантическое разделение** и **формообразующие черты**. 1. **Структурная схожесть**: Мы измеряли, насколько похожи сложные субворды (например, "un" + "happy") и их соответствующие целые слова (например, "unhappy") на уровне слоев LLM. 2. **Семантическое разделение**: Мы проверяли, насколько хорошо LLM разделяют семантические компоненты слов (например, производные слова, такие как "run" vs. "runner"). 3. **Формообразующие черты**: Мы исследовали, насколько LLM устойчивы к формальным особенностям, таким как длина символов и графем. Эксперименты проводились на 5 представительных LLM семейств, включая BERT, RoBERTa, GPT-2, T5 и XLM-R, чтобы охватить разнообразие подходов. ## Результаты 1. **Структурная схожесть**: Мы обнаружили три различных тренда в эволюции структурной схожести между субвордами и целыми словами в разных слоях LLM. Например, в некоторых слоях субворды становятся все более похожи на слова, в то время как в других наблюдается обратный эффект. 2. **Семантическое разделение**: Мы выяснили, насколько хорошо LLM выполняют семантическое разделение в разных слоях. Например, в некоторых слоях LLM показывают высокую точность в различении производных слов (например, "run" vs. "runner"), в то время как в других это делается с меньшей точностью. 3. **Формообразующие черты**: Мы обнаружили, что LLM отличаются в устойчивости к формальным особенностям, таким как длина символов и графем. Например, некоторые модели чувствительны к длине символов, в то время как другие — нет. ## Значимость Наши результаты демонстрируют, что LLM могут быть к

Annotation:

Large language models (LLMs) take sequences of subwords as input, requiring them to effective compose subword representations into meaningful word-level representations. In this paper, we present a comprehensive set of experiments to probe how LLMs compose subword information, focusing on three key aspects: structural similarity, semantic decomposability, and form retention. Our analysis of the experiments suggests that these five LLM families can be classified into three distinct groups, likely...

ID: 2508.17953v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Leveraging Large Language Models for Accurate Sign Language Translation in Low-Resource Scenarios

2025-08-27

Авторы:

Luana Bulla, Gabriele Tuccio, Misael Mongiovì, Aldo Gangemi

## Контекст Необходимость создания доступных и инклюзивных технологий для людей с ограниченными возможностями является ключевой задачей в современной информатике. Одним из самых вызовов является перевод естественных языков на жестовые языки. Изучение этой задачи важно для улучшения общения между людьми со сверхурочной интонацией и лицами с ограниченным слухом. Однако существуют существенные проблемы в этой области. Ограниченность доступных данных, высокая специфичность, нестандартизированность и недостаточное представление языка на сигнализацию приводят к проблемам в развитии эффективных методов. Текущие методы часто не могут обеспечить широкое применение, поскольку они слишком ограничены в данных и не могут обеспечить обобщение в сложных и нестандартных ситуациях. Наша мотивация заключается в разработке метода, который может решать эти проблемы, увеличивая доступность и эффективность технологий для перевода естественных языков на жестовые языки. ## Метод Мы предлагаем метод Advanced Use of LLMs for Sign Language Translation (AulSign), который использует технологию бо LLM для обработки естественных языков и перевода на жесты. Метод называется Advanced Use of LLMs for Sign Language Translation (AulSign). Основная особенность метода заключается в том, что мы используем динамическую подсказку (dynamic prompting) и обучение контекстом (in-context learning), чтобы обеспечить эффективную обработку языка и перевод на жесты. Мы объединяем LLM с компактными описаниями жестов в естественной речи и обучаем модель, чтобы она связывала эти описания с соответствующими жестовыми данными. Таким образом, мы используем LLMs как платформу для перевода, хотя они в исходном виде не обладают пониманием жестовых языков. Это позволяет связать естественные языки с жестовыми языками в задачах, где доступны ограниченные данные. ## Результаты Мы проводили эксперименты на двух языках: английском и итальянском. Для оценки нашей модели мы использовали два выборки данных: SignBank+ и LaCAM CNR-ISTC. Эти данные являются стандартизированными и подходят для оценки нашего подхода в обработке жестовых языков. Мы сравнили нашу модель с текущими решениями, включая те, которые используют стандартные методы NMT, предлагаемые для перевода естественных языков. Результаты показали, что наш подход демонстрирует значительные преимущества в условиях с низким количеством данных. Мы получили лучшие результаты по оценке точности перевода и общей эффективности. Это значит, что AulSign может эффективно работать даже в ситуациях, когда другие модели не могут обеспечить достаточную точность. ## Значимость Мы считаем, что наш подход

Annotation:

Translating natural languages into sign languages is a highly complex and underexplored task. Despite growing interest in accessibility and inclusivity, the development of robust translation systems remains hindered by the limited availability of parallel corpora which align natural language with sign language data. Existing methods often struggle to generalize in these data-scarce environments, as the few datasets available are typically domain-specific, lack standardization, or fail to capture...

ID: 2508.18183v1 cs.CL, cs.AI, cs.CY, I.2; I.2.7

arXiv PDF

📄 Why Synthetic Isn't Real Yet: A Diagnostic Framework for Contact Center Dialogue Generation

2025-08-27

Авторы:

Rishikesh Devanathan, Varun Nathan, Ayush Kumar

#### Контекст Область исследования сосредоточена на генерировании синтетических диалогов в контактных центрах, где задачи прикладной естественной языковой обработки связаны с техническими и этическими вызовами. Существующие проблемы включают ограничения в доступе к реальным данным из-за приватности и нехватки данных для эффективной обработки и моделирования. Synthetic dialogue generation помогает адресовать эти вызовы, но требуются более точные методы для оценки качества сгенерированных диалогов. Исследование оправдывает потребность в детальной оценке, поскольку существующие подходы часто не удаляются на практике из-за проблем с неестественностью диалога, разрывом с точки зрения сентимента и недостатками в реалистичности поведения. #### Метод Предлагается методология, основывающаяся на гибкой архитектуре, которая использует комплексные сигналы руководства для генерирования диалогов. Основная техника включает многоэтапное генерирование, где каждый этап адаптируется к конкретным характеристикам диалога в контактных центрах, таким как роль-асимметрия, неструктурированность, и правила соблюдения. Метод также использует новый диагностический фреймворк, который состоит из 18 метрик, охватывающих лингвистические и поведенческие аспекты. Эти метрики позволяют сравнить реальные и синтетические диалоги, выявляя с WEAKNESSES в каждой области. Технологические решения включают в себя несколько моделей языка, таких как GPT-3, а также новые методы стимулирования, чтобы продвинуть границы реалистичности. #### Результаты Исследование проводит эксперименты с четырьмя моделями и вариантами генерирования диалогов, включая простые команды и характеристически-ориентированные подходы. Результаты показывают, что ни один подход не показывает превосходства над другими по всем 18 метрикам. Особое внимание уделяется проблемам, таким как неестественность диалога (disfluency), предсказуемость сентимента и недостаточная реалистичность поведения. Например, модели, которые работают с характеристически-ориентированным подходом, показывают лучший результат в области intent recognition, но страдают от неестественности лексики. Базовые референсы, основанные на некоторых характеристиках, также показывают сильные стороны, но ограничены в области полноты. #### Значимость Предложенный подход имеет широкие применения в областях, где необходимо создание реалистичных диалогов для тестирования моделей и моделирования различных сценариев в контактных центрах. Он помогает выявить с WEAKNESSES в существующих моделях и делает возможным улучш

Annotation:

Synthetic transcript generation is critical in contact center domains, where privacy and data scarcity limit model training and evaluation. Unlike prior synthetic dialogue generation work on open-domain or medical dialogues, contact center conversations are goal-oriented, role-asymmetric, and behaviorally complex, featuring disfluencies, ASR noise, and compliance-driven agent actions. In deployments where transcripts are unavailable, standard pipelines still yield derived call attributes such as...

ID: 2508.18210v1 cs.CL, cs.AI

arXiv PDF

📄 DeepMEL: A Multi-Agent Collaboration Framework for Multimodal Entity Linking

2025-08-26

Авторы:

Fang Wang, Tianwei Yan, Zonghao Yang, Minghao Hu, Jun Zhang, Zhunchen Luo, Xiaoying Bai

## Контекст Multimodal Entity Linking (MEL) — это задача, связанная с семантическим сопоставлением текстовых и визуальных упоминаний с сущностями в многомедийном знании. Она широко применяется в сферах, таких как видеореконструкция, рекомендательные системы и визуальные поисковые системы. Однако существующие методы сталкиваются с проблемами, такими как неполнота контекстной информации, неэффективное совмещение многоканальных данных и сложность интеграции современных больших языковых моделей (LLMs) и визуальных моделей (LVMs). Эти ограничения приводят к низкой точности и недостаточному разрешению сущностей. Мотивация для DeepMEL заключается в развитии более эффективного подхода к решению этих проблем, обеспечивая более точное и быстрое сравнение многоканальных данных. ## Метод DeepMEL представляет собой рамочный подход, основанный на многоагентном системном рассуждении, чтобы решить задачи MEL. Он разделяет задачи на четыре специализированных агента: Modal-Fuser, Candidate-Adapter, Entity-Clozer и Role-Orchestrator. Modal-Fuser объединяет текстовую и визуальную информацию, а Candidate-Adapter динамически выбирает кандидатов для связи. Entity-Clozer разрешает неоднозначность, а Role-Orchestrator гарантирует динамическое взаимодействие между агентами. Эта структура обеспечивает эффективное выравнивание и разрешение модальностей. Метод также включает двойной путь сравнения модальностей, который объединяет текстовые семантические структуры, создаваемые LLMs, и визуальные структуры, извлекаемые LVMs. Это позволяет уменьшить разрыв между модальностями и повысить точность. ## Результаты Проведенные эксперименты на пяти открытых наборах данных показали, что DeepMEL превосходит текущие стандарты по метрике ACC с увеличением от 1% до 57%. Использовались большие наборы данных, такие как Flickr30K, Conceptual Captions и VG-VQA. Детальные анализы показали, что каждый модуль системы вносит свой вклад в улучшение результатов. Адаптивная стратегия итерации, комбинирующая инструментальную оптимизацию и семантическое обобщение, позволяет многоагентной системе устойчиво повышать качество работы. ## Значимость DeepMEL имеет значительное значение в приложениях, таких как видеопоиск, визуальная развлекательная система, интеллектуальные системы рекомендаций и медицинская информатика. Его мощь заключается в уменьшении разрыва модальностей, улучшении точности и эффективности. Эта система может повлиять на развитие систем видеоанализа и контент-ранжирования, предоставив новые возможности для семантического сравнения видео и текстовых данных. ## Выводы DeepMEL достигает состояния лидера в области MEL благодаря использованию многоа

Annotation:

Multimodal Entity Linking (MEL) aims to associate textual and visual mentions with entities in a multimodal knowledge graph. Despite its importance, current methods face challenges such as incomplete contextual information, coarse cross-modal fusion, and the difficulty of jointly large language models (LLMs) and large visual models (LVMs). To address these issues, we propose DeepMEL, a novel framework based on multi-agent collaborative reasoning, which achieves efficient alignment and disambigua...

ID: 2508.15876v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 Evaluating Structured Decoding for Text-to-Table Generation: Evidence from Three Datasets

2025-08-26

Авторы:

Julian Oestreich, Lydia Müller

#### Контекст Текстово-табличная генерация — это важная задача, связанная с преобразованием текстовых данных в табличный формат. Она находит применение в широком спектре областей, от журналистики до анализа данных. Однако существуют ряд проблем, связанных с недостаточной точностью и алгебраической корректностью генерируемых таблиц, которые могут быть вызваны недостаточным учетом структуры при генерации. Текущие подходы, основанные на одношаговой подсказке (one-shot prompting), часто недостаточно эффективны при генерации таблиц с высокой структурной сложностью. Мотивация для данного исследования заключается в изучении возможностей структурированного декодирования (structured decoding) для улучшения качества генерируемых таблиц. #### Метод Проведено систематическое сравнение структурированного декодирования с одношаговым подходом (one-shot prompting) на трех различных бенчмарках: E2E, Rotowire и Livesum. Использовались текстово-предсказательные модели текста до таблицы (text-to-table) на основе LLMs размеров до 32 миллиардов параметров. Задача решалась с применением схем-руководства (schema-guided), при котором в процессе генерации таблицы использовались структурные ограничения. Эксперименты были проведены с использованием метрик, оценивающих точность, валидность и алгебраическую корректность результатов на уровне ячеек, строк и таблиц. Общее количество экспериментов составило 72, что дало возможность получить подробную аналитику взаимосвязи между подходами и характеристиками данных. #### Результаты Результаты экспериментов показали, что структурированное декодирование повышает качество генерируемых таблиц в Rotowire, где требуется высокий уровень точности в алгебраических вычислениях. В случае E2E, где требуется преобразовывать текст в короткие таблицы, структурированное декодирование показало меньшую эффективность из-за ограничений в использовании большого количества текстовой информации. В Livesum, где требуется агрегирование информации из длинных текстов, структурированное декодирование также не дало значительных преимуществ, поскольку оно не способно эффективно обрабатывать огромные объемы текста. Оценка метрик показала, что хотя структурированное декодирование повышает точность в Rotowire, оно может привести к ухудшению качества в других случаях. #### Значимость Этот подход может быть применен в текстово-табличной генерации для различных сценариев, включая новостной анализ, создание отчетов и анализ текстов в реальном времени. Он обладает преимуществами в ситуациях, когда необходима высокая точность и ст

Annotation:

We present a comprehensive evaluation of structured decoding for text-to-table generation with large language models (LLMs). While previous work has primarily focused on unconstrained generation of tables, the impact of enforcing structural constraints during generation remains underexplored. We systematically compare schema-guided (structured) decoding to standard one-shot prompting across three diverse benchmarks - E2E, Rotowire, and Livesum - using open-source LLMs of up to 32B parameters, as...

ID: 2508.15910v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 OpenWHO: A Document-Level Parallel Corpus for Health Translation in Low-Resource Languages

2025-08-26

Авторы:

Raphaël Merx, Hanna Suominen, Trevor Cohn, Ekaterina Vylomova

## Контекст Трансляция в сфере здравоохранения является важной, но высокорискованной областью трансляции, характеризующейся распространенным использованием и уникальным лексиконом. Несмотря на это, недостаточно ресурсов в виде высококачественных данных для обучения машинного перевода в этой области, особенно для низкоресурсных языков. Это ограничивает развитие эффективных систем трансляции в здравоохранении. Отсутствие эффективных тестовых наборов данных для оценки качества перевода в этой сфере существенно мешает развитию технологий. Мы предлагаем OpenWHO, новый документ-уровневый параллельный корпус, содержащий материалы с платформы электронного обучения Международной организации здравоохранения. Этот корпус включает 2,978 документов и 26,824 предложений на 20+ языках, включая 9 низкоресурсных. Наша мотивация заключается в том, чтобы сделать данные доступными для улучшения качества трансляции в здравоохранении для низкоресурсных языков. ## Метод Мы создали OpenWHO как документ-уровневый параллельный корпус, сформированный из материалов с платформы WHO. Эти материалы были написаны экспертами и профессионально переведены, что обеспечивает высокое качество исходных данных. Мы оценили качество перевода с помощью традиционных MT-систем, а также современных ло LLM-систем, включая Gemini 2.5 Flash. Используя различные тестовые наборы, мы изучили, как системы LLM используют контекст уровня документа для улучшения точности перевода. Мы также изучили, как технологии LLM работают в сфере здравоохранения и по каким причинам они могут быть эффективными. ## Результаты Мы провели эксперименты сравнивая традиционные MT-системы с моделями LLM на нашем новом корпусе. Наши результаты показали, что современные модели LLM показывают значительные преимущества в сфере здравоохранения. Например, Gemini 2.5 Flash показал +4.79 ChrF-пунктов улучшение по сравнению с NLLB-54B на низкоресурсных языках. Мы также проанализировали, как различные модели LLM используют контекст в документах для улучшения точности перевода. Результаты показали, что контекст документа значительно повышает точность, особенно в сфере здравоохранения. Это объясняется тем, что в этой области часто используются термины и концепции, которые требуют глубокого понимания контекста. ## Значимость Наш корпус и результаты экспериментов могут быть применимы в различных областях, которые требуют высокой точности в трансляции. Особенно важно это для низкоресурсных языков, где качество перевода часто оставляет желать лучшего. Мы показали, что LLM

Annotation:

In machine translation (MT), health is a high-stakes domain characterised by widespread deployment and domain-specific vocabulary. However, there is a lack of MT evaluation datasets for low-resource languages in this domain. To address this gap, we introduce OpenWHO, a document-level parallel corpus of 2,978 documents and 26,824 sentences from the World Health Organization's e-learning platform. Sourced from expert-authored, professionally translated materials shielded from web-crawling, OpenWHO...

ID: 2508.16048v1 cs.CL, cs.AI

arXiv PDF

📄 CYCLE-INSTRUCT: Fully Seed-Free Instruction Tuning via Dual Self-Training and Cycle Consistency

2025-08-26

Авторы:

Zhanming Shen, Hao Chen, Yulei Tang, Shaolin Zhu, Wentao Ye, Xiaomeng Hu, Haobo Wang, Gang Chen, Junbo Zhao

## Контекст Инструкционный tuning — это ключевая задача для адаптации бо LLM к потребностям пользователей, но она часто ограничивается сильной зависимостью от больших выборок с маркировкой (seed data) или сильно налаженных внешних моделей. Эти зависимости не только ограничивают саму процедуру, но и формируют риск внедрения биаса. Недостатки существующих подходов, включая использование back-translation, становятся очевидными в связи с их несовершенством в эффективном использовании немаркированных данных. Целью CYCLE-INSTRUCT является устранение этих проблем, предлагая seed-free подход, который позволяет извлекать значимость из немаркированных данных без привлечения дополнительных источников. ## Метод CYCLE-INSTRUCT предлагает двухуровневый самостоятельный тренировочный подход, основанный на циклической консистенции. Используется два модели — **answer generator** и **question generator**, которые обучаются друг с другом в объеме немаркированных данных. Они обмениваются сгенерированными псевдо-метками, которые затем используются для дополнительного тренирования. Этот процесс демонстрирует эффективность в обучении самостоятельно, не зависящем от какой-либо формальной маркировки. Архитектура строится на создании параллельных моделей, решающих взаимно похожие задачи, в которых каждая модель использует входные данные другой модели как псевдо-текст для обучения. ## Результаты Эксперименты проводились на данных с различной спецификой: универсальные инструкции, доменные задачи, диалоги и простые тексты. Замеры показали, что CYCLE-INSTRUCT не только превосходит традиционные seed-driven методы, но и достигает показателей, схожих с методами, использующими сильную супервизию. Измерения включали F1-меру, BLEU-скоры, accuracy, а также общую качественную оценку поведения модели в задачах генерации и анализа. ## Значимость CYCLE-INSTRUCT может использоваться в различных областях, включая NLP, n-shot инструкционное обучение, моделирование диалога и автоматизацию процессов обработки текстов. Его особенно успешно применять там, где отсутствуют доступные выборки маркировки, но есть большие исходные тексты. Это не только позволяет значительно сократить накладные расходы на тренировку, но и демонстрирует высокую эффективность самообучения, которая приводит к независимости от сторонних моделей или данных. ## Выводы CYCLE-INSTRUCT представляет собой новую модель, которая достигает полного seed-free tuning с помощью двухуровневого self-training. Он успешно показывает, что модели могут быть эффективно обучены только на базе немаркированных данных, избегая рисков внедрения биаса. Будущие исследования будут нацелены на улучшение точности модели и добав

Annotation:

Instruction tuning is vital for aligning large language models (LLMs) with human intent, but current methods typically rely on costly human-annotated seed data or powerful external teacher models. While instruction back-translation techniques reduce this dependency, they remain fundamentally tethered to an initial seed set, which limits full automation, introduces biases, and can lead to inefficient use of unlabeled corpora. In this paper, we propose Cycle-Instruct, a novel framework that achiev...

ID: 2508.16100v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 MCPVerse: An Expansive, Real-World Benchmark for Agentic Tool Use

2025-08-26

Авторы:

Fei Lei, Yibo Yang, Wenxiu Sun, Dahua Lin

## Контекст Машинные рассуждения и использование инструментов — ключевые навыки для современных текстовых генераторов и логических систем. Однако существующие бенчмарки, ограниченные синтетическими простыми инструментами и жесткими ограничениями действий, не позволяют эффективно оценить эти навыки. Это влечет за собой недостаточную отражательность реальных средств и сценариев использования. Наша мотивация заключается в создании более широкого, реального бенчмарка, который позволит более точно оценивать и улучшать навыки агентного использования инструментов. ## Метод Мы предлагаем **MCPVerse** — бенчмарк, основанный на реальных инструментах и их реальном применении. Он включает более 550 инструментов, активных в различных сферах (от кулинарии до технических задач). Бенчмарк использует выделение действий в точку отклика, используя реальное время и корректные результаты для оценки. Архитектура бенчмарка представляет собой сложную иерархию элементов, позволяющую выполнять широкие действия, от сложности выбора рецепта до трехмерной моделирования. ## Результаты Мы оценивали несколько агентных моделей, включая Claude-4-Sonnet и GPT-4, в разных режимах (Oracle, Standard, Max-Scale). Эксперименты показали, что значительное количество моделей представляет собой недостаточно выразительные решения, теряя эффективность при увеличении количества инструментов. Однако модели, основанные на агентном подходе, такие как Claude-4-Sonnet, лучше успешно использовали широкий диапазон инструментов, чтобы повысить точность. ## Значимость МCPVerse может использоваться в различных областях, включая разработку новых моделей жизнеспособных систем и систем логического мышления. Он демонстрирует возможность улучшения моделей, позволяя их работать в более широких, реальных сценариях. Преимущества включают более точное и реалистичное тестирование, а также улучшение возможностей для пользовательских систем, вовлеченных в решение сложных задач. ## Выводы МCPVerse является бенчмарком, который может существенно повлиять на область агентного использования инструментов. Это важно для развития моделей, которые могут эффективно работать в реальных условиях. Его развитие и применение могут привести к новым моделям, которые не только повысят точность, но и улучшат возможности для решения сложных, реальных задач.

Annotation:

Large Language Models (LLMs) are evolving from text generators into reasoning agents. This transition makes their ability to use external tools a critical capability. However, evaluating this skill presents a significant challenge. Existing benchmarks are often limited by their reliance on synthetic tools and severely constrained action spaces. To address these limitations, we introduce MCPVerse, an expansive, real-world benchmark for evaluating agentic tool use. MCPVerse integrates more than 55...

ID: 2508.16260v1 cs.CL, cs.AI

arXiv PDF

1
2
173
174
175
176
177
204
205

Показано 1741 - 1750 из 2042 записей