📚 Саммари научных статей из arXiv

Найдено 2042 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 LongRecall: A Structured Approach for Robust Recall Evaluation in Long-Form Text

2025-08-23

Авторы:

MohamamdJavad Ardestani, Ehsan Kamalloo, Davood Rafiei

#### Контекст Оценка заполненности (recall) в машинно-генерируемом тексте является ключевым аспектом в областях, таких как медицина, право и списочная оценка вопросов (list-based question answering, QA). Ошибки в заполненности могут привести к серьезным последствиям. Существующие метрики заполненности часто основываются на лексическом совпадении, что приводит к ошибкам при работе с неподтвержденными сущностями и парафразированными ответами. Методы LLM-as-a-Judge, основанные на широком контексте, могут повысить покрытие семантических отношений, но остаются подверженными ошибкам, таким как халлуцинации и неподтвержденные заявления. Наша мотивация заключается в разработке глобального подхода, который обеспечит точную и структурированную оценку заполненности в долгих форматах текста. #### Метод Мы предлагаем LongRecall, который представляет собой структурированный трехступенчатый подход к оценке заполненности. В первой стадии ответ разбивается на самодостаточные факты, второй стадии подвергаются лексическому и семантическому фильтрации, чтобы ограничить круг возможных совпадений. На третьей стадии применяется структурированная проверка вывода для подтверждения аллергенности ответов. Этот подход уменьшает число ложноположительных и ложноотрицательных результатов, а также учитывает различные фразирования и контекстные изменения. Мы использовали данные из трех сложных бенчмарков QA для оценки нашего подхода, включая людские аннотации и методы LLM-as-a-Judge. #### Результаты Наши эксперименты показали, что LongRecall улучшает точность оценки заполненности по сравнению с лексическими методами и LLM-as-a-Judge. Мы измерили статистически значимые повышения в достижении точных результатов, особенно при работе с парафразированными ответами и неподтвержденными сущностями. Данные результаты демонстрируют высокую точность и разрешительность нашего подхода в области оценки заполненности в долгих формах текста. #### Значимость Наш подход может применяться в различных задачах, таких как медицинская экспертиза, юридическая практика и сложные списковые задачи QA. Он обеспечивает точную оценку заполненности, уменьшает ошибки и позволяет работать с различными формами выражения ответов. Это делает LongRecall основополагающим элементом для систематической оценки заполненности в различных областях приложений. #### Выводы Мы представили LongRecall — новую структурированную методику для оценки заполненности в долгих формах текста. Наши результаты показали, что LongRecall превосходит существующие методы в точности и широком покрытии ответов. Будущие исследования будут направлены на усовер

Annotation:

LongRecall. The completeness of machine-generated text, ensuring that it captures all relevant information, is crucial in domains such as medicine and law and in tasks like list-based question answering (QA), where omissions can have serious consequences. However, existing recall metrics often depend on lexical overlap, leading to errors with unsubstantiated entities and paraphrased answers, while LLM-as-a-Judge methods with long holistic prompts capture broader semantics but remain prone to mis...

ID: 2508.15085v1 cs.CL, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 Mapping the Course for Prompt-based Structured Prediction

2025-08-23

Авторы:

Matt Pauk, Maria Leonor Pacheco

## Контекст Структурное предсказание, или structured prediction, является кллючевым вопросом в области обработки естественного языка, так как задачи такого типа часто включают в себя не только точное предсказание отдельных элементов, но и сохранение структурной консистенции. Традиционные методы, такие как скрытые Марковские модели (HMMs), регулярные выражения или CRFs, были применялись для этих задач, однако обучение этих моделей требует обширной ручной работы и является непосредственным в том смысле, что они оптимизируются непосредственно для конкретной задачи. В последнее время, генерируемые модели языка (LLMs), такие как GPT-3 и схожие, демонстрируют выдающиеся результаты в различных задачах естественного языка без непосредственного обучения для конкретной задачи. Однако эти модели могут столкнуться с проблемами, такими как выдача неверных сведений (hallucinations), проблемы с выводом и недостаточная структурная консистенция. Мы предлагаем комбинацию генерируемых моделей языка с подходами в области комбинаторного вывода для создания решений, которые могут объединить высокую точность LLMs с структурной консистенцией, полученной в результате инференции. Это может быть полезно для задач, таких как генерация графов, решение логических задач и другие задачи, где качество решений зависит от их структурной корректности. ## Метод Мы предлагаем комбинацию традиционных методов комбинаторного вывода с генерируемыми моделями языка. Модель языка (LLM) предсказывает отдельные входы, а затем инференцийный ход используется для модификации этих предсказаний таким образом, чтобы они соответствовали структурным ограничениям задачи. Мы используем различные стратегии для подготовки запросов к модели языка (prompting strategies), включая динамическое формирование запросов и статические шаблоны. Для каждого предсказания, сделанного моделью языка, мы вычисляем доверительные показатели с помощью различных стратегий (например, максимальная вероятность, медиана, и т.д.) и используем их в качестве входных данных в комбинаторный вывод. Мы проводим эксперименты с различными данными (такими как задачи семантического разбора и генерации графов), чтобы определить, какие стратегии подготовки запроса и стратегии вывода дают наилучшие результаты. ## Результаты Мы проводили эксперименты на нескольких задачах, включая генерацию графов и семантический разбор. Для подготовки запроса к модели языка, мы протестировали как динамические, так и статические стратегии. Мы показали, что любая подготовка запроса, сочетающаяся с инференцией, приводит к улучшению точности и структурной

Annotation:

LLMs have been shown to be useful for a variety of language tasks, without requiring task-specific fine-tuning. However, these models often struggle with hallucinations and complex reasoning problems due to their autoregressive nature. We propose to address some of these issues, specifically in the area of structured prediction, by combining LLMs with combinatorial inference in an attempt to marry the predictive power of LLMs with the structural consistency provided by inference methods. We perf...

ID: 2508.15090v1 cs.CL, cs.AI

arXiv PDF

📄 Nemotron-CC-Math: A 133 Billion-Token-Scale High Quality Math Pretraining Dataset

2025-08-23

Авторы:

Rabeeh Karimi Mahabadi, Sanjeev Satheesh, Shrimai Prabhumoye, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro

## Контекст Одним из наиболее затруднительных и интересных областей исследований в машинном обучении является построение моделей с высокими резольюциями, которые могут обрабатывать сложные логические задачи, включая математический анализ и программирование. Для этого необходимо обучать модели на больших, высококачественных данных, которые могут поддерживать и улучшать разумные решения. Несмотря на то, что существуют многочисленные наборы данных для математического моделирования, они часто страдают от несогласованности, потери структуры и ошибок в форматировании. Это приводит к ограниченному улучшению моделей в области проблем с логическими и математическими елементами. ## Метод Методология, предложенная в работе, заключается в создании новой многошаговой архитектуры для построения высококачественных корпусов данных, ориентированных на математические задачи. На начальном этапе используется пайплайн, основанный на различных инструментах для визуального распознавания математических формул и кода. Это позволяет извлекать математические формулы и код из различных форматов, включая MathJax, KaTeX и MathML. Затем применяется целевой LLM-based cleaning stage для удаления ненужных элементов, стандартизации форматирования на LaTeX и исправления неточностей. Это позволяет сохранить структурную целостность данных и улучшить их качество. ## Результаты В результате применения предложенной методологии был получен большой, высококачественный математический корпус Nemotron-CC-Math-3+, содержащий 133 миллиардов токенов, и Nemotron-CC-Math-4+, содержащий 52 миллиардов токенов. Эти данные были использованы для обучения моделей типа Nemotron-T 8B, которые показали результаты, значительно превосходящие существующие базы данных, такие как MegaMath, FineMath и OpenWebMath. Этот подход привел к +4.8 до +12.6 улучшений на математических задачах и до +14.3 на задачах по программированию. ## Значимость Предложенный подход имеет широкие области применения в машинном обучении, обработке текстов, моделировании математических задач и кодировании. Преимущество заключается в улучшении качества моделей, благодаря достижению более высокого уровня точности и стабильности в обработке математических задач. Это может привести к новым возможностям в области автоматизации проблемно-ориентированных задач, включая распознавание и решение математических задач в реальном времени. ## Выводы Результаты работы указывают на будущие направления исследований в повышении качества математических данных для обучения моделей. Модели, обученные на таких высококачественных данных, могут продемонстрировать значительный прогресс в выполнении логических и математических за

Annotation:

Pretraining large language models (LLMs) on high-quality, structured data such as mathematics and code substantially enhances reasoning capabilities. However, existing math-focused datasets built from Common Crawl suffer from degraded quality due to brittle extraction heuristics, lossy HTML-to-text conversion, and the failure to reliably preserve mathematical structure. In this work, we introduce Nemotron-CC-Math, a large-scale, high-quality mathematical corpus constructed from Common Crawl usin...

ID: 2508.15096v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 SemToken: Semantic-Aware Tokenization for Efficient Long-Context Language Modeling

2025-08-23

Авторы:

Dong Liu, Yanxuan Yu

#### Контекст В современной области языковых моделей становится все важнее эффективное обработка длинных контекстов. Одна из ключевых сложностей заключается в том, что существующие методы токенизации, такие как Byte-Pair Encoding (BPE) и WordPiece, оперируют только статистическими признаками частот слов и фрагментов, не учитывая их семантическую структуру. Это приводит к перераспределению между потребностями в точности и эффективности вычислений. Например, в регионах текста с высокой контекстуальной нагрузкой происходит частое разбиение на мелкие токены, что приводит к избыточности. А в областях с низкой информативностью, например, в повторяющихся фрагментах, нет достаточного разбиения, что приводит к увеличению неэффективности вычислений. Таким образом, данный мотивационный факт показывает, что необходимо разработать более гибкий и семантически ориентированный подход к токенизации. #### Метод Для решения этих проблем предлагается **SemToken** — фреймворк, который использует семантические эмбеддинги для оптимизации токенизации. Метод работает следующим образом: сначала используются легковесные семантические кодировщики для получения эмбеддингов для каждого токена. Затем происходит локальная кластеризация, которая объединяет токены с семантически похожей семантикой. На последнем этапе в зависимости от семантической плотности текста задается гранулярность токенизации — токены в богатых семантическим контекстом получают более точное разбиение, в то время как в повторяющихся фрагментах — компрессия. Этот подход позволяет повысить эффективность вычислений, сохранив точность модели. #### Результаты Проведенные эксперименты показали, что **SemToken** эффективно работает в сценариях длинных контекстов. На данных WikiText-103 и LongBench был получен до 2.4-кратный снижение количества токенов, что привело к увеличению скорости работы модели на 1.9 раз. Была проведена сравнительная оценка с BPE и WordPiece, и данные результаты показали, что **SemToken** не только экономит вычислительные ресурсы, но и сохраняет высокую точность в задачах языковой моделирования. Эти результаты подтверждают, что семантическое разбиение текста может быть эффективно использовано для оптимизации моделей языка. #### Значимость **SemToken** может быть применен в различных сценариях, где требуется эффективное обработка длинных текстов, такие как трансляторы, синтезаторы речи и другие модели языка, которые используют длинные контексты. Он позволяет экономить вычислительные ресурсы, не ухудшая качество модели. Благодаря этому, модели могут быть развернуты на устройствах с ограниченным вычислительным мощностью. Например, **SemToken** мож

Annotation:

Tokenization plays a critical role in language modeling, yet existing approaches such as Byte-Pair Encoding (BPE) or WordPiece operate purely on frequency statistics, ignoring the underlying semantic structure of text. This leads to over-tokenization of semantically redundant spans and underutilization of contextual coherence, particularly in long-context scenarios. In this work, we propose \textbf{SemToken}, a semantic-aware tokenization framework that jointly reduces token redundancy and impro...

ID: 2508.15190v1 cs.CL, cs.AI

arXiv PDF

📄 SparK: Query-Aware Unstructured Sparsity with Recoverable KV Cache Channel Pruning

2025-08-23

Авторы:

Huanxuan Liao, Yixing Xu, Shizhu He, Guanchen Li, Xuanwu Yin, Dong Li, Emad Barsoum, Jun Zhao, Kang Liu

#### Контекст Современные боLты на основе текста сталкиваются с значительными проблемами в обработке длинных контекстов. Это связано с тем, что хранилище ключ-значение (KV cache) растет линейно с увеличением длины последовательностей, в то время как вычисление внимания происходит квадратично. Это приводит к значительным ограничениям в памяти и вычислительной сложности. Одним из главных подходов является сжатие KV-хранилища по временной оси с помощью таких методов, как удаление токенов, объединение каналов или мерджинг. Однако эти методы часто не учитывают тонкости важности каналов (например, на строковой оси), что ограничивает их эффективность. Наша мотивация заключается в разработке метода, который бы учитывал важность каналов в зависимости от контекста, чтобы эффективно уменьшить вычислительные затраты. #### Метод Мы предлагаем SparK, совершенно новый метод, который уменьшает нагрузку на KV-хранилище при обработке ввода, используя спарсинг по каналам. SparK применяет неструктурированную спарсингу на уровне каналов, что означает, что он удаляет некоторые каналы, но восстанавливает их при вычислении скорости внимания. Этот подход позволяет сохранить модельную точность, даже если большая часть каналов будет удалена. Метод не требует обучения и является взаимозаменяемым с другими методами сжатия KV-хранилища. #### Результаты Мы провели эксперименты на различных датасетах, включая LongBench, Long-Range Arena и другие. Проанализировали поведение SparK в сценариях с длинными контекстами и по сравнению с другими методами сжатия KV-хранилища. Наши результаты показали, что SparK уменьшает расход памяти на более чем 30% по сравнению с удалением токенов, при этом сохраняя почти те же результаты точности. Кроме того, даже при сжатии на 80%, SparK сохраняет модельную точность близкую к базовому методу с восстановлением токенов. Эти результаты демонстрируют высокую эффективность SparK в уменьшении нагрузки на KV-хранилище. #### Значимость SparK широко может быть применен в области обработки естественного языка, где требуется обработка длинных контекстов. Этот метод имеет преимущества перед существующими подходами, так как он уменьшает нагрузку на память, не требуя дополнительного обучения. Также SparK может быть интегрирован с другими методами сжатия KV-хранилища для дополнительного увеличения производительности. Это открывает новые возможности для работы с большими моделями и длинными контекстами. #### Выводы Мы представили метод SparK, который предлагает новый подход к сжатию KV-хранилища при обработке длинных контекстов. Метод SparK демонстрирует высокую эффективно

Annotation:

Long-context inference in large language models (LLMs) is increasingly constrained by the KV cache bottleneck: memory usage grows linearly with sequence length, while attention computation scales quadratically. Existing approaches address this issue by compressing the KV cache along the temporal axis through strategies such as token eviction or merging to reduce memory and computational overhead. However, these methods often neglect fine-grained importance variations across feature dimensions (i...

ID: 2508.15212v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 VocabTailor: Dynamic Vocabulary Selection for Downstream Tasks in Small Language Models

2025-08-23

Авторы:

Hanling Zhang, Yayu Zhou, Tongcheng Fang, Zhihang Yuan, Guohao Dai, Yu Wang

## Контекст Small Language Models (SLMs) предлагают существенные выгоды в плане вычислительной эффективности для ресурсно-ограниченных сред, таких как edge devices. Однако они сталкиваются с значительным ограничением — ограниченным объемом памяти. Это ограничение особенно актуально для компонентов, связанных с семантическим представлением языка, таких как входные тензоры (embeddings) и модели языка (LM heads). Эти компоненты требуют большого объема памяти из-за великого размера словаря. Однако статическая оптимизация, например, pruning, часто приводит к утере информации и неэффективности в условиях реальных задач. В статье предлагается новый подход к динамическому управлению словарем, который адаптируется к конкретным задачам и устраняет недостатки статических методов. ## Метод Работа предлагает VocabTailor — новую систему динамического управления словарем, основывающуюся на двух ключевых принципах. Во-первых, **lexical locality principle**, подчеркивающий, что только малая часть словаря используется в каждом отдельном запросе. Во-вторых, **asymmetry in computational characteristics**, отражающий разные уровни сложности вычислений для разных частей словаря. VocabTailor предлагает декоупленную архитектуру, включающую: 1. **Dynamic Embedding Offloading**: возможность загружать в память только те части входных тензоров, которые требуются для конкретной задачи. 2. **Hybrid Static-Dynamic Vocabulary Selection**: стратегия, которая загружает только те части словаря, необходимые для конкретной задачи, во время выполнения. Эта система разработана с учетом того, чтобы обеспечить эффективность в ресурсно-ограниченных условиях, не ущемляя точность модели. ## Результаты Проведены ряд экспериментов для оценки эффективности VocabTailor на различных задачах, включая текстовый классификатор, трансформацию текста и генерацию текста. Использовались стандартные данные, такие как GLUE benchmark и собственные наборы данных для реальных приложений. Результаты показали, что VocabTailor достигает снижения потребления памяти в 99% для входных тензоров и в значительной степени для словарей LM Head, при этом сохраняя высокую точность модели. Был проведен анализ того, как динамическая система словарей позволяет уменьшить время исполнения и потребление памяти без значительного снижения качества решения задачи. ## Значимость VocabTailor внедряет новый подход к динамическому управлению ресурсами в моделях языка, который может быть применен в различных областях: 1. **Edge Devices**: обеспечение эффективности ресурсов для мобильных приложений и IoT-устройств. 2. **Resource-Constrained Environments**: перенос моделей языка на серверы с ограниченным объемом памяти. 3. **Flexibility and Adaptability**: разработка моделе

Annotation:

Small Language Models (SLMs) provide computational advantages in resource-constrained environments, yet memory limitations remain a critical bottleneck for edge device deployment. A substantial portion of SLMs' memory footprint stems from vocabulary-related components, particularly embeddings and language modeling (LM) heads, due to large vocabulary sizes. Existing static vocabulary pruning, while reducing memory usage, suffers from rigid, one-size-fits-all designs that cause information loss fr...

ID: 2508.15229v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Conflict-Aware Soft Prompting for Retrieval-Augmented Generation

2025-08-23

Авторы:

Eunseong Choi, June Park, Hyeri Lee, Jongwuk Lee

## Контекст Retrieval-augmented generation (RAG) является важной компонентой современных моделей естественного языка. Она улучшает возможности бо LARGE LANGUAGE MODELS (LLM), интегрируя внешнюю знания в их входные запросы. Однако, RAG может столкнуться с конфликтом между внешней контекстной информацией и внутренними параметрами модели. Этот конфликт, известный как context-memory conflict, возникает когда внешний контекст, полученный из внешних источников, противоречит существующим внутренним параметрам модели. Эта проблема снижает точность и надежность RAG-систем. Мотивация для данного исследования лежит в области уменьшения таких конфликтов и повышения надежности RAG-систем, что является ключевым для применения моделей в реальных сценариях. ## Метод Для решения проблемы context-memory conflict предлагается Conflict-Aware REtrieval-Augmented Generation (CARE), которая состоит из двух основных компонентов: context assessor и base LLM. Context assessor отвечает за извлечение и обработку контекстных токенов, а также для оценки надежности внешнего контекста. Он использует методы grounded/adversarial soft prompting, которые позволяют выделить сигналы, направляющие модель к более надежным источникам. Эта архитектура позволяет CARE эффективно устранять конфликт между внешним контекстом и внутренними параметрами LLM. Такой подход гарантирует точность и надежность модели в работе с противоречивыми данными. ## Результаты Результаты экспериментов показывают, что CARE эффективно решает проблему context-memory conflict. Она была протестирована на нескольких бенчмарках, включая задачи типа question answering (QA) и fact-checking. Эксперименты показали средний прирост точности на 5.0% по сравнению с базовыми RAG-системами. Этот результат указывает на то, что CARE может эффективно устранять конфликты внешнего контекста и внутренних параметров, улучшая надежность и точность RAG-систем. Это делает CARE применимой в реальных сценариях, где точность и надежность критичны. ## Значимость CARE может быть применена в различных областях, где необходима надежная и точная RAG-система. Ее возможность решать конфликты внешнего контекста и внутренних параметров делает ее идеальной для применения в сферах, где верная информация критична, таких как системы поддержки решений, медицинские модели и юридические системы. Благодаря своей возможности обеспечивать более надежные и точные ответы, CARE может существенно повысить доверие к RAG-системам и улучшить их применимость в реальных сценариях. ## Выводы В результате исследования был предложен Conflict-Aware REtrieval-Augmented Generation (CARE), которая эффективно решает проблему context-memory conflict в RAG-системах. CARE показала существенный прирост точности в задачах QA и fact-checking, устанавливая новый высокий стандарт для надежности и точности RAG-систем. Б

Annotation:

Retrieval-augmented generation (RAG) enhances the capabilities of large language models (LLMs) by incorporating external knowledge into their input prompts. However, when the retrieved context contradicts the LLM's parametric knowledge, it often fails to resolve the conflict between incorrect external context and correct parametric knowledge, known as context-memory conflict. To tackle this problem, we introduce Conflict-Aware REtrieval-Augmented Generation (CARE), consisting of a context assess...

ID: 2508.15253v1 cs.CL, cs.AI

arXiv PDF

📄 Unveiling Trust in Multimodal Large Language Models: Evaluation, Analysis, and Mitigation

2025-08-23

Авторы:

Yichi Zhang, Yao Huang, Yifan Wang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu

#### Контекст Появление Multimodal Large Language Models (MLLMs) стало революционным шагом в области машинного обучения. Они обладают возможностью обрабатывать и генерировать текст, изображения, звук и другие типы данных, что делает их широко применяемыми в различных сферах, от здравоохранения до робототехники. Однако, несмотря на их мощные возможности, остается актуальным вопрос о доверии к таким моделям. Этот вопрос становится еще более важным в контексте их многомодальности, которая может привести к новым рискам, таким как мошенничество, распространение зла и дискриминация. Отсутствие развернутых методов оценки и устранения этих проблем приводит к необходимости разработки новых подходов для гарантии доверия к таким моделям. #### Метод "MultiTrust-X" — это комплексный бенчмарк, предназначенный для оценки, анализа и устранения проблем доверия к MLLMs. Он определяет трехмерную картину доверия, включающую такие аспекты, как достоверность, устойчивость, безопасность, справедливость и конфиденциальность. Бенчмарк также включает в себя два новых риска: мультимодальные и кросс-модальные. Он предлагает широкий спектр методов устранения, касающихся данных, архитектур моделей, их обучения и интерпретации. Базируясь на этой карте, MultiTrust-X содержит 32 задачи и 28 датасетов, обеспечивая широкий спектр экспериментов с 30 различными моделями, включая как открытые, так и закрытые решения. #### Результаты Эксперименты показали, что MLLMs часто имеют значительные проблемы с доверием, включая риск при комбинации текста и других модальностей, и несоответствие между общими техническими возможностями и доверием. Например, модели, хорошо справляющиеся с текстовыми задачами, могут сломаться при обработке изображений или звука. Были выявлены риски, связанные с мультимодальностью, такие как распространение зла и дискриминация. Также были проанализированы влияние различных методов устранения на модели, включая добавление новых данных, изменение архитектуры и модификацию тренировочных алгоритмов. Однако многие методы не смогли эффективно решить все проблемы одновременно, а иногда даже приводили к новым ошибкам. #### Значимость "MultiTrust-X" может быть применен в разных сферах, где доверие к моделям критически важно, таких как здравоохранение, финансы, юриспруденция и робототехника. Он предоставляет возможность проводить глубокий анализ рисков и использовать новые методы для их устранения. Таким образом, он не только повышает ценность MLLMs, но и способствует безопасному и справедливому применению таких технологий в реа

Annotation:

The trustworthiness of Multimodal Large Language Models (MLLMs) remains an intense concern despite the significant progress in their capabilities. Existing evaluation and mitigation approaches often focus on narrow aspects and overlook risks introduced by the multimodality. To tackle these challenges, we propose MultiTrust-X, a comprehensive benchmark for evaluating, analyzing, and mitigating the trustworthiness issues of MLLMs. We define a three-dimensional framework, encompassing five trustwor...

ID: 2508.15370v1 cs.CL, cs.AI

arXiv PDF

📄 When Audio and Text Disagree: Revealing Text Bias in Large Audio-Language Models

2025-08-23

Авторы:

Cheng Wang, Gelei Deng, Xianglin Yang, Han Qiu, Tianwei Zhang

## Контекст Современные Large Audio-Language Models (LALMs) обладают уникальными способностями обработки и понимания мультимодальных данных, включающих звуковые и текстовые потоки. Однако возникают трудности при обработке конфликтующих сведений, когда звуковые и текстовые модели вводят противоречивые данные. Этот аспект остается практически неизученным, что является основной мотивацией для данного исследования. Проблема становится критично важной в связи с широким применением таких моделей в реальном мире, где точность и достоверность решений крайне важны. Недостаток исследований по этому вопросу наводит на мысль о необходимости разработки специализированных методов для оценки и устранения таких проблем в LALMs. ## Метод Для изучения проблемы использована собственная методология, основанная на создании нового бенчмарка под названием MCR-BENCH. Этот бенчмарк предназначен для оценки поведения LALMs в ситуациях, когда звуковые и текстовые модели приводят к несоответствию. Метод включал разработку специально выбранных задач, которые искусственно вводили конфликтующие ситуации для точной оценки моделей. Использование этой методики позволило выявить ошибки и разглядеть тенденцию LALMs к предпочтению текста в решении конфликтов. Такой подход дал возможность обосновать необходимость разработки более равновесных методов обработки мультимодальных данных. ## Результаты В результате подробных экспериментов было получено значительное количество сведений о тенденциях LALMs к предпочтению текста в случаях конфликтующих данных. Эксперименты проводились на различных задачах аудио-понимания, включая классификацию, оценку эмоций и распознавание слов. Оказалось, что LALMs часто отбрасывают звуковую информацию при наличии противоречий, что приводит к существенной потере точности в задачах, ориентированных на аудио. Выявлена тенденция к переобучению моделей, которая демонстрируется их чрезмерной уверенностью в правильности ответов даже при внедрении существенных противоречий. ## Значимость Полученные результаты имеют широкое применение в областях, где требуется достоверность решений, таких как распознавание речи, транскрипция и анализ аудио. Изученные проблемы имеют прямое отношение к улучшению надежности LALMs в реальных условиях. Данные исследования могут способствовать развитию моделей, которые более точно балансируют вклад каждой модели в мультимодальных задачах. Эти находки также могут открыть новые пути для развития технологий, которые будут эффективостьно обрабатывать несогласованности в звуковых и текстовых данных. ## Выводы Полу

Annotation:

Large Audio-Language Models (LALMs) are enhanced with audio perception capabilities, enabling them to effectively process and understand multimodal inputs that combine audio and text. However, their performance in handling conflicting information between audio and text modalities remains largely unexamined. This paper introduces MCR-BENCH, the first comprehensive benchmark specifically designed to evaluate how LALMs prioritize information when presented with inconsistent audio-text pairs. Throug...

ID: 2508.15407v1 cs.CL, cs.AI

arXiv PDF

📄 LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model

2025-08-23

Авторы:

Yirong Sun, Yizhong Geng, Peidong Wei, Yanjun Chen, Jinghan Yang, Rongfei Chen, Wei Zhang, Xiaoyu Shen

## Контекст Развитие больших спеech-language моделей (LSLMs) сталкивается с рядом проблем, включая разрозненные архитектуры, непрозрачность процесса обучения и невозможность повторного воспроизведения результатов. Эти проблемы затрудняют сравнение и репликацию исследований в этой области. В отличие от визуально-языковых моделей, в сфере speech-language широко распространена практика выпуска моделей с неполными данными обучения и непрозрачными конфигурациями. Для устранения этих проблем мы предлагаем LLaSO — первый полностью открытый и полностью доступный фреймворк для моделирования speech-language на большом масштабе. LLaSO предоставляет сообществу три ключевые ресурса: 1) LLaSO-Align — 12 миллионов записях спеech-text alignment; 2) LLaSO-Instruct — 13.5 миллионов записей для многозадачного тренирования; и 3) LLaSO-Eval — реплицируемый бенчмарк для стандартной оценки моделей. ## Метод Мы разработали LLaSO как полностью открытый фреймворк, который включает в себя следующие этапы: (1) Создание и открытие LLaSO-Align — крупномасштабного корпуса спеech-text alignment, покрывающего различные регионы и акценты. (2) Создание и открытие LLaSO-Instruct — многозадачного датасета для тренировки моделей на основе инструкций. (3) Разработка LLaSO-Eval — создание реплицируемого и прозрачного метода оценки моделей. Для подтверждения эффективности, мы выпустили LLaSO-Base — модель с 3.8 миллиардами параметров, обученную исключительно на открытых данных. ## Результаты Мы провести эксперименты, в ходе которых проанализировали различные аспекты LLaSO-Base. Модель была протестирована на нескольких задачах, включая потоковое распознавание речи, транскрипцию и синтез речи. Мы получили нормализованный результат 0.72, набираясь перед подобными моделями в своем классе. Наши результаты показали, что широкое покрытие обучения модели повышает ее общеуниверсальную производительность, но в случае с чисто аудиовыводом существуют существенные проблемы с generalization. Это открывает путь для последующих исследований в области достижения более высокой универсальности. ## Значимость LLaSO предлагает несколько значимых приложений: 1) Использование в научных исследованиях для построения более открытых и реплицируемых моделей. 2) Улучшение практик открытого образования в AI. 3) Продвижение совместных усилий в развитии новых алгоритмов. 4) Ускорение прогресса в решении задач многоязычного транскриптирования и распознавания речи. Этот фреймворк позволяет сообществу создавать и анализировать модели с более высокой прозрачностью и доступностью, что делает его ключевым инструментом для продвижения научных исследо

Annotation:

The development of Large Speech-Language Models (LSLMs) has been slowed by fragmented architectures and a lack of transparency, hindering the systematic comparison and reproducibility of research. Unlike in the vision-language domain, the LSLM field suffers from the common practice of releasing model weights without their corresponding training data and configurations. To address these critical gaps, we introduce LLaSO, the first fully open, end-to-end framework for large-scale speech-language m...

ID: 2508.15418v1 cs.CL, cs.AI, cs.LG, cs.MM, cs.SD

arXiv PDF

1
2
175
176
177
178
179
204
205

Показано 1761 - 1770 из 2042 записей