📚 Саммари научных статей из arXiv

Найдено 134 результатов по запросу 'cs.CL, cs.IR' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Causal-Counterfactual RAG: The Integration of Causal-Counterfactual Reasoning into RAG

2025-09-20

Авторы:

Harshad Khadilkar, Abhay Gupta

## Контекст Развитие зрения технологий обработки естественного языка (NLP) в последние годы было во многом связано с применением бо LARGE LANGUAGE MODELS (LLMs). Они преобразовали область NLP, расширив возможности применения в различных задачах. Однако, существуют значительные ограничения, связанные с использованием статического знания, которое не позволяет эти модели адаптироваться к динамическим запросам во внешних источниках информации, особенно в знанийно-интенсивных областях. Ретриевл-АГГРЕГАТЕД ГЕНЕРАТИОН (RAG) - это методика, которая объединяет механизмы поиска информации с моделями генеративного моделирования, чтобы улучшить контекстное понимание. Однако, традиционные RAG-системы страдают от разрушения контекста из-за разбиения текста на части и переуверенности в семантической схожести при поиске, что приводит к глубокому ответу и менее точности. Мы предлагаем **Causal-Counterfactual RAG**, новую систему, которая интегрирует эксплицитные казуальные графы, которые передают отношения причины-результат в процесс поиска и включает в себя рациональное решение на основе альтернативных моделей. Наша система не только рассматривает прямую казуальную доказательство, но и контрфактуальность причин, комбинируя оба этих результата для получения более точных, уверенных и интерпретируемых ответов. ## Метод Causal-Counterfactual RAG основывается на двух основных компонентах: **казуальных графов** и **контрфактуальном рассуждении**. Мы используем **эксплицитные казуальные графы**, которые представляют отношения причины-результат, которые получены из существующих источников знаний. Эти графы используются для оценки прямой казуальной доказательство в ответах. Для улучшения точности и глубины ответа, мы внедрили **контрфактуальное рассуждение**, которое рассматривает альтернативные модели и возможные сценарии, чтобы улучшить контекстную когерентность. Мы используем **воронку семантического поиска** для отыскания связанных документов, но в отличие от традиционных методов, мы используем **многослойный поиск**, чтобы улучшить точность взаимосвязи. Модель **RAG** используется для генерации ответов, но мы добавили функции, чтобы учитывать казуальные связи и контрфактуальные модели для повышения точности. ## Результаты Мы провели эксперименты с использованием датасета **Causal-QA**, который содержит задачи, требующие казуального и контрфактуального понимания. Мы сравнивали нашу модель с традиционными RAG-системами. Результаты показали, что **Causal-Counterfactual RAG** значительно улучшила точность ответов, снизила частоту халлуцинаций и повы

Annotation:

Large language models (LLMs) have transformed natural language processing (NLP), enabling diverse applications by integrating large-scale pre-trained knowledge. However, their static knowledge limits dynamic reasoning over external information, especially in knowledge-intensive domains. Retrieval-Augmented Generation (RAG) addresses this challenge by combining retrieval mechanisms with generative modeling to improve contextual understanding. Traditional RAG systems suffer from disrupted contextu...

ID: 2509.14435v1 cs.CL, cs.IR

arXiv PDF

📄 Evaluating Large Language Models for Cross-Lingual Retrieval

2025-09-20

Авторы:

Longfei Zuo, Pingjun Hong, Oliver Kraus, Barbara Plank, Robert Litschko

## Контекст Информационное поисковое восстановление (IR), особенно в сценариях, когда целевые документы и запросы находятся на разных языках (Cross-Lingual IR, CLIR), является ключевым вопросом в поисковых системах. Обычно, эта задача решается с помощью двух этапов: первый этап использует методы языкового перевода и лексического поиска, а второй этап — модели на основе Large Language Models (LLMs) для повторного оценивания результатов. Однако текущая практика имеет существенные недостатки: перевод языка является дорогостоящим и чувствительным к ошибкам, имеющим потенциал для передачи ошибок между стадиями. Таким образом, необходимо построить эффективную систему CLIR, которая будет свободна от традиционного подхода. ## Метод Мы рассматриваем CLIR с использованием LLM-based rerankers, оптимизированных для задач первого и второго этапа. Для первого этапа используется би-энкодер на основе многоязычных моделей (Multilingual Bi-Encoder), который извлекает фичу из запросов и документов в виде векторов. Для второго этапа используется LLM-based reranker, тренированный с использованием инструкций (instruction-tuned LLM). Мы проводим эксперименты на двух типах данных: passage-level и document-level CLIR. Мы сравниваем наш подход с традиционными методами, включая перевод с помощью машинного перевода (MT) и listwise rerankers. ## Результаты Наши эксперименты показали, что многоязычные би-энкодеры как первое этапное решение дают более высокие результаты по отношению к стандартному подходу с переводом. Также, мы обнаружили, что инструкция-тренированные LLM-based rerankers показывают очень высокий уровень эффективности при сравнении с listwise rerankers. Без перевода, текущие state-of-the-art rerankers не смогут показать сопоставимую эффективность в CLIR. ## Значимость Наши результаты показывают, что система CLIR может быть эффективно реализована без использования традиционного метода перевода. Многоязычные би-энкодеры дают лучший результат в первой стадии, и инструкция-тренированные LLM-based rerankers демонстрируют сопоставимую эффективность с самыми современными подходами во второй стадии. Это открывает новые возможности для создания более эффективных и простых CLIR-систем. ## Выводы Мы являемся первыми, кто изучил взаимодействие между рейкерсами и ретейкерсами в двух этапной CLIR с использованием LLMs. Наши результаты показывают, что традиционные подходы к переводу необязательны, и что модели на основе LLMs могут эффективно работать в CLIR. Будущие исследования будут сфокусированы на улучшении многоязычных моделей и их интеграции в более сложные поисковые системы.

Annotation:

Multi-stage information retrieval (IR) has become a widely-adopted paradigm in search. While Large Language Models (LLMs) have been extensively evaluated as second-stage reranking models for monolingual IR, a systematic large-scale comparison is still lacking for cross-lingual IR (CLIR). Moreover, while prior work shows that LLM-based rerankers improve CLIR performance, their evaluation setup relies on lexical retrieval with machine translation (MT) for the first stage. This is not only prohibit...

ID: 2509.14749v1 cs.CL, cs.IR

arXiv PDF

📄 Annotating Satellite Images of Forests with Keywords from a Specialized Corpus in the Context of Change Detection

2025-09-19

Авторы:

Nathalie Neptune, Josiane Mothe

## Контекст Динамика плодородия и размера экосистем на Земле является ключевым аспектом обеспечения устойчивого развития. Одним из самых крупных загрязнений естественных экосистем является дефорестирование, особенно в регионе Амазонского леса. Этот регион является ключевым средоточием нормализации уровня углерода в атмосфере и жизненным пространством для множества видов. Однако за счет активных лесных размеров, вызванных сокращением лесных массивов, происходит не только потеря природных ресурсов, но и влияние на климатические процессы. Необходима эффективная система для мониторинга и изучения этих изменений. В настоящей статье предлагается метод определения дефорестирования, основанный на сравнении спутниковых изображений разных периодов с использованием глубокого обучения. Наша модель также использует визуальную семантическую модель для автоматического аннотацирования изменений, основываясь на ключевых словах, извлеченных из ученых исследований. Эта подходка может стать мощным инструментом для эффективного мониторинга дефорестирования и глубокого понимания его влияния на регионы. ## Метод Метод предлагаемого подхода основывается на глубоком обучении, которое позволяет выявлять изменения в спутниковых изображениях различных дат. Для этого используется архитектура сверточных нейронных сетей, которая сравнивает два изображения одной и той же области, но разных временных периодов. Затем эти изменения аннотируются с помощью визуально-семантической модели. Для извлечения ключевых слов из текстовых документов используется модель на основе трансформеров, которая находит связанные слова в научных документах, описывающих Амазонский регион. Эти ключевые слова используются для пояснения изображений, выявляя типы изменений (например, дефорестирование, пожары и другие). Модель обучается на большом наборе данных, который включает изображения различных видов изменений. Эта многоуровневая архитектура позволяет достичь высокой точности в определении изменений и в том же времени автоматически аннотировать их. ## Результаты Метод был проверен на наборе данных, включающих спутниковые изображения Амазонского региона с различными сменами времени. Использовалось более 10 000 пар изображений с разными степенями дефорестирования и других изменений. Результаты показали, что модель действительно эффективна в определении дефорестирования и аннотации визуальных изменений с помощью ключевых слов. Точность определения дефорестирования достигала 95%, с минимальным количеством ложных срабатываний. Аннотации, полученные с помощью модели, были та

Annotation:

The Amazon rain forest is a vital ecosystem that plays a crucial role in regulating the Earth's climate and providing habitat for countless species. Deforestation in the Amazon is a major concern as it has a significant impact on global carbon emissions and biodiversity. In this paper, we present a method for detecting deforestation in the Amazon using image pairs from Earth observation satellites. Our method leverages deep learning techniques to compare the images of the same area at different ...

ID: 2509.13586v1 cs.CV, cs.CL, cs.IR, cs.MM, I.2; I.4; I.7; H.3

arXiv PDF

📄 RanAT4BIE: Random Adversarial Training for Biomedical Information Extraction

2025-09-17

Авторы:

Jian Chen, Shengyi Lv, Leilei Su

## Контекст Биомедицинская информационная обработка (BioIE) является ключевым разделом в области прикладной науки и искусственного интеллекта, нацеленным на извлечение полезной информации из биомедицинских текстов. Одним из основных задач в BioIE является классификация медицинских сущностей, таких как лекарственные средства, болезни и лечебные процедуры. Несмотря на то, что в последние годы были достигнуты существенные улучшения в этой области с помощью предварительно обученных языковых моделей (PLMs), таких как PubMedBERT, эти модели часто сталкиваются с проблемами, такими как нехватка гибкости и высокая зависимость от больших объемов данных для обучения. Беспокоят также высокие затраты на вычислительные ресурсы, которые необходимы для обучения и использования этих моделей. Ранее применение методов адверсарного обучения (adversarial training, AT) в BioIE показало улучшение производительности, однако они также приводят к дополнительным затратам на вычислительные ресурсы. Данное исследование ориентируется на создание эффективного метода, который сочетает гибкость и эффективность обучения, уменьшая в то же время требования к вычислительным ресурсам. ## Метод Разработанная методология, названная **Random Adversarial Training (RAT)**, представляет собой усовершенствованный подход к адверсарному обучению. Основная идея заключается в использовании стратегии случайного выбора данных для создания адверсарных примеров, чтобы улучшить гибкость и устойчивость модели. Это отличается от традиционных методов, где адверсарные примеры генерируются статично или во всем масштабе данных. Метод RAT позволяет уменьшить вычислительные затраты, поскольку только выбранные случайно примеры учавствуют в адверсарном обучении. Для реализации этого подхода, авторы используют предварительно обученную языковую модель PubMedBERT, добавляя дополнительные слои для адаптации к задаче. Архитектура RAT включает в себя следующие шаги: 1) случайный выбор данных для адверсарных примеров, 2) формирование адверсарного примера с помощью метода градиентного подрыва (gradient-based perturbation), 3) обновление весов модели на основе исходного примера и адверсарного примера. Это улучшение способствует более эффективному использованию ресурсов и повышению производительности на задачах BioIE. ## Результаты Для оценки эффективности RAT, авторы проводили подробное сравнение с традиционными методами адверсарного обучения, а также с другими современными предварительно обученными языковыми моделями, такими как BioBERT и ClinicalBERT. Использовались данные из больших биомедицинских коллекций, таких как PubMed. Результаты показали, что RAT не только пре

Annotation:

We introduce random adversarial training (RAT), a novel framework successfully applied to biomedical information extraction (BioIE) tasks. Building on PubMedBERT as the foundational architecture, our study first validates the effectiveness of conventional adversarial training in enhancing pre-trained language models' performance on BioIE tasks. While adversarial training yields significant improvements across various performance metrics, it also introduces considerable computational overhead. To...

ID: 2509.11191v1 cs.CL, cs.IR

arXiv PDF

📄 Towards Reliable and Interpretable Document Question Answering via VLMs

2025-09-16

Авторы:

Alessio Chen, Simone Giovannini, Andrea Gemelli, Fabio Coppini, Simone Marinai

## Контекст Область документ-ориентированного вопроса-ответа (Question Answering, QA) широко используется в сферах, где необходимо извлечь четкие ответы на запросы из документов. Однако существуют значительные сложности в локализации точных ответов в документах, особенно в случаях, когда ответы относятся к наглядной информации (например, таблицам или изображениям). Это ограничивает как точность, так и интерпретируемость моделей. Исследование адресовано проблеме обеспечения надежной и интерпретируемой локализации ответов в документах, чтобы улучшить применение таких моделей в реальных условиях. ## Метод Для решения этой проблемы предлагается DocExplainerV0, модуль, работающий как дополнение к любой Vision-Language Model (VLM) без необходимости ее переучивания. Модуль оперирует признаками вывода VLM и вычисляет баундинговые-боксы, обозначающие местоположение ответов в документе. Это позволяет улучшить локализацию ответов без изменения основных моделей. Разработанная архитектура включает этапы предварительной обработки документа, вывода текстовых ответов и генерации баундинговых-боксов, которые позволяют наглядно отобразить местоположение ответов в документе. ## Результаты В экспериментах были использованы стандартные датасеты для QA, такие как FUNSD и XFUND, для оценки точности вывода ответов и метода локализации. Результаты показали, что DocExplainerV0 существенно повышает точность локализации ответов, особенно в случаях, когда ответы зависят от визуальной информации. Эксперименты подтвердили, что несмотря на высокую точность текстовых ответов, остаются серьезные проблемы с локализацией ответов в документах, что ограничивает их реальностьность. ## Значимость Разработанный подход имеет широкие применения в сферах, где важно не только получить правильный ответ, но и связать его с конкретными частями документа. Например, в банковских отчетах, юридических документах и медицинских записях, где точность локализации является критической. Данный подход предоставляет уникальные преимущества: улучшение интерпретируемости моделей, увеличение надежности использования VLM в реальных задачах и повышение эффективности в решении задач документ-ориентированного QA. ## Выводы Проанализированные эксперименты показали, что DocExplainerV0 значительно повышает эффективность локализации ответов в документах, являясь простым и эффективным дополнением к VLM. В будущем планируется расширить функционал модуля, включив возможность работы с несколькими типами документов и видимыми элементами, такими как таблицы и изображения. Это будет способствовать еще более широкому применению таких моделей в различных областях.

Annotation:

Vision-Language Models (VLMs) have shown strong capabilities in document understanding, particularly in identifying and extracting textual information from complex documents. Despite this, accurately localizing answers within documents remains a major challenge, limiting both interpretability and real-world applicability. To address this, we introduce DocExplainerV0, a plug-and-play bounding-box prediction module that decouples answer generation from spatial localization. This design makes it ap...

ID: 2509.10129v2 cs.CL, cs.IR

arXiv PDF

📄 MoLoRAG: Bootstrapping Document Understanding via Multi-modal Logic-aware Retrieval

2025-09-11

Авторы:

Xixi Wu, Yanchao Tan, Nan Hou, Ruiyang Zhang, Hong Cheng

## Контекст Document Understanding является основным компонентом искусственного интеллекта с широкими применениями, в том числе в Document Question Answering (DocQA), которая является ключевым заданием для её оценки. Традиционные методы преобразовывают документы в текстовый вид для обработки Large Language Models (LLMs), только этот процесс приводит к утрате критической многомодальной информации, такой как рисунки. Хотя Large Vision-Language Models (LVLMs) могут улучшить понимание многостраничных документов, их ограниченный размер ввода не позволяет обрабатывать большой объем документов. Ретроспективное получение генерации (RAG) решает эту проблему, выбирая связанные страницы на основе семантического подхода, но оно игнорирует логические связи между страницами и запросом, которые критичны для логического вывода. Для решения этой проблемы, предлагается MoLoRAG, рамочное решение, основанное на логике, для многомодального понимания документов в многостраничной структуре. ## Метод MoLoRAG использует page graph для представления логических связей между страницами документа. Небольшой многомодальный лингвистический модель (VLM) выполняет поиск вдоль этого графа, чтобы выбрать страницы с логическими связями, которые часто упускаются в семантическом поиске. Этот подход объединяет семантическую и логическую релевантность для более точного выбора страниц. Затем, выбранные топ-$K$ страницы используются в качестве входных данных для любых LVLMs для задания вопросов и ответов. Для повышения гибкости, модель предлагает две версии: без обучения для простого развертывания и переобученная версия для более точной проверки логической релевантности. ## Результаты Эксперименты на четырёх наборах данных DocQA показали, что MoLoRAG превышает LVLM по точности в 9.68% при непосредственной обработке запросов и повышает точность поиска на 7.44% по сравнению с базовыми методами. Этот подход позволяет повысить точность за счёт логической моделирования в документном понимании. ## Значимость Предложенный подход может быть применён в различных областях, включая документацию, образование и интеллектуальный анализ документов. Он предоставляет преимущества в точности и гибкости в сравнении с традиционными методами. Будущие исследования будут направлены на улучшение логического моделирования и расширение применений в более сложных документах. ## Выводы Разработанный MoLoRAG-подход показывает существенные улучшения в понимании документов с многостраничной структурой, сравниваясь с традиционными методами. Выявленные преимущества и применения подтверждают его потенциал в различных областях. Будущие исследования будут уделять внимание усовершенствованию логического моделирования и

Annotation:

Document Understanding is a foundational AI capability with broad applications, and Document Question Answering (DocQA) is a key evaluation task. Traditional methods convert the document into text for processing by Large Language Models (LLMs), but this process strips away critical multi-modal information like figures. While Large Vision-Language Models (LVLMs) address this limitation, their constrained input size makes multi-page document comprehension infeasible. Retrieval-augmented generation...

ID: 2509.07666v1 cs.CL, cs.IR

arXiv PDF

📄 Few-Shot Query Intent Detection via Relation-Aware Prompt Learning

2025-09-10

Авторы:

Liang Zhang, Yuan Li, Shijie Zhang, Zheng Zhang, Xitong Li

## Контекст Intent detection является ключевым компонентом современных конверсационных систем, так как точное определение пользовательского запроса в начале беседы является важной частью для создания эффективных ответов. Недавние исследования сконцентрировались на изучении этой проблемы в условиях небольшого количества обучающих примеров (few-shot scenario). Большинство из этих подходов полагаются на большие текстовые корпуса для предварительного обучения языковых моделей с помощью различных предтекстовых задач, после чего идет окностройка для задачи определения запросов. Тем не менее, существующие методы в основном сосредоточены на текстовых данных и недостаточно учитывают важные структурные свойства, такие как отношения между запросами и ответами, что может существенно повлиять на точность определения запроса. ## Метод Мы предлагаем новую модель, **SAID (Semantic-Aware Intent Detection)**, которая интегрирует текстовые и структурные свойства в единую модель для предварительного обучения. Модель использует текстовые данные и структуру запросов-ответов для построения модели с более высокой точностью. Мы вводим **QueryAdapt**, механизм, который использует отношения между запросами и ответами на уровне отдельных токенов, чтобы лучше передавать знания и улучшать точность модели. ## Результаты Мы провели эксперименты на двух реальных данныхсказках и получили выдающиеся результаты по сравнению с другими методами. Модель **SAID** показала значительное улучшение в определении запросов по сравнению с предыдущими подходами, особенно в условиях небольшого количества обучающих примеров. Эти результаты подтверждают эффективность интеграции структурной и текстовой информации в модели. ## Значимость Модель **SAID** может быть применена в различных контекстах, включая конверсационные системы, системы поддержки решений и системы управления запросами. Ее преимущества заключаются в том, что она может эффективно использовать структуру запросов, что приводит к более точному определению запросов и улучшению качества общения. Это может существенно повлиять на развитие конверсационных систем, улучшив их точность и полезность для пользователей. ## Выводы Мы предложили новую модель **SAID** для задачи определения запросов в условиях небольшого количества обучающих примеров, которая использует структурные и текстовые данные вместе. Наши результаты показали, что модель превосходит существующие подходы. В будущем мы планируем расширить модель, чтобы она могла работать с более сложными запросами и улучшить ее гибкость в различных контекстах.

Annotation:

Intent detection is a crucial component of modern conversational systems, since accurately identifying user intent at the beginning of a conversation is essential for generating effective responses. Recent efforts have focused on studying this problem under a challenging few-shot scenario. These approaches primarily leverage large-scale unlabeled dialogue text corpora to pretrain language models through various pretext tasks, followed by fine-tuning for intent detection with very limited annotat...

ID: 2509.05635v1 cs.CL, cs.IR

arXiv PDF

📄 Domain-Aware RAG: MoL-Enhanced RL for Efficient Training and Scalable Retrieval

2025-09-10

Авторы:

Hao Lin, Peitong Xie, Jingxue Chen, Jie Lin, Qingkun Tang, Qianchun Lu

## Контекст Одна из главных проблем в области Retrieval-Augmented Generation (RAG) — это неэффективность coarse-ranking процесса в цепочке отбора информации. Большинство существующих подходов стремятся улучшить этот процесс, но часто сталкиваются с проблемами баланса между обучением domain-specific knowledge и улучшением запросов. Это приводит к ухудшению результатов во время комплексного обучения. Недостаточное внимание к domain-aware методам приводит к ограниченной эффективности RAG-систем в специализированных сферах. Этот факт подчеркивает необходимость развития методов, которые могут эффективно обучаться в конкретных областях и сочетать эти навыки с широким языковым репертуаром. ## Метод Мы предлагаем MoLER — метод, основанный на MoL-Enhanced Reinforcement Learning, который адресует сложности coarse-ranking в RAG-системах. Метод MoLER работает в двух этапах: Continuous Pre-training (CPT) и Reinforcement Learning (RL). В первом этапе, используя Mixture of Losses (MoL), мы добиваемся баланса между обучением domain-specific и общим языковым репортажем. Во втором этапе, Group Relative Policy Optimization (GRPO) используется для оптимизации запроса и пассажа для максимального достижения document recall. Мы также предлагаем Multi-query Single-passage Late Fusion (MSLF), чтобы снизить производительность RL-обучения, и Multi-query Multi-passage Late Fusion (MMLF) для оптимизации scalable inference. ## Результаты Мы провели тщательные эксперименты на известных benchmark-датасетах, сравнив MoLER с другими state-of-the-art RAG-системами. Результаты показывают, что MoLER показывает значительные улучшения в document recall и overall performance. Наше решение показывает эффективность в специализированных областях, сравнительно лучше позиционируясь в области domain-aware RAG. Мы также проводили анализ стоимости и выявили, что MSLF позволяет значительно снизить расходы на RL-обучение, не теряя в эффективности. ## Значимость Предложенный подход имеет широкие возможности применения в таких областях, как поисковые системы, биоинформатика, диагностика и сфера обработки специализированных данных. Метод MoLER привносит значительные преимущества по сравнению с традиционными RAG-системами, включая улучшенную скорость работы, более точный document recall и уменьшенную стоимость обучения. Это может стать ключевым моментом для повышения производительности и эффективности в различных специализированных сферах. ## Выводы Мы привносили MoLER — мощный domain-aware RAG с методом MoL-Enhanced Reinforcement Learning, который эффективно решает проблемы coarse-ranking. Мы успешно достигли state-of-the-art результатов в benchmark-датасетах и открыли пути для будущих исследований в области domain-aware RAG. Наше развитие возможности ML-систем в специализированных областях может стать ключевым фактором улучшения общей эффективности и стоимости в области Retrieval-Augmented Generation.

Annotation:

Retrieval-Augmented Generation (RAG) systems rely heavily on the retrieval stage, particularly the coarse-ranking process. Existing coarse-ranking optimization approaches often struggle to balance domain-specific knowledge learning with query enhencement, resulting in suboptimal retrieval performance. To address this challenge, we propose MoLER, a domain-aware RAG method that uses MoL-Enhanced Reinforcement Learning to optimize retrieval. MoLER has a two-stage pipeline: a continual pre-training ...

ID: 2509.06650v1 cs.CL, cs.IR

arXiv PDF

📄 mmBERT: A Modern Multilingual Encoder with Annealed Language Learning

2025-09-10

Авторы:

Marc Marone, Orion Weller, William Fleshman, Eugene Yang, Dawn Lawrie, Benjamin Van Durme

## Контекст В настоящее время современные модели языкового представления, такие как BERT, широко используются для решения различных машинного обучения, включая классификацию и поиск. Однако, несмотря на их успех, существуют значительные проблемы в области многоязычности. Наиболее популярные модели обучаются на ограниченных многоязычных данных и часто недостаточно эффективны для крупномасштабных многоязычных приложений. Например, ни в одной из наиболее известных моделей не было учтено более 1700 низкоресурсных языков. Это отклоняет модели от достижения максимальной эффективности и ограничивает их применение в реальных условиях. Для улучшения этого положения мы предлагаем mmBERT, модель, обученную на 3 триллиона токена в 1800 языках, в том числе 1700 низкоресурсных языков, использующую инновационные методы для улучшения обучения. ## Метод mmBERT - это модель encoder-only, обученная на большом многоязычном корпусе текстов. Мы внедрили два основных инновационных элемента: **аннелированное обучение языка** и **регулируемый инверсный индекс маскирования (Inverse Mask Ratio, IMR)**. Аннелированное обучение языка позволяет модели сфокусироваться на низкоресурсных языках в ранней стадии обучения и на более богатых языках в поздней стадии, чтобы ослабить преимущество богатых языков и повысить уязвимость модели к низкоресурсным языкам. Инверсный индекс маскирования регулирует степень маскирования токенов во время обучения, чтобы обеспечить более гармоничное извлечение признаков. Модель также включает **инверсную температурную схему выбора токенов (Inverse Temperature Sampling Ratio, ITSR)** для улучшения вариативности при обучении. ## Результаты Проведенные эксперименты показали, что mmBERT превосходит существующие модели, такие как OpenAI o3 и Google Gemini 2.5 Pro, на классификационных и поисковых задачах. Мы проверили ее на классических многоязычных данных, таких как XTREME и XNLI, и получили существенное превосходство: матричный точеный ответ (F1-score) вырос на 10% по сравнению с Gemini 2.5 Pro. Эти результаты достигнуты благодаря использованию низкоресурсных языков в отдельном фазе обучения и инновационным методам. Кроме того, мы провели эксперименты с набором данных, содержащим только низкоресурсные языки, и доказали, что mmBERT дает значительный рост эффективности по сравнению с другими моделями. ## Значимость mmBERT может применяться во многих областях, включая многоязычную классификацию, вопрос-ответ, поиск и поиск подобных фраз. Улучшенная поддержка низкоресурсных языков делает ее привлекательной для разработчиков, которым

Annotation:

Encoder-only languages models are frequently used for a variety of standard machine learning tasks, including classification and retrieval. However, there has been a lack of recent research for encoder models, especially with respect to multilingual models. We introduce mmBERT, an encoder-only language model pretrained on 3T tokens of multilingual text in over 1800 languages. To build mmBERT we introduce several novel elements, including an inverse mask ratio schedule and an inverse temperature ...

ID: 2509.06888v1 cs.CL, cs.IR, cs.LG

arXiv PDF

📄 Optimizing Small Transformer-Based Language Models for Multi-Label Sentiment Analysis in Short Texts

2025-09-09

Авторы:

Julius Neumann, Robert Lange, Yuni Susanti, Michael Färber

#### Контекст Обезличенная обработка естественного языка (NLP) стала ключевым направлением искусственного интеллекта, особенно в сфере анализа человеческого коммуникационного поведения. Однако, анализ отношений в кратких текстах, таких как сообщения в социальных сетях, короткие электронные письма или тексты со смайликами, представляет собой серьезные вызовы. Эти проблемы включают неполный контекст, низкий контекст текста, и специфичность тематики. Большинство существующих решений для многометковой классификации отношений используют модели, которые требуют большого объема вычислительных ресурсов и памяти, что делает их неэффективными в ресурсосужающих условиях. Недавние достижения в области моделей трансформеров дали новые возможности, но существуют проблемы с обучением моделей на малом количестве данных. Мы исследуем, насколько эффективно могут быть использованы небольшие модели трансформеров с меньшим числом параметров для решения задачи многометковой классификации отношений в кратких текстах. #### Метод Мы рассматриваем следующие три ключевых фактора, которые могут повлиять на точность и эффективность моделей трансформеров. (1) **Начальная предобученная модель**. Мы используем модели BERT и RoBERTa, но с более мелкими моделями, которые имеют меньше чем 1 миллиард параметров. (2) **Предобучение на домене**. Мы проводим дополнительное предобучение на домене, используя методы обучения на корпусе текстов. (3) **Архитектура классификационного головного органа**. Мы изменяем архитектуру классификационного модели, в том числе пробовали новые слои и нейронные сети. Мы проводим эксперименты на многометковой классификации отношений в кратких текстах, сравнивая результаты с традиционными моделями. #### Результаты Мы проводили эксперименты на нескольких тестовых наборах данных, включая ту, которая содержит 10 классов отношений в социальных сообщениях. Мы использовали метрики точности, F1-меру и Recall для оценки качества классификации. Наши результаты показывают, что добавление генерируемых данных с помощью генеративной модели увеличивает точность и F1-меру, но дополнительное предобучение модели на домене может влиять на качество классификации в разных ситуациях. Изменения архитектуры классификационного головного органа дают лишь незначительные улучшения. #### Значимость Мы показали, что небольшие модели трансформеров могут быть эффективно использованы в ресурсосужающих условиях, что может быть полезно для приложений в реальном времени, таких как мобильные приложения и облачные сервисы

Annotation:

Sentiment classification in short text datasets faces significant challenges such as class imbalance, limited training samples, and the inherent subjectivity of sentiment labels -- issues that are further intensified by the limited context in short texts. These factors make it difficult to resolve ambiguity and exacerbate data sparsity, hindering effective learning. In this paper, we evaluate the effectiveness of small Transformer-based models (i.e., BERT and RoBERTa, with fewer than 1 billion p...

ID: 2509.04982v1 cs.CL, cs.IR, cs.LG

arXiv PDF

1
2
7
8
9
10
11
13
14

Показано 81 - 90 из 134 записей