📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 Exploring and Mitigating Gender Bias in Encoder-Based Transformer Models

2025-11-06

Авторы:

Ariyan Hossain, Khondokar Mohammad Ahanaf Hannan, Rakinul Haque, Nowreen Tarannum Rafa, Humayra Musarrat, Shoaib Ahmed Dipu, Farig Yousuf Sadeque

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Gender bias in language models has gained increasing attention in the field of natural language processing. Encoder-based transformer models, which have achieved state-of-the-art performance in various language tasks, have been shown to exhibit strong gender biases inherited from their training data. This paper investigates gender bias in contextualized word embeddings, a crucial component of transformer-based models. We focus on prominent architectures such as BERT, ALBERT, RoBERTa, and DistilB...

ID: 2511.00519v1 cs.CL, I.2.7; I.7.1; K.4.1

arXiv PDF

📄 SeLeRoSa: Sentence-Level Romanian Satire Detection Dataset

2025-09-05

Авторы:

Răzvan-Alexandru Smădu, Andreea Iuga, Dumitru-Clementin Cercel, Florin Pop

## Контекст Романский язык, несмотря на свою краеугольную значимость в регионе, лишь недавно привлек внимание в результате прогрессов в области машинного обучения. Исследователи приложили усилия для создания данных и моделей, которые могут обрабатывать текст на румынском языке. Однако, специфика языка, включая его синтаксические особенности и традиционные стилистические приемы, часто оставляются недооцененными. Одной из таких сложностей является детекция сатиры в новостных статьях на румынском языке. Сатира, ирония и сарказм часто используются для выражения своего мнения, но их могут интерпретировать как фактический отчет, подобно фейковым новостям. В данной работе мы представляем первый датасет для детекции сатиры на уровне предложений на румынском языке под названием **SeLeRoSa** (Sentence-Level Romanian Satire Detection Dataset). Датасет включает 13,873 ручной оценки и содержит предложения из различных областей, таких как социальные вопросы, информационные технологии, наука и кино. Однако, существуют лишь немногочисленные исследования, которые предлагают анализ на уровне предложений для румынского языка, что делает данную область актуальной и интересной для исследований. ## Метод Для построения **SeLeRoSa** была проведена тщательная работа над выбором исходных текстов, аннотацией и структурированием. Исходные данные были собраны из различных источников, в том числе открытых новостных ресурсов и специализированных сайтов. Для каждого предложения была проведена ручная аннотация, определяющая наличие сатиры с помощью специализированных критериев. Для использования моделями были созданы метки на уровне предложений, что позволило создать задачу классификации на уровне предложений. Для построения моделей использовались базовые модели, такие как BERT, RoBERTa, и DistilBERT, а также были разработаны классификаторы, которые могут работать в zero-shot и fine-tuning режимах. Мы также проверили универсальность моделей и оценили их поведение на различных подмножествах датасета. ## Результаты Мы провели эксперименты с несколькими моделями, включая zero-shot и fine-tuning режимы. Было проведено сравнение показателей качества работы моделей, таких как F1-меры, точность и рекульсивность. Результаты показали, что лучшие результаты показываются моделями, которые используют fine-tuning режим, однако тем не менее, все модели сталкиваются с ошибками в сложных и нестандартных случаях. Мы также провели анализ некоторых ошибок и выявили, что модели часто имеют трудности при детекции сатиры в сложных контекстах, где сатира характеризуется сложностью стилистических приемов или нети

Annotation:

Satire, irony, and sarcasm are techniques typically used to express humor and critique, rather than deceive; however, they can occasionally be mistaken for factual reporting, akin to fake news. These techniques can be applied at a more granular level, allowing satirical information to be incorporated into news articles. In this paper, we introduce the first sentence-level dataset for Romanian satire detection for news articles, called SeLeRoSa. The dataset comprises 13,873 manually annotated sen...

ID: 2509.00893v1 cs.CL, I.2.7; I.7

arXiv PDF

📄 Towards Fundamental Language Models: Does Linguistic Competence Scale with Model Size?

2025-09-05

Авторы:

Jaime Collado-Montañez, L. Alfonso Ureña-López, Arturo Montejo-Ráez

## Контекст Современные языковые модели (LLM) достигли впечатляющих возможностей в области обработки естественного языка, однако столкнулись с рядом критических проблем. Они часто проявляют халатность в выводах, распространенные стереотипы и беспринципность, обращают внимание на вопросы конфиденциальности, а также требуют огромных вычислительных ресурсов. Эти ограничения связаны с особенностью суперпозиции языковой компетенции и фактического запоминания в одной модели. Данная работа предлагает новый подход, называемый Fundamental Language Model (FLM), который предлагает создание меньших моделей с высокой языковой компетенцией, предавших задачи запоминания фактов внешним средствам. ## Метод Мы исследовали модели размером от 135 миллионов до 32 миллиардов параметров. Для оценки языковой компетенции, внешнего и внутреннего фактического знания использовались специально сконструированные тесты и задачи. Модели были оценены на технических аспектах, таких как способность генерировать текст и понимать смысл слов и предложений, а также способность эффективно использовать внешние источники для получения фактов. ## Результаты Наши результаты показали, что повышение размера модели приводит к повышению как языковой компетенции, так и внешнего фактического знания. Однако внутреннее фактическое знание, то есть способность модели генерировать факты на основе своего внутреннего представления, увеличивается намного быстрее, чем языковая компетенция. Это указывает на то, что размер модели больше всего связан с фактом запоминания, а не с языковой компетенцией. ## Значимость Предлагаемый подход может быть использован в различных областях, таких как разработка систем поддержки решения проблем, интеллектуальные помощники и системы моделирования языка. Модульный подход FLM позволяет создавать более эффективные, прозрачные и устойчивые к воздействию внешних фактов модели. Это предлагает возможность создания моделей, которые будут не только эффективными, но и более удобными для применения в реальной жизни. ## Выводы Результаты нашего исследования поддерживают значимость FLM как модели, которая может быть использована для создания более сбалансированных языковых моделей. Мы предлагаем использовать FLM в качестве основы для будущих исследований в области языковых моделей, которые будут ориентированы на создание моделей, меньшего размера, но с высокой языковой компетенцией и модульной архитектурой. Это включает в себя рассмотрение возможности совместимости с другими инструментами для получения фактов.

Annotation:

Large Language Models offer impressive language capabilities but suffer from well-known limitations, including hallucinations, biases, privacy concerns, and high computational costs. These issues are largely driven by the combination of linguistic competence and factual memorization within a single monolithic model. This paper introduces and empirically supports the Fundamental Language Model (FLM) paradigm, which advocates for smaller, linguistically competent models that offload factual retrie...

ID: 2509.02225v1 cs.CL, I.2.7; I.7

arXiv PDF