📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Beyond Long Context: When Semantics Matter More than Tokens

2025-11-01

Авторы:

Tarun Kumar Chawdhury, Jon D. Duke

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Electronic Health Records (EHR) store clinical documentation as base64 encoded attachments in FHIR DocumentReference resources, which makes semantic question answering difficult. Traditional vector database methods often miss nuanced clinical relationships. The Clinical Entity Augmented Retrieval (CLEAR) method, introduced by Lopez et al. 2025, uses entity aware retrieval and achieved improved performance with an F1 score of 0.90 versus 0.86 for embedding based retrieval, while using over 70 per...

ID: 2510.25816v1 cs.CL, cs.LG, 68T50, 68T07, I.2.7; H.3.3

arXiv PDF

📄 PolyTruth: Multilingual Disinformation Detection using Transformer-Based Language Models

2025-09-17

Авторы:

Zaur Gouliev, Jennifer Waters, Chengqian Wang

#################### ## Контекст #################### Распространение дезинформации превышает границы языков и культур, что создает сложные вызовы для моделей искусственного интеллекта. Хотя transformer-based language models показали замечательные результаты в обнаружении дезинформации на языке английском, их эффективность в многоязычных условиях остается неясной. Этот факт мотивирует исследователей расширить гибкость и полноту моделей, чтобы они могли анализировать дезинформацию на разных языках. Основной мотивацией является необходимость создания моделей, которые могут правильно различать фальшивые утверждения от истинных в разных языковых и культурных контекстах, помогая таким образом бороться с распространением дезинформации. #################### ## Метод #################### Для решения этой проблемы авторы предлагают систематическую оценку пяти моделей трансформеров: mBERT, XLM, XLM-RoBERTa, RemBERT и mT5, примененных к задаче классификации "фальшивого утверждения против истинного". Использование пяти моделей позволило провести сравнительный анализ их эффективности. Для тестирования, разработчики представили PolyTruth Disinfo Corpus — большой корпус данных, состоящий из 60,486 пар утверждений (фальшивое утверждение и фактическая коррекция), представленных на 25 языках. Данные включают различные тематики, такие как политика, здравоохранение, климат, финансы и конспирации. Многие из этих утверждений были проверены на фактность, используя расширенный MindBugs Discovery Dataset. Методы включали обучение моделей на ограниченных ресурсах и оценку их возможности работать в многоязычных условиях. #################### ## Результаты #################### Эксперименты показали различия в поведении моделей. Модель RemBERT проявила высокую точность в целом, особенно в условиях нехватки данных. Модели mBERT и XLM показали значительные ограничения при недостатке тренировочных данных. Эти результаты указывают на то, что выбор модели зависит от конкретных условий, в том числе доступности данных и тематики дезинформации. Было проведено подробное анализирование этих отличий, чтобы выявить узкие места и потенциал моделей в многоязычных условиях. #################### ## Значимость #################### Предложенный подход имеет значительное значение в области борьбы с международной дезинформацией. Модели, протестированные в PolyTruth Disinfo Corpus, могут использоваться в различных сферах, включая социальные сети, новостные ресурсы и политические аналитические системы. Многоязычность моделей позволяет расширить их применение за рубежом, что делает их полезными для международных организаций и правоохранительных органов. Этот подход также может способствовать развитию новых технологи

Annotation:

Disinformation spreads rapidly across linguistic boundaries, yet most AI models are still benchmarked only on English. We address this gap with a systematic comparison of five multilingual transformer models: mBERT, XLM, XLM-RoBERTa, RemBERT, and mT5 on a common fake-vs-true machine learning classification task. While transformer-based language models have demonstrated notable success in detecting disinformation in English, their effectiveness in multilingual contexts still remains up for debate...

ID: 2509.10737v1 cs.CL, cs.LG, 68T50, 68T07, I.2.7; H.3.3

arXiv PDF