📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Beyond Long Context: When Semantics Matter More than Tokens

2025-11-01

Авторы:

Tarun Kumar Chawdhury, Jon D. Duke

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Electronic Health Records (EHR) store clinical documentation as base64 encoded attachments in FHIR DocumentReference resources, which makes semantic question answering difficult. Traditional vector database methods often miss nuanced clinical relationships. The Clinical Entity Augmented Retrieval (CLEAR) method, introduced by Lopez et al. 2025, uses entity aware retrieval and achieved improved performance with an F1 score of 0.90 versus 0.86 for embedding based retrieval, while using over 70 per...

ID: 2510.25816v1 cs.CL, cs.LG, 68T50, 68T07, I.2.7; H.3.3

arXiv PDF

📄 A-VERT: Agnostic Verification with Embedding Ranking Targets

2025-10-04

Авторы:

Nicolás Aguirre, Ramiro Caso, Ramiro Rodríguez Colmeiro, Mauro Santelli, Joaquín Toranzo Calderón

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The automatic evaluation of Language Model (LM) responses is a critical piece in the development of benchmarks and metrics, both for model training and quality assessment of production model endpoints. The current approaches to response classification relies on methods that are too expensive (i.e. LLM-as-a-Judge) or that are far from real-world conditions (string-matching, logprob). In this paper, a structure-free evaluation method is presented. The method makes use of semantic embedding distanc...

ID: 2510.01469v1 cs.CL, cs.LG, 68T50, I.2.7

arXiv PDF

📄 PolyTruth: Multilingual Disinformation Detection using Transformer-Based Language Models

2025-09-17

Авторы:

Zaur Gouliev, Jennifer Waters, Chengqian Wang

#################### ## Контекст #################### Распространение дезинформации превышает границы языков и культур, что создает сложные вызовы для моделей искусственного интеллекта. Хотя transformer-based language models показали замечательные результаты в обнаружении дезинформации на языке английском, их эффективность в многоязычных условиях остается неясной. Этот факт мотивирует исследователей расширить гибкость и полноту моделей, чтобы они могли анализировать дезинформацию на разных языках. Основной мотивацией является необходимость создания моделей, которые могут правильно различать фальшивые утверждения от истинных в разных языковых и культурных контекстах, помогая таким образом бороться с распространением дезинформации. #################### ## Метод #################### Для решения этой проблемы авторы предлагают систематическую оценку пяти моделей трансформеров: mBERT, XLM, XLM-RoBERTa, RemBERT и mT5, примененных к задаче классификации "фальшивого утверждения против истинного". Использование пяти моделей позволило провести сравнительный анализ их эффективности. Для тестирования, разработчики представили PolyTruth Disinfo Corpus — большой корпус данных, состоящий из 60,486 пар утверждений (фальшивое утверждение и фактическая коррекция), представленных на 25 языках. Данные включают различные тематики, такие как политика, здравоохранение, климат, финансы и конспирации. Многие из этих утверждений были проверены на фактность, используя расширенный MindBugs Discovery Dataset. Методы включали обучение моделей на ограниченных ресурсах и оценку их возможности работать в многоязычных условиях. #################### ## Результаты #################### Эксперименты показали различия в поведении моделей. Модель RemBERT проявила высокую точность в целом, особенно в условиях нехватки данных. Модели mBERT и XLM показали значительные ограничения при недостатке тренировочных данных. Эти результаты указывают на то, что выбор модели зависит от конкретных условий, в том числе доступности данных и тематики дезинформации. Было проведено подробное анализирование этих отличий, чтобы выявить узкие места и потенциал моделей в многоязычных условиях. #################### ## Значимость #################### Предложенный подход имеет значительное значение в области борьбы с международной дезинформацией. Модели, протестированные в PolyTruth Disinfo Corpus, могут использоваться в различных сферах, включая социальные сети, новостные ресурсы и политические аналитические системы. Многоязычность моделей позволяет расширить их применение за рубежом, что делает их полезными для международных организаций и правоохранительных органов. Этот подход также может способствовать развитию новых технологи

Annotation:

Disinformation spreads rapidly across linguistic boundaries, yet most AI models are still benchmarked only on English. We address this gap with a systematic comparison of five multilingual transformer models: mBERT, XLM, XLM-RoBERTa, RemBERT, and mT5 on a common fake-vs-true machine learning classification task. While transformer-based language models have demonstrated notable success in detecting disinformation in English, their effectiveness in multilingual contexts still remains up for debate...

ID: 2509.10737v1 cs.CL, cs.LG, 68T50, 68T07, I.2.7; H.3.3

arXiv PDF

📄 From Attack Descriptions to Vulnerabilities: A Sentence Transformer-Based Approach

2025-09-05

Авторы:

Refat Othman, Diaeddin Rimawi, Bruno Rossi, Barbara Russo

#### Контекст В области информационной безопасности важность анализа и автоматизации процесса связывания атак с уязвимостями несомненна. Несмотря на то, что уязвимости часто остаются незамеченными даже после их эксплуатации, их активное использование во время атак может обеспечить важные сведения о слабых местах систем. Установление связи между атаками и уязвимостями не только позволяет значительно сократить время отклика на инциденты, но и повышает эффективность защиты систем. Однако решение этой задачи вручную, особенно в больших объемах данных, невозможно, что приводит к потребности в автоматизированных системах. Текущая исследоательская работа адресует эту проблему, оценивая различные модели трансформации предложений с целью выявления подходящих уязвимостей. #### Метод Для решения проблемы связывания атак с уязвимостями были использованы 14 современных моделей трансформации предложений, включая Sentence-BERT, MiniLM и MPNet. Модели были обучены классифицировать текстовые описания атак и связывать их с уязвимостями из Common Vulnerabilities and Exposures (CVE) репозитория. Основной фокус был уделен модели Multi-QA-MPNet-base-dot-v1 (MMPNet), которая была оценена на специально подготовленных данных, содержащих технические описания атак. Результаты экспериментов были измерены с помощью метрик F1-score, precision и recall. #### Результаты Результаты экспериментов показали, что MMPNet достигла F1-score в 89.0, precision в 84.0 и recall в 94.7 при классификации описаний атак. Было обнаружено, что 56% уязвимостей, выявленных моделью, соответствуют уязвимостям, перечисленным в CVE, в сочетании с их атаками. Дополнительно, 61% уязвимостей, выявленных моделью, соответствуют таким, как описаны в CVE. Это позволяет судить о высокой эффективности модели в выявлении связанных уязвимостей. Было также выявлено, что 275 уязвимостей, выданных моделью, не были документированы в репозитории MITRE, что может указывать на новые находки в области безопасности. #### Значимость Результаты этой работы могут быть применены в области автоматизации мониторинга безопасности, позволяя системам быстрее и эффективнее реагировать на инциденты. Также модель MMPNet может использоваться для поиска новых уязвимостей, которые еще не описаны в репозиториях. Важно отметить, что этот подход может существенно сократить время, в течение которого уязвимости остаются необнаруженными и эксплуатируемыми, что повышает уровень защиты систем. #### Выводы Результаты исследования демонтстрируют, что модель MMPNet является высокоэффективной для связывания атак с уязвимостями. В даль

Annotation:

In the domain of security, vulnerabilities frequently remain undetected even after their exploitation. In this work, vulnerabilities refer to publicly disclosed flaws documented in Common Vulnerabilities and Exposures (CVE) reports. Establishing a connection between attacks and vulnerabilities is essential for enabling timely incident response, as it provides defenders with immediate, actionable insights. However, manually mapping attacks to CVEs is infeasible, thereby motivating the need for au...

ID: 2509.02077v2 cs.CR, cs.CL, cs.LG, 68T50 Natural language processing, D.4.6; I.2.7

arXiv PDF

📄 CausalSent: Interpretable Sentiment Classification with RieszNet

2025-08-27

Авторы:

Daniel Frees, Martin Pollack

#### Контекст Область исследования связана с применением методов глубокого обучения в задачах классификации и анализа текста, а также с поиском способов улучшения интерпретируемости моделей. Несмотря на высокую точность современных моделей NLP, их решения часто остаются непонятными для пользователей, что сказывается на доверии к их результатам. В этой статье авторы адресуют эту проблему, сосредотачиваясь на развитии моделей, которые не только демонстрируют высокую точность, но и обеспечивают понятную визуализацию принятых решений. Отдельно отмечается, что существующие подходы к регуляризации моделей часто теряются между компромиссом между точностью и интерпретируемостью. Мотивацией для этой работы является необходимость создания моделей, которые были бы как эффективными, так и прозрачными. #### Метод Авторы предлагают архитектуру двухголовенной нейронной сети, названную RieszNet. Она состоит из двух подсетей: одной, которая предсказывает класс текста, и другой, которая оценивает эффект текстового признака (например, слова) на класс. Эта многозадачная архитектура позволяет одновременно выполнять классификацию и анализ влияния отдельных факторов на результат. Алгоритм призван решать две задачи: точно классифицировать текст и предоставить понятное объяснение решения. Авторы используют RieszMonte Carlo-аппроксимацию для точного вычисления эффектов и улучшают их стабильность и точность. #### Результаты Для проверки модели был проведен эксперимент на двух наборах данных: синтетических Civil Comments и реальных IMDB-рецензиях. Результаты показали, что CausalSent уменьшает Mean Absolute Error (MAE) для оценки эффектов на 2-3 раза по сравнению с моделью Bansal et al. На IMDB-данных, например, CausalSent показала MAE в 2.9%, в то время как Bansal et al. получили 7.8%. Кроме того, авторы провели случайный эксперимент на слове "love" в IMDB-данных и обнаружили, что его присутствие повышает вероятность положительного отзыва на 2.9%. Эти результаты выявили важность слова "love" в формировании положительного сентимента. #### Значимость Результаты CausalSent имеют значительное значение для приложений в области медицины, финансов и маркетинга, где точность классификации и интерпретируемость решений критически важны. Интерпретация моделей позволяет пользователям понять условия, под которыми они работают, и уменьшить риск ошибок принятия решений. Авторы отмечают, что интерпретируемые модели не только повышают доверие к результатам, но и облегчают отладку и тестирование моделей. Это делает их привлекательными для приложений, где понимание причинных связей имеет решающее значение. #### Вывод

Annotation:

Despite the overwhelming performance improvements offered by recent natural language processing (NLP) models, the decisions made by these models are largely a black box. Towards closing this gap, the field of causal NLP combines causal inference literature with modern NLP models to elucidate causal effects of text features. We replicate and extend Bansal et al's work on regularizing text classifiers to adhere to estimated effects, focusing instead on model interpretability. Specifically, we focu...

ID: 2508.17576v2 cs.CL, cs.LG, 68T50

arXiv PDF