📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 SLIM-LLMs: Modeling of Style-Sensory Language RelationshipsThrough Low-Dimensional Representations

2025-08-09

Авторы:

Osama Khalid, Sanvesh Srivastava, Padmini Srinivasan

**Резюме** В статье рассматривается проблема моделирования взаимосвязи между сенсорным языком (языком, связанным с чувствами — зрение, звук, механическое давление, вкус, запах, внутреннее ощущение) и стилистическими особенностями текста, измеренными методом LIWC. Основным решением является предложение модели SLIM-LLMs, основанной на Reduced-Rank Ridge Regression (R4), которая эффективно отображает низкоразмерные латентные представления LIWC-признаков (количество = 24), позволяя предсказывать стилистические особенности сенсорного языка. Это решение позволяет сократить количество параметров модели до 80%, сохранив эффективность интерпретируемых моделей по сравнению с традиционными технологиями обработки естественных языков. Оценка на данных из пяти жанров подтвердила высокую точность SLIM-LLMs в предсказании сенсорных особенностей текста.

Annotation:

Sensorial language -- the language connected to our senses including vision, sound, touch, taste, smell, and interoception, plays a fundamental role in how we communicate experiences and perceptions. We explore the relationship between sensorial language and traditional stylistic features, like those measured by LIWC, using a novel Reduced-Rank Ridge Regression (R4) approach. We demonstrate that low-dimensional latent representations of LIWC features r = 24 effectively capture stylistic informat...

ID: 2508.02901v1 cs.CL

arXiv PDF

📄 CoCoTen: Detecting Adversarial Inputs to Large Language Models through Latent Space Features of Contextual Co-occurrence Tensors

2025-08-09

Авторы:

Sri Durga Sai Sowmya Kadali, Evangelos E. Papalexakis

Большинство современных приложений, использующих большие языковые модели (LLMs), сталкиваются с риском атак типа "адверсарь", при которой модель выдает вредоносные ответы. Этот риск усиливается сложностью и непрозрачностью этих моделей. Для обеспечения безопасного идеального использования LLMs необходимо развитие эффективных методов обнаружения таких атак. Мы предлагаем CoCoTen, новую модель, основанную на контекстной матрице согласованности и ее тензорных особенностей в латентном пространстве. Метод эффективен даже при ограниченном количестве меток, так как обнаруживает паттерны в данных без многочисленных примеров. Наши эксперименты показали, что CoCoTen достигает высокого F1-меры 0,83 при использовании только 0,5% меток, что значительно превосходит базовые модели. Кроме того, наше решение работает значительно быстрее, скоростью от 2,3 до 128,4 раз выше, чем основные модели. Мы опубликовали наш код для поддержки дальнейших исследований.

Annotation:

The widespread use of Large Language Models (LLMs) in many applications marks a significant advance in research and practice. However, their complexity and hard-to-understand nature make them vulnerable to attacks, especially jailbreaks designed to produce harmful responses. To counter these threats, developing strong detection methods is essential for the safe and reliable use of LLMs. This paper studies this detection problem using the Contextual Co-occurrence Matrix, a structure recognized fo...

ID: 2508.02997v2 cs.CL

arXiv PDF

📄 When Algorithms Meet Artists: Topic Modeling the AI-Art Debate, 2013-2025

2025-08-09

Авторы:

Ariya Mukherjee-Gandhi, Oliver Muellerklein

**Резюме** Проблема: Генерирующиеся с помощью AI технологии изменяют творческую сферу, но часто игнорируются взгляды художников в общественном и научном дискурсе. Это отклонение может привести к необоснованному техническому гейткипингу и ущемлению участия художников в формировании будущих тенденций. Решение: Авторы провели 12-летний анализ (2013–2025 гг.) англоязычного дискурса о генерируемом AI искусстве, основываясь на 439 выборках из статей, блогов, правовых документов и других источников. Используя методологию BERTopic, они выделили пять устойчивых тематических кластеров и проанализировали между собой взаимосвязи между темами и практическими аспектами жизни художников. Основные выводы: Авторы выявили несоответствие между перспективами художников и представлением их вопросов в общественной сфере. Они подчеркнули необходимость включения творческого сообщества в дискуссии и выделили технический гейткипинг в качестве проблемы. Работа предлагает новый подход к изучению дискурса о AI-сфере искусства, призывая к более транспарентным и инклюзивным дискуссиям.

Annotation:

As generative AI continues to reshape artistic production and alternate modes of human expression, artists whose livelihoods are most directly affected have raised urgent concerns about consent, transparency, and the future of creative labor. However, the voices of artists are often marginalized in dominant public and scholarly discourse. This study presents a twelve-year analysis, from 2013 to 2025, of English-language discourse surrounding AI-generated art. It draws from 439 curated 500-word e...

ID: 2508.03037v1 cs.CL, cs.CY, cs.HC

arXiv PDF

📄 Privacy-Aware Decoding: Mitigating Privacy Leakage of Large Language Models in Retrieval-Augmented Generation

2025-08-09

Авторы:

Haoran Wang, Xiongxiao Xu, Baixiang Huang, Kai Shu

**Резюме** Появление Retrieval-Augmented Generation (RAG) способствовало улучшению точности фактической информации в выводах больших языковых моделей (LLMs), однако при использовании чувствительных данных в качестве внешних источников риск вытеснения конфиденциальной информации становится высоким. Мы предлагаем Privacy-Aware Decoding (PAD) — легковесный метод, применяющийся во время генерации, для того чтобы снизить риск вытеснения конфиденциальной информации. PAD регулирует шум в логитах при генерации, использует скрининг, основанный на уверенности, эффективно ограничивает необходимый шум, и адаптивно отвечает на контекст, чтобы добиться баланса между приватностью и качеством генерации. На трех реальных датасетах PAD доказал свою эффективность, существенно снижая вытеснение конфиденциальной информации в выводах, при этом сохраняя качество генерации. Мы предлагаем интерпретируемый инструмент для вычисления приватности на уровне отдельных ответов с помощью аккредитованного метода Реньи. Этот подход является модельно-независимым и предлагает основу для универсальных и эффективных методов уменьшения риска вытеснения конфиденциальной информации в системах RAG.

Annotation:

Retrieval-Augmented Generation (RAG) enhances the factual accuracy of large language models (LLMs) by conditioning outputs on external knowledge sources. However, when retrieval involves private or sensitive data, RAG systems are susceptible to extraction attacks that can leak confidential information through generated responses. We propose Privacy-Aware Decoding (PAD), a lightweight, inference-time defense that adaptively injects calibrated Gaussian noise into token logits during generation. PA...

ID: 2508.03098v1 cs.CL

arXiv PDF

📄 Token-Level Precise Attack on RAG: Searching for the Best Alternatives to Mislead Generation

2025-08-09

Авторы:

Zizhong Li, Haopeng Zhang, Jiawei Zhang

Атаки на ретриверы в реализациях Retrieval-Augmented Generation (RAG) могут повлиять на качество и безопасность моделей, использующих эти технологии. Новый подход Token-level Precise Attack on the RAG (TPARAG) исследует эти уязвимости, ориентируясь на точные модификации генерируемых текстов за счет использования легковесного генеративного моделирования. Атака работает как в white-box, так и в black-box сценариях, оптимизируя внедренные вандальные сведения на уровне токенов, чтобы обеспечить высокую эффективность в обеих стадиях — поиска и синтеза. Исследования показали, что TPARAG превосходит существующие методы в обеих категориях, установив новые стандарты для эффективности атак. Эти выводы выделяют критические уязвимости RAG-систем и направляют внимание на необходимость укрепления их защиты.

Annotation:

While large language models (LLMs) have achieved remarkable success in providing trustworthy responses for knowledge-intensive tasks, they still face critical limitations such as hallucinations and outdated knowledge. To address these issues, the retrieval-augmented generation (RAG) framework enhances LLMs with access to external knowledge via a retriever, enabling more accurate and real-time outputs about the latest events. However, this integration brings new security vulnerabilities: the risk...

ID: 2508.03110v1 cs.CL

arXiv PDF

📄 Cross-lingual Opinions and Emotions Mining in Comparable Documents

2025-08-09

Авторы:

Motaz Saad, David Langlois, Kamel Smaili

В статье рассматривается проблема анализа тональности и эмоций в сходных документах на разных языках. Рассматриваются сходные документы, аллинентированные по тематике в разных языках (английский и арабский), которые не являются прямыми переводами. Основной целью является изучение различий в тональности и эмоциях (счастье, гнев, страх, расстройство, жалость и удивление) между английскими и арабскими документами. Для решения этой задачи предлагается метод кросс-лингвистического классификации, не зависящего от машинного перевода. Был разработан билингвальный словарь эмоций на основе WordNet-Affect (WNA) для английского и арабского языков. Эмоции и тональность были отмечены с помощью статистического подхода, сравнивая пары сходных документов из разных источников (Euronews, BBC и Al-Jazeera). Исследование показало, что тональность и эмоции согласовываются, когда документы из одного источника, но различаются, когда они из разных. Таким образом, предложенный подход является языковой-независимым и подходит для других языковых пар.

Annotation:

Comparable texts are topic-aligned documents in multiple languages that are not direct translations. They are valuable for understanding how a topic is discussed across languages. This research studies differences in sentiments and emotions across English-Arabic comparable documents. First, texts are annotated with sentiment and emotion labels. We apply a cross-lingual method to label documents with opinion classes (subjective/objective), avoiding reliance on machine translation. To annotate wit...

ID: 2508.03112v1 cs.CL, I.2.7

arXiv PDF

📄 Analyzing German Parliamentary Speeches: A Machine Learning Approach for Topic and Sentiment Classification

2025-08-09

Авторы:

Lukas Pätz, Moritz Beyer, Jannik Späth, Lasse Bohlen, Patrick Zschech, Mathias Kraus, Julian Rosenberger

Научная статья рассматривает анализ политического дискурса в германском парламенте, Бундестаг, с помощью машинного обучения. Исследование основывается на анализе 28 000 речей, полученных за последние пять лет. Разработаны и обучены два модели для классификации тем и оттенков сентимента. Исследование показало высокую точность моделей: AUROC 0.94 для классификации тем и 0.89 для классификации оттенков сентимента. Модели использовались для оценки тематических трендов и динамики оттенков сентимента в зависимости от политических партий и времени. Наблюдаются значительные отличия в стиле речи между партиями в зависимости от их роли в парламенте. Так, партии, переходящие из правительства в оппозицию, проявляют изменение в своем дискурсивном подходе. Изучение дискурса помогает понять тенденции в развитии тем, сентиментальные динамики и стратегии дискурса различных политических партий.

Annotation:

This study investigates political discourse in the German parliament, the Bundestag, by analyzing approximately 28,000 parliamentary speeches from the last five years. Two machine learning models for topic and sentiment classification were developed and trained on a manually labeled dataset. The models showed strong classification performance, achieving an area under the receiver operating characteristic curve (AUROC) of 0.94 for topic classification (average across topics) and 0.89 for sentimen...

ID: 2508.03181v1 cs.CL, cs.LG

arXiv PDF

📄 Beyond Content: How Grammatical Gender Shapes Visual Representation in Text-to-Image Models

2025-08-09

Авторы:

Muhammed Saeed, Shaina Raza, Ashmal Vayani, Muhammad Abdul-Mageed, Ali Emami, Shady Shehata

Резюме: В данной работе рассматривается вопрос, как грамматический род в языках с предметным склонением влияет на визуальные представления в Text-to-Image (T2I) моделях. Мы представляем кросс-лингвистический бенчмарк, охватывающий пять грамматически родных языков (французский, испанский, немецкий, итальянский, русский) и два гендерно-нейтральных (английский, китайский), с 800 уникальными запросами, порождающими 28 800 изображений в трех современных T2I моделях. Наши результаты показывают, что грамматический род оказывает систематическое влияние на генерируемые изображения: мужской грамматический род увеличивает представление мужчин до 73% (в сравнении с 22% в английском языке), а женский грамматический род увеличивает представление женщин до 38% (в сравнении с 28% в английском). Эффекты варьируются в зависимости от ресурсов языка и архитектуры модели, с языками высокого ресурса проявляя сильнейший вклад. Наши находки указывают, что структура языка, а не только его содержимое, влияет на визуальные выводы моделей, позволяя изучать новую сферу биаса и справедливости в мультилингвистических, мультимодальных системах.

Annotation:

Research on bias in Text-to-Image (T2I) models has primarily focused on demographic representation and stereotypical attributes, overlooking a fundamental question: how does grammatical gender influence visual representation across languages? We introduce a cross-linguistic benchmark examining words where grammatical gender contradicts stereotypical gender associations (e.g., ``une sentinelle'' - grammatically feminine in French but referring to the stereotypically masculine concept ``guard''). ...

ID: 2508.03199v1 cs.CL

arXiv PDF

📄 Current State in Privacy-Preserving Text Preprocessing for Domain-Agnostic NLP

2025-08-09

Авторы:

Abhirup Sinha, Pritilata Saha, Tithi Saha

Многоязычные модели естественного языка, особенно те, которые используются в современных технологиях, часто выучиваются на больших объемах текстов, часто содержащих чувствительную информацию. Это создает риск вывода чувствительных данных из моделей, что нарушает конфиденциальность и подвергает данные опасности. Несмотря на то, что полная анонимизация текста может быть невозможной, авторы предлагают различные предварительные методы препроцессинга для маскирования или псевдонимизации чувствительных сведений. Они рассматривают некоторые эти методы, акцентируя внимание на их применении в области доменно-независимой народной процессинга языка (NLP). В итоге, исследование обозначает важность этих методов для обеспечения конфиденциальности данных в NLP, несмотря на сложности полной анонимизации.

Annotation:

Privacy is a fundamental human right. Data privacy is protected by different regulations, such as GDPR. However, modern large language models require a huge amount of data to learn linguistic variations, and the data often contains private information. Research has shown that it is possible to extract private information from such language models. Thus, anonymizing such private and sensitive information is of utmost importance. While complete anonymization may not be possible, a number of differ...

ID: 2508.03204v1 cs.CL

arXiv PDF

📄 Probing Syntax in Large Language Models: Successes and Remaining Challenges

2025-08-09

Авторы:

Pablo J. Diego-Simón, Emmanuel Chemla, Jean-Rémi King, Yair Lakretz

**Резюме** В статье Probing Syntax in Large Language Models: Successes and Remaining Challenges рассматривается проблема определения синтаксических структур в текстах с помощью структурных проб (structural probes), применяемых к большим языковым моделям (LLMs). Несмотря на то, что эти модели эффективно выделяют синтаксические структуры, существуют неясности влияния статистических и грамматических факторов на эти процессы. Авторы провели анализ на трех контролируемых бенчмарках и выявили три основных вывода. Во-первых, структурные пробы часто синхронизируются с геометрическими свойствами текста — точнее два слова находятся в предложении, тем выше вероятность, что проба считает их синтаксически связанными. Во-вторых, структурные пробы сталкиваются с глубинными синтаксическими структурами и могут быть отвлечены некорректными формами слов или межсловными взаимодействиями. В-третьих, непредсказуемость отдельных слов не влияет на работу проб. В итоге, статья определяет главные проблемы структурных проб и предлагает контролируемую среду для их более точного оценивания.

Annotation:

The syntactic structures of sentences can be readily read-out from the activations of large language models (LLMs). However, the ``structural probes'' that have been developed to reveal this phenomenon are typically evaluated on an indiscriminate set of sentences. Consequently, it remains unclear whether structural and/or statistical factors systematically affect these syntactic representations. To address this issue, we conduct an in-depth analysis of structural probes on three controlled bench...

ID: 2508.03211v1 cs.CL

arXiv PDF

Показано 7271 - 7280 из 7506 записей