📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
📄 SLIM-LLMs: Modeling of Style-Sensory Language RelationshipsThrough Low-Dimensional Representations
2025-08-09Авторы:
Osama Khalid, Sanvesh Srivastava, Padmini Srinivasan
**Резюме**
В статье рассматривается проблема моделирования взаимосвязи между сенсорным языком (языком, связанным с чувствами — зрение, звук, механическое давление, вкус, запах, внутреннее ощущение) и стилистическими особенностями текста, измеренными методом LIWC. Основным решением является предложение модели SLIM-LLMs, основанной на Reduced-Rank Ridge Regression (R4), которая эффективно отображает низкоразмерные латентные представления LIWC-признаков (количество = 24), позволяя предсказывать стилистические особенности сенсорного языка. Это решение позволяет сократить количество параметров модели до 80%, сохранив эффективность интерпретируемых моделей по сравнению с традиционными технологиями обработки естественных языков. Оценка на данных из пяти жанров подтвердила высокую точность SLIM-LLMs в предсказании сенсорных особенностей текста.
Annotation:
Sensorial language -- the language connected to our senses including vision,
sound, touch, taste, smell, and interoception, plays a fundamental role in how
we communicate experiences and perceptions. We explore the relationship between
sensorial language and traditional stylistic features, like those measured by
LIWC, using a novel Reduced-Rank Ridge Regression (R4) approach. We demonstrate
that low-dimensional latent representations of LIWC features r = 24 effectively
capture stylistic informat...
Авторы:
Sri Durga Sai Sowmya Kadali, Evangelos E. Papalexakis
Большинство современных приложений, использующих большие языковые модели (LLMs), сталкиваются с риском атак типа "адверсарь", при которой модель выдает вредоносные ответы. Этот риск усиливается сложностью и непрозрачностью этих моделей. Для обеспечения безопасного идеального использования LLMs необходимо развитие эффективных методов обнаружения таких атак. Мы предлагаем CoCoTen, новую модель, основанную на контекстной матрице согласованности и ее тензорных особенностей в латентном пространстве. Метод эффективен даже при ограниченном количестве меток, так как обнаруживает паттерны в данных без многочисленных примеров. Наши эксперименты показали, что CoCoTen достигает высокого F1-меры 0,83 при использовании только 0,5% меток, что значительно превосходит базовые модели. Кроме того, наше решение работает значительно быстрее, скоростью от 2,3 до 128,4 раз выше, чем основные модели. Мы опубликовали наш код для поддержки дальнейших исследований.
Annotation:
The widespread use of Large Language Models (LLMs) in many applications marks
a significant advance in research and practice. However, their complexity and
hard-to-understand nature make them vulnerable to attacks, especially
jailbreaks designed to produce harmful responses. To counter these threats,
developing strong detection methods is essential for the safe and reliable use
of LLMs. This paper studies this detection problem using the Contextual
Co-occurrence Matrix, a structure recognized fo...
Авторы:
Ariya Mukherjee-Gandhi, Oliver Muellerklein
**Резюме**
Проблема: Генерирующиеся с помощью AI технологии изменяют творческую сферу, но часто игнорируются взгляды художников в общественном и научном дискурсе. Это отклонение может привести к необоснованному техническому гейткипингу и ущемлению участия художников в формировании будущих тенденций.
Решение: Авторы провели 12-летний анализ (2013–2025 гг.) англоязычного дискурса о генерируемом AI искусстве, основываясь на 439 выборках из статей, блогов, правовых документов и других источников. Используя методологию BERTopic, они выделили пять устойчивых тематических кластеров и проанализировали между собой взаимосвязи между темами и практическими аспектами жизни художников.
Основные выводы: Авторы выявили несоответствие между перспективами художников и представлением их вопросов в общественной сфере. Они подчеркнули необходимость включения творческого сообщества в дискуссии и выделили технический гейткипинг в качестве проблемы. Работа предлагает новый подход к изучению дискурса о AI-сфере искусства, призывая к более транспарентным и инклюзивным дискуссиям.
Annotation:
As generative AI continues to reshape artistic production and alternate modes
of human expression, artists whose livelihoods are most directly affected have
raised urgent concerns about consent, transparency, and the future of creative
labor. However, the voices of artists are often marginalized in dominant public
and scholarly discourse. This study presents a twelve-year analysis, from 2013
to 2025, of English-language discourse surrounding AI-generated art. It draws
from 439 curated 500-word e...
Авторы:
Haoran Wang, Xiongxiao Xu, Baixiang Huang, Kai Shu
**Резюме**
Появление Retrieval-Augmented Generation (RAG) способствовало улучшению точности фактической информации в выводах больших языковых моделей (LLMs), однако при использовании чувствительных данных в качестве внешних источников риск вытеснения конфиденциальной информации становится высоким. Мы предлагаем Privacy-Aware Decoding (PAD) — легковесный метод, применяющийся во время генерации, для того чтобы снизить риск вытеснения конфиденциальной информации. PAD регулирует шум в логитах при генерации, использует скрининг, основанный на уверенности, эффективно ограничивает необходимый шум, и адаптивно отвечает на контекст, чтобы добиться баланса между приватностью и качеством генерации. На трех реальных датасетах PAD доказал свою эффективность, существенно снижая вытеснение конфиденциальной информации в выводах, при этом сохраняя качество генерации. Мы предлагаем интерпретируемый инструмент для вычисления приватности на уровне отдельных ответов с помощью аккредитованного метода Реньи. Этот подход является модельно-независимым и предлагает основу для универсальных и эффективных методов уменьшения риска вытеснения конфиденциальной информации в системах RAG.
Annotation:
Retrieval-Augmented Generation (RAG) enhances the factual accuracy of large
language models (LLMs) by conditioning outputs on external knowledge sources.
However, when retrieval involves private or sensitive data, RAG systems are
susceptible to extraction attacks that can leak confidential information
through generated responses. We propose Privacy-Aware Decoding (PAD), a
lightweight, inference-time defense that adaptively injects calibrated Gaussian
noise into token logits during generation. PA...
📄 Token-Level Precise Attack on RAG: Searching for the Best Alternatives to Mislead Generation
2025-08-09Авторы:
Zizhong Li, Haopeng Zhang, Jiawei Zhang
Атаки на ретриверы в реализациях Retrieval-Augmented Generation (RAG) могут повлиять на качество и безопасность моделей, использующих эти технологии. Новый подход Token-level Precise Attack on the RAG (TPARAG) исследует эти уязвимости, ориентируясь на точные модификации генерируемых текстов за счет использования легковесного генеративного моделирования. Атака работает как в white-box, так и в black-box сценариях, оптимизируя внедренные вандальные сведения на уровне токенов, чтобы обеспечить высокую эффективность в обеих стадиях — поиска и синтеза. Исследования показали, что TPARAG превосходит существующие методы в обеих категориях, установив новые стандарты для эффективности атак. Эти выводы выделяют критические уязвимости RAG-систем и направляют внимание на необходимость укрепления их защиты.
Annotation:
While large language models (LLMs) have achieved remarkable success in
providing trustworthy responses for knowledge-intensive tasks, they still face
critical limitations such as hallucinations and outdated knowledge. To address
these issues, the retrieval-augmented generation (RAG) framework enhances LLMs
with access to external knowledge via a retriever, enabling more accurate and
real-time outputs about the latest events. However, this integration brings new
security vulnerabilities: the risk...
Авторы:
Motaz Saad, David Langlois, Kamel Smaili
В статье рассматривается проблема анализа тональности и эмоций в сходных документах на разных языках. Рассматриваются сходные документы, аллинентированные по тематике в разных языках (английский и арабский), которые не являются прямыми переводами. Основной целью является изучение различий в тональности и эмоциях (счастье, гнев, страх, расстройство, жалость и удивление) между английскими и арабскими документами. Для решения этой задачи предлагается метод кросс-лингвистического классификации, не зависящего от машинного перевода. Был разработан билингвальный словарь эмоций на основе WordNet-Affect (WNA) для английского и арабского языков. Эмоции и тональность были отмечены с помощью статистического подхода, сравнивая пары сходных документов из разных источников (Euronews, BBC и Al-Jazeera). Исследование показало, что тональность и эмоции согласовываются, когда документы из одного источника, но различаются, когда они из разных. Таким образом, предложенный подход является языковой-независимым и подходит для других языковых пар.
Annotation:
Comparable texts are topic-aligned documents in multiple languages that are
not direct translations. They are valuable for understanding how a topic is
discussed across languages. This research studies differences in sentiments and
emotions across English-Arabic comparable documents. First, texts are annotated
with sentiment and emotion labels. We apply a cross-lingual method to label
documents with opinion classes (subjective/objective), avoiding reliance on
machine translation. To annotate wit...
Авторы:
Lukas Pätz, Moritz Beyer, Jannik Späth, Lasse Bohlen, Patrick Zschech, Mathias Kraus, Julian Rosenberger
Научная статья рассматривает анализ политического дискурса в германском парламенте, Бундестаг, с помощью машинного обучения. Исследование основывается на анализе 28 000 речей, полученных за последние пять лет. Разработаны и обучены два модели для классификации тем и оттенков сентимента. Исследование показало высокую точность моделей: AUROC 0.94 для классификации тем и 0.89 для классификации оттенков сентимента. Модели использовались для оценки тематических трендов и динамики оттенков сентимента в зависимости от политических партий и времени. Наблюдаются значительные отличия в стиле речи между партиями в зависимости от их роли в парламенте. Так, партии, переходящие из правительства в оппозицию, проявляют изменение в своем дискурсивном подходе. Изучение дискурса помогает понять тенденции в развитии тем, сентиментальные динамики и стратегии дискурса различных политических партий.
Annotation:
This study investigates political discourse in the German parliament, the
Bundestag, by analyzing approximately 28,000 parliamentary speeches from the
last five years. Two machine learning models for topic and sentiment
classification were developed and trained on a manually labeled dataset. The
models showed strong classification performance, achieving an area under the
receiver operating characteristic curve (AUROC) of 0.94 for topic
classification (average across topics) and 0.89 for sentimen...
📄 Beyond Content: How Grammatical Gender Shapes Visual Representation in Text-to-Image Models
2025-08-09Авторы:
Muhammed Saeed, Shaina Raza, Ashmal Vayani, Muhammad Abdul-Mageed, Ali Emami, Shady Shehata
Резюме:
В данной работе рассматривается вопрос, как грамматический род в языках с предметным склонением влияет на визуальные представления в Text-to-Image (T2I) моделях. Мы представляем кросс-лингвистический бенчмарк, охватывающий пять грамматически родных языков (французский, испанский, немецкий, итальянский, русский) и два гендерно-нейтральных (английский, китайский), с 800 уникальными запросами, порождающими 28 800 изображений в трех современных T2I моделях. Наши результаты показывают, что грамматический род оказывает систематическое влияние на генерируемые изображения: мужской грамматический род увеличивает представление мужчин до 73% (в сравнении с 22% в английском языке), а женский грамматический род увеличивает представление женщин до 38% (в сравнении с 28% в английском). Эффекты варьируются в зависимости от ресурсов языка и архитектуры модели, с языками высокого ресурса проявляя сильнейший вклад. Наши находки указывают, что структура языка, а не только его содержимое, влияет на визуальные выводы моделей, позволяя изучать новую сферу биаса и справедливости в мультилингвистических, мультимодальных системах.
Annotation:
Research on bias in Text-to-Image (T2I) models has primarily focused on
demographic representation and stereotypical attributes, overlooking a
fundamental question: how does grammatical gender influence visual
representation across languages? We introduce a cross-linguistic benchmark
examining words where grammatical gender contradicts stereotypical gender
associations (e.g., ``une sentinelle'' - grammatically feminine in French but
referring to the stereotypically masculine concept ``guard''). ...
Авторы:
Abhirup Sinha, Pritilata Saha, Tithi Saha
Многоязычные модели естественного языка, особенно те, которые используются в современных технологиях, часто выучиваются на больших объемах текстов, часто содержащих чувствительную информацию. Это создает риск вывода чувствительных данных из моделей, что нарушает конфиденциальность и подвергает данные опасности. Несмотря на то, что полная анонимизация текста может быть невозможной, авторы предлагают различные предварительные методы препроцессинга для маскирования или псевдонимизации чувствительных сведений. Они рассматривают некоторые эти методы, акцентируя внимание на их применении в области доменно-независимой народной процессинга языка (NLP). В итоге, исследование обозначает важность этих методов для обеспечения конфиденциальности данных в NLP, несмотря на сложности полной анонимизации.
Annotation:
Privacy is a fundamental human right. Data privacy is protected by different
regulations, such as GDPR. However, modern large language models require a huge
amount of data to learn linguistic variations, and the data often contains
private information. Research has shown that it is possible to extract private
information from such language models. Thus, anonymizing such private and
sensitive information is of utmost importance. While complete anonymization may
not be possible, a number of differ...
Авторы:
Pablo J. Diego-Simón, Emmanuel Chemla, Jean-Rémi King, Yair Lakretz
**Резюме**
В статье Probing Syntax in Large Language Models: Successes and Remaining Challenges рассматривается проблема определения синтаксических структур в текстах с помощью структурных проб (structural probes), применяемых к большим языковым моделям (LLMs). Несмотря на то, что эти модели эффективно выделяют синтаксические структуры, существуют неясности влияния статистических и грамматических факторов на эти процессы.
Авторы провели анализ на трех контролируемых бенчмарках и выявили три основных вывода. Во-первых, структурные пробы часто синхронизируются с геометрическими свойствами текста — точнее два слова находятся в предложении, тем выше вероятность, что проба считает их синтаксически связанными. Во-вторых, структурные пробы сталкиваются с глубинными синтаксическими структурами и могут быть отвлечены некорректными формами слов или межсловными взаимодействиями. В-третьих, непредсказуемость отдельных слов не влияет на работу проб.
В итоге, статья определяет главные проблемы структурных проб и предлагает контролируемую среду для их более точного оценивания.
Annotation:
The syntactic structures of sentences can be readily read-out from the
activations of large language models (LLMs). However, the ``structural probes''
that have been developed to reveal this phenomenon are typically evaluated on
an indiscriminate set of sentences. Consequently, it remains unclear whether
structural and/or statistical factors systematically affect these syntactic
representations. To address this issue, we conduct an in-depth analysis of
structural probes on three controlled bench...
Показано 7271 -
7280
из 7506 записей