📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Guardians and Offenders: A Survey on Harmful Content Generation and Safety Mitigation

2025-08-12

Авторы:

Chi Zhang, Changjia Zhu, Junjie Xiong, Xiaoran Xu, Lingyao Li, Yao Liu, Zhuo Lu

## Контекст Large Language Models (LLMs) превратились в мощные инструменты для генерации и понимания естественного языка, облегчая различные задачи, такие как создание контента, поиск ответов на вопросы (Q&A), программирование и навигация в коде. Однако эти модели также имеют потенциал создавать небезопасный контент, включая токсичность, нарушения авторских прав и отклонения от целей, заложенных при обучении. Это создает серьезные возможности для эксплуатации моделей в злоупотреблениях, таких как "адвокативный jailbreaking" или "атаки с моделями подражания". Такие риски приводят к возникновению сложной социотехнической проблемы, требующей понимания механизмов генерирования вредоносного контента и разработки эффективных стратегий борьбы с этим. ## Метод Для анализа данной проблемы был разработан подробный подход к исследованию. Включено исследование непреднамеренной токсичности, атак типа "jailbreaking" (в том числе многомодальные), и системы модерации контента. Определена структура типов вредоносного контента, включающая вредоносность непреднамеренной, атаки "jailbreaking", а также попытки создания ограниченных моделей, которые не соответствуют исходной задаче. Были рассмотрены различные методы борьбы с вредоносным контентом, включая реинфорсмент с людским вкладом (RLHF), модификацию запросов (prompt engineering) и технологии соответствия безопасности. ## Результаты На основе проведенного исследования были получены следующие результаты. Систематическое изучение методов борьбы с вредоносным контентом позволило выявить следующие стратегии: (i) реинфорсмент с людским вкладом (RLHF), (ii) модификация запросов (prompt engineering), (iii) многомодальные атаки, (iv) модели подражания. Анализ показал, что RLHF и модификация запросов показали высокую эффективность в борьбе с непреднамеренной токсичностью, но имеют ограничения в отношении многомодальных атак. В то же время, многомодальные методы, такие как "атаки с подражания", показали свою эффективность в преодолении существующих безопасных систем. ## Значимость В результате данного исследования была разработана новая категоризация вредоносности LLMs и стратегий борьбы с ней. Это дает возможность улучшить системы модерации и повысить уровень безопасности использования LLMs. Результаты имеют значительный потенциал в различных областях, включая социальные сети, медиа и образовательные ресурсы. Эти подходы могут способствовать созданию более безопасных, этичных и эффективных технологий генерации контента. ## Выводы Работа, приведенная в этом исследовании, позволила проана

Annotation:

Large Language Models (LLMs) have revolutionized content creation across digital platforms, offering unprecedented capabilities in natural language generation and understanding. These models enable beneficial applications such as content generation, question and answering (Q&A), programming, and code reasoning. Meanwhile, they also pose serious risks by inadvertently or intentionally producing toxic, offensive, or biased content. This dual role of LLMs, both as powerful tools for solving real-wo...

ID: 2508.05775v1 cs.CL, cs.CY

arXiv PDF

📄 "Mirror" Language AI Models of Depression are Criterion-Contaminated

2025-08-12

Авторы:

Tong Li, Rasiq Hussain, Mehak Gupta, Joshua R. Oltmanns

## Контекст Исследование области ИИ в психологии и здравоохранении находится в стадии активного развития. Одной из актуальных проблем является моделирование расстройств ментального здоровья, включая депрессию. Многие стремятся к созданию моделей, которые бы определяли этость в социальных сетях и других источниках текстов. Однако одной из ключевых проблем является возможность "критерийной засоренности" (criterion contamination), когда модель сильно зависит от тех же данных, которые она пытается предсказать. Это приводит к искажению результатов и ограниченной общей точности моделей. ## Метод Для экспериментов были использованы данные от 110 участников, прошедших два типа интервью: структурированные диагностические интервью и интервью по жизненной истории. Тексты от этих интервью были поданы трём моделям ИИ: GPT-4, GPT-4o и LLaMA3-70B. Модели были разделены на "Mirror models" (использовали тексты структурированных интервью для предсказания диагностических результатов) и "Non-Mirror models" (использовали тексты из жизненных историй). Эксперименты проводились для сравнения эффектных размеров и общей точности предсказаний. ## Результаты "Mirror models" показали сильную зависимость от исходных данных и сильные эффекты (например, R² = 0.80). Однако эти результаты оказались "засоренными" критерием, так как модели, в основном, предсказывали входящие данные заново. "Non-Mirror models", в свою очередь, показали меньший, но всё же весомый эффект (R² = 0.27) и более высокую общую точность в предсказаниях. Тематический анализ показал, что обе модели формируют отдельные кластеры, но "Mirror models" показывали более высокую степень повторения входных данных. ## Значимость Эти результаты показывают, что "Mirror models" могут быть полезны для определения определённых деталей в тексте, но они не подходят для общей моделирования и реального применения в психологической практике. "Non-Mirror models", в свою очередь, демонстрируют большую общую точность и смекалку, что делает их более привлекательными для реальных психологических исследований и постановке диагноза. ## Выводы Эта работа подчеркивает ограничения "Mirror models" в психологическом контексте и поддерживает использование "Non-Mirror models" для более жизнеспособных и общих моделей психологического моделирования. Будущие исследования должны сосредоточиться на развитии моделей, которые способны обрабатывать более широкий диапазон текстов, не зависящих от исходных критериев, для улучшения точности моделей и их применимости в психологии.

Annotation:

A growing number of studies show near-perfect LLM language-based prediction of depression assessment scores (up to R2 of .70). However, many develop these models directly from language responses to depression assessments. These "Mirror models" suffer from "criterion contamination", which arises when a predicted score depends in part on the predictors themselves. This causes artificial effect size inflation which reduces model generalizability. The present study compares the performance of Mirror...

ID: 2508.05830v1 cs.CL, cs.CY

arXiv PDF

📄 Human Capital Visualization using Speech Amount during Meetings

2025-08-09

Авторы:

Ekai Hashimoto, Takeshi Mizumoto, Kohei Nagira, Shun Shiramatsu

Резюме: В последние годы большинство компаний признали важность людей в качестве ресурса и начали вкладываться в их развитие для улучшения внутренней связи и оживления организаций. Однако ранее разработанные методы оценки человеческого капитала ориентировались лишь на легко измеримые показатели, не учитывая важность общения в этом контексте. Данное исследование ориентируется на типичные встречи и предлагает методы для визуализации человеческого капитала через анализ объема речи в течение встреч. Используя технологии визуализации бесед, авторы измеряют различия в речи по характеристикам, таким как пол и должность, а также сравнивают речевую активность в зависимости от присутствия определенных участников и постоянных показателей. Эти методы были проверены на анализе речи в малых и средних предприятиях во время недельных встреч. Результаты показали, что анализ речи может дать новые виды визуализации человеческого капитала.

Annotation:

In recent years, many companies have recognized the importance of human resources and are investing in human capital to revitalize their organizations and enhance internal communication, thereby fostering innovation. However, conventional quantification methods have mainly focused on readily measurable indicators without addressing the fundamental role of conversations in human capital. This study focuses on routine meetings and proposes strategies to visualize human capital by analyzing speech ...

ID: 2508.02075v1 cs.HC, cs.CL, cs.CY

arXiv PDF

📄 When Algorithms Meet Artists: Topic Modeling the AI-Art Debate, 2013-2025

2025-08-09

Авторы:

Ariya Mukherjee-Gandhi, Oliver Muellerklein

**Резюме** Проблема: Генерирующиеся с помощью AI технологии изменяют творческую сферу, но часто игнорируются взгляды художников в общественном и научном дискурсе. Это отклонение может привести к необоснованному техническому гейткипингу и ущемлению участия художников в формировании будущих тенденций. Решение: Авторы провели 12-летний анализ (2013–2025 гг.) англоязычного дискурса о генерируемом AI искусстве, основываясь на 439 выборках из статей, блогов, правовых документов и других источников. Используя методологию BERTopic, они выделили пять устойчивых тематических кластеров и проанализировали между собой взаимосвязи между темами и практическими аспектами жизни художников. Основные выводы: Авторы выявили несоответствие между перспективами художников и представлением их вопросов в общественной сфере. Они подчеркнули необходимость включения творческого сообщества в дискуссии и выделили технический гейткипинг в качестве проблемы. Работа предлагает новый подход к изучению дискурса о AI-сфере искусства, призывая к более транспарентным и инклюзивным дискуссиям.

Annotation:

As generative AI continues to reshape artistic production and alternate modes of human expression, artists whose livelihoods are most directly affected have raised urgent concerns about consent, transparency, and the future of creative labor. However, the voices of artists are often marginalized in dominant public and scholarly discourse. This study presents a twelve-year analysis, from 2013 to 2025, of English-language discourse surrounding AI-generated art. It draws from 439 curated 500-word e...

ID: 2508.03037v1 cs.CL, cs.CY, cs.HC

arXiv PDF

📄 Somatic in the East, Psychological in the West?: Investigating Clinically-Grounded Cross-Cultural Depression Symptom Expression in LLMs

2025-08-09

Авторы:

Shintaro Sakai, Jisun An, Migyeong Kang, Haewoon Kwak

Научная статья «Somatic in the East, Psychological in the West? Investigating Clinically-Grounded Cross-Cultural Depression Symptom Expression in LLMs» расследует, насколько удачно широко применяемые технологии, такие как Large Language Models (LLMs), могут воспроизвести культурные паттерны выражения симптомов депрессии. Результаты экспериментов показывают, что LLMs, протестированные на Западных и Восточных культурных лицах, слабо воспроизводят культурные уточнения в переводе на английский, хотя в определенных условиях могут точнее отразить типичные для Востока сущностные симптомы. Основные причины неудач просты: LLMs недостаточно чувствительны к культурным контекстам, и их внутренняя симптомная иерархия оказывается культурно независима. Эти находки подчеркивают необходимость развития более культурно чувствительных моделей AI для безопасных и эффективных применений в сфере психиатрии.

Annotation:

Prior clinical psychology research shows that Western individuals with depression tend to report psychological symptoms, while Eastern individuals report somatic ones. We test whether Large Language Models (LLMs), which are increasingly used in mental health, reproduce these cultural patterns by prompting them with Western or Eastern personas. Results show that LLMs largely fail to replicate the patterns when prompted in English, though prompting in major Eastern languages (i.e., Chinese, Japane...

ID: 2508.03247v1 cs.CL, cs.CY

arXiv PDF

📄 Do Political Opinions Transfer Between Western Languages? An Analysis of Unaligned and Aligned Multilingual LLMs

2025-08-09

Авторы:

Franziska Weeber, Tanise Ceron, Sebastian Padó

**Резюме** В этой работе исследованы кросс-культурные различия в политических представлениях между западными языками и возможность их передачи между языками с помощью многоязычных больших языковых моделей (МЛЛМ). Авторы оценили, передаются ли политические представления между языками или же существуют отдельные политические позиции для каждого языка в МЛЛМ, исследуя модели разных размеров на пяти западных языках. Оценки проводились с помощью предложений из викторина по политическим вопросам. Для расширения понимания взаимодействия между языками модели анализировались как до, так и после их скорректированной политической ориентации (более левой или правой), использовав технику direct preference optimization и внешние данные для выравнивания. Наблюдались только незначительные кросс-языковые различия до выравнивания, но политическое выравнивание значительно изменило положения моделей почти во всех языках. Таким образом, в Западных языках политические представления трансферируются между языками, что подчеркивает сложности достижения кросс-культурного и кросс-языкового выравнивания МЛЛМ.

Annotation:

Public opinion surveys show cross-cultural differences in political opinions between socio-cultural contexts. However, there is no clear evidence whether these differences translate to cross-lingual differences in multilingual large language models (MLLMs). We analyze whether opinions transfer between languages or whether there are separate opinions for each language in MLLMs of various sizes across five Western languages. We evaluate MLLMs' opinions by prompting them to report their (dis)agreem...

ID: 2508.05553v1 cs.CL, cs.CY, I.2.7; J.4

arXiv PDF

📄 Noosemia: toward a Cognitive and Phenomenological Account of Intentionality Attribution in Human-Generative AI Interaction

2025-08-09

Авторы:

Enrico De Santis, Antonello Rizzi

**Резюме** В статье представляется понятие **Noosemia** — новый когнитивно-феноменологический феномен, возникающий при взаимодействии человека с генерирующимися системами с поддержкой диалога и многомодальности. Авторы выявляют, что пользователи могут атрибутировать целенаправленность, агентность и даже внутренность этим системам, не следуя при этом механически к физическому описанию. Основные причины этого — речевая производительность, эпистемическая неопределенность и технологическая сложность. На основе концепции LLMs Contextual Cognitive Field авторы показывают, как системы строят значение связанной с контекстом и как возникает видимая агентность в человеко-системных взаимодействиях. Noosemia сравнивается с пареидолией, анимизмом и чудовищным лавочником, но выделяются свои особенности. Также введено понятие **a-noosemia** — отказа от таких проекций. Основные выводы посвящены разрешению вопросов философских, эпистемологических и социальных импликаций Noosemia, а также направлениям будущих исследований в этой области.

Annotation:

This paper introduces and formalizes Noosemia, a novel cognitive-phenomenological phenomenon emerging from human interaction with generative AI systems, particularly those enabling dialogic or multimodal exchanges. We propose a multidisciplinary framework to explain how, under certain conditions, users attribute intentionality, agency, and even interiority to these systems - a process grounded not in physical resemblance, but in linguistic performance, epistemic opacity, and emergent technologic...

ID: 2508.02622v1 cs.AI, cs.CL, cs.CY

arXiv PDF

Показано 131 - 137 из 137 записей